Wednesday, September 14, 2016

מהפיכת המידע - התופעה של נתונים שמביאים לייצור עוד ועוד נתונים

A perpetuum mobile of data - the IT revolution 


תמצית מהפיכת המידע, המנוע שמאיץ אותה, הוא העובדה שבמערכות המידע של היום, הנתונים מביאים לייצור עוד נתונים במעגל סגור שמגביר את עצמו: הנתונים מזמינים יישומים, היישומים מביאים עוד משתמשים ועוד רעיונות לכלים ולשירותים חדשים עבורם, השירותים החדשים מיצרים עוד נתוני תפעול וניהול, וכן הלאה. 
אם מסתכלים על הנתונים כחומרי הגלם לתעשיית המידע, קל להבין את ההזדמנות האדירה של התעשייה שנהנית מחומרים בחינם. (הערה: כמובן יש עלות ממשית לאחזקת תשתיות המידע, אך זוהי עלות שנחשבת לתקורה ארגונית, כלומר - עלות שקורית ממילא.) 
הבעיה בשכנוע הנהלות להשתמש בפוטנציאל של נכסי המידע היא, שרוב הנכסים האלה הינם וירטואליים, אין להם ערך מוחשי רשום בספרים. כל עוד גם המתחרים של הארגון מנמנמים, הבזבוז לא וממש 'כואב' למנהלים ובדרך כלל עובר מתחת לרדאר שלהם. אבל, מהרגע שמישהו בענף מתחיל להשתמש במידע לבניית יתרון יחסי, חוקי המשחק משתנים לתמיד. 
לדוגמא, סיפור עלייתה המטאורית של חברת נטפליקס לשירותי סרטים באינטרנט. לפני הקמתה של נטפליקס בשנת 1997, שלטה בשוק חברה בשם בלוקבסטר שלא השכילה להשתמש במידע, ובכך חרצה את גורלה.
נטפליקס מומחים בכריית נתונים ואנאליטיקס, ידעו איך לנצל את המידע לפיתוח עסקי ממוקד, גמיש ומהיר תגובה לשינויים בשוק. בלוקבסטר פשוט נשארו מאחור. לא היו להם הרבה סיכויים לסגור את הפער שהלך והתרחב. לא עוזר במקרה כזה, אפילו אם זו חברה גדולה וחזקה, ובעלת מוניטין ופריסה בינלאומית כמו שבלוקבסטר היתה. 

See also at http://www.engineers.org.il/Index.asp?CategoryID=1372&ArticleID=3067

Monday, November 23, 2015

Presentations at Slideshare (and in Hebrew)

בדף זה אעדכן מצגות שהעליתי לרשת

  1. שם המצגת (באנגלית) "Understanding the patterns in Big Data 'dark matter' with GT data mining"
    המצגת מתארת שימושי GT data mining לניתוח נתוני ביג דטה, וכוללת שתי דוגמאות, אבחון דפוסי התנהגות עפ"י נתוני חיישנים, ואבחון קבוצות סיכון שלשברים בגיל המבוגר.
    תאריך העלאה: 2013
    המצגת הוכנה עבור כנס קודטה של האקדמה למדעים. היא עוררה ויכוח גדול סביב השקף הטוען שאסור לנקות נתונים, וכי ניקוי נתונים הוא תפיסה שגוייה. היום טענה הזאת מקובלת יותר, אם כי אנשי סטטיסטיקה עדיין מתקשים לעכלה.
       
  2. פענוח ביג-דטה בעזרת GT data mining
    http://events-tce.technion.ac.il/files/2014/04/Edith-Ohri.pdf
    המצגת היא מיום עיון על ביג דטה שנערך בפקולטה למחשבים הטכניון חיפה. היא כוללת עקרונות ודוגמאות.
    תאריך 26-03-2014
      
  3. שם המצגת (באנגלית) "BI from open sources, with GT data mining"
    http://www.slideshare.net/Edith_Ohri/bi-analytics-with-gt-data-mining?related=1
    היא מתארת את הפוטנציאל של מקורות פתוחים תמימים, כגון מחירונים, לצורך אמדן מחירים של מוצרים חדשים שעדיין על הניר בלבד, ותבנה מענינת שהתגלתה תוך כדי האנליטיקס (מקרה אמיתי).
    תאריך העלאה: 23-11-2015
       
  4. "איכות ע"י כריית ביג דטה". www.slideshare.net/Edith_Ohri/2015-55413266
    מצגת על גילוי גורמי איכות סמויים בעזרת GT data mining*, וניטור שלהם בשוטף.
    תאריך העלאה: 23-11-2015.
    הוכן עבור כנס האיכות ה-13 בתאריך 25-11-2015. נושא הכנס היה IT. לראשונה ניתן במסגרת זו להעלות מושב של אגודת תו"נ  בשם "נושאי ניהול שבין הכיסאות של האיכות" מושב מס' 9.6 , דף תכנית - www.isas.co.il/quality2015/Quality2015_Program.pdf.
    -----
    *GT זה כלי אוניברסלי, משתמש בנתונים חופשיים כמושהם, ללא ניקוי או צורך בהשקעות מערכתיות, מגדיר דפוסי התנהגות ומיצר תבנות.
      
  5. Unsupervised data - the big promise for Testing -  שיטת GT לניצול נתונים לא-מפוקחים לצורך בדיקות איכות המוצר החל משלבי הפיתוח ועד הייצור.

    המצגת הוכנה עבור כנס ניסויים במכללת עזריאלי ירושלים בתאריך 14 אפר' 2016.
    http://www.slideshare.net/Edith_Ohri/using-unsupervised-data-for-testing-in-product-development-experiments-conference-62980513
     
  6. "מהפיכת האיכות הבאה – ביג דטה ומדע הנתונים לפי GT Data Mining"
     http://www.sce.ac.il/kenes/index.php?name=quality2017&id=698
    הוכן עבור כנס איכות דרום 11-09-2017 במכללת סמי שמעון.
    המצגת מצביעה על האתגרים ותועלת גבוהה עקב קיצור זמן הגעה לשוק, יכולות בינה מלאכותית אוטומציה והרחבה.
     
  7. מצגת ישנה בנושא ביומד, משנת 2010 אך עדיין בתוקף.
  8. http://www.slideshare.net/Edith_Ohri/gt-for-the-biomed-industry-2010-healthcare
    ועוד מחקר ישן שביצעתי בשיתוף עם דר' אניטה סגל ז"ל - http://www.slideshare.net/Edith_Ohri/hpv-prevalence-in-cervical-cytological-changes-gt-report-e
    מטרת המחקר היתה לגלוי מוקדם של סרטן צואר הרחם בשיטת HPV לעומת PAP SMIR, וזיהוי הוירוסים הגורמים למחלה - זאת על סמך מעט מאד נתונים, מה שמדגים את העצמה של פתרון GT.
    Home of GT data mining

      Thursday, November 12, 2015

      BI from open sources with GT data mining

      מודיעין עסקי ממקורות פתוחים עם GT data mining

      By:  Edith Ohri,  Datalert
      Home of GT data mining
      edith@datalert.co.il


      האתגר הגדול של המודיעין התחרותי הוא ניצול נתונים ממקורות פתוחים, ובעיקר – חיפוש דפוסים סמויים. 
      אחד הקשיים הגדולים בחיפוש דפוסים סמויים, נובע מכך שהמקורות הפתוחים באים מהשטח  ומכילים תערובת של תופעות שונות, ולכן הם אינם אינם אחידים, ובעלי תלויות פנימיות רבות, והתפלגויות עם "זנב ארוך", שבסופו של דבר גורמות ליבול מסקנות קטן שמציב סימן שאלה על כדאיות מאמץ ניתוח הנתונים.


      לטיפול בנתונים כאלה פותח הפתרון GT data mining. המיוחד בפתרון זה הוא היכולת לזהות דפוסי התנהגות שאינן ידועים מראש, ובנתונים לא מפוקחים. אבחון הדפוסים הטיפוסיים  מאפשרת ל-GT לזהות גורמים משפיעים, אפילו כשהם נדירים או חדשים - first time right. זו תכונה חשובה. 

      להמחשה, להלן דוגמא שבה המטרה היא לחשב את מחיריהם של מוצרים חדשים, כשהם עוד על הניר. המפעל נוהג לקבוע מחירים אלה בזמן השיווק, תוך ניסוי ותעייה ולימוד מחירי המתחרים ותגובת הלקוחות. במפעל משוכנעים שרק כך ניתן להגיע למחיר מכירה מיטבי. הדוגמא מוכיחה שישנה עוד דרך, ע"י שחזור נוסחאות ממחירים הסטוריים.

      דוגמא: חיזוי מחירי שוק של מוצרים חדשים על סמך מחירונים ישנים.

      נתונים:
      מחירונים של כ-20 אלף מוצרים על פני מספר שנים בארצות שונות. על כל מוצר יש 22 משתנים שמתארים אותו,את מחיריו בכל ארץ ותאריך המחירון.
      ממצאים: 
      GT מזהה 3 קבוצות של משפחות מוצרים (ידועות) ובתוכן 9 תת-קבוצות כולל תת-קבוצה חריגה אחת. לכל משפחת מוצרים יש חוקי התנהגות משלה, כולל גורמי מפתח ונוסחאות חיזוי מחירים.
      ההפרדה הברורה לתת-קבוצות מדיקת את החיזוי, מאפשרת לקבוע בשלב מוקדם מחירים של מוצרים חדשים, וגם - לשפר את האפיון שלהם ולזרז את הגעתם לשוק. 

       
      Fig 1 מחירים חזויים מול מחירים בפועל על פי נוסחאות GT – תוצאות סימולציה ב3 תת קבוצות טיפוסיות


      תבנות חדשות (בדוגמא) 
      * אפשר להשיג מידע על מחירי מתחרים בעקיפין, ע"י reverse-engineering של מחירונים ישנים.

      * אפשר לחשוף באותה שיטה את התמחיר של המתחרים עצמם, וייתכן שאפילו לדעת את מחיריהם לפני שהם יודעים! זאת מאחר והמקור של מחירונים הינו גלוי וקל להשגה. 

      * עוד תבנה בלתי צפוייה שהתקבלה בעבודה זו - אפשר לשדרג את נוסחאות השיווק הנוכחיות ולהגדיל את הרזולוציה והדיוק במודלים הקימים, בעזרת פרטים שמספק GT לתיאור הסיווגים של - "קבוצות מכירות" ו"קבוצות פריטים".


      סיכום יתרונות GT:
      1.      חשיפת סיבות שורש
      2.      גילוי מוקדם
      3.      אפשרויות מחשוב בכל פלטפורמה
      4.      עלות נמוכה ליישום
      5.      התאמה מהירה לשינויים
      6.      הרחבה בקנה מידה גדול (ע"י התאמה מהירה במחירים נמוכים)

       


      איך זה עובד? - עקרונות של GT שמאפשרים את הביצועים הנ"ל: 
      האיסור לנקות נתוני קלט
      הדרישה לכלול חריגים
      הדרישה להוספת משתני-סביבה, ועוד.



      About the author

      Edith Ohri  is the developer of GT data mining and founder of Datalert startup for early detection, an Industrial & Management Eng. from the Technion and MSc from NY Polytech.
      Management member of IE group in Association of Engineers and Architects in Israel, and a Liaison to Israel Society for Quality.
      GT applications include:
      SMU Singapore – early detection of top students and dropouts.
      RAFAE”L – root cause of late deliveries in Purchasing
      SCD Israel – root cause of a quality issue in production

      Detection of earthquakes seismology patterns of behavior – Israel