שיחת קפה וירטואלית על Data Science בעידן הקורונה

dana416
8 באוק׳ 2020
זמן קריאה 6 דקות

אחד הטרנדים החמים בעולם הדאטה בעידן covid19 הוא שירות של Data Science מרחוק. במסגרת השירות ארגונים יכולים לקבל מודלי חיזוי מבוססי למידת מכונה (ML) שמפותחים על ידי מיטב אנשי המקצוע בטווח זמן מהיר ובתהליך שמאפשר יעילות ואפקטיביות כלכלית ועסקית. אז ישבנו לשיחת קפה וירטואלית עם גל חג'ג' שהוא Data Scientist בכיר ב Data Tapas ושוחחנו על יתרונות השירות החדשני לארגונים . תהנו.

מהו תפקידו של ה- Data Scientist בארגון? במה תפקיד זה שונה מתפקיד של Data Analyst ?

אין כיום הגדרה אחידה מהו תפקידו של DS ומשימותיו עשויות להשתנות בהתאם לארגון אליו הוא שייך ובהתאם לצורך העסקי.

ל-DS יכולות מתקדמות לניתוח נתונים והוא משתמש בכלים סטטיסטיים ושיטות למידת מכונה (Machine Learning) לפתרון אתגרים עסקיים מגוונים: חיזוי אירועים עתידיים על סמך ההhסטוריה (השלמת תהליך רכישה / לחיצה על פרסומת / הסתברות לנטישת לקוח וכו'), יצירת סגמנטציה ללקוחות (רווחיים, בעלי פוטנציאל צמיחה, בעלי נטייה לנטוש), בניית מערכות המלצה (Next Best Offer, מוצרים משלימים), אוטומציית תהליכים עסקיים (תמחור דינאמי, התאמת קמפיינים ללקוח) ועוד.

אם נפשט, כישורי DS מתחלקים ל-3 תחומים עיקריים:

מתמטיקה וסטטיסטיקה - הבנה של המתמטיקה העומדת מאחורי האלגוריתמים כדי לפתור בעיות לפתח מודלים מותאמים לצרכי הפרויקט.
תכנות - ידע רחב בשפות תכנות רלוונטיות לניתוח נתונים. משלב האיסוף ממערכות המידע (SQL), דרך העיבוד ועד פיתוח המודלים (R / Python) והטמעת המוצר.
עסקי - יכולת להבין את אתגרי וצרכי הארגון, להמיר את השאלות העסקיות לשאלות "דאטה" שניתן לפתור באמצעות שימוש בנתונים ולהסביר לבעלי העניין את תוצרי המודל בעזרת כלי ויזואליזציה ודוחות (PowerBI / Tableau) שאלות כמו כיצד התקבלה החלטה, אילו שינויים יקדמו את המוצר ליעדים.

תפקיד DA לתרגם מידע לידע. תפקידו לאחזר ולאסוף נתונים, לזהות מגמות ודפוסים, להבין את הסיפור שמאחורי המספרים ועל בסיס זה לענות על שאלות עסקיות ולחלץ מידע בעל משמעות.

בלא מעט מהמקרים קיים שיתוף פעולה הדוק בין DA ו- DS בעבודתם השוטפת, הראשון אוסף ומייצר פאנל נתונים בהתאם לצרכי הפרויקט והאחרון משתמש בתוצר כבסיס לבניית המודל הסטטיסטי להשגת המטרה.

מתי ארגון יכול לזהות שהוא בשל וזקוק לעבודה עם Data Scientist?

ליבת העיסוק של DS היא לעזור לעסק לשפר את המוצר והשירות שהוא מעניק ע"י קבלת החלטות מבוססי נתונים. המודולים והתוצרים שמפתח ה-DS הם בסה"כ כלים כדי להגיע למטרה הזו.

במידה ואין לארגון תשתית אגירת מידע, היסטוריית נתונים רחבה (Event Logs) או יכולות BI לשליפת וניתוח נתונים, כנראה שהוא נמצא בתחילת דרכו במעבר לארגון Data Driven ובשלב זה לא יהיה ערך מוסף לגייס Data Scientist על פני Data Analyst או Data Engineer.

לעומת זאת, אם לארגון יש בסיס נתונים מסודר וקיימים מדדי ביצועים מוגדרים (KPI), Data Scientist בהחלט יוכל להשתלב ולקחת אותו צעד קדימה בתחום ניתוח הנתונים ושיפור המדדים ע"י שילוב מודלים מתקדמים לשיפור המוצר ולהתנהלות מול לקוחות פוטנציאליים וקיימים.

אם בעבר כח עיבוד חזק היווה תנאי סף נוסף לשילוב data science בארגון, היום ניתן להשתמש בשירותי ענן במחירים נוחים מאוד למשימות ה"כבדות" ובסופו של יום לחסוך מהארגון את עלויות רכישת הציוד ואחזקתו.

שילוב תוצרי Data Science הופך לסטנדרט החדש בכל הארגונים (גדולים וקטנים כאחד) ככלי לשיפור המוצר ויצירת ערך מוסף על פני המתחרים. חברות שלא יתאימו את עצמם ויצטרפו למהפכת המידע ימצאו את עצמן עם מוצר מיושן וגנרי בהשוואה למתחרים ישירים.

מה האתגרים בעבודתו של ה- Data Scientist ועם מי הממשקים המרכזיים שלו?

בכל אחד משלבי עבודה של פרויקט קיימים אתגריים איתם יש להתמודד:

ניסוח בעיה ומדדי הצלחה - האתגר הראשון ש-Data Scientist יתקל בו בפרויקט חדש הוא תרגום של הבעיה העסקית שהציגו אנשי המוצר או בעלי העניין לכזו שניתן לפתור ע"י נתונים והגדרת מדדים ברורים לבחינת ביצועי המודל בסוף תהליך הפיתוח.
איסוף מידע - לרוב, הנתונים הקיימים במערכות המידע דורש עיבוד רב, טיפול בנתונים חסרים וכפילויות, הבנת הקשרים בין הטבלאות השונות ואת זמני ריענון הנתונים. בשלב זה תהיה עבודה צמודה של Data Scientist עם DBA או גורם מוסמך אחר שמכיר את מערכות המידע בארגון.
מידול הנתונים - לאחר שגובשה המטרה, יש לפתח את המודל המתאים ביותר לבעיה, כזה שיציג תוצאות טובות לצד זמני ריצה העומדים ביעדים שהוגדרו. זהו תהליך מאין מחקרי שהתוצאה בסוף לא ידועה בתחילתו, שכן יש לבחון שיטות רבות לפני שבוחרים את זו שנותנת את המענה המתאים ביותר.
הטמעת התוצר - בתום תהליך הפיתוח ולאחר הוכחת יכולת, הארגון צריך לקלוט את המערכת לייצור. התהליך מבוצע בצמוד לאנשי DevOps ולעיתים נתקל בקשיים בשל גרסאות שונות, שפות שונות וכו'. במרבית המקרים הפתרון הוא הקמת סביבה עצמאית שניתן לשלב בייצור ע"י Docker Container.

תאר בבקשה תהליך של בניית מודל חיזוי וניבוי

תהליך העבודה דומה ברוב הפרויקטים וכולל את השלבים הבאים:

למידת המצב הקיים - קיום פגישות עם אנשי המפתח הרלוונטיים בארגון כדי להבין את עולם התוכן, מטרת הפרויקט והמידע הזמין.
אינטגרציה למידע - אפיון פאנל הנתונים שיעשה בו שימוש ואיסוף הנתונים הרלוונטיים ממערכות המידע לבנייתו.
ניתוח הנתונים במטרה לזהות דפוסי התנהגות, קורלציות ואנומליות ((EDA (Exploratory Data Analysis) שעשויות לפגוע בהמשך בביצועי המודל.
הרחבת בסיס המידע (Feature Engineering) - יצירת משתנים מחושבים חדשים על בסיס המידע הגולמי שנאסף לצד שילוב מידע חיצוני לארגון שעשוי לתרום לתחזית (משבר כלכלי, מועדי ישראל וכו').
עיבוד הנתונים (Data Preparation) - בשלב זה יטופלו כל החריגות שהתגלו בשלבים הקודמים (נתונים חסרים, אנומליות, כפילויות), והנתונים יעובדו לכדי מידע שמכונה תדע לעבד בצורה יעילה (המרת טקסט לערכים מספריים, התמודדות עם נציגות נמוכה של משתנה המטרה).
מידול הנתונים - אימון מודל מבוסס ML לחיזוי משתנה המטרה שהוגדר (הסתברות למכירה / נטישה / הונאה וכו').
הצגת התוצרים והטמעה - בתום פיתוח המודל, תוצרי העבודה מוצגים ליוזמי הפרוייקט ואנשי מפתח נוספים בארגון לאישור לפני הטמעה במערכות הייצור.

מהי סביבת העבודה הטכנולוגית המומלצת עבור Data Scientist ?

כל פרויקט מתחיל באחזור נתונים ממערכות המידע של הארגון, לרוב ע"י שימוש בשפת SQL.

על אף ששפת הפיתוח R היא שפה שמראש פותחה באקדמיה לצרכי מחקר, עיבוד נתונים ומידול, אני אישית מעדיף לעבוד בסביבת Python שהיא השפה הפופולארית יותר בקרב מדעני הנתונים כיום בעיקר בשל הגמישות שהיא מאפשרת. ניתוח נתונים זה קצה הקרחון ב Ecosystem-וביכולות של Python. זו שפה מודולארית המאפשרת לייבא (ולכתוב) ספריות משנה כחבילות קוד מוכנות לשימוש ועדיין לאפשר את הגמישות להתאמה של הקוד לצרכים הייחודיים שלך כמתכנת ולמשימה שאתה ניגש לבצע. חבילות פופולאריות לעיבוד נתונים ופיתוח מודלים מתקדמים מבוססי Machine Learning ו-Deep Learning כוללות את: pandas, scikit-learn, Keras, TensorFlow והן מותאמות להמטעה ישירה במערכת הייצור לאחר השלמת תהליך הפיתוח.

עיקר הפיתוח מתבצע בפלטפורמת JupyterLab (מקומית או בענן) ככלי נוח למחקר של בסיס הנתונים ופיתוח המודלים.

אילו מגמות ניתן לזהות לאחרונה בתחום ?

בשנים האחרונות אנו עדים לתאוצה במהפכת המידע. ניתן לראות זאת גם במוסדות חינוך ובאוניברסיטאות שזיהו את הביקוש ומציעות כיום מסלולי לימוד ייעודיים בתחום מדעי הנתונים וכן במגזר העסקי שזיהה את הפוטנציאל לצמיחה שהתחום מביא עימו ואימץ שירותים ומוצרים מבוססי בינה מלאכותית.

בתקופה האחרונה חל שינוי נוסף בשוק התעסוקה הישראלי ובכלל - ארגונים רבים הבינו (בלית ברירה אמנם) את יתרונות שבעבודה מרחוק. שימוש בכלים לשליטה מרחוק, שימוש בענן ופגישות בזום הפכו לסטנדרט החדש לאחר שהוכיחו את יעילותם ושאינם פוגעים בפרודוקטיביות העובדים. המצב החדש הביא עימו גם הזדמנויות: עבור העובדים נפתחו אופציות תעסוקה נוספות משום שכעת קירבה פיזית למשרדי החברה כבר לא תנאי מגביל. אצל המעסיקים, מלבד אפשרויות הגיוס שגדלו אף הן, מקורח הנסיבות הם נאלצו להתאים את עצמם תשתיתית ולא פחות חשוב - את התרבות הארגונית למאה ה-21 - הרשאות לגישה מרחוק, עבודה בענן ופגישות דיגיטליות.

אנו חווים את השינויים גם בתחום הדאטה - קל מתמיד לקבל שירותי Data Science חיצוניים. חומות ההגנה של אבטחת מידע שהיו מפילות פרוייקטים בארגונים הפכו לגמישות יותר וכיום קל ובטוח לגשת מרחוק לנתונים של ארגונים (ענן / כספת) ולספק שירותי data science מרחוק באופן מלא, משליפת הנתונים ואז הטמעת מוצר מוגמר.

מהו מודל ה Data Science as a service לאלו ארגונים היית ממליץ לבחון אותו?

הקמת צוות של data scientists יכולה להיות משימה מורכבת ויקרה (איתור וגיוס, הכשרה, ניהול ובקרה, ליווי מקצועי) ועשויים לחלוף חודשים ארוכים עד הוא יוכל לספק תוצר ברמת יצור. מודל DSAAS בא בדיוק לגשר על הפער הזה. עפ"י מתודולוגיית המודל, לפרויקט יוקצה צוות מקצועי בהתאם למורכבותו (לעיתים שילוב של Data Analyst ו-Data Scientist ולעיתים Full Stack Data Scientist שמוביל תוצר מקצה לקצה). הצוות המוקצה הינו מיומן ובעל ניסיון תואם לתחום העיסוק של הארגון ולעיתים אף ביצע פרויקט דומה בעבר, כך שתהליך הלמידה מהיר וקיימת שפה משותפת כבר מהשלבים הראשונים, ללא חבלי לידה וללא חששות מקצועיות.

המודל רלוונטי במיוחד לארגונים שלראשונה רוצים להטמיע יכולות Data Science במוצרים שלהם, אם זה לבדיקת היתכנות לפני הרחבת העיסוק בתחום או לטובת השלמת מספר פרויקטים מצומצם.

מודל DSAAS דוגל בשקיפות ואנו מספקים לארגון לצד התוצר הסופי את המחקר שנעשה לתחקור הנתונים ואת הקוד שנכתב לפיתוח המודל. מידע זה יוכל לשמש בעתיד את הארגון להמשך ניתוחים עצמאיים ואף ישמש את הצוות האורגני העתידי של Data Science לכשיקום.

לסיום איך אתה רואה את עולם ה Data Science בשוק המקומי בעוד כ 3 שנים?

תחום ה-Data Science לא נח לרגע וכל העולם צועד לכיוון ה-Data Driven. המידע זמין וקל לאיסוף, וחברות שלא ידעו להשתמש בו פשוט יישארו מאחור או ייעלמו. אני מאמין שבשנים הקרובות גם ארגונים שמידע לא היה ליבת העיסוק שלהם יבינו את חשיבות איסוף וניהול המידע וכמות הדאטה שתצטבר תגדל משמעותית. כבר היום חברות ענק מבינות זאת ומפתחות אמצעים לעיבוד נתוני עתק (לדוגמא פיתוחי GPU / TPU בחברת Nvidia) וניכנס רשמית לעולם ה-Big Data. כמובן שיותר דאטה פותח הזדמנויות חדשות ושיטות מתקדמות שעל אף ביצועים יוצאי דופן לא יכלו להיות מיושמות בעיקר בגלל כמות מידע דל כדוגמת Deep Learning.

גל חג'ג' Data Scientist בכיר בData Tapas בעל ניסיון עשיר בהקמה, ניהול ותכנון מערך ופרויקטים של Data science ואנליזה מתקדמת, מעל 8 שנות ניסיון בעולם הדאטה ואנליזה ובפרט Machine Learning ,Big Data ו-Data Science.

בעל ניסיון תעסוקתי שנרכש מתפקידים מבוססי דאטה ובינה עסקית במגוון תחומים וענפים.

Start Small Think BIG