סדרת מאמרים פרקטית על עולם הדאטה 2022. פרק ראשון: עושים סדר בעולם הדאטה

עודכן: 15 במרץ


פרק ראשון : עושים סדר בעולם הדאטה

תחזרו איתנו רגע במנהרת הזמן ואם לדייק אז כמעט 6 שנים לאחור . זהו בוקר סגרירי במשרדים ואנו בצילומים לכתבה שתתפרסם באותו ערב בגלובס . אז היינו כבר שנה וחצי באוויר במיזם המשותף שלנו Data Tapas . חברת בוטיק לליווי ארגונים במסע שלהם בעולם הדאטה . מאסטרטגיה דרך ניהול פרויקטים ושירותי אנליסטים ו Data Scientists .

בואו נקפוץ חזרה להווה . מרץ 2022 . חולפות 6 שנים מאז הכתבה. הבוקר עדיין סגרירי . העולם הפיזי מאד דומה לעולם של לפני 6 שנים למעט רוחות מלחמה מיותרת במזרח אירופה ווירוס מטריד שמסרב לעזוב את האנושות בשקט אבל בעולם הדאטה לעומת זאת אין רגע דל . עוד ועוד ארגונים רוצים לבצע קפיצת מדרגה בעולם הדאטה . עוד ועוד חברות מבקשות למנף פוטנציאל מהדאטה שיש להן .

אז למען אלו שיוצאים למסע הדאטה או לאלו שכבר בעיצומו ועדיין מבולבלים הכנו את מורה הנבוכים שלנו לסוגיות הדאטה המרכזיות . מעין מדריך ומצפן לדרך שנעניק לכם בחלקים לפי פרקים . כל שבוע פרק אחר .

והפרק הראשון : עושים סדר בסוגי הדאטה שיש לכם בארגון שלכם

בכל ארגון יש לרוב 2 סוגי דאטה רלבנטיים לשימוש :

דאטה מובנה / דאטה לא מובנה


הדאטה המובנה :

זהו סוג הדאטה הנפוץ והמוכר ביותר וזה שיותר קל להתמודד איתו . מדוע ? התשובה נמצאת בשם. הוא פשוט מובנה וברור . כל הרעיון בדאטה מובנה שהוא תמיד מגיע באותו סדר ובאותו "מבנה" ומכאן שמו . למשל כל עולם הפעולות/ טרנזקציות/תשלומים/ העברות/ מכירות/ התקשרויות ועוד

כאשר מתרחשת פעולה אחת הפעולה הבאה אחריה מגיעה באותו מבנה גם אם פרטיה שונים. למשל תשלום יגיע עם שם משלם/ סכום/ תאריך/ מטבע וגם אם התשלום הבא אחריו הוא עם סכומים ופרטים אחרים עדיין כולם משויכים לאותו מבנה ועל כן דאטה זה הינו דאטה מובנה

לרוב ארגון מנהל הרבה מאד מידע ויש לו הרבה מאד נתונים שכולם מגיעים כדאטה מובנה . לרוב דאטה זה נוצר ונאסף במערכות המקור התפעוליות ונרשם בדאטה בייס של כל מערכת


הדאטה הלא מובנה :

בכל ארגון ובמיוחד בשנים האחרונות יש הרבה מאד דאטה לא מובנה . למשל תמונות / הקלטות/ אודיו/ וידאו ובעידן הדיגיטלי המתפתח במהירות גם כל המידע הדיגיטלי של תוכן / גלישה/ קליקים מקוטלג כדאטה לא מובנה . דאטה לא מובנה ניתן לזהות גם בשימושי IOT כולל סנסורים ומוצרי ניטור בריאותיים או התנהגותיים כמו למשל בדאטה אפליקציות שמנטרות פעילות . סוג הדאטה הזה הולך וגדל ככל שמתעצמת ההסטה של פעולות לאמצעים דיגיטליים.

בכל ארגון הנטייה להתעסק ולטפל בדאטה המובנה ברורה מאליה מעצם היותו של דאטה זה קרוב לעסקי הליבה ומייצג את עיקר הפעולות העסקיות/ כספיות שיכול לעשות לקוח . מעצם הקירבה של הדאטה המובנה לעסקי הליבה הפוטנציאל העסקי הגלום בניתוח שלו ומינופו ברור לארגונים והם לרוב ממוקדים בטיפול בדאטה זה תחילה

ברם, חברות שמבינות יותר לעומק את ההזדמנות בעולם הדאטה לא מסתפקות בטיפול בדאטה המובנה בכל מערכת ומערכת Stand Alone אלא מנסות לקדם 2 תהליכים קריטיים נוספים :

1. חיבור דאטה מובנה ממערכות נפרדות כדי לייצר תמונת לקוח שלמה יותר

2. שימוש וטיפול בדאטה לא מובנה על מנת להפיק גם ממנו ערך עסקי ולממש את הפוטנציאל הגלום בו


אחת הדרכים לטיפול בסוגי הדאטה השונים הינה לרכז את הדאטה מהמערכות השונות במקום אחד

מזה שנים השיטה הנפוצה ביותר היתה הקמת Data Warehouse = DWH כאותו מקום מרכזי שיאחסן את כל סוגי הדאטה הקיימים בארגון

ה DWH נולד למעשה על מנת לאפשר לארגונים לאחסן ולטפל בו זמנית במגוון מקורות דאטה ובכמויות גדולות על בסיס היסטוריית הנתונים הארגונית . כך למעשה נוצרה סביבה שאפשרה לבצע אנליזה גם שנים אחורה על שאלות עסקיות מעניינות שלא היה ניתן לענות עליהן כאשר הדאטה נמצא במערכות המקור בנפרד

המגבלה המרכזית של ה DWH הינה שהוא ייעודי לטיפול בדאטה מובנה בלבד . לא רלבנטי ולא אפקטיבי לרכז ב DWH דאטה לא מובנה ויתרה מכך ה DWH מוגבל בהיקפי הכמויות שניתן / נכון לאחסן בו

מגבלה נוספת של ה DWH הינה שכלי האנליזה הרלבנטי לתחקור בו הינו לרוב SQL . אולם לאור מגבלת הכמויות ומורכבות האנליזה בסביבה הלא אידיאלית של ה DWH נמצא שכל שאילתא שהופכת מורכבת מדי כבר פחות אפקטיבית לביצוע מול ה DWH . יתרה מכך , בהרבה ארגונים ה DWH משמש לריכוז דאטה ממערכות לצרכים תפעוליים ועל כן הוא פחות רלבנטי כסביבה אנליטית גמישה

מרבית התתחקור והאנליזה ב DWH ייעשה על שאלות עבר של כמה מכרנו/ באיזה מחיר / למי ועד היום בבוקר אבל לא נוכל לענות על שאלות עתיד כמו למי כדאי להציע את הצעת המוצר הבאה

לאור המגבלות ה DWH אינו פתרון אידאלי בעידן בו שילוב של דאטה לא מובנה חשוב לצורך הרחבת תובנות עסקיות אפשריות ועל כן יש להכיר את השלב הבא בסולם התשתיות התומכות בעולם הדאטה : ה Data Lake

ה Data Lake כשמו כן הוא .....אגמון דאטה אליו ניתן לרכז דאטה מובנה ולא מובנה ובכמויות גדולות . יתרונו בגמישותו / יכולתו להתרחב ולגדול ומגוון אפשרויות התחקור בו ובראש ובראשונה יכולתו לאפשר תחקור בכלים מתקדמים יותר מ SQL כגון יישומי למידת מכונה Machine Learning

גמישותו של ה Data Lake מאפשרת לארגון להתקדם למעשה בסולם הדאטה הארגוני ולבצע אנליזה מבוססת מודלי חיזוי וניבוי ולענות על שאלות What If ולא רק שאלות של What happened

יחד עם זאת גם ה Data Lake אינו חף מבעיות ובניהול לא נכון וללא חשיבה מסודרת ומתוכננת עלול להפוך מ Lake ל Swamp (ביצה) ....ודי במהירות . על הסכנות והדרכים להתמודד איתן ועל השלב המתקדם ביותר בהיררכיית פתרונות התשתית בעולם הדאטה נרחיב בפרק הבא בדיוק בעוד שבוע.