כיצד לבחור פלטפורמת ניתוח נתונים

בין אם יש לך אחריות בפיתוח תוכנה, devops, מערכות, עננים, אוטומציה לבדיקות, אמינות אתרים, צוותי scrum מובילים, infosec או תחומי טכנולוגיות מידע אחרים, יהיו לך הזדמנויות ודרישות הולכות וגדלות לעבוד עם נתונים, ניתוחים ולמידת מכונה .

זרקור טק: אנליטיקס

  • כיצד לבחור פלטפורמת ניתוח נתונים ()
  • 6 שיטות עבודה מומלצות להדמיה של נתונים עסקיים (Computerworld)
  • ניתוח בריאות: 4 סיפורי הצלחה (CIO)
  • SD-WAN ואנליטיקה: נישואים שנוצרו למצב הרגיל החדש (עולם הרשת)
  • כיצד להגן על אלגוריתמים כקניין רוחני (CSO)

החשיפה שלך לניתוח עשויה להגיע דרך נתוני IT, כגון פיתוח מדדים ותובנות מדדי זריזים, devops או מדדי אתרים. אין דרך טובה יותר ללמוד את הכישורים והכלים הבסיסיים סביב נתונים, ניתוחים ולמידת מכונה מאשר ליישם אותם על נתונים שאתה מכיר ושאתה יכול לכרות עבור תובנות להניע פעולות.

העניינים נעשים מעט מורכבים יותר ברגע שאתה מסתעף מעולם נתוני ה- IT ומספק שירותים לצוותי מדעני נתונים, מדעני נתונים אזרחיים ואנליסטים עסקיים אחרים המבצעים הדמיית נתונים, ניתוחים ולמידת מכונה.

ראשית, יש לטעון ולנקות נתונים. ואז, בהתאם לנפח, למגוון ומהירות הנתונים, סביר להניח שתיתקל במספר מסדי נתונים עורפיים וטכנולוגיות נתונים בענן. לבסוף, במהלך השנים האחרונות, מה שהיה פעם בחירה בין כלי בינה עסקית להדמיית נתונים, התגלגל למטריצה ​​מורכבת של פלטפורמות ניתוח מחזור חיים מלא ולמידת מכונה.

החשיבות של ניתוחים ולמידת מכונה מגדילה את אחריות ה- IT במספר תחומים. לדוגמה:

  • לעתים קרובות IT מספק שירותים סביב כל שילובי הנתונים, מאגרי המידע האחוריים ופלטפורמות הניתוח.
  • צוותי Devops מרבים לפרוס ולהרחיב את תשתית הנתונים כדי לאפשר ניסויים במודלים של למידת מכונה ואז תומכים בעיבוד נתוני ייצור.
  • צוותי תפעול רשת מקשרים קשרים מאובטחים בין כלי הניתוח של SaaS, מולטי-קולוד ומרכזי נתונים.
  • צוותי ניהול שירותי IT מגיבים לבקשות ושירותי ניתוח נתונים וניתוחים.
  • Infosec מפקחת על ניהול אבטחת נתונים ומימושים.
  • מפתחים משלבים מודלים של ניתוחים ולמידת מכונה ביישומים.

בהתחשב בפיצוץ של ניתוחים, פלטפורמות נתונים בענן ויכולות למידת מכונה, הנה פריימר להבנת טוב יותר את מחזור החיים של האנליטיקה, החל משילוב וניקוי נתונים, ועד ל- dataops ו- modelops, לבסיסי הנתונים, פלטפורמות הנתונים ומבצעי הניתוח עצמם.

אנליטיקס מתחילה בשילוב נתונים וניקוי נתונים

לפני שאנליסטים, מדעני נתונים אזרחיים או צוותי מדעי נתונים יוכלו לבצע ניתוח, מקורות הנתונים הנדרשים חייבים להיות נגישים להם בפלטפורמות הדמיית הנתונים והניתוח שלהם.

כדי להתחיל, עשויות להיות דרישות עסקיות לשילוב נתונים ממערכות ארגוניות מרובות, חילוץ נתונים מיישומי SaaS או הזרמת נתונים מחיישני IoT וממקורות נתונים אחרים בזמן אמת.

אלה כל השלבים לאיסוף, טעינה ושילוב נתונים לצורך ניתוח ולמידת מכונה. בהתאם למורכבות של נתונים ואיכות הנתונים, קיימות הזדמנויות להיות מעורבות בנתונים, בקטלוג נתונים, בניהול נתוני אב וביוזמות אחרות לניהול נתונים.

כולנו מכירים את הביטוי, "זבל פנימה, זבל החוצה." אנליסטים חייבים להיות מודאגים מאיכות הנתונים שלהם, ומדעני הנתונים חייבים להיות מודאגים מהטיות במודלי הלמידה שלהם. כמו כן, העיתונות של שילוב נתונים חדשים היא קריטית עבור עסקים המעוניינים להפוך ליותר מונעי נתונים בזמן אמת. מסיבות אלה, הצינורות הטוענים ועיבוד נתונים הם בעלי חשיבות קריטית בניתוח ולמידת מכונה.

מאגרי מידע ופלטפורמות נתונים לכל סוגי האתגרים בניהול נתונים

טעינה ועיבוד נתונים היא שלב ראשון הכרחי, אך לאחר מכן הדברים מסתבכים יותר בבחירת מאגרי מידע אופטימליים. האפשרויות של היום כוללות מחסני נתונים ארגוניים, אגמי נתונים, פלטפורמות עיבוד נתונים גדולים ומאגרי מידע מיוחדים NoSQL, גרפים, ערך מפתח, מסמכים ועמודים. כדי לתמוך באחסון נתונים וניתוח בקנה מידה גדול ישנן פלטפורמות כמו Snowflake, Redshift, BigQuery, Vertica ו- Greenplum. לבסוף, ישנן פלטפורמות ה- Big Data, כולל Spark ו- Hadoop.

סביר להניח שלעסקים גדולים יהיו מאגרי נתונים מרובים וישתמשו בפלטפורמות נתונים בענן כמו Cloudera Data Platform או MapR Data Platform, או בפלטפורמות תזמור נתונים כמו InfoWorks DataFoundy, כדי להנגיש את כל אותם מאגרים לצורך ניתוח.

לעננים הציבוריים הגדולים, כולל AWS, GCP ותכלת הרקיעים, יש פלטפורמות ושירותים לניהול נתונים. לדוגמא, Azure Synapse Analytics הוא מחסן הנתונים של מיקרוסופט בענן, בעוד Azure Cosmos DB מספק ממשקים לחנויות נתונים רבות מסוג NoSQL, כולל קסנדרה (נתונים עמודיים), MongoDB (נתוני ערך מפתח ומסמכים) ו- Gremlin (נתוני גרף) .

אגמי נתונים הם רציפי טעינה פופולריים לריכוז נתונים לא מובנים לניתוח מהיר, ואפשר לבחור מ- Azure Data Lake, Amazon S3 או Google Cloud Storage כדי לשרת מטרה זו. לעיבוד נתונים גדולים, לענני AWS, GCP ותכלת הרק יש גם הצעות Spark ו- Hadoop.

פלטפורמות Analytics מכוונות ללמידת מכונה ושיתוף פעולה

עם נתונים שטעונים, מטוהרים ומאוחסנים, מדעני נתונים ואנליסטים יכולים להתחיל לבצע ניתוחים ולמידת מכונה. לארגונים אפשרויות רבות תלויות בסוגי הניתוח, בכישוריו של צוות הניתוח שמבצע את העבודה ובמבנה הנתונים הבסיסיים.

ניתן לבצע ניתוח בכלי הדמיית נתונים בשירות עצמי כגון Tableau ו- Microsoft Power BI. שני הכלים הללו מכוונים למדעני נתונים של אזרחים וחושפים ויזואליזציות, חישובים וניתוחים בסיסיים. כלים אלה תומכים בשילוב נתונים בסיסי ובבניית נתונים מחדש, אך התגוששות נתונים מורכבת יותר מתרחשת לעיתים קרובות לפני שלבי הניתוח. Tableau Data Prep ו- Azure Data Factory הם הכלים הנלווים המסייעים לשילוב ושינוי נתונים.

צוותי Analytics המעוניינים לבצע אוטומציה של יותר מסתם אינטגרציה והכנת נתונים יכולים להסתכל בפלטפורמות כמו Alteryx Analytics Process Automation. פלטפורמה שיתופית מקצה לקצה זו מחברת בין מפתחים, אנליסטים, מדעני נתונים אזרחיים ומדעני נתונים עם יכולות אוטומציה של זרימת עבודה ועיבוד נתונים, ניתוח ועיבוד למידה ממוחשבת בשירות עצמי.

אלן ג'ייקובסון, מנהל האנליטיקה והנתונים הראשי באלתריקס, מסביר, "הופעתה של אוטומציה של תהליכים אנליטיים (APA) כקטגוריה מדגישה ציפייה חדשה לכל עובד בארגון להיות עובד נתונים. מפתחי IT אינם יוצאים מן הכלל, וההרחבה של פלטפורמת APA של Alteryx שימושית במיוחד עבור עובדי הידע הללו. "

ישנם מספר כלים ופלטפורמות המכוונים למדעני נתונים שמטרתם להפוך אותם לפרודוקטיביים יותר עם טכנולוגיות כמו Python ו- R תוך פשטות רבות משלבי התפעול והתשתית. לדוגמא, Databricks היא פלטפורמה תפעולית למדעי נתונים המאפשרת פריסת אלגוריתמים ל- Apache Spark ו- TensorFlow, תוך ניהול עצמי של אשכולות המחשוב בענן AWS או Azure. 

כעת חלק מהפלטפורמות כמו SAS Viya משלבות הכנת נתונים, ניתוח, חיזוי, למידת מכונה, ניתוח טקסט וניהול מודלים של למידת מכונה לפלטפורמה אחת של מודל -ops. SAS מפעילה ניתוחים ומכוונת למדעני נתונים, אנליסטים עסקיים, מפתחים ומנהלים עם פלטפורמה משותפת מקצה לקצה.

דייוויד דולינג, מנהל מחקר ופיתוח ניהול החלטות ב- SAS, אומר, "אנו רואים במודלופס את הנוהג ליצור צינור פעולות חוזר ונשנה לבדיקה לפריסת כל הניתוחים, כולל מודלי AI ו- ML, למערכות תפעוליות. כחלק מ- modelops, אנו יכולים להשתמש בשיטות devops מודרניות לניהול קוד, בדיקה וניטור. זה עוזר בשיפור התדירות והאמינות של פריסת המודלים, מה שמגביר את הזריזות של תהליכים עסקיים הבנויים על מודלים אלה. "

Dataiku היא פלטפורמה נוספת השואפת להביא הכנת נתונים, ניתוחים ולמידת מכונה לצוותי מדעי הנתונים הגדלים ומשתפי הפעולה שלהם. ל- Dataiku מודל תכנות חזותי המאפשר מחברות לשיתופי פעולה וקוד למפתחי SQL ופייתון מתקדמים יותר.

פלטפורמות ניתוח אחרות ולמידת מכונה של ספקי תוכנה ארגוניים מובילים שואפות להביא יכולות ניתוח למקורות נתונים של מרכז הנתונים והענן. לדוגמא, ענן אורקל אנליטיקס וענן SAP Analytics שניהם שואפים לרכז מודיעין ולבצע תובנות אוטומטיות כדי לאפשר החלטות מקצה לקצה.

בחירת פלטפורמת ניתוח נתונים

בחירת כלים לשילוב נתונים, אחסנה וניתוח היו פשוטים יותר לפני עלייתם של נתונים גדולים, למידת מכונה וממשל נתונים. כיום, יש שילוב של מינוחים, יכולות פלטפורמה, דרישות תפעוליות, צרכי ממשל ופרסונות משתמשים ממוקדות שהופכות את בחירת הפלטפורמות למורכבות יותר, במיוחד מכיוון שספקים רבים תומכים בפרדיגמות שימוש מרובות. 

עסקים נבדלים בדרישות ובצרכים האנליטיים, אך עליהם לחפש פלטפורמות חדשות מנקודת התצפית של מה שכבר קיים. לדוגמה:

  • חברות שהצליחו בתוכניות מדעי נתונים אזרחיות וכבר קיימות כלים להדמיית נתונים עשויות לרצות להרחיב את התוכנית הזו באמצעות אוטומציה של תהליכי ניתוח או טכנולוגיות הכנת נתונים.
  • חברות שרוצות שרשרת כלים המאפשרת למדעני נתונים העובדים בחלקים שונים של העסק, עשויות לשקול פלטפורמות ניתוח מקצה לקצה עם יכולות modelops.
  • ארגונים עם פלטפורמות נתונים אחוריות מרובות ונפרדות עשויים ליהנות מפלטפורמות נתונים בענן כדי לקטלג ולנהל אותן באופן מרכזי.
  • חברות המתקנות את כל יכולות הנתונים או את רובן אצל ספק ענן ציבורי יחיד, צריכות לחקור את פלטפורמות שילוב הנתונים, ניהול הנתונים וניתוח הנתונים המוצעות.

כאשר ניתוחים ולמידת מכונה הופכים להיות יכולת ליבה חשובה, הטכנולוגים צריכים לשקול להעמיק את הבנתם את הפלטפורמות הזמינות ואת יכולותיהן. העוצמה והערך של פלטפורמות הניתוח רק יגברו, וכך גם השפעתן בכל הארגון.