מה מסד נתונים שמופעל על ידי GPU יכול לעשות בשבילך

מסד הנתונים של SQL מתחיל בשנות השבעים והיה תקן ANSI מאז שנות השמונים, אך אין זה אומר שהטכנולוגיה יושבת בשקט. זה עדיין משתנה, ואחת מהדרכים הללו כמאגרי מידע מואצים באמצעות GPU.

מאגרי מידע יחסיים גדלו למערכי נתונים הנמדדים בפטאבים ומחוצה להם. גם עם כניסתם של מחשוב 64 סיביות וטרה-בייט זיכרון לעיבוד מוגבר, עדיין יש הרבה נתונים ללעיסה - ומעבדים יכולים רק לנהל כל כך הרבה. לשם נכנסו GPUs.

GPUs השתנו מהמשימה המקורית שלהם להאיץ משחקים להאצת כמעט הכל. Nvidia צירפה בצורה מופתית להפוך למילה נרדפת לבינה מלאכותית, תהליך הדורש כמויות עצומות של נתונים שעובדו במקביל ומשימות אחרות שניתן להקביל היטב. AMD מתחילה לשחק בישול, אך ל- Nvidia יש יתרון ארוך.

כשמדובר בליבות, זה אפילו לא קרוב. למעבדי Xeon מקסימום 22 ליבות. ל- AMD Epyc 32 ליבות. בארכיטקטורת Nvidia Volta יש 5,120 ליבות. עכשיו דמיין יותר מ -5,000 ליבות הפועלות במקביל על נתונים וברור מדוע GPUs הפכו פופולריים כל כך עבור פרויקטים גדולים של מחשוב.

אז צמח סוג חדש של מאגרי מידע שנכתב מהיסוד כדי לתמוך ולאמץ GPUs ויכולות העיבוד המקבילות שלהם. מאגרי מידע אלו מאפשרים רמות חדשות של עיבוד נתונים, ניתוחים וביג דאטה בזמן אמת שכן הם יכולים לטפל בערכות נתונים שמאגרי מידע רגילים המופעלים על ידי מעבד פשוט אינם יכולים.

מסד הנתונים של GPU הוגדר

הרעיון של מסד נתונים של GPU הוא פשוט מספיק: הוא משתמש במקביליות של GPUs כדי לבצע האצה מסיבית של עיבוד נתונים. ה- GPU מתאים באופן אידיאלי להאצת עיבוד שאילתות SQL מכיוון ש- SQL מבצע אותה פעולה - בדרך כלל חיפוש - בכל שורה בערכה.

עם זאת, אתה לא פשוט שם חבורה של כרטיסי Nvidia Tesla בשרת המארח מסד נתונים של Oracle. מאגרי מידע של GPU תוכננו ונכתבו מהיסוד לביצוע עיבוד מקביל, החל JOINמפעולות SQL .

JOINs ליצור קשר בין עמודות ממספר טבלאות במסד נתונים והם קריטיים לביצוע ניתוחים משמעותיים. גישות עיצוב מסורתיות עבור JOINs במערכות RDBMS מדור קודם תוכננו לפני שנים עבור מעבדי ליבה אחת ואינם מעניקים את עצמם היטב אפילו למעבד, ועוד פחות מעבד.

מעבר ל- JOINs, למאגרי המידע של GPU יש תמיכה משמעותית, כולל:

  • מחברים למסגרות קוד פתוח פופולריות, כמו Hadoop, Kafka, HBase, Spark ו- Storm.
  • מנהלי התקנים של ODBC ו- JDBC לשילוב עם הדמיה וכלי BI קיימים כמו Tableau, Power BI ו- Spotfire
  • ממשקי API לכריכות עם שפות תכנות פופולריות כמו C ++, SQL, Java, Node.js ו- Python.

היכן להשתמש במסד נתונים של GPU

בהקשר זה, מסדי נתונים של GPU אינם באמת מתחרים באורקל, SQL Server או DB2. מאגרי מידע של GPU מכוונים לקבלת החלטות על ניתוח נתונים, שם חברות מנסות לקבל החלטה בזמן אמת מכמויות עצומות של נתונים, אך מוצאות את עצמן אינן מסוגלות לעשות זאת מכיוון שיש יותר מדי נתונים או מכיוון שכלי ניתוח חזותי איטיים מדי.

ספקי מסדי הנתונים של GPU אינם רואים עצמם תחליף ל- Oracle או למסד נתונים OLTP כמו Teradata. במקום למקד לעומסי עבודה RDBMS מסורתיים, מסדי נתונים של GPU מכוונים לעולם OLAP / OLTP ולביג דאטה, שם מערכי הנתונים הם עצומים והצורך הוא בזמן אמת. במקום שתהליכי אצווה פועלים במשך שעות או לילה אחד, מאגרי מידע של GPU הם המקום בו ניתן להציג נתונים בזמן אמת או על בסיס שעתי.

מסד הנתונים של GPU אמור לפתור הרבה בעיות ש- NoSQL מנסה לפתור, אך מאפשר לך להשתמש בכלי השאילתה המובנים הקיימים שלך. השימוש ב- NoSQL פירושו שכתוב מחדש של כל כלי ה- SQL שלך, אך מסדי נתונים של GPU משתמשים בכלי SQL קיימים.

"מה שאנחנו חושבים שנראה הוא שאנשים מבינים שהם יכולים לעשות מערכות רב מימדיות ולקחת נתונים ממספר תרחישים ולשלב אותם", אומר סטיב וורת'ינגטון, אדריכל פתרונות טכנולוגיים מתפתח עבור Datatrend Technologies, ייעוץ IT המשתמש במאגר ה- GPU SQream. "חברות רפואיות רוצות לקחת [נתונים] ממערכות מרובות ולעשות ניתוחים על פני מאגרי מידע מכיוון שלפני כן הן לא יכלו לבצע הפניות צולבות ולא הייתה להן דרך להצטרף למאגרי המידע.

הוא גם מצטט מוסדות פיננסיים שעושים ניתוח הונאה וניתוח סיכונים שעשויים לבצע רק בדיקות כרטיסי אשראי עכשיו, אבל רוצה לעשות בדיקות במספר חשבונות. בעזרת הכוח של ה- GPU הם יכולים להצליב את כל מקורות המידע בבת אחת.

עבור ריץ 'סאטון, סגן נשיא לנתונים גיאו-מרחביים ב- Skyhook, ספק שירותי מיקום, המשתמש במסד הנתונים של GPU OmniSci נותן לו הדמיה הרבה יותר גדולה של מערכי נתונים גיאוגרפיים מאשר ביכולתו לעשות עם בסיס נתונים מבוסס מעבד. "אני יכול לטעון מיליארד שורות לתוך OmniSci וללא זמן אחזור במקום להסתכל על מערך נתונים של 10,000 שורות בחלל מעבד מסורתי", הוא אומר. "סדרי גודל מרובים מועילים לי להפחית בצריכת נתונים עם חביון מופחת באופן מסיבי."

טוד מוסטק, מנכ"ל OmniSci, אומר שלקוח אחד אמר לו שהמהירות של OmniSci "מורידה את עלות הסקרנות. הם שואלים שאלות שבעבר היו מתאפקים בהם. " לקוח שירותים פיננסיים אחד אמר לו שאילתת עיבוד של 18 שעות בבסיס נתונים מסורתי ירדה לשנייה משנה, ואילו טלסקו אמר לו ששאלות שלקח שעות לרוץ מגיבות כעת תוך פחות משנייה.

מקום נוסף עבור מסדי נתונים של GPU הוא נתונים גדולים בזמן אמת, שם Hadoop לא נפל. עמי גל, מנכ"ל ספקית מסדי הנתונים של GPU SQream, אומר כי הרבה מההבטחה של נתונים גדולים - מציאת כל ההזדמנויות הנמצאות בעשרות פטה-בתים של נתוני שורות - לא הושגה ב- Hadoop משום שהייתה איטית מדי.

"ניצוץ הוא די טוב לתנועה ולטרנספורמציה של נתונים, אבל ברגע שאתה צריך לרסק כמויות עצומות של נתונים ולהעביר אותם אתה מתחיל להתמודד עם מאות אלפי צמתים [חישוב] וזה נתפס ככמות גדולה מכדי להצטמצם בערכות נתונים גדולות. אבל אם אתה יכול לעשות את זה עם עשרה או 15 צמתים, זה הרבה יותר יעיל, "הוא אומר.

וורת'ינגטון אומר כי שרתים מבוססי GPU יכולים לעשות בארון אחד מה שדורש ארונות רבים של צמתים המופעלים על ידי מעבד מרובה מקבילי (MPP). "אנו יכולים להחליף מתלים של צמתים MPP בחצי תריסר צמתים, כל אחד מהם שניים עד ארבעה GPUs. בכך אנו יכולים להחליף השקעה של 10 מיליון דולר בהשקעה של פחות ממיליון דולר, "הוא אומר.

ה- GPU חשוב גם ל- Skyhook, שעושה הדמיה של מערכי נתונים גיאוגרפיים גדולים. "אם יש לך מיליון מכשירים בשטח ומיקום פינג פעמיים בדקה, אתה מדבר על 2 מיליארד שורות נתונים ביום. זה בלתי אפשרי לצרוך במסד נתונים מסורתי. זה פשוט לא אפשרי. אז [a] GPU [מסד נתונים] מביא אותך למקום שבו אתה יכול לצרוך את הנתונים האלה ", אומר סאטון.

לפני אימוץ OmniSci, Skyhook יצטרך "פירמידה" של נתונים, ולקחת רק חלקים מהם לצורך הדמיה. כעת, אומר סאטון, הוא יכול להסתכל על תמונת הנתונים כולה. "מעולם לא ראיתי דרך מציאותית אחרת להכניס נתונים לכדי השימוש שלי."

מסדי נתונים של GPU: מה זמין

מאגרי מידע של GPU הם לחלוטין תופעת הפעלה, עם חברות כמו Brytlyt, SQream Technologies, OmniSci, Kinetica, PG-Strom ו- Blazegraph.

כולם משתנים מעט באופן עבודתם. לדוגמה, OmniSci עושה הדמיה של נתונים, בעוד ש- SQream משתמש במחברים לכלי הדמיה כמו Tableau, כך שכל אחד מהם צריך להיות מוערך בנפרד כדי לקבוע את ההתאמה הטובה ביותר לצורך שלך.

השמות הגדולים ב- RDBMS טרם עלו על הסיפון, למעט IBM, שתומכת בעיבוד GPU כלשהו ב- DB2 Blu, גרסה מיוחדת של DB2 לעומסי ניתוח. אורקל ו- TeraData אמרו כי הן עובדות עם Nvidia אך עדיין לא יצא מזה דבר. מיקרוסופט אינה תומכת בהאצת GPU ב- SQL Server. גל של SQream אמר כי שמע שכל ספקי ה- RDBMS פועלים להוסיף איזושהי תמיכה ב- GPU למוצרים שלהם, אך לא היה להם מידע נוסף.