Apache Spark 3.0 מוסיף תמיכה ב- Nvidia GPU ללימוד מכונה

Apache Spark, מסגרת עיבוד הנתונים הגדולים בזיכרון, תאיץ באופן מלא ל- GPU בהתגלמותה של 3.0 בקרוב. החשוב מכל, יישומי Spark של ימינו יכולים לנצל את האצת ה- GPU ללא שינוי; ממשקי API של Spark קיימים, פועלים כפי שהם.

רכיבי האצת ה- GPU, המסופקים על ידי Nvidia, נועדו להשלים את כל שלבי יישומי ה- Spark, כולל פעולות ETL, הדרכת למידת מכונה והגשת מסקנות.

תרומות ה- Spark של Nvidia מסתמכות על חבילת RAPIDS של ספריות מדע הנתונים המואצות ב- GPU. רבים ממבני הנתונים הפנימיים של RAPIDS, כמו מסגרות נתונים, משלימים את זה של ספארק, אך השימוש בספארק באופן מקורי ב- RAPIDS נדרש כמעט ארבע שנים של עבודה.

ספאקס ספארק 3.0 אינו מגיע אך ורק מהאצת GPU. Spark 3.0 גם קוצר רווחי ביצועים על ידי מזעור תנועת הנתונים אל GPUs וממנו. כאשר יש צורך להעביר נתונים על פני אשכול, מסגרת Unified Communication X מעבירה אותם ישירות מגוש זיכרון אחד למשנהו עם תקורה מינימלית.

על פי Nvidia, מהדורת תצוגה מקדימה של Spark 3.0 הפועלת על פלטפורמת Databricks הניבה שיפור ביצועים פי שבעה בעת שימוש בהאצת GPU, אם כי לא ניתן היה לקבל פרטים אודות עומס העבודה ומערך הנתונים שלה. 

לא נקבע תאריך קבוע לזמינות כללית של Spark 3.0. אתה יכול להוריד גרסאות תצוגה מקדימה מאתר פרויקט Apache Spark.