סקירה: Google Cloud AutoML הוא למידת מכונה אוטומטית באמת

כשאתה מנסה להכשיר את מודל הלמידה החישובית הטובה ביותר עבור הנתונים שלך באופן אוטומטי, יש AutoML, או למידת מכונה אוטומטית, ואז יש Google Cloud AutoML. Google Cloud AutoML הוא קטע מעל. 

בעבר סקרתי את H2O AI Driverless, Amazon SageMaker ו- Azure Machine Learning AutoML. AI ללא נהג מבצע אוטומטית כוונון תכונות וכוונון היפר-פרמטר, וטוען כי הוא מבצע כמו גם מאסטרים של Kaggle. Amazon SageMaker תומך באופטימיזציה של היפר-פרמטר. Azure Machine Learning AutoML גורף באופן אוטומטי תכונות, אלגוריתמים והיפרפרמטרים עבור אלגוריתמים בסיסיים של למידת מכונה; מתקן כוונון היפר-פרמטר של Azure Machine Learning מאפשר לך לטאטא היפר-פרמטרים ספציפיים לניסוי קיים.

אלה טובים, אך Google Cloud AutoML עובר לרמה אחרת לגמרי ומתאים אישית את רשתות העצבים העמוקות שנבדקו בקרב Google ודיוק גבוהות עבור הנתונים המתויגים שלך. במקום להתחיל מאפס בעת אימון מודלים מהנתונים שלך, Google Cloud AutoML מיישם למידה אוטומטית של העברה עמוקה (כלומר, זה מתחיל מרשת עצבים עמוקה קיימת שהוכשרה על נתונים אחרים) וחיפוש אדריכלות עצבי (כלומר, הוא מוצא את השילוב הנכון של תוספת שכבות רשת) לתרגום זוגי שפות, סיווג שפות טבעיות וסיווג תמונות.

בכל אזור, לגוגל כבר יש שירות אחד או יותר שהוכשר מראש המבוסס על רשתות עצביות עמוקות וסטים ענקיים של נתונים שכותרתו. אלה עשויים בהחלט לעבוד עבור הנתונים שלך ללא שינוי, ועליך לבדוק זאת כדי לחסוך לעצמך זמן וכסף. אם שירותים אלה לא עושים את מה שאתה צריך, Google Cloud AutoML עוזר לך ליצור מודל שעושה זאת, מבלי לדרוש שתדע כיצד לבצע למידה בהעברה או אפילו כיצד ליצור רשתות עצביות.

למידת העברה מציעה שני יתרונות גדולים על פני הכשרת רשת עצבית מאפס. ראשית, זה דורש הרבה פחות נתונים להכשרה, מכיוון שרוב שכבות הרשת כבר מאומנות היטב. שנית, הוא פועל הרבה יותר מהר, מכיוון שהוא רק מייעל את השכבות הסופיות.

תרגום של Google Cloud AutoML

כך, למשל, תוכלו להתאמן כ -1,000 זוגות משפטים בשתי שפות תוך שעה-שעתיים באמצעות לימוד העברת תרגום של Google Cloud AutoML. הרשת העצבית הבסיסית המותאמת אישית, NMT, לקחה מאות עד אלפי שעות להתאמן מאפס עבור כל זוג שפות, במספר גדול של מעבדים ו- GPU. שימו לב כי התשלום לפי שעה להכשרת מודל תרגום מותאם אישית הוא כרגע 76 דולר.

המדריך למתחילים בתרגום AutoML מסביר את היסודות מה תרגום AutoML של Google Cloud יכול לעשות, ומדוע תשתמש בו. בעיקרו של דבר, הוא משכלל מודל תרגום כללי קיים למטרת נישה. אתה לא צריך לעשות שום הכשרה כללית התרגום של מאות או כך בשפות שבהן תומך כבר גוגל, אבל היית צריך להפעיל את הלמידה ההעברה אם אתה רוצה ליצור רשת התרגום המקצועית אוצר מילים או השימוש. דוגמה אחת שמזכירה גוגל היא תרגום מסמכים פיננסיים הרגישים לזמן בזמן אמת. תרגום למטרות כלליות לא תמיד ישתמש במונחי האמנות הנכונים למימון.

 הגדרת ההדרכה לתרגום Google Cloud AutoML היא תהליך בן חמישה שלבים, כפי שמוצג בצילומי המסך למטה, לאחר שהכנת קובץ עם זוגות משפטים. השתמשתי ב -8,720 הזוגות האנגלית-ספרדית להנחיות לאפליקציה שסופקו על ידי Google בהפעלה המהירה של תרגום AutoML, מעוצבת כקובץ ערכים המופרד בין כרטיסיות. תרגום AutoML של Google Cloud תומך גם בפורמט eXchange מבוסס זיכרון תרגום מבוסס XML (TMX) עבור זוגות משפטים.

שימו לב כי אין אפשרות לשלוט בחומרה (מעבדים, GPU, TPU וזיכרון) המשמשים לביצוע ההדרכה. זה מכוון: ההדרכה תשתמש במה שהיא צריכה. אין גם אפשרויות לשלוט בשכבות הרשת העצבית שמתווספות למודל, במספר התקופות שרוצים להפעיל או בקריטריונים לעצור.

לאחר סיום אימון המודל, תוכלו לראות את השיפור (אם הכל מסתדר כשורה) בציון ה- BLEU ביחס למודל הבסיס, ולנסות לחזות עם המודל. הכשרה זו ארכה 0.9 שעות (פחות מהנחזה) ועלתה 68.34 $.

Google Cloud AutoML שפה טבעית

ממשק ה- API של שפה טבעית של גוגל לוקח טקסט וחוזה ישויות, סנטימנט, תחביר וקטגוריות (מרשימה מוגדרת מראש). אם בעיית סיווג הטקסט שלך אינה מתאימה לאף אחת מאלה, תוכל לספק קבוצה של תביעות שכותרתו ולהשתמש ב- Google Cloud AutoML שפה טבעית ליצירת מסווג מותאם אישית.

כדי להגדיר שפה טבעית של AutoML לאימון, עליך למקור את הנתונים שלך, לתייג אותם, להכין אותם כקובץ CSV ולהפעיל את ההדרכה. תוכל גם להשתמש בממשק המשתמש של AutoML Natural Language כדי להעלות ולתייג את הנתונים אם אתה מעדיף.

לאחר סיום אימון המודל, תוכל להציג את מטריצת הדיוק, ההיזכרות והבלבול של המודל. אתה יכול גם להתאים את סף הניקוד לדיוק / זיכרון הרצוי. כדי למזער שליליות כוזבות, אופטימיזציה לזכירה. כדי למזער תוצאות חיוביות שגויות, אופטימיזציה לדיוק.

הכשרה זו ארכה 3.63 שעות (בערך כצפוי) ועלתה 10.88 דולר.

חזון AutoML של גוגל

ממשק ה- API של Google Cloud Vision מסווג תמונות לאלפי קטגוריות שהוגדרו מראש, מזהה אובייקטים ופנים בודדים בתוך תמונות, ומוצא וקורא מילים מודפסות הכלולות בתמונות. Google Cloud AutoML Vision מאפשר לך להגדיר ולהכשיר רשימת קטגוריות משלך. כמה יישומים בחיים האמיתיים כוללים איתור נזקים בטורבינות רוח מתמונות מזל"ט, וסיווג ממחזרים לניהול פסולת.

כדי להגדיר מערכת נתונים של Google Cloud AutoML Vision עליך למקם לפחות 100 תמונות לכל קטגוריה ולתייג אותן בקובץ CSV. כל התמונות וקובץ ה- CSV צריכים להיות בתוך דלי אחסון בענן של Google.

הגדרתי את האימון הזה לרוץ למשך שעה מקסימלית, וזה חינם עד 10 דגמים בחודש. הופתעתי לטובה לראות תוצאות טובות מהאימון החינמי, ולא טרחתי להמשיך באימונים כדי לשפר את הדיוק והזכירה.

Google Cloud AutoML מספק אפשרויות נוחות לביצוע תרגומים ממוקדים, סיווג טקסט מותאם אישית וסיווג תמונות מותאם אישית. כל אחד מממשקי ה- API הללו עובד טוב אם אתה נותן לו מספיק נתונים עם תווית מדויקת, ולוקח הרבה פחות זמן ומיומנות מאשר לבנות מודל רשת עצבי משלך או אפילו מודל למידת העברה משלך. בעזרת Google Cloud AutoML אתה למעשה יוצר מודלים של TensorFlow, מבלי לדעת בהכרח דבר על TensorFlow, Python, ארכיטקטורות רשת עצביות או חומרת הדרכה.

ישנן המון דרכים לטעות בהכנת הנתונים, אך למרבה המזל שלושת ה- APIs כולם בודקים את השגיאות הנפוצות ביותר, כגון שיש מעט מדי או יותר מדי דוגמאות לכל קטגוריה. האבחון המוצג לאחר האימון נותן לך מושג על מידת פעולתו של המודל שלך, ותוכל בקלות לשנות את המודלים על ידי הוספת נתוני אימון שכותרתו והפעלת האימון מחדש.

-

עלות: תרגום של Google Cloud AutoML: הכשרה עולה 76.00 דולר לשעה, תרגום 80 דולר למיליון תווים לאחר 500 אלף הראשונים. Google Cloud AutoML שפה טבעית: הכשרה עולה $ 3.00 לשעה, סיווג 5 $ לאלף רשומות טקסט לאחר 30 אלף הראשונים. חזון Google Cloud AutoML: עלות אימונים 20 $ לשעה לאחר השעה הראשונה, סיווג 3 $ לאלף תמונות לאחר האלף הראשון. 

פלטפורמה: פלטפורמת הענן של גוגל