הסבר על למידה מפוקחת למחצה

במכתב מבעלי המניות שלו באמזון לשנת 2017, ג'ף בזוס כתב משהו מעניין על Alexa, העוזרת החכמה מונעת הקול של אמזון:

בארה"ב, בריטניה וגרמניה שיפרנו את הבנת השפה המדוברת של Alexa ביותר מ -25% במהלך 12 החודשים האחרונים באמצעות שיפורים ברכיבי הלמידה המכונה של Alexa ובשימוש בטכניקות למידה חצי מפוקחות. (טכניקות הלמידה המפוקחות למחצה אלה הפחיתו את כמות הנתונים המתויגים הדרושה להשגת אותו שיפור דיוק פי 40!)

בהתחשב בתוצאות אלה, יכול להיות מעניין לנסות למידה מפוקחת למחצה על בעיות הסיווג שלנו. אך מהי למידה מפוקחת למחצה? מהם היתרונות והחסרונות שלה? איך נוכל להשתמש בו?

מהי למידה מפוקחת למחצה?

כפי שניתן היה לצפות מהשם, למידה מפוקחת למחצה היא ביניים בין למידה מפוקחת ללמידה ללא פיקוח. למידה מפוקחת מתחילה בנתוני אימונים שמתויגים בתשובות הנכונות (ערכי יעד). לאחר תהליך הלמידה, אתה מסיים עם מודל עם סט משקולות מכוון, שיכול לחזות תשובות לנתונים דומים שטרם תויגו.

למידה מפוקחת למחצה משתמשת בנתונים מתויגים ונתונים לא מתויגים כדי להתאים למודל. במקרים מסוימים, כמו למשל של Alexa, הוספת הנתונים הלא מתויגים משפרת למעשה את דיוק המודל. במקרים אחרים, הנתונים הלא מתויגים יכולים להחמיר את המודל; לאלגוריתמים שונים יש פגיעות למאפייני נתונים שונים, כפי שאראה בהמשך.

באופן כללי, תיוג נתונים עולה כסף ולוקח זמן. זה לא תמיד בעיה, מכיוון שבחלק ממערכי הנתונים כבר יש תגים. אבל אם יש לך הרבה נתונים, שרק חלקם מתויגים, הלמידה המפוקחת למחצה היא טכניקה טובה לנסות.

אלגוריתמי למידה מפוקחים למחצה

למידה מפוקחת למחצה נמשכת לפחות 15 שנים, אולי יותר; ג'רי ג'ו מאוניברסיטת ויסקונסין כתב סקר ספרות בשנת 2005. הלמידה בפיקוח למחצה חלה בשנים האחרונות התחדשות, לא רק באמזון, משום שהיא מפחיתה את שיעור השגיאות במדידות חשובות.

סבסטיאן רודר מ- DeepMind כתב פוסט בבלוג באפריל 2018 על כמה מאלגוריתמי הלמידה המפוקחים למחצה, אלה שיוצרים תוויות פרוקסי. אלה כוללים אימון עצמי, למידה מרובת השקפות והרכבה עצמית.

אימון עצמי משתמש בחיזויים של המודל עצמו על נתונים ללא תווית כדי להוסיף לערכת הנתונים שכותרתו. למעשה אתה מגדיר סף כלשהו לרמת הביטחון של חיזוי, לעתים קרובות 0.5 ומעלה, שמעליו אתה מאמין לחיזוי ומוסיף אותו לערכת הנתונים שכותרתו. אתה ממשיך להכשיר מחדש את המודל עד שלא יהיו יותר תחזיות הבטוחות.

זה מעלה את השאלה של המודל האמיתי שישמש לאימון. כמו ברוב הלמידה המכונה, אתה בטח רוצה לנסות כל מודל מועמד סביר בתקווה למצוא אחד שעובד טוב.

אימון עצמי זכה להצלחה מעורבת. הפגם הגדול ביותר הוא בכך שהמודל אינו מסוגל לתקן את הטעויות שלו: חיזוי אחד עם אמון גבוה (אך שגוי), למשל, חריג, יכול להשחית את המודל כולו.

הכשרה מרובת תצוגות מכשירה מודלים שונים על תצוגות שונות של הנתונים, אשר עשויים לכלול קבוצות תכונות שונות, ארכיטקטורות מודל שונות או קבוצות משנה שונות של הנתונים. ישנם מספר אלגוריתמי אימונים מרובי תצוגה, אך אחד הידועים ביותר הוא אימון תלת-ממדי. בעיקרון, אתה יוצר שלושה דגמים מגוונים; בכל פעם ששני מודלים מסכימים על התווית של נקודת נתונים, תווית זו מתווספת למודל השלישי. כמו באימון עצמי, אתה מפסיק כאשר לא מתווספות תוויות נוספות לאף אחד מהדגמים.

ההרכבה העצמית משתמשת בדרך כלל במודל יחיד עם מספר תצורות שונות. בשיטת רשת הסולם, החיזוי על דוגמה נקייה משמש כתווית proxy לדוגמא מופרעת באופן אקראי, במטרה לפתח תכונות חזקות לרעש.

ההדרכה של ג'רי ג'ו משנת 2007 שוקלת גם מספר אלגוריתמים אחרים. אלה כוללים מודלים גנרטיים (כגון אלה המניחים התפלגות גאוסית לכל מחלקה), מכונות וקטור תומכות מפוקחות למחצה ואלגוריתמים מבוססי גרפים.

למידה מפוקחת למחצה בענן

למידה מפוקחת למחצה עושה את דרכה לאט לאט לשירותי למידת מכונה מיינסטרים. לדוגמא, Amazon SageMaker Ground Truth משתמש באמזון מכני טורק לצורך תיוג ידני וקביעת גבולות של חלק ממערך התמונות ומשתמש באימון רשת עצבית כדי לתייג את שאר מערך התמונות.

ניתן להשתמש בתכניות למידה דומות של פיקוח למחצה לסוגים אחרים של למידה עם פיקוח למחצה, כולל עיבוד שפה טבעית, סיווג ורגרסיה במספר שירותים. עם זאת, יהיה עליך לכתוב קוד דבק משלך עבור האלגוריתם המפוקח למחצה על רובם.

-

קרא עוד על למידת מכונה: 

  • הסביר למידת מכונה
  • הסביר למידה עמוקה
  • הסביר עיבוד שפה טבעית
  • הסביר למידה מפוקחת
  • הסבר על למידה ללא פיקוח
  • הסבר על למידה מפוקחת למחצה
  • הסבר על למידת חיזוק
  • הסבר על למידת מכונה אוטומטית או AutoML
  • AI, למידת מכונה ולמידה עמוקה: כל מה שאתה צריך לדעת
  • המסגרות הטובות ביותר ללמידת מכונה ולמידה עמוקה
  • 6 דרכים לגרום למידת מכונה להיכשל
  • שיעורי למידה ממוחשבת: 5 חברות חולקות את הטעויות שלהן
  • תוכנת הקוד הפתוח הטובה ביותר ללימוד מכונה
  • חמש שפות התכנות הטובות ביותר לפיתוח AI