מהי ראיית מחשב? AI לתמונות ווידאו

ראיית מחשב מזהה ולעתים קרובות מאתרת עצמים בתמונות ובסרטונים דיגיטליים. מאז שאורגניזמים חיים מעבדים תמונות עם קליפת המוח החזותית שלהם, חוקרים רבים לקחו את הארכיטקטורה של קליפת המוח החזותית של היונקים כמודל לרשתות עצביות שנועדו לבצע זיהוי תמונה. המחקר הביולוגי חוזר לשנות החמישים.

ההתקדמות בראיית המחשב בעשרים השנים האחרונות הייתה מדהימה לחלוטין. אמנם עדיין לא מושלמות, אך מערכות ראיית מחשב מסוימות משיגות דיוק של 99%, ואחרות פועלות בצורה הגונה במכשירים ניידים.

פריצת הדרך בתחום הרשת העצבית עבור חזון הייתה יאן LeCun של 1998 LeNet-5, שבע ברמת רשת עצבית קונבולוציה להכרה של ספרות בכתב יד דיגיטציה ב 32x32 תמונות פיקסל. כדי לנתח תמונות ברזולוציה גבוהה יותר, יהיה צורך להרחיב את רשת LeNet-5 ליותר נוירונים ויותר שכבות.

המודלים הטובים ביותר כיום לסיווג תמונות יכולים לזהות קטלוגים מגוונים של אובייקטים ברזולוציית HD בצבע. בנוסף לרשתות עצביות עמוקות טהורות (DNNs), אנשים משתמשים לפעמים במודלים של ראייה היברידית, המשלבים למידה עמוקה עם אלגוריתמי לימוד מכונה קלאסיים המבצעים משימות משנה ספציפיות.

בעיות ראייה אחרות מלבד סיווג תמונות בסיסי נפתרו בלמידה מעמיקה, כולל סיווג תמונות עם לוקליזציה, זיהוי אובייקטים, פילוח אובייקטים, העברת סגנון תמונה, צבעי תמונה, שחזור תמונה, רזולוציית-על תמונה וסינתזת תמונה.

איך ראיית מחשב עובדת?

אלגוריתמים של ראיית מחשב מסתמכים בדרך כלל על רשתות עצביות קונבולוציות או CNN. רשתות CNN בדרך כלל משתמשות בשכבות עוויתות, מאגדים, ReLU, מחוברות באופן מלא ואובדן כדי לדמות קליפה חזותית.

שכבת העיבוי בעצם לוקחת את האינטגרלים של הרבה אזורים חופפים קטנים. שכבת הבריכה מבצעת סוג של דגימת למטה לא ליניארית. שכבות ReLU מיישמות את פונקציית ההפעלה שאינה רוויה f (x) = מקסימום (0, x) .

בשכבה מחוברת לחלוטין, יש לנוירונים קשרים לכל ההפעלות בשכבה הקודמת. שכבת אובדן מחשבת כיצד אימון הרשת מעניש את הסטייה בין התוויות החזויות לאמיתיות, באמצעות אובדן Softmax או צולב אנטרופיה לצורך סיווג.

מערכי נתונים להכשרת ראייה ממוחשבת

ישנם מערכי נתונים ציבוריים רבים אשר שימושיים לאימון מודלים של חזון. הפשוטה ביותר, ואחת העתיקות ביותר, היא MNIST, המכילה 70,000 ספרות בכתב יד ב -10 כיתות, 60K להכשרה ו -10K לבדיקה. MNIST הוא מערך נתונים קל למודל, אפילו באמצעות מחשב נייד ללא חומרת תאוצה. CIFAR-10 ו- Fashion-MNIST הם מערכי נתונים דומים של 10 סוגים. SVHN (מספרי בתים עם תצוגת רחוב) הוא קבוצה של 600K תמונות של מספרי בתים בעולם האמיתי שחולצו מ- Google Street View.

COCO הוא מערך נתונים בקנה מידה גדול יותר לזיהוי אובייקטים, פילוח וכיתוב, עם 330K תמונות ב -80 קטגוריות אובייקטים. ImageNet מכיל כ -1.5 מיליון תמונות עם תיבות ותוויות תוחמים, הממחישות כ -100,000 ביטויים מ- WordNet. תמונות פתוחות מכילות כתשעה מיליון כתובות אתרים לתמונות, עם כ -5,000 תוויות.

ל- Google, Azure ו- AWS יש מודלים חזון משלהם שהוכשרו כנגד מאגרי תמונות גדולים מאוד. אתה יכול להשתמש באלו כפי שהוא, או להפעיל למידת העברה כדי להתאים מודלים אלה למערכי נתוני התמונה שלך. ניתן גם לבצע למידת העברה באמצעות מודלים המבוססים על ImageNet ותמונות Open. היתרונות של למידת העברה על פני בניית מודל מאפס הם שהוא הרבה יותר מהיר (שעות ולא שבועות) ושהוא נותן לך מודל מדויק יותר. עדיין תזדקק ל -1,000 תמונות לכל תווית לקבלת התוצאות הטובות ביותר, אם כי לעיתים תוכל לברוח עם פחות מ -10 תמונות לכל תווית.

יישומי ראיית מחשב

אמנם ראיית המחשב אינה מושלמת, אך לעתים קרובות היא טובה מספיק כדי להיות מעשית. דוגמה טובה היא חזון ברכב עם נהיגה עצמית.

Waymo, לשעבר פרויקט המכונית העצמית של גוגל, טוען לבדיקות על שבעה מיליון קילומטרים של כבישים ציבוריים ועל היכולת לנווט בבטחה בתנועה היומית. הייתה לפחות תאונה אחת בה מעורב טנדר Waymo; לדברי המשטרה, לא האמינו שהתוכנה אשם.

לטסלה שלושה דגמים של מכונית בנהיגה עצמית. בשנת 2018 רכב שטח של טסלה במצב נהיגה עצמית היה מעורב בתאונה קטלנית. בדיווח על התאונה נאמר כי לנהג (שנהרג) היו ידיו מההגה למרות אזהרות מרובות מהקונסולה, וכי לא הנהג וגם התוכנה לא ניסו לבלום כדי למנוע פגיעה במחסום הבטון. התוכנה שודרגה מאז כך שהיא דורשת ולא מציעה שידיו של הנהג יהיו על ההגה.

חנויות של אמזון גו הינן חנויות קמעונאיות בשירות עצמי בהן מערכת הראייה הממוחשבת בחנות מגלה מתי הקונים קולטים או מחזירים פריטי מלאי; קונים מזוהים על ידי חיובים באמצעות אפליקציית Android או iPhone. כאשר תוכנת Amazon Go מפספסת פריט, הקונה יכול לשמור אותו בחינם; כאשר התוכנה רושמת כוזב פריט שנלקח, הקונה יכול לסמן את הפריט ולקבל החזר בגין חיוב זה.

בתחום הבריאות יש יישומי ראייה לסיווג תכונות מסוימות בשקופיות פתולוגיות, צילומי רנטגן בחזה ומערכות הדמיה רפואיות אחרות. כמה מהם הוכיחו ערך בהשוואה לעוסקים אנושיים מיומנים, חלקם מספיקים לאישור רגולטורי. יש גם מערכת בזמן אמת להערכת אובדן דם של המטופל בחדר ניתוח או לידה.

יש יישומי ראייה שימושיים לחקלאות (רובוטים חקלאיים, ניטור יבולים וקרקעות וניתוח ניבוי), בנקאות (גילוי הונאה, אימות מסמכים והפקדות מרוחקות) וניטור תעשייתי (בארות מרוחקות, אבטחה באתר ופעילות עבודה).

ישנם גם יישומים של ראיית מחשב שנוי במחלוקת או אפילו הוצא משימוש. האחת היא זיהוי פנים, שכאשר משתמשים בה על ידי הממשלה יכולה להיות פגיעה בפרטיות, ולעתים קרובות יש לה הטיה בהכשרה שנוטה לזהות לא נכון פנים שאינן לבנות. דבר אחר הוא דור מזויף עמוק, שהוא יותר ממעט מצמרר כאשר משתמשים בו לפורנוגרפיה או ליצירת מתיחות ותמונות רמאות אחרות.

מסגרות ומודלים של ראיית מחשב

למסגרות הלמידה העמוקה ביותר יש תמיכה משמעותית בראיית המחשב, כולל מסגרות מבוססות פייתון TensorFlow (הבחירה המובילה לייצור), PyTorch (הבחירה המובילה למחקר אקדמי) ו- MXNet (מסגרת הבחירה של אמזון). OpenCV היא ספרייה מיוחדת לראיית מחשב אשר נוטה ליישומי ראייה בזמן אמת ומנצלת את הוראות MMX ו- SSE כאשר הן זמינות; יש לו גם תמיכה בהאצה באמצעות CUDA, OpenCL, OpenGL ו- Vulkan.

Amazon Recognition הוא שירות ניתוח תמונות ווידאו שיכול לזהות אובייקטים, אנשים, טקסט, סצנות ופעילויות, כולל ניתוח פנים ותוויות מותאמות אישית. ממשק ה- API של Google Cloud Vision הוא שירות ניתוח תמונות מאומן שיכול לזהות אובייקטים ופנים, לקרוא טקסט מודפס וכתב יד ולבנות מטא נתונים בקטלוג התמונות שלך. Google AutoML Vision מאפשר לך להכשיר דגמי תמונות מותאמים אישית. הן תוויות ההכרה המותאמות של אמזון והן Google AutoML Vision מבצעות למידה בהעברה.

ה- Microsoft Computer Vision API יכול לזהות אובייקטים מקטלוג של 10,000, עם תוויות ב -25 שפות. הוא גם מחזיר תיבות הגבלה לאובייקטים מזוהים. ה- API של Azure Face מבצע זיהוי פנים שתופס פנים ותכונות בתמונה, זיהוי אדם התואם לאדם במאגר הפרטי שלך של עד מיליון איש, וזיהוי רגש נתפס. ה- API של Face Face יכול לפעול בענן או בקצה במיכלים.

זיהוי חזותי של IBM Watson יכול לסווג תמונות ממודל שהוכשר מראש, לאפשר לך להכשיר דגמי תמונות מותאמים אישית עם למידת העברה, לבצע איתור אובייקטים עם ספירת עצמים ולהתאמן לבדיקה חזותית. זיהוי חזותי של ווטסון יכול לפעול בענן, או במכשירי iOS באמצעות Core ML.

חבילת ניתוח הנתונים Matlab יכולה לבצע זיהוי תמונות באמצעות למידת מכונה ולמידה עמוקה. יש לו ארגז כלים ראיית מחשב אופציונלי והוא יכול להשתלב עם OpenCV.

מודלים לראיית מחשב עברו דרך ארוכה מאז LeNet-5, והם בעיקר CNN. דוגמאות לכך כוללות את AlexNet (2012), VGG16 / OxfordNet (2014), GoogLeNet / InceptionV1 (2014), Resnet50 (2015), InceptionV3 (2016) ו- MobileNet (2017-2018). משפחת רשתות העצב הראייה של MobileNet תוכננה עם מחשבים ניידים.

[גם ב: Kaggle: איפה שמדעני נתונים לומדים ומתחרים]

מסגרת החזון של אפל מבצעת איתור נקודות ציון פנים ופנים, זיהוי טקסט, זיהוי ברקוד, רישום תמונות ומעקב אחר תכונות כלליות. Vision מאפשר גם להשתמש במודלי Core ML מותאמים אישית למשימות כמו סיווג או זיהוי אובייקטים. זה פועל על iOS ו- MacOS. ל- SD של ערכת ML ML יש יכולות דומות, והיא פועלת במכשירי Android ו- iOS. ערכת ML תומכת בנוסף בממשקי API של שפה טבעית.

כפי שראינו, מערכות ראיית מחשב הפכו טובות מספיק כדי להיות שימושיות, ובמקרים מסוימים מדויקות יותר מהראייה האנושית. באמצעות למידת העברה, התאמה אישית של מודלים לראייה הפכה להיות מעשית עבור בני תמותה בלבד: ראיית מחשב אינה עוד נחלתם הבלעדית של חוקרים ברמת הדוקטורט.

קרא עוד על למידת מכונה ולמידה עמוקה:

  • למידה עמוקה מול למידת מכונה: להבין את ההבדלים
  • מהי למידת מכונה? מודיעין שמקורו בנתונים
  • מהי למידה עמוקה? אלגוריתמים המדמים את המוח האנושי
  • הסבירו אלגוריתמים של למידת מכונה
  • מהו עיבוד שפה טבעית? AI לדיבור וטקסט
  • הסבר על למידת מכונה אוטומטית או AutoML
  • הסביר למידה מפוקחת
  • הסבר על למידה מפוקחת למחצה
  • הסבר על למידה ללא פיקוח
  • הסבר על למידת חיזוק
  • Kaggle: איפה שמדעני נתונים לומדים ומתחרים
  • מה זה CUDA? עיבוד מקביל עבור GPUs

קרא ביקורות על למידה מכונה ולמידה עמוקה:

  • כיצד לבחור פלטפורמת למידת מכונות ענן
  • Deeplearning4j: למידה עמוקה ו- ETL עבור ה- JVM
  • סקירה: אמזון סייגמייקר מנגנת
  • סקירת TensorFlow 2: למידת מכונה קלה יותר
  • סקירה: Google Cloud AutoML הוא למידת מכונה אוטומטית באמת
  • סקירה: למידה עמוקה של MXNet זורחת עם Gluon
  • סקירת PyTorch: מסגרת למידה עמוקה שנבנתה למהירות
  • סקירה: קרס מפליגה בלימוד עמוק