מהם זיוף עמוק? AI שמתעתע

זיוף עמוק הם מדיה - לעתים קרובות וידיאו אך לעיתים שמע - שנוצרו, שונו או סונתזו בעזרת למידה עמוקה כדי לנסות להוליך שולל כמה צופים או מאזינים להאמין לאירוע כוזב או למסר כוזב.

הדוגמה המקורית של זיוף עמוק (על ידי משתמש reddit / u / מזויף עמוק) החליפה את פניה של שחקנית על גופה של שחקנית פורנו בסרטון וידאו - שהיה כמובן לא מוסרי לחלוטין, אם כי לא היה חוקי בתחילה. זיופים עמוקים אחרים שינו את מה שאנשים מפורסמים אמרו, או את השפה שהם דיברו.

Deepfakes מרחיבים את הרעיון של קומפוזיטציה של סרטונים (או סרטים), שנעשה כבר עשרות שנים. מיומנויות וידאו משמעותיות, זמן וציוד נכנסים להרכבת וידאו; זיוף עמוק בווידיאו דורש הרבה פחות מיומנות, זמן (בהנחה שיש לכם מעבדים גרפיים) וציוד, אם כי לעתים קרובות הם לא משכנעים את המשקיפים הזהירים.

איך יוצרים זיוף עמוק

במקור, זיופים עמוקים הסתמכו על קודנים אוטומטיים, סוג של רשת עצבית ללא פיקוח, ורבים עדיין נוהגים לעשות זאת. יש אנשים ששכללו את הטכניקה הזו באמצעות רשתות GAN (רשתות יריבות גנריות). שיטות לימוד מכונה אחרות שימשו גם לזיוף עמוק, לעיתים בשילוב עם שיטות למידה שאינן מכונה, עם תוצאות שונות.

קידוד אוטומטי

בעיקרו של דבר, קודנים אוטומטיים לפנים מזויפות עמוקות בתמונות מנהלים תהליך דו-שלבי. שלב ראשון הוא להשתמש ברשת עצבית כדי לחלץ פנים מתמונת מקור ולקודד אותם לסט של תכונות ואולי מסכה, בדרך כלל תוך שימוש בכמה שכבות פיתול דו ממדיות, כמה שכבות צפופות ושכבת softmax. שלב שני הוא להשתמש ברשת עצבית אחרת כדי לפענח את התכונות, להגדיל את הפנים שנוצרו, לסובב ולגדול את הפנים לפי הצורך ולהחיל את הפנים המוגדלות על תמונה אחרת.

אימון מקודד אוטומטי ליצירת פנים מזויפות עמוקות דורש הרבה תמונות של מקור המקור ופני היעד ממספר נקודות מבט ובתנאי תאורה מגוונים. ללא GPU, האימון יכול להימשך שבועות. עם GPUs זה הולך הרבה יותר מהר.

GANs

רשתות יריבות גנריות יכולות לחדד את התוצאות של קודנים אוטומטיים, למשל, על ידי העמדת שתי רשתות עצביות זו בזו. הרשת הגנראית מנסה ליצור דוגמאות בעלות נתונים סטטיסטיים זהים למקור, ואילו הרשת המפלה מנסה לאתר חריגות מהפצת הנתונים המקורית.

אימון GANs הוא טכניקת איטרציה גוזלת זמן המגדילה מאוד את העלות בזמן חישוב לעומת קודנים אוטומטיים. נכון לעכשיו, GANs מתאימים יותר ליצירת מסגרות תמונה ריאליסטיות של אנשים דמיוניים (למשל StyleGAN) מאשר ליצירת קטעי וידאו מזויפים עמוקים. זה יכול להשתנות כאשר חומרת הלמידה העמוקה הופכת למהירה יותר.

איך לזהות זיוף עמוק

בתחילת 2020, קונסורציום של AWS, פייסבוק, מיקרוסופט, השותפות בוועדת ההיגוי של תקשורת המדיניות של AI, ואנשי אקדמיה בנו את אתגר ה- Deepfake Detection (DFDC), שרץ על Kaggle במשך ארבעה חודשים.

התחרות כללה שני פתרונות אב-טיפוס מתועדים היטב: מבוא וערכת התחלה. לפיתרון המנצח, של סלים ספרבקוב, יש כתיבה טובה למדי.

פרטי הפתרונות יביאו את עיניך לחצות אם אינך מתעסק ברשתות עצביות עמוקות ובעיבוד תמונה. בעיקרו של דבר, הפתרון המנצח אכן זיהוי פנים מסגרת אחר מסגרת וחילוץ מסכות אינדקס של SSIM (Structural Similarity). התוכנה חילצה את הפרצופים שזוהו בתוספת מרווח של 30 אחוזים, והשתמשה ב- EfficientNet B7 שהוכשרה מראש ב- ImageNet לצורך קידוד (סיווג). הפיתרון הוא כעת קוד פתוח.

למרבה הצער, אפילו הפיתרון המנצח יכול היה לתפוס רק כשני שלישים מהזיופים העמוקים במאגר הבדיקות DFDC.

יישומי יצירת וגילוי מזויפים עמוקים

אחד היישומים הטובים ביותר ליצירת זיוף עמוק בווידיאו בקוד פתוח הוא נכון להיום Faceswap, הבונה על האלגוריתם המקורי של זיוף עמוק. זה לקח לסופר ארס טכניקה טים לי שבועיים, באמצעות Faceswap, ליצור זיוף עמוק שהחליף את פניו של סגן מפקד דאטה (ברנט ספינר) מ"מסע  בין כוכבים: הדור הבא " לסרטון של מארק צוקרברג שמעיד לפני הקונגרס. כפי שאופייני לזייפות עמוקות, התוצאה אינה עוברת את מבחן הרחרח עבור אנשים עם תחכום גרפי משמעותי. אז המצב הטכנולוגי של זיוף עמוק עדיין לא טוב במיוחד, למעט חריגים נדירים שתלויים יותר במיומנות של "האמן" מאשר בטכנולוגיה.

זה קצת מנחם, בהתחשב בכך שגם פתרון הזיהוי DFDC המנצח אינו טוב במיוחד. בינתיים, הודיעה מיקרוסופט, אך לא פרסמה נכון לכתיבת שורות אלה, Microsoft Video Authenticator. מיקרוסופט אומרת כי מאמת הווידאו יכול לנתח תמונה או סרטון סטילס בכדי לספק סיכוי באחוזים, או ציון ביטחון, שהתקשורת מנוהלת באופן מלאכותי.

מאמת הווידיאו נבדק מול מערך הנתונים של DFDC; מיקרוסופט עדיין לא דיווחה כמה זה טוב יותר מפתרון Kaggle הזוכה של ספרבקוב. זה יהיה אופייני לחסות תחרות AI לבנות ולהשתפר בפתרונות הזוכים מהתחרות.

פייסבוק מבטיחה גם גלאי זיוף עמוק, אך מתכננת לשמור על קוד המקור סגור. בעיה אחת בגלאי זיוף עמוק ממקור פתוח כמו של ספרבקוב היא שמפתחי דור הזיוף העמוק יכולים להשתמש בגלאי כמפלה ב- GAN כדי להבטיח שהזייף יעבור את הגלאי הזה, ובסופו של דבר יתדלק מירוץ חימוש AI בין גנרטורים מזויפים עמוקים לגלאי זיוף עמוק.

בחזית האודיו, OverDub של Descript ו- VoCo המופגן אך שעדיין לא פורסם של אדובי יכולים להפוך טקסט לדיבור קרוב למציאותי. אתה מאמן את Overdub במשך כ -10 דקות ליצירת גרסה סינתטית של הקול שלך; לאחר הכשרה, אתה יכול לערוך את הקוליות שלך כטקסט.

טכנולוגיה קשורה היא Google WaveNet. קולות מסונתזים של WaveNet מציאותיים יותר מקולות טקסט לדיבור סטנדרטיים, אם כי לא ממש ברמה של קולות טבעיים, על פי הבדיקה של גוגל עצמה. שמעת קולות WaveNet אם השתמשת לאחרונה בפלט קולי של Google Assistant, חיפוש Google או Google Translate.

זיופים עמוקים ופורנוגרפיה ללא הסכמה

כפי שציינתי קודם, הזיוף העמוק המקורי החליף את פניה של שחקנית על גופה של שחקנית פורנו בסרטון. Reddit אסרה מאז את תת-ה- Reddit / r / deepfake שאירח זיופים עמוקים פורנוגרפיים אחרים, מכיוון שרוב התוכן היה פורנוגרפיה שאינה מוסכמת, שכעת היא לא חוקית, לפחות בחלק מהשיפוטים.

תת-Reddit נוסף עבור זיופים עמוקים שאינם פורנוגרפיים עדיין קיים ב- / r / SFWdeepfakes. אמנם תושבי אותה תת-רדיט טוענים שהם עושים עבודה טובה, אך תצטרכו לשפוט בעצמכם האם, למשל, לראות את פניו של ג'ו ביידן המזויפות קשות בגופו של רוד סרלינג יש ערך כלשהו - והאם לכל אחד מהזיות העמוקות שם עוברים מבחן הרחרח לאמינות. לדעתי, יש שמתקרבים למכור את עצמם כאמיתיים; ניתן לתאר את הצדקה כגס.

איסור / r / זיוף עמוק אינו מבטל, כמובן, פורנוגרפיה שלא בהסכמה, אשר עשויה להיות בעלת מספר מוטיבציות, כולל פורנו נקמה, שהוא עצמו פשע בארה"ב. אתרים אחרים שאסרו על זיוף עמוק שלא בהסכמה כוללים Gfycat, Twitter, Discord, Google ו- Pornhub, ולבסוף (אחרי גרירת רגליים רבות) פייסבוק ואינסטגרם.

בקליפורניה לאנשים שממוקדים על ידי תוכן מזויף עמוק מפורש שנעשו ללא הסכמתם יש עילה לתביעה נגד יוצר התוכן. גם בקליפורניה, חל איסור על הפצתם של מדיה אודיו חזותית מזויפת או מזויפת המכוונת למועמד המתמודד לכהונה ציבורית. סין מחייבת שתייגו זיופים עמוקים בבירור ככאלה.

זיופים עמוקים בפוליטיקה

בתחומי שיפוט רבים אחרים אין חוקים נגד זיוף עמוק פוליטי. זה יכול להיות מטריד, במיוחד כאשר זיופים עמוקים איכותיים של דמויות פוליטיות הופכים אותו להפצה רחבה. האם זיוף עמוק של ננסי פלוסי היה גרוע יותר מהסרטון המואט באופן קונבנציונאלי של פלוסי שהופעל על מנת להישמע כאילו היא מטשטשת את דבריה? זה יכול להיות, אם ייוצר היטב. לדוגמא, ראו סרטון זה מ- CNN, המתרכז בזיופים עמוקים הרלוונטיים לקמפיין לנשיאות 2020.

זיוף עמוק כתירוצים

"זה זיוף עמוק" הוא גם תירוץ אפשרי לפוליטיקאים שהסרטונים האמיתיים והמביכים שלהם דלפו החוצה. זה קרה לאחרונה (או לכאורה קרה) במלזיה כאשר קלטת מין הומוסקסית הודחה כזיוף עמוק על ידי השר לענייני כלכלה, למרות שהאיש האחר שהוצג בקלטת נשבע שזה אמיתי.

מצד שני, הפצתו של זיוף עמוק חובבני ככל הנראה של הנשיא החולה עלי בונגו מגבון הייתה גורם תורם להפיכה צבאית שלאחר מכן נגד בונגו. הסרטון המזויף העמוק הטיף את הצבא שמשהו לא בסדר, אפילו יותר מהיעדרותו הממושכת של בונגו מהתקשורת.

דוגמאות עמוקות יותר

סרטון וידאו מזויף עמוק אחרון של אול סטאר , הקלאסיקה של Smash Mouth משנת 1999, הוא דוגמה לתמרון וידאו (במקרה זה, מאשופ מסרטים פופולריים) לסינכרון שפתיים מזויף. היוצר, משתמש YouTube ontyj, מציין שהוא "נסחף לבדיקת wav2lip ועכשיו זה קיים ..." זה משעשע, אם כי לא משכנע. עם זאת, זה מדגים עד כמה תנועת שפתיים מזויפת קיבלה יותר. לפני כמה שנים, תנועת שפתיים לא טבעית הייתה בדרך כלל בגידה מתה של סרטון מזויף.

זה היה יכול להיות גרוע יותר. תסתכל בסרטון המזויף העמוק הזה של הנשיא אובמה כיעד וירדן פיל כמנהג. עכשיו דמיין שזה לא כלל שום הקשר שחשף אותו כמזויף וכלל קריאה תבערה לפעולה.

אתה עדיין מבועת?

קרא עוד על למידת מכונה ולמידה עמוקה:

  • למידה עמוקה מול למידת מכונה: להבין את ההבדלים
  • מהי למידת מכונה? מודיעין שמקורו בנתונים
  • מהי למידה עמוקה? אלגוריתמים המדמים את המוח האנושי
  • הסבירו אלגוריתמים של למידת מכונה
  • הסבר על למידת מכונה אוטומטית או AutoML
  • הסביר למידה מפוקחת
  • הסבר על למידה מפוקחת למחצה
  • הסבר על למידה ללא פיקוח
  • הסבר על למידת חיזוק
  • מהי ראיית מחשב? AI לתמונות ווידאו
  • מהי זיהוי פנים? AI לאח הגדול
  • מהו עיבוד שפה טבעית? AI לדיבור וטקסט
  • Kaggle: איפה שמדעני נתונים לומדים ומתחרים
  • מה זה CUDA? עיבוד מקביל עבור GPUs