עיבוד תמונה וראייה ממוחשבת

אורן תדמור 04.05.2016 22:27
עיבוד תמונה וראייה ממוחשבת


בשנים האחרונות אנחנו עדים למהפכה של ממש בתחום הלמידה החישובית. מודלים מתמטיים המבוססים על האופן בו המוח מעבד מידע, נכנסים לשימוש ביותר ויותר תחומים. עיבוד תמונה, ראיה ממוחשבת, הבנה של טקסט וזיהוי דיבור, הם רק חלק קטן מהיישומים אשר מפגינים ביצועים חסרי תקדים בזכות מודלים מסוג זה. יותר ויותר בעיות שנחשבו קשות ואף לא פתירות על ידי מודלים מתמטיים גרידא, נפתרות ברמה שלעיתים אף עולה על סף היכולת האנושית. אחד ההישגים האחרונים שיצרו הדים רבים, אפילו בעיתונות הלא מדעית, הוא הנצחון של אלגוריתם הנקרא "AlphaGo" על אלוף העולם ב"גו" - משחק אשר מבחינה חישובית נחשב למסובך אלפי מונים יותר משח-מט.



בשנים האחרונות אנחנו עדים למהפכה של ממש בתחום הלמידה החישובית. מודלים מתמטיים המבוססים על האופן בו המוח מעבד מידע, נכנסים לשימוש ביותר ויותר תחומים. עיבוד תמונה, ראיה ממוחשבת, הבנה של טקסט וזיהוי דיבור, הם רק חלק קטן מהיישומים אשר מפגינים ביצועים חסרי תקדים בזכות מודלים מסוג זה. יותר ויותר בעיות שנחשבו קשות ואף לא פתירות על ידי מודלים מתמטיים גרידא, נפתרות ברמה שלעיתים אף עולה על סף היכולת האנושית. אחד ההישגים האחרונים שיצרו הדים רבים, אפילו בעיתונות הלא מדעית, הוא הנצחון של אלגוריתם הנקרא "AlphaGo" על אלוף העולם ב"גו" - משחק אשר מבחינה חישובית נחשב למסובך אלפי מונים יותר משח-מט. אז מה היא בעצם אותה טכנולוגיה? כיצד היא מאפשרת לחוקרים וחברות מסחריות להגיע ליכולות מרשימות שכאלה? ולמה, בעצם, רק עכשיו?
הטכנולוגיה הזו נקראת "למידה עמוקה" (Deep Learning), והיא מבוססת על "רשתות נוירונים" - מודלים מתמטיים שפותחו עוד בשנות ה50' המאוחרות, בהשראת תאוריות על האופן בו פועל המוח האנושי. רשתות הנוירונים מורכבות מגרף של "נוירונים מלאכותיים" - פונקציות לינאריות, המסוגלות לבצע משימות סיווג פשוטות. על-אף שבבסיס המודל עומדים מסווגים פשוטים, חיבורם לכדי רשת מאפשר ביצוע של משימות מורכבות מאוד. הכיצד? ניתן להמחיש זאת באופן הבא - באמצעות קביעה נכונה של פרמטרים, ניתן לממש באמצעות נוירון בודד את כל אחת משלושת האופרטורים הבוליאנים הבסיסיים (AND, OR, NOT). ולכן, גרף של נוירונים הוא בעצם מחשב גנרי שביכולתו לקודד כל תוכנה אפשרית.
אבל "יכולת ביטוי" גבוהה של מודלים היא לא דבר חדש, ואינה מהווה ערובה לביצועי המודל במשימות של למידה. למעשה, ההפך הוא הנכון. כלל ידוע בלמידה חישובית הוא שככל שמודלים נעשים מורכבים יותר, יש לפצות על כך על ידי הגדלת מספר הדוגמאות המשמשות את תהליך הלימוד. לימוד מודל מורכב שלא לצורך, על פני סט-אימון דל מידי, סופו ברוב המקרים להתכנס לפתרון אשר אינו מכליל לבעיות חדשות, ולכן לא באמת פותר את הבעיה לשמה אומן. מצב כזה נקרא "אימון יתר" (over-fit) וזוהי תופעה ידועה ובסיסית בלמידה חישובית. המסקנה המתבקשת איפוא, היא כי תמיד נעדיף את המודל הפשוט ביותר המאפשר פתרון, כזה המסתמך על מספר פרמטרים מצומצם ככל הניתן. כלל אצבע זה היה במשך זמן רב אחד המקורות לסקפטיות הרבה של חוקרים בנוגע ליעילותם של מודלים מבוססי למידה עמוקה. למרות זאת, העובדות מראות כי רשתות נוירונים עמוקות מאפשרות מימוש של פונקציות מתמטיות מורכבות מאוד מחד, אך ניתנות לאימון באופן אשר מייצר פתרונות המכלילים גם על פני דוגמאות שלא נכללו בתהליך האימון מאידך - וזו חידה שעדיין לא נמצא לה מענה. ולמרות הפער התיאורטי, אין סוף לעדויות האמפיריות בדבר יעילותם של מודלי הלמידה העמוקה. כך למשל בשנה האחרונה, הציגה Microsoft רשת נוירונים עמוקה שאומנה לפתור את CIFAR-10 - תחרות מתחום הראיה הממוחשבת, בה נדרשים המתחרים לפתח מודלים המסווגים תמונות לאחת מ 10 קטגוריות שנקבעו מראש. הרשת אותה הציגו, שבבסיסה 1.7 מיליון פרמטרים נילמדים, הגיעה לתוצאות חסרות תקדים. זאת על אף שסט האימון עמד על חמישים אלף דוגמאות בלבד, שני סדרי גודל פחות ממספר הפרמטרים שבמודל!
על-אף היכולות המרשימות של מודלים אלו, תהליך האימון של מודלי למידה עמוקה הוא פשוט יחסית. בהשוואה למודלים פופולריים אחרים דוגמאת Support-Vector-Machines, אופן הפעולה של רשתות נוירונים הוא קל להבנה ולא דורש ידע מתמטי מעבר לרמה הנלמדת בתיכון. מדוע אם כן אנו רואים התעוררות של תחום הלמידה העמוקה רק בשנים האחרונות? התשובה נעוצה בכך שאימון מודלים שכאלו דורש מספר רב מאוד של פעולות חישוב, וכמות גדולה של דוגמאות. התקדמות ביכולת העיבוד, האחסון ובזמינות של מידע לאימון, הם מרכיב משמעותי מאוד בהצלחת הלמידה העמוקה בשנים האחרונות.

במהלך ההרצאה נסקור יותר לעומק את ההצלחה של מודלי למידה עמוקה בכלל ובפרט עבור יישומים של ראיה ממוחשבת. נראה כיצד המודלים בנויים, כיצד הם מאומנים, וכן נסקור כמה מההתקדמויות והפיתוחים שראה התחום בשנים האחרונות. ככל שהזמן יאפשר, נסקור יישומים ומתודות מתחומים נוספים כגון עיבוד שפה וטקסט, תאור תמונות בשפה חופשית ומודלים המאומנים לשחק משחקי קופסא ומחשב.


מצגת ההרצאה



הוספת תגובה
  מגיב אנונימי
שם או כינוי:
חסימת סיסמה:
  זכור אותי תמיד במחשב זה

כותרת ראשית:
אבקש לקבל בדואר אלקטרוני כל תגובה לטוקבק שלי
אבקש לקבל בדואר אלקטרוני כל תגובה למאמר הזה