משמעויות קרובות ע״י שימוש ברשתות נוירונים

אורן יוסיפון 18.10.2017 00:10
משמעויות קרובות ע״י שימוש ברשתות נוירונים


בשנים האחרונות מתחוללת קפיצת מדרגה טכנולוגית בשימוש במערכות לומדות (Machine Learning) בכלל ורשתות-נוירונים בפרט. רשתות-נוירונים עמוקות (Deep Learning) מצליחות להשיג תוצאות פנטסטיות באחזור תמונות (למשל זיהוי עצמים, התאמת פרצופים, OCR), בעיבוד קול (למשל זיהוי דיבור וזיהוי דובר) וקיים מחקר פעיל וער לאחרונה גם בשימוש בטכנולוגיות אלה לצורך אחזור וטיפול בטקסט.




משמעויות קרובות ע״י שימוש ברשתות נוירונים  - תקציר


אורן יוסיפון , VP Technology – Cellebrite


 


קשר בין מילים היווה מאז ומתמיד גורם מפתח באחזור מידע טקסטואלי ובטיפול בו. מאחר שלמילים יש נטיות מורפולוגיות שונות, משמעויות כפולות ומילים נרדפות, חיפוש של מחרוזת מדויקת עלול לפספס תוצאות חשובות למשתמש. כך למשל חיפוש המחרוזת המדויקת ״משקפת״  (הכוונה למכשיר האופטי), יפספס טקסט המתייחס ל ״משקפות״ או ל ״טלסקופ״  ועלול לאחזר טקסט כגון: ״עלות הייצור אינה משקפת את מחיר המוצר״.


עם השנים, התגבשו שיטות שונות להתמודד עם בעיות אלו. לטיפול בבעיית המורפולוגיה קיימים stemmers ו lemmatizers  ועבור המילים הנרדפות קיימים מילונים, אונטולוגיות ואף שיטות המנסות לאתר באופן אוטומטי את הקשר בין מילים כגון Latent Semantic Indexing.


אך מה אם הייתה שיטה אחת שיכולה לטפל בכל הבעיות הללו, ואף לסייע בהבנת קשרים אחרים בין מילים, כגון אנלוגיות והפכים?



 


 


 


 


 


בשנים האחרונות מתחוללת קפיצת מדרגה טכנולוגית בשימוש במערכות לומדות (Machine Learning) בכלל ורשתות-נוירונים בפרט. רשתות-נוירונים עמוקות (Deep Learning) מצליחות להשיג תוצאות פנטסטיות באחזור תמונות (למשל זיהוי עצמים, התאמת פרצופים, OCR), בעיבוד קול (למשל זיהוי דיבור וזיהוי דובר) וקיים מחקר פעיל וער לאחרונה גם בשימוש בטכנולוגיות אלה לצורך אחזור וטיפול בטקסט.


בולטת במיוחד היא עבודתם של חוקרים ממעבדות המחקר של Google  בהובלתו של תומאס מיקולוב, על Word2Vec. שיטה זו מארגנת את המילים בשפה במרחב וקטורי  בעל כמה-מאות ממדים, כך שמילים בעלות משמעות קרובה, נמצאות קרובות אחת לשנייה במרחב הוקטורי.


ארגון המילים במרחב נעשה ע״י אימון של רשת נוירונים המנסה לחזות את הסתברות הופעתה של מילה מתוך המילה המופיעות בסביבתה. שיטה זו הראתה תכונות מעניינות נוספות, למשל היכולת לאבחן קשר בין מילים באמצעות פעולות אריתמטיות במרחב הוקטורי, לדוגמה:
Queen = King – Man + Woman


בהרצאה נסקור מספר שיטות לייצוג קשר משמעות בין מילים ואת השימושים המעשיים שלהן במערכות ואפליקציות שונות.

מצגת ההרצאה



הוספת תגובה
  מגיב אנונימי
שם או כינוי:
חסימת סיסמה:
  זכור אותי תמיד במחשב זה

כותרת ראשית:
אבקש לקבל בדואר אלקטרוני כל תגובה לטוקבק שלי
אבקש לקבל בדואר אלקטרוני כל תגובה למאמר הזה