זיהוי דיבור

עידן שלוש 17.07.2013 20:44
זיהוי דיבור


מערכת זיהוי דיבור או מערכת זיהוי קול היא מערכת ממוחשבת (תוכנה וחומרה או תוכנה בלבד) המסוגלת לפענח דיבור אנושי. הקלט למערכת מגיע ממיקרופון שאליו מדבר המשתמש, משיחת טלפון הנקלטת במערכת וכיוצא בזה והפלט הינו המידע הרלוונטי (המילולי) שזוהה באות הדיבור.



זיהוי דיבור

Automatic Speech Recognition (ASR(

עידן שלוש

 

הגדרה למערכת לזיהוי דיבור

מערכת זיהוי דיבור או מערכת זיהוי קול היא מערכת ממוחשבת (תוכנה וחומרה או תוכנה בלבד) המסוגלת לפענח דיבור אנושי. הקלט למערכת מגיע ממיקרופון שאליו מדבר המשתמש, משיחת טלפון הנקלטת במערכת וכיוצא בזה והפלט הינו המידע הרלוונטי (המילולי) שזוהה באות הדיבור.

 

רקע כללי על זיהוי דיבור

תחום זיהוי דיבור על ידי מחשב זוכה לאחרונה להתעניינות רבה,עם השקת שירותים מבוססי ממשק קולי על ידי ענקיות הטכנולוגיה. היעד העיקרי של הטכנולוגיה הוא צמצום הפער בין זיהוי דיבור על ידי אדם לבין זיהוי דיבור על ידי מכונה ולכן מדברים היום בעצם על טכנולוגיה של הבנת דיבור (speech understanding) ולא רק על זיהוי (speech recognition).

חברות הענק בתחום עיבוד שפה טבעית עושות כיום שימוש בטכנולוגיות של עיבוד דיבור כחלק מממשק אדם-מכונה טבעי וחכם. סביר להניח כי התפתחות מגמה זו בעתיד הקרוב תגרום לחדירה משמעותית יותר של טכנולוגיית זיהוי קול בכלל וזיהוי דיבור בפרט לחיי היומיום – בעת הפעלת מכשיר סלולארי, מחשב, קונסולות משחקיםובעת נהיגה. הממשקים בין האדם למכונה נעשים מתוחכמים יותר, וכוללים זיהוי דיבור כמו גם זיהוי תנועות גוף, זיהוי רגשות ומרכיבים נוספים, בהם נעשה שימוש בתקשורת בין אדם לאדם.

התפתחויות בתחום

הסתכלות לאחור על התפתחות טכנולוגיית זיהוי דיבור משקפת תהליך הבשלה איטי. כבר בשנות העשרים של המאה ה-20 יצאו לשוק צעצועים שכללו זיהוי דיבור של מילה בודדת. אולם פריצת הטכנולוגיה חלה כשלושים שנה מאוחר יותר, בשנת 1952 . בעשר השנים הבאות כללה הטכנולוגיה זיהוי של ספרות ופונמות. בשנות השבעים של המאה ה-20 התפתחה הטכנולוגיה והגיעה לזיהוי של מילים בודדות ואפילו צירופים קצרים במילון קטן, אך לקראת סוף העשור התבצע מעבר לאופן פעולה בלתי תלוי בדובר,והגדלה של מילוני הזיהוי לאלפי מילים. את הדחיפה המשמעותית אז קיבל התחום בזכות תמיכה של משרד ההגנה האמריקאי,  במסגרת תכנית DARPA  לעידוד מחקר מתקדם.

השלב הבא בטכנולוגיה חל בשנות השמונים והוא מתאפיין בשימוש במודלים סטטיסטיים בתחום זיהוי דיבור, שאפשר הגדלה משמעותית וגמישות של מילון הזיהוי. בשנות התשעים הושקו מוצרים ושירותים מבוססי זיהוי דיבור בשווקים שונים, בעקבות השימוש במחשוב מתקדם, זמין וזול יותר. בשלב זה הטכנולוגיה הגיעה בשפות מסוימות עד כדי זיהוי דיבור ספונטני במילונים בני עשרות אלפי מילים.

טכנולוגיית זיהוי דיבור

טכנולוגיית זיהוי דיבור היא רב-תחומית, ועושה שימוש בגישות ובתחומים רבים כמו עיבוד אותות דיבור לצורך מיצוי מאפיינים מתוך אות הדיבור,מידול סטטיסטי (לרוב על ידי מודל מרקוב חבוי – HMM)  של פונמות, שהן יחידות בסיס לשוניות מהן ניתן להרכיב את כל מילות השפה, תהליכי אימון אוטומטיים (מונחים ולא מונחים) של המודלים הסטטיסטיים מתוך בסיס נתונים בדיבור בגישה מונחית מידע (data-driven), מידול לשוני המתאר את ההקשרים הסמוכים והרחוקים יותר בין מילות השפה (ההסתברות שמילים יופיעו בסמיכות למילים אחרות) ואלגוריתמים של חיפוש לצורך ביצוע חיפוש יעיל ואופטימלי של סדרת המילים בעלת ההסתברות הגבוהה ביותר, בהינתן אות דיבור והמידול האקוסטי והלשוני.

אתגרים

בעוד שניתן לראות כי הטכנולוגיה הגיעה לבשלות המאפשרת שימוש ביישומים מסחריים שונים, הרי שישנם עדיין מספר נושאים מאתגרים, הקשורים בעיקר לחסינות הטכנולוגיה והפיכתה למוצר שימושי באפליקציות שונות, כגון איתור מילות מפתח (keyword spotting).

אחד האתגרים עימם מתמודדת הטכנולוגיה קשור לירידת הביצועים בתנאי רעש: רמת זיהוי הדיבור בסביבות רועשות, כמו רכב נוסע או מקום ציבורי, היא נמוכה יותר, ולעתים קרובות אינה מאפשרת הפעלה של שירות מבוסס זיהוי דיבור.

כמו כן, יש לזכור, כי הטכנולוגיה תלויה בשפה, ובעת המעבר לשפה חדשה נדרשים בסיסי נתונים גדולים בדיבור, לצורך תהליך אימון ייעודי.

יישומים בממשקי אדם- מכונה ובעיבוד דיבור

במעבר מהדיון בטכנולוגיה עצמה לדיון ביישומים האפשריים שלה, ניתן לאפיין שני סוגי יישומים עיקריים לזיהוי דיבור: האחד בא לידי ביטוי בתקשורת אדם-מכונה באמצעות דיבור, והשני בהמרה של תוכן דיבור לטקסט, לצורך עיבוד טקסטואלי.

עם הסוג הראשון נמנית מערכת דיאלוג קולי (spoken dialog system) שבה ניתן לעשות שימוש בזיהוי דיבור בכל מקום בו יש תקשורת אדם-מכונה המתקיימת כיום על ידי הקשה על מקשים. בין השימושים האפשריים לדיאלוג כזה ניתן למנות יישומים כמו מרכזי שירות לקוחות שבהם לפחות חלק מהשיחה תתבצע מול מערכת ממוחשבת. ממשק דיבור אפשרי גם באמצעות המכשיר הסלולארי, כגון הכתבת הודעות טקסט קצרות (SMS) או דואר אלקטרוני, קביעת פגישות, קבלת מידע וחיפוש קולי. בתחום הרפואי יתאפשרו הכתבות של דיאגנוזות רפואיות לתיק הרפואי של החולה, תוך מתן אפשרות לרופא לבדוק את החולה במקביל להכתבת הדיאגנוזה. אפליקציית "הבית החכם" מאפשרת הפעלה קולית של המוצרים בבית: כבר בתקופה הקרובה ניתן יהיה לראות טלוויזיות המופעלות בדיבור, ומשם ניתן יהיה להרחיב את האפליקציה ליתר המכשירים בבית. ומה ברכב? בעתיד הקרוב תתאפשר הפעלה של מערכות לא קריטיות באמצעות דיבור.

הסוג השני מתאפיין בשימוש בזיהוי דיבור בכל מקום שבו יש תוכן קולי או תוכן מולטימדיה, המאפשר לתמלל את פס הקול. המטרה היא לעשות שימוש בכלי עיבוד טקסטואליים כמו אינדוקס וחיפוש על התמליל שנוצר על ידי מנוע זיהוי הדיבור, תוך התחשבות בשגיאות הזיהוי של המנוע.

בין השימושים האפשריים של זיהוי דיבור ניתן למנות גם אפליקציות בתחום המודיעין העסקי – הקלטת השיחות במרכזי שירות לקוחות ותמלולן תאפשר ניתוח טקסטואלי של השיחות לצורך קבלת מידע עסקי מתוכן השיחות, כמו גם אימון ומשוב לנציגי שירות הלקוחות.

 

לסיכום

מומחים טוענים שמוטיב המפתח בדור הבא של טכנולוגיית זיהוי הדיבור הוא "כמות מובילה לאיכות". שלב זה יתאפיין בשימוש במקורות ידע עצומים ומגוונים, שיכללו, מעבר לשימוש בבסיסי נתונים מקיפים בהרבה מאלה שנעשה בהם שימוש עד היום, גם ידע רב וגמיש על זיהוי דובר, זיהוי רגשות, עיבוד סמנטי ועוד.

המחשה מתסכלת של מערכת לזיהוי דיבור שאינה מושלמת....

מצגת ההרצאה

 

 



הוספת תגובה
  מגיב אנונימי
שם או כינוי:
חסימת סיסמה:
  זכור אותי תמיד במחשב זה

כותרת ראשית:
אבקש לקבל בדואר אלקטרוני כל תגובה לטוקבק שלי
אבקש לקבל בדואר אלקטרוני כל תגובה למאמר הזה