מבוא לזיהוי דיבור, תרגום מכונה ודיבור ממוחשב

דורון מודן 21.10.2010 03:53
מבוא לזיהוי דיבור, תרגום מכונה ודיבור ממוחשב


גרמני ויפאני מדברים בטלפון, כל אחד מדבר בשפתו שלו, ובכל זאת הם מבינים זה את זה מצוין. הכיצד? את האתגר השאפתני הזה, הנקרא Speech-to-Speech, לקח על עצמו פרויקט Verbmobil (1993-2000). פרויקט יקר זה, במימון ממשלת גרמניה וכמה קונצרנים גרמניים, שילב שלושה רכיבי תוכנה: זיהוי דיבור (Speech Recognition), תרגום מכונה (Machine Translation), ודיבור ממוחשב (Text to Speech).



גרמני ויפאני מדברים בטלפון, כל אחד מדבר בשפתו שלו, ובכל זאת הם מבינים זה את זה מצוין. הכיצד?

את האתגר השאפתני הזה, הנקרא Speech-to-Speech, לקח על עצמו פרויקט Verbmobil (1993-2000). פרויקט יקר זה, במימון ממשלת גרמניה וכמה קונצרנים גרמניים, שילב שלושה רכיבי תוכנה: זיהוי דיבור (Speech Recognition), תרגום מכונה (Machine Translation), ודיבור ממוחשב (Text to Speech).

 

זיהוי דיבור

טכנולוגיה זו משמשת כיום בעיקר בטלפוניה (מרכזיה אוטומטית), למצבים בהם נדרש לשחרר את הידיים (למשל במקום חיוג בזמן נהיגה), ולהכתבת טקסטים עבור לקויי קריאה וכתיבה. כן נעשה שימוש בטכנולוגיה למטרת זיהוי פלילי וביטחון.

הדיבור מגיע לעור התוף שלנו, וכן לממברנת המיקרופון, כשינוי מהיר בלחצי האוויר, ושינוי זה מוכר לנו כגל הקול, כאשר הצירים שבו הם זמן ועוצמה. בזיהוי דיבור המערכת משווה את גל הקול המתקבל לגלים שהיא מכירה מספריית הקלטות בעלת היקף עצום, שהוכנה מראש, ותועתקה בתעתיק פונטי.

זיהוי מילה בודדת, שכוללת כמה וכמה הגאים (פונמות) הוא תהליך מורכב, שכן אין כל מידע ודאי לגבי אף אחד מהפונמות במילה (אין כל 'עוגן'). בדרך לזיהוי כל פונמה יש כמה וכמה מועמדים, ויש קודם לקבל את כל המועמדים לגבי כל הפונמות, ורק אז ניתן לנחש את זהות המילה השלמה (לעיתים קרובות מאוד יש צורך להיעזר במילים הסמוכות, שאף הן מורכבות ממספר פונמות, כאשר שוב לכל פונמה כמה וכמה מועמדים).

זהו מעין 'תשבץ לבן', שבו אין הגדרות, וגם אין משבצות שחורות, כלומר, בדיבור ספונטני רצוף על המערכת למצוא בעצמה היכן מסתיימת מילה ומתחילה מילה חדשה.

הדרכים להתמודדות הן בין השאר:

  • 'מטריצת בלבול' – מה הסיכויים שהמערכת תזהה בטעות פונמה אחת כפונמה אחרת?
  • שימוש בפונוטקטיקה – אלו פונמות יכולות, בשפה מסוימת, לדור זו בכפיפת זו, ואלו נפסלות מראש?
  • שימוש בבנק העצים תחביריים האפשריים – התחשבות בתחביר כדי לקבוע אם הגיוני שמילה כלשהי תופיע במקום שבו זוהתה לכאורה
  • דרכים נוספות יתוארו להלן, בסעיף על תרגום מכונה

 

יש לשים לב שזיהוי פונמות עדיין לא בהכרח תורם לזיהוי סופי של המילה, בגלל הומונימים (=מילים שנשמעות אותו דבר, אך יש להן משמעות שונה, ולפעמים גם נכתבות באופן שונה), כמו kar// = קר או כר?

 

תרגום מכונה

הקושי העיקרי כאן הוא לא הכתיבה בשפת היעד, אלא הבנה של שפת המקור. שלושת-רבעי העבודה נעשתה אם המערכת חתכה בהצלחה את הרצף במקום הנכון, לכדי יחידות בעלות משמעות (tokenization). העובדה שברוב השפות הכתובות בשפה המילים מופרדות ברווח זו מזו, אינה מבטחת אותנו מפני צירופי מילים שהם בעצם מילה אחת בשפת היעד, מטבעות לשון ואמרות. ועוד לא הזכרנו סדר מילים אופייני לשפה אחת, השונה לחלוטין מהאחרת. חיתוך הרצף פירושו גם רצף מבחינות דקדוקיות, כמו זמנים, גופים, ומילים שאינן קיימות בשפת היעד/המקור. יש גם לקחת בחשבון הומוגרפים, כלומר מילים הנכתבות זהה, אבל משמעותן שונה, כמו read=קורא? קרא?

תרגום מילולי אפוא אינו יכול לספק, כפי שלמדו, לפי האגדה, חלוצי תרגום המכונה בשנות ה-50, שביקשו מן המחשב לתרגם את The spirit is willing, but the flesh is weak וקיבלו:

The vodka is good, but the meat is rotten.

התמודדות:

  • Parsing אוטומטי, קביעת POS ויחסים בין מילים.
  • גם כאן נעשה שימוש ב-Tree Bank (כל העצים התחביריים האפשריים בשפה)
  • שימוש בשדות סמנטיים
  • בדיקה איזה מילה מופיעה לפני ואיזו אחרי, כדי לוודא את משמעותה
  • מערכת חכמה – לומדת מטעויות (השוואת טקסטים מתורגמים בידי אדם מול תרגום המכונה)
  • במערכת מרובת שפות כדאי להשתמש בשפה מתווכת. כל שפת מקור מתרגמים אל השפה המתווכת, וממנה לשפת היעד. המשמעות היא חיסכון ניכר. לדוגמא, אם מספר השפות הוא 10, בשיטה הרגילה יש צורך ב-90 מערכות. ואילו בשימוש בשפה מתווכת יש צורך רק ב-20 מערכות. בשנות ה-80 נעשה פרויקט חלוצי כזה, במימון ממשלת הולנד, באמצעות אספרנטו כשפה מתווכת פשוטה אך דקת-ביטוי.

 

דיבור ממוחשב

הטכנולוגיה משמשת לקויי ראיה, לקויי קריאה, ומוגבלים בדיבור. המערכת יכולה לשחרר את ידי ועיני המשתמש, למשל 'קריאה' בזמן הנהיגה, ומשמשת בשילוב עם מערכת זיהוי דיבור (בעיקר בטלפוניה). כמו כן יכולה לשמש לשימור הקול לקראת ניתוח בשפתות-הקול, ואפילו לקראת המוות...

לצורך דיבור ממוחשב יש להקליט קריין הקורא טקסט עצום ממדים. טקסט זה יהיה מתועתק פונטית.

בנוסף יש להצטייד במילון פונטי, בו לכל מילה במילון יוצמד תעתיק פונטי. (בשפות מסוימות, למשל ספרדית, אין צורך במילון, וניתן להסתפק בחוקי הגייה, ומעט יוצאים מן הכלל ברשימה נפרדת.)

הגיית הפונמות תלויה מאוד בסביבה. למשל יש הבדל עצום בין ה-k  שבא לפני i כמו במילה 'קיר', לבין k  שבא לפני a, כמו במילה 'קר'. ניסיון להחליף להחליף בין שני ה-k האלה (הנקראים שני אַלוֹפוֹנִים של הפונמה /k/( יגרום לדיבור להישמע מוזר ביותר. 

לכן את הפונמות מייצגים בשלָשה, כולל השכנה שלפני והשכנה שאחרי.  אגב, טריפונים משמשים גם בזיהוי דיבור. שקט (התחלה או סיום) מייצגים בסימון #.

לדוגמא: המילה Phonetics  מתועתקת (לפי התעתיק של Carnegie Mellon University) :

  F  AH  N  EH  T  IH  K  S

הטריפונים יהיו:

# F AH      F AH N      AH N EH      N EH T
EH  T IH    T IH K      IH  K  S       K  S  #

כעת, מחפשת המערכת בתוך הקורפוס המוקלט מראש את היחידה הארוכה ביותר, הזהה לרצף הטריפונים המתבקש על ידי המשתמש במילה שהקליד. תהליך זה נקרא Unit selection. יחידות אלה המערכת תשרשר האחת לשנייה.

אבל עוד לפני השרשור המערכת תחזה איזה צורה תהיה לעקומות האינטונציה, המשך והעוצמה של המשפט המבוקש (שלושה רכיבים אלה נקראים יחד 'פרוזודיה'.) למשל, יש הבדל עצום באינטונציה של משפט חיווי ומשפט שאלה. תהליך זה נקרא Prosody prediction. גם לפי קריטריון זה המערכת תבחר מבין היחידות המועמדות את היחידה המתאימה. חיזוי הפרוזודיה נעשה לפי Parsing אוטומטי.

גם לאחר השרשור, התוצאה הראשונית עדיין רחוקה מהעקומות של ה-Prosody Prediction. ועדיין אינה ערבה לאוזן. לשם כך יש צורך ב-DSP, או Digital signal Processing. בתהליך זה מתקנים את שלוש עקומות הפרוזודיה שהתקבלו, כדי לדמותן לעקומות שנחזו.

עיבוד DSP שנעשה יתר על המידה נשמע בדרך-כלל מלאכותי. לפי מחקרים, המשתמשים שופטים את דיבור המחשב כ'אנושי' יותר, כשנעשה רק מעט DSP , ומוכנים לסלוח לפרוזודיה לא מדויקת.

לכן חשובים במיוחד:

 1) ציונים הולמים ליחידות הנבחרות בשקלול טוב של שני הגורמים הבאים:

                  א. העדפת יחידה ארוכה ככל האפשר

                  ב. התאמה לדרישות הפרוזודיה

2) תכנון טוב של הקורפוס (=הטקסט שייקרא על ידי הקריין). יש להתחשב:

א. בסטטיסטיקה: ככל שצירופי המילים נפוצים יותר, כך הם מוקלטים במגוון רחב  יותר של אינטונציות

                  ב. כיסוי לפחות 'סמלי' של מקרים נדירים יותר.

כמו בדמוקרטיה: הרוב קובע, אבל גם לקול המיעוט יש זכות להישמע.

מצגת ההרצאה


attachment 171-voice recognition-102010.pdf



הוספת תגובה
  מגיב אנונימי
שם או כינוי:
חסימת סיסמה:
  זכור אותי תמיד במחשב זה

כותרת ראשית:
אבקש לקבל בדואר אלקטרוני כל תגובה לטוקבק שלי
אבקש לקבל בדואר אלקטרוני כל תגובה למאמר הזה