פרמטרים המסייעים להצלחת דיבור ממוחשב

דורון מודן 16.10.2013 21:39
פרמטרים המסייעים להצלחת דיבור ממוחשב


את הדיבור הממוחשב, ה-TTS (Text to Speech) אין כמעט צורך להציג כיום. הוא משמש בחיי היום-יום, למשל במקרי לקות ראייה, לקות קריאה, מוגבלות בדיבור, משחרר את הידיים והעיניים ('קריאה' בזמן נהיגה), שילוב עם מערכת זיהוי דיבור (בעיקר בטלפוניה) ושימור הקול לקראת ניתוח להסרת שפתות הקול.



את הדיבור הממוחשב, ה-TTS (Text to Speech) אין כמעט צורך להציג כיום. הוא משמש בחיי היום-יום, למשל במקרי לקות ראייה, לקות קריאה, מוגבלות בדיבור, משחרר את הידיים והעיניים ('קריאה' בזמן נהיגה), שילוב עם מערכת זיהוי דיבור (בעיקר בטלפוניה) ושימור הקול לקראת ניתוח להסרת שפתות הקול.

 

בהצגת דיבור מבחינה אקוסטית, ניתן להסתפק, בדומה למוזיקה, בארבעה פרמטרים בלבד: גוון (בדומה לגוון של כלי נגינה, מדובר בתגובתו של קול ראשוני למסלול תהודה, מלבד זה שבמקום צלילים, אנו מפרשים את התוצאה כהגאים), וכן גובה טון, משך ועוצמה.

האתגר העיקרי העומד בפני מערכת לדיבור ממוחשב הוא כפול:

1.    ניתוח נכון של המבעים ומציאת תבניות של ארבעת הפרמטרים הנ"ל.

2.    בחירת יחידות לשרשור, כך שיתאימו לתבניות שנקבעו, מבלי שההתאמה הזו תישמע מאולצת.

מאז שהשיטה השלטת בדיבור ממוחשב היא של שרשור מתוחכם של מקטעי הקלטות מתוך קורפוס מוקלט מראש, נעשה קל מאוד להפוך כמויות גדולות של טקסט לכדי דיבור. זאת, כמובן, לאחר שנעשה ניתוח אוטומטי של הטקסט (למשל, TTP, דהיינו Text to Phoneme, המרת טקסט רגיל להגאים), ניתוח תחבירי על נגזרותיו הפרוזודיות, נורמליזציה של הטקסט (למשל התמודדות עם סימנים, ספרות וכו' והפיכתם להגאים) ועוד.

יחד עם זאת, ברור שכל שרשור של הקלטות הוא בהגדרתו איננו דיבור טבעי, ומטרתה של מערכת טובה היא 'לנהל את הסיכונים' ולמצוא את השרשור שהוא הרע במיעוטו, בשאיפה שאי-הטבעיות הקיימת תהיה כה זניחה, עד שאוזן אנושית לא תבחין בה.

כמו בביצוע מוזיקה, כך גם בדיבור, קיימות  תבניות בלתי מודעות של גוון, גובה טון משך ועצמה. אם ננהג בהתאם לתבניות טבעיות אלה, הדיבור יישמע טבעי. אחרת, כתוצאה משרשור של מקטעים ש'לא מתחברים יפה' נשמע תופעות של רעידה, glitch"", 'חורים' ושלל מוזרויות, המאפיינות לעיתים את הדיבור הממוחשב. ניתוח טוב, יחד עם שרשור זהיר, יכול לגרום לכך שדיבור ממוחשב לא יישמע שונה בהרבה מדיבור טבעי, ונראה, כי הטכנולוגיה צועדת לכיוון זה.

לדוגמא, פרמטר המֵשך בדיבור מושפע מגורמים רבים, במספר רמות הלשון. למשל: לכל הגה יש משך "פנימי", ארוך יותר או קצר יותר בהשוואה לאחרים, הנקבע בדרך כלל מסיבה פיזיולוגית. משכו של ההגה נקבע גם ברמת ההברה, מזהות ההגה השכן. ידוע גם שהברה מוטעמת משכה גדול יותר. כמו כן, מילת הגרעין במשפט נוטה להיות ארוכה הרבה יותר מחברותיה. יתר על כן, ניתוח תחבירי (parsing) אוטומטי יגלה לנו שיש יחידות במשפט, המקושרות חזק יותר זו לזו, בקבוצה שונה מיחידות אחרות במשפט. מתגלה, כי בדיבור טבעי יש נטיה להאיט לפני גבול קבוצה תחבירית, ונטייה להאיץ מיד ביציאה מגבול זה. חיקוי כל הגורמים האלה, ואחרים, על ידי המערכת האוטומטית הוא הכרחי ליצירת דיבור מובן ואפקט טבעי.

גם גובה הטון נקבע בידי תבניות ידועות מראש, והוא גורם מכריע להצלחה של התאמת מקטע מוקלט לשרשור. זאת משום שקל יותר "לרמות את האוזן" ולגרום לה להאמין שמֶשך או עצמה ששונו באורח מלאכותי הם טבעיים, מאשר להאמין לגובה טון שהשתנה בצורה ניכרת.

לסיכום, את הקורפוס המוקלט מראש לא ניתן לשנות אבל לנתן לעדן את הניתוח ביחס למשך, וכן ביחס לעצמה ולגובה הטון (בדרך כלל יש קורלציה בין שלושת הפרמטרים האלה) והדבר יכול לתרום מאוד לתרום לבחירת היחידות לשרשור, לצורך הפחתת הזרוּת לאוזן האנושית.

מצגת ההרצאה 



הוספת תגובה
  מגיב אנונימי
שם או כינוי:
חסימת סיסמה:
  זכור אותי תמיד במחשב זה

כותרת ראשית:
אבקש לקבל בדואר אלקטרוני כל תגובה לטוקבק שלי
אבקש לקבל בדואר אלקטרוני כל תגובה למאמר הזה