זיהוי דיבור אוטומטי: החזית הבאה
פוסט זה מתמקד בהתקדמות בטכנולוגיית
זיהוי דיבור אוטומטי (ASR)
והשפעתה על תחומים שונים. ASR הפך נפוץ בתעשיות מרובות, עם שיפור הדיוק כתוצאה של הגדלת גודל
המודל וגודל מערכי הנתונים (מתוייגים ולא מתוייגים) לאימון המודלים.
במבט קדימה, טכנולוגיית ASR צפויה להמשיך ולהשתפר עם
הגדלת המודל האקוסטי ושיפור מודל השפה הפנימי. בנוסף, טכניקות אימון כגון פיקוח עצמי
(self supervised)
וריבוי משימות (multi-task)
יפרצו דרך לשימוש ב ASR
גם בשפות בהן יש קושי למצוא דאטה זמין בכמויות. יתר על כן, אימון רב-לשוני יאפשר
קפיצת מדרגה נוספת בביצועים, ויאפשר שימוש מוצרי בסיסי כגון פקודות קוליות בשפות
אלה.
ASR
גם ימלא תפקיד משמעותי ב Generative AI, שכן האינטראקציה עם אווטרים תהיה באמצעות ממשק אודיו/טקסט. עם
הופעתו של NLP
ללא טקסט (textless NLP),
כמה משימות קצה, כגון תרגום מבוסס דיבור לדיבור (speech to speech translation),
עשויות להיפתר ללא שימוש במודל ASR מפורש. מודלים מולטי-מודאליים המקבלים כקלט טקסט, אודיו או
שניהם גם יחד ישוחררו, ויאפשרו לחולל טקסט
או לסנתז אודיו כפלט.
יתר על כן, מערכות דיאלוג בעלות ממשק
אדם-מכונה מבוסס קול ישפרו את עמידותן בפני שגיאות תמלול והבדלים בין צורות כתובות
ומדוברות. זה יספק עמידות למבטאים מאתגרים ולדיבור של ילדים, מה שיאפשר
לטכנולוגיית ASR
להפוך לכלי חיוני עבור יישומים רבים.
להערכתנו, תשוחרר מערכת אחודה לשיפור
דיבור-ASR-דיאריזציה מקצה לקצה,
שתאפשר התאמה אישית של מודלי ASR, ותאפשר תמלול איכותי בדיבור חופף ובתרחישים אקוסטיים מאתגרים.
זהו צעד משמעותי לקראת פתרון האתגרים של טכנולוגיית ASR בתרחישים בעולם האמיתי.
לבסוף, צפוי גל של ממשקי API של ASR. אף על פי כן ישנן
הזדמנויות לסטארט-אפים קטנים להתעלות על
חברות טכנולוגיה גדולות בתחומים עם יותר מגבלות חוקיות או רגולטוריות על השימוש
בטכנולוגיה/רכישת נתונים, ובאוכלוסיות עם שיעורי אימוץ טכנולוגיה נמוכים.
המשך המאמר בקובץ הנילווה למטה...
301-20230402_ASR_Hebrew_Version.pdf