מחקר: בינה מלאכותית מסוגלת לשחזר טקסטים יהודיים עתיקים

ישי אלמקייס מקור ראשון, 15 באפריל 2024 15.04.2024 23:01
מגילת מדבר יהודה, צילום: ויקיפדיה

מגילת מדבר יהודה, צילום: ויקיפדיה


מערכת ראשונה מסוגה שפיתחו סטודנטים צעירים זכתה לפרסום עולמי, ותוכל לשחזר גם חלקי מילים



טודנטים מהמחלקה להנדסת מערכות תוכנה ומידע באוניברסיטת בן־גוריון בנגב פיתחו מערכת בינה מלאכותית שמצליחה להשלים קטעים חסרים, כולל תווים בודדים, מילים שלמות או חלקי מילים בשפה העברית. הכלי שפיתחו בפרויקט הגמר שלהם הוצג לאחרונה בכנס האירופי המרכזי לבלשנות חישובית (EACL 2024) במלטה.

כתובות בעברית ובארמית משמשות מקור מידע חיוני על ההיסטוריה העתיקה של המזרח הקרוב. למרבה הצער, חלקים מסוימים של הטקסטים נעשו בלתי קריאים במשך הזמן. מפענחי כתובות (אפיגרפיסטים) משתמשים בהליכים ידניים כדי לנחש את התוכן החסר, אך התהליך אורך זמן רב ובמקרים רבים אינו מביא את החוקרים למסקנות חד־משמעיות.

ניב פונו, הראל מושיוף, אלדר קרול ואיתי אסרף, סטודנטים בשנה הרביעית במחלקה להנדסת מערכות תוכנה ומידע באוניברסיטת בן־גוריון בנגב, החליטו ליצור מענה עדכני לכתבים העתיקים, ובהנחיית פרופ' מרק לסט הם פיתחו מערכת בינה מלאכותית המשלימה את הקטעים החסרים בטקסטים העתיקים.

זהו המחקר הראשון המנצל מערכת בינה מלאכותית להשלמת כתובות פגומות בעברית עתיקה ובארמית, על ידי אותיות האלפבית העברי, המורכב בעיקר מעיצורים. מודל "האנסמבל" שפיתחו משלב מודלים שאומנו על פסוקי התנ"ך בעברית ובארמית, בהנחה ששפת התנ"ך (ללא ניקוד) קרובה לשפתם של כתבים עתיקים יותר מאשר העברית המודרנית. מדובר בחידוש משום שעד כה יושמו כמה מודלים שחזו היטב מילים שלמות, אך גילו הצלחה פחותה בחיזוי חלקי מילים או תווים חסרים.

שיטת המחקר התבססה על 1,071 פסוקים שנבחרו באקראי מהתנ"ך (536 לבדיקה ו־536 לצורך אימות, כקבוצת ביקורת). 22,144 פסוקי התנ"ך הנותרים שימשו להתאמת הפרמטרים של המודלים שאומנו מראש על מאגרי טקסטים בעברית מודרנית לטקסטים בעברית עתיקה. המשתמש מזין למערכת טקסט הכולל חלקים חסרים, ועבורם המערכת מחזירה מספר אפשרויות הכוללות מילה שלמה, חלק ממילה או אות, ומציינת את ההסתברות של כל השלמה אפשרית.

"כדי לבדוק את הכלי, לקחנו טקסטים מהתנ"ך ומחקנו בהם חלקים באופן אקראי. הכלי הצליח לחזות את החוסרים באופן נהדר", אומר פרופ' לסט. "המודל הבסיסי מבוסס על טקסט בעברית מודרנית, והתוספת של התנ"ך היא כדי שהמודל יהיה מדויק יותר בטקסטים בעברית עתיקה".

הוא מדגיש כי בסופו של דבר, המערכת נותנת כמה אפשרויות, אך מי שיכריע בסופו של דבר הוא החוקר עצמו. "אנחנו מעריכים שהחוקר האנושי לא היה חושב על כל האפשרויות שהמערכת תציע", מדגיש פרופ' לסט.

העבודה על המערכת, אומר פרופ' לסט, הייתה חוויה נהדרת. "הם סטודנטים צעירים, בלי ניסיון קודם במחקר ופרסום מאמר מדעי, אבל היו להם כישרון ומוטיבציה גדולה והגענו לפרסום במקום נחשב מאוד", הוא אומר. "היו בעולם ניסיונות לא גדולים בהשלמת יוונית עתיקה ואכדית. אנו מאמינים שאפשר להרחיב את הגישה הזאת בקלות לכתבים בשפות עתיקות אחרות, עשירות מבחינה מורפולוגית. כך נוכל לעזור להיסטוריונים שעוסקים בשחזור מגילות וכתבים יהודיים עתיקים באופן תדיר, להשלים את הטקסט החסר באופן מדויק ככל אפשר".

מקור הכתבה



הוספת תגובה
  מגיב אנונימי
שם או כינוי:
חסימת סיסמה:
  זכור אותי תמיד במחשב זה

כותרת ראשית:
אבקש לקבל בדואר אלקטרוני כל תגובה לטוקבק שלי
אבקש לקבל בדואר אלקטרוני כל תגובה למאמר הזה