הטכנולוגיה הישראלית שמאפשרת להרכיב את הפאזל היהודי

עופר אדרת הארץ, 14 באוקטובר 2011 16.11.2011 23:24
הטכנולוגיה הישראלית שמאפשרת להרכיב את הפאזל היהודי


יותר ממאה שנים מנסים חוקרים לחבר בין פיסות הגניזה הקהירית - אוסף עצום של כתבים יהודיים עתיקים שמפוזרים בעולם. כעת, תודות לטכנולוגיה הדומה לזאת של גוגל ופייסבוק, הגיעה סוף-סוף פריצת הדרך



ביום אביבי אחד בשנת 1896 באו שתי תאומות סקוטיות מלומדות אל ד"ר שלמה זלמן שכטר, מומחה לספרות רבנית באוניברסיטת קיימברידג' באנגליה. בידיהן אחזו כמה דפים בלויים בכתב יד עתיק, שרכשו זמן קצר לפני כן בחנות עתיקות בקהיר, שם ביקרו בעת מסע שעשו במזרח. החוקר שיפשף את עיניו ולא האמין. הוא לקח את הדפים לבדיקה ובסיומה כתב לגברות: "יש לנו סיבה לברך את עצמנו. זוהי הפעם הראשונה שדבר כזה מתגלה. אנא, אל תדברו עדיין עם אף אחד על הנושא הזה. בבהילות ובהתרגשות גדולה, שכטר".

המזכרת שהביאו הנשים מקהיר, כך התברר, היתה קטע מספר נדיר שעקבותיו אבדו מאות שנים, מאז ימי הביניים. היה זה הנוסח העברי של ספר "משלי בן סירא", מהספרים החיצוניים, שחובר במאה השנייה לפני הספירה, 250 שנים לפני חורבן הבית השני. כעבור כמה חודשים שם שכטר פעמיו לקהיר, לחפש אחר שאר חלקי הספר. מאמציו הובילו אותו אל עליית הגג של בית הכנסת "בן עזרא", שם גילה את הגניזה הקהירית: ערימה עצומה של דפים קרועים ובלים, מפוזרים בערבובייה. חלקם שכבו שם אלף שנה, מהמאה התשיעית, אז נוסד בית הכנסת. הם כללו כתבי קודש ומסמכים מחיי היום-יום של הקהילה - קפסולת זמן יהודית, שנשתמרה הודות למנהג היהודי לגנוז ספרי קודש ולא להשליכם.

דרך חור בקיר בעזרת הנשים של בית הכנסת זחל ד"ר שכטר לחדר הגניזה המאובק והמחניק, והחל להוציא משם את כתבי היד. בספירה שעשה נמנו 140 אלף דפים. לאחר שקיבל את האישורים המתאימים, ארז אותם בארגזים והעלה אותם על אונייה בדרך לקיימברידג'. כך הועבר האוסף הגדול ביותר מהגניזה הקהירית למקום מבטחים. שארית החומר, כ-40% ממנו, התפזרה בידי סוחרי עתיקות, אספנים ונוסעים מפורסמים שטיילו בעולם. חלק ממנה עבר לספריות אחרות.

השבוע ישבו שני פרופסורים בבית הספר למדעי המחשב באוניברסיטת תל אביב, והמשיכו לנבור בערימת הדפים הבלויים שגילה שכטר לפני 115 שנה. כיאה לתקופה, הם עשו זאת על צג ענק של מחשב מקינטוש חדיש מצויד במקלדת ובעכבר אלחוטיים. השניים, נחום דרשוביץ, מומחה ללוגיקה, וליאור וולף, מומחה ל"ראייה ממוחשבת" (המשמשת, בין היתר, לזיהוי פנים של אנשים), הם הצלע התל אביבית של פרויקט בינלאומי חדשני ומהפכני בשם "גנזים", שמרכזו באחד המגדלים בשכונת גבעת שאול בירושלים. מטרתו השאפתנית היא לשחזר את הגניזה הקהירית ולהציג גרסה מלאה ודיגיטלית שלה באינטרנט, לטובת הדורות הבאים.

"
זה דבר אדיר. כשאנחנו מציגים את הפרויקט לאנשים יש להם דמעות בעיניים מרוב התרגשות", אמר דרשוביץ בעודו מביט בסריקה של קטע מהגניזה בכתב ידו של הרמב"ם. "אנחנו עושים פה דבר מאוד מלהיב - עיבוד מסמכים היסטוריים באופן ובהיקף שטרם נראו כמותם במדעי הרוח", הוסיף וולף.

מהפכה

קשה להפריז בחשיבות הפרויקט, שהצליח לרתום את הטכנולוגיה המתקדמת ביותר של המאה ה-21 להצלת אוצר יהודי בלום מהמאה התשיעית. ואכן, השילוב בין מדעי המחשב ומדעי היהדות - שני תחומי מחקר שבמבט ראשון נראים רחוקים זה מזה - הוכתר בהצלחה מסחררת. חודשים ספורים בלבד אחרי תחילת הפרויקט פותחו כלים חדשים, העשויים להאיץ את חקר הגניזה הקהירית, כך שיניב פירות בזמן קצר יותר ובקצב מהיר יותר מכל 120 השנים שעברו מאז התגלתה בעליית הגג של בית הכנסת בקהיר.

את הפרויקט יזם לפני כעשור הנדבן החרדי דב פרידברג מטורונטו שבקנדה, שכתב דוקטורט על הרמב"ם - האישיות המפורסמת ביותר שהתפללה בבית הכנסת "בן עזרא" בקהיר. בחזונו ראה פרידברג אתר אינטרנט שירכז את כל דפי הגניזה והמחקרים שנעשו עליה. תחילה גויסו לפרויקט צוותי מחקר של מומחים לגניזה מרחבי העולם, בניהול אקדמי של חוקרים מהאוניברסיטה העברית. אבל החיפוש אחר הטכנולוגיה המתאימה לעבודתם עלה על שרטון.

השינוי חל לפני חמש שנים, עם מינוי פרופ' יעקב שויקה למנהל הפרויקט. אז, מספרים הנוגעים בדבר, החלה המהפכה האמיתית במחקר הגניזה, שסימניה הראשונים ניכרים כבר היום. הבחירה בשויקה, בן 75, לא היתה מקרית. כבר עשרות שנים שחייו ופועלו משלבים בין היהדות למדעי המחשב. ה"דוקטור למתמטיקה שנסחף למדעי המחשב", כהגדרתו, הוא חוקר בעל שם עולמי שמתמחה באיחזור מידע טקסטואלי, בניתוח ממוחשב של טקסט ובעיבוד ממוחשב של שפות. לצד זאת, הוא בקיא בספרות הקודש היהודית ובעל ייחוס משפחתי מכובד - הוא נינו של הרב הראשי של חלב בסוריה, במאה ה-19. יש גם מעין צדק פואטי בכך ששויקה, שנולד בקהיר ושולט היטב בערבית יהודית - השפה שרבים מקטעי הגניזה כתובים בה - מוביל את הפרויקט למחשוב הגניזה הקהירית.

שויקה כבר השתתף בעבר בכמה וכמה פרויקטים מהסוג הזה. אחד מהם, מאגר היהדות הממוחשב ("פרויקט השו"ת"), היה הראשון בישראל ומהראשונים בעולם ששילבו בין מחשוב ומדעי הרוח. ובכל זאת, המשימה שעמדה בפניו כעת נראתה תחילה בלתי אפשרית כמעט, והוא התלבט זמן רב בטרם התגייס אליה. הבעיה העיקרית שנדרש להתמודד עמה תחילה היתה פיזורם של קטעי הגניזה באוספים ובספריות ברחבי העולם. לא פחות מ-75 ספריות - ציבוריות ופרטיות - מחזיקות היום חלקים מהגניזה.

לפיכך, השלב הראשון של הפרויקט, שנמשך כשנתיים, היה הכנת רשימת מלאי של כל דפי הגניזה בעולם. בעבודת נמלים נאספו הרשימות מספריות בערים רבות בשלוש יבשות, ובהן ירושלים, לונדון, פאריס, וינה, בודפשט, ניו יורק ופילדלפיה. "בפעם הראשונה אחרי 120 שנים שבהן הגניזה מפוזרת בעולם, הצלחנו, בשיתוף פעולה עם הספריות, להכין רשימה אחידה ומלאה של קטעי הגניזה", סיפר השבוע שויקה בסיפוק.

הרשימה הסופית היא קטלוג ממוחשב ומקיף, הכולל את מספרי המדף (מספר סידורי) של כ-350 אלף קטעי טקסטים שנמצאים בספריות שונות על גבי מגילות, חוברות, דפים, קרעים וקטעי ספרים. בין היתר מופיעים שם ספרי תנ"ך ותלמוד ופרשנותם, קטעי תפילה ופיוט, מדרש ומוסר, פילוסופיה ומדעים. רשימת המצאי כוללת גם מכתבים אישיים, מכתבי סוחרים, חשבונות, הלוואות ותרומות, מרשמים ותרופות, תעודות אירוסים, קידושים וגירושים, ואפילו תרגילים בכתיבה. לצד הקטלוג, מציע האתר גם מידע ביבליוגרפי מגוון, שרוכז מעשרות מקורות.

השלב השני של הפרויקט, שיושלם עד סוף השנה הבאה, היה מורכב בהרבה: צילום דיגיטלי ואיכותי של כל קטעי הגניזה. "זו מהפכה אדירה", אמר שויקה, והסביר: "עד עכשיו נדרשו החוקרים לחפש את כתבי היד בספריות בעולם, או לעיין בצילומים שלהם על מיקרופילמים שאיכותם אינה תמיד טובה. המהפכה שעשינו תאפשר בקרוב להציג את הגניזה כולה, לכל חוקר בכל מקום בעולם ובכל שעה, על צג המחשב שלו".

הצילום לא רק יחסוך לחוקרים את הצורך לחפש את הקטעים על מדפי הספריות, הוא גם יאפשר להם לראות אותם באיכות גבוהה מזו של המסמך המקורי. הרזולוציה הגבוהה שבה צולמו קטעי הגניזה מאפשרת להגדיל את התמונות על צג המחשב, עד שניתן להבחין באותיות, סימנים וצבעים, שאינם ניכרים למתבונן במסמך המקורי. לחוקרים רבים זהו שדרוג ללא תקדים.

עד כה צולמו כ-300 אלף תמונות של קטעי גניזה. בימים אלה נמשכים הצילומים - בקצב של 10,000 תמונות בחודש - בספרייה של קיימברידג'. כשתושלם המלאכה יתווספו למאגר עוד 250 אלף תמונות. לקראת סוף 2012, מבטיח שויקה, יהיו במאגר כ-550 אלף תמונות של קטעי גניזה, שהם 99% מקטעי הגניזה הקיימים. "הם יהיו מצולמים, זמינים וחופשיים לשימוש", אמר. לשם השוואה: עד תחילת הפרויקט היו רק אלף תמונות דיגיטליות של הגניזה.

כצפוי, חלק מהספריות סירבו תחילה לשתף פעולה עם הפרויקט החדש ולסרוק את כתבי היד של הגניזה שהחזיקו ברשותן. החשש שלהן היה שאם הטקסטים יהיו זמינים באינטרנט, איש לא יבוא עוד לספרייה לראותם. ואולם שויקה אומר שבסופו של דבר "רוב הספריות הבינו שזה העתיד וכדאי להן לשתף אתנו פעולה".

מי שמתקשות עדיין לשתף פעולה עם הפרויקט הן שלוש ספריות במזרח אירופה (מוסקווה וסנט פטרבורג ברוסיה, וקייב באוקראינה). עם שתי ספריות אחרות - באוקספורד ומנצ'סטר בבריטניה - מתנהל משא ומתן על שיתוף הפעולה.

הצירופים

שויקה אינו מסתפק בכך. הטכנולוגיה מאפשרת היום לבצע הרבה יותר מסריקה וקטלוג של אוספי ענק כמו הגניזה הקהירית. גולת הכותרת של הפרויקט היא כעת עבודתו של צוות בתחום הבינה המלאכותית, שתאפשר למחשב להתגבר על הבעיה הגדולה השנייה של הגניזה הקהירית: בנוסף להיותה מפוזרת בעולם, קטעים רבים מהגניזה נקטעו לדפים ולחלקי דפים.

חתן פרס ישראל לתלמוד, יעקב זוסמן, הציג את הבעיה הזאת כבר לפני 35 שנים. בהתייחסו לשרידי התלמוד שנמצאים בגניזה אמר: "חסרונם הגדול - היותם קטעי קטעים, שהרי תורתך נעשית קרעי קרעים, אם אינך יודע להבחין בין קטע לקטע, לסווגם ולמיינם ולשקול את משקלם מבחינת מוצאם וטיבם... והנה קטעים אלה של הגניזה, בהיותם קרעי קרעים מפורדים, קשה מאוד לעמוד על משקלם הסגולי מבחינת מוצאם וטיבם ולשייכם למסורת נוסח זו או אחרת" (מתוך הרצאה שנשא באוניברסיטת תל אביב, מארס 1976).

כך, לדוגמה, ייתכן שקטע אחד מדף קרוע של הגניזה התגלגל ברבות השנים לאוקספורד וקטע אחר מאותו הדף נמצא מעבר לאוקיינוס, בטורונטו. כדי לצרף מחדש את החלקים של אותו הדף, צריך לאתר אותם בין מאות אלפי המסמכים הפזורים בעולם, ולוודא שאכן מדובר בקטעים מאותו הדף.

המלאכה הזו - חיפוש מחט בערימה של שחת - לא היתה מסתיימת לעולם בידי בן אנוש כלשהו. כדי להשוות כל אחד מהמסמכים למסמכים האחרים נדרשות מאות מיליארדי פעולות השוואה. חוקרים שהתנסו בהשוואה בין קטעי הגניזה העידו במשך השנים על הקושי הרב שבהשלמתה ועל החוכמה הרבה שנדרשת כדי להתמודד אתה. הרבה פעמים נראה, במבט שטחי, ששני קטעים שייכים לאותו הדף. אבל עין מומחה עשויה להבחין בהבדלים ולקבוע שנכתבו בידי סופרים שונים. מנגד, החוקר טוען לפעמים שהבחין בשני קטעים שונים, אף שמדובר בקטע אחד, שהתפזר לשני דפים.

כאן נכנס לתמונה - תרתי משמע - המחשב. אנשי הפרויקט מפתחים מערכת לצירוף אוטומטי של קטעי גניזה שהופרדו ברבות השנים. התוצאות עד כה מעודדות. בכל 115 השנים האחרונות גילו חוקרים רק כמה אלפי צירופים של קטעים מהגניזה שהיו במקומות שונים. והנה, בניסוי ראשוני שנעשה כבר איתרו המחשבים של הפרויקט קרוב לאלף צירופים חדשים, שלא היו מוכרים בספרות ובמחקר.

דוגמאות לא חסרות. הטבלאות שמציג הצוות מלאות ברשימות ארוכות של קטעים מהמקרא, הפטרות, תרגומים, פירושים, מדרשים, קבלה, חוכמת הלשון, תיאולוגיה ומוסר, ספרות יפה ותעודות שונות - שהיו מפוזרים במקומות שונים עד כה וכעת אוחדו מחדש.

איך הם עושים את זה? מלמדים את המחשב לנתח את התמונות הדיגיטליות של קטעי הגניזה ולדלות מהן נתונים חזותיים רבים. כך נוצר בסיס נתונים ענק, שמכיל את נתוני כל הקטעים של הגניזה. בהמשך, משתמש המחשב במידע המופק מהנתונים האלה כדי להשוות בין התמונות של קטעי הגניזה, ולקבוע לאלו מהן יש מקור משותף.

חוקר התלמוד ואיש מדעי המחשב, ד"ר רוני שויקה, בנו של מנהל הפרויקט, היה אחראי לפיתוח תוכנה ייחודית המסייעת במשימה: מערכת ממוחשבת היודעת למדוד נתונים פיזיים שונים של כל קטע, כמו אורכו ורוחבו, מספר הטורים והשורות שבו, גודל השוליים, צפיפות האותיות ועוד. לצד אלה היא מזהה את שלמות הדף, וקובעת אם חסרות בו פינות או אם הוא חתוך או קרוע.

בה בעת, התוכנה שפיתחו הפרופסורים וולף ודרשוביץ מאוניברסיטת תל אביב משתמשת בטכנולוגיה מתחום זיהוי הפנים, ששימוש נרחב בה נעשה ברשת החברתית פייסבוק ובתוכנת ניהול התמונות "פיקאסה" של גוגל. וולף הסביר השבוע: "לא היה לי ניסיון קודם בעבודה עם כתבי יד, אבל עבדתי בעבר על הבעיה של זיהוי פנים. האנלוגיה די ברורה: כפי שהמחשב יודע לזהות אדם שצולם בכמה תמונות, גם אם הוא נראה שונה בכל אחת מהן, הוא יידע לזהות קטעים שונים שהיו שייכים פעם למסמך אחד, גם אם כל אחד מהם נראה היום אחרת".

אבל כדי להגיע לתוצאה הטובה ביותר נדרש שיתוף פעולה בין המחשב לאדם. "המשימה הזו הרבה יותר גדולה מכל בן אדם, וכרגע גם המחשב לא יכול לעשות אותה לבד", הסביר וולף. "לכן, חוקר הגניזה נמצא בדיאלוג מתמיד עם המחשב, עובד אתו צמוד ונותן משוב לתוצאות שנותן לו המחשב, וכך משפר את יכולת הזיהוי העתידיות שלו", הוסיף. "הסינרגיה הזו, שמעולם לא נעשתה בהיקף כזה במדעי הרוח, מאוד מלהיבה".

כדי לפשט את העניין הסביר דרשוביץ: "המחשב, בניגוד לאדם, לעולם לא ישתעמם לעבור על אלפי קטעים מהתנ"ך, ויעשה את זה בצורה הרבה יותר מהירה מכל אדם. אבל רק החוקר האנושי יכול לקרוא את התוכן שלהם, ולהבין מההקשר של הטקסט במה מדובר". הדברים האלה נכונים לעת עתה. כפי שהעריך וולף, "בעתיד, המחשב יוכל לראות כל דבר שהאדם יוכל לראות. השאלה היא רק מתי יבוא העתיד הזה". כך או כך, לדבריו, "אין לי ספק שבתוך עשור המצב יהיה שונה לחלוטין מכפי שהוא היום".

למעשה, יש כיום טכנולוגיה המאפשרת למחשב לקרוא טקסטים מודפסים. אבל היא מקרטעת כשמדובר בכתבי יד עתיקים מהסוג של הגניזה, שמתאפיינים בסוגי כתב שאינם קיימים היום, באותיות מחוברות או בכתב מטושטש. "אנחנו עובדים גם על זה, בשיתוף פעולה עם חוקרים מהאוניברסיטה העברית", אמר שויקה. "יש תוצאות ראשונות ויפות ובעתיד המחשב גם יוכל ‘לקרוא' במידה מסוימת את הגניזה, ולאתר בה קטעים שהחוקרים לא הגיעו אליהם בגלל ההיקף האדיר".

החוקרים הוותיקים במדעי הרוח, שנולדו לפני עידן המחשבים והתרגלו לחפש בכוחות עצמם את המידע שדרוש להם, התקשו תחילה להתרגל לטכנולוגיה החדשה. "פרופסורים מנוסים, שכבר ראו הכל, גילו חשדנות כלפי השימוש במחשבים, ותהו ‘מה כבר יוכל המחשב לעשות שאני לא חקרתי במשך עשרות שנים'", אמר דרשוביץ.

אבל גם גדולי הספקנים המירו מהר מאוד חשדנות בהתלהבות. "הם הבינו שהמחשב יוכל לחסוך להם הרבה מאוד עבודה ולאפשר להם להתמקד בתוכן ולא לחטט ולחפש אחר חומרים אבודים", הסביר. וולף הוסיף ש"הם יודעים שמדעי המחשב אינם מחליפים את מדעי הרוח, אלא מעצימים אותם ונותנים להם כלים חדשים".

המגילות

הטכנולוגיה שפיתחו וולף ודרשוביץ מאוניברסיטת תל אביב עשויה לשמש אותם גם בפרויקט אחר שהם עובדים עליו בנפרד: מחשוב מגילות ים המלח (הנקראות גם המגילות הגנוזות או מגילות קומראן). בחודש שעבר נחנך אתר אינטרנט חדש בשם "מגילות ים המלח - הפרויקט הדיגיטלי", שמציג סריקות באיכות גבוהה של חמש מגילות המתוארכות מהמאה השלישית לפני הספירה עד המאה הראשונה לספירה, ושהתגלו במדבר יהודה בשנות ה-40 וה-50 של המאה הקודמת.

האתר החדש, ששותפים בו מוזיאון ישראל וגוגל, מאפשר לגולשים לחקור את המגילות ברזולוציה גבוהה ולבצע חיפוש מידע בתוכן. "זה כמו שילד ששפך על הרצפה עשר קופסאות של פאזלים, וזרק לפח חצי מהחתיכות", ניסה דרשוביץ להסביר את הבעיה שהציבו כתבי היד של המגילות. "אנחנו עובדים בעניין הזה בשיתוף עם פרופסור שהתמחה בעבר בפתרון בעיות של פאזלים באופן ממוחשב", הוסיף. לדברי שויקה, "זה אותו רעיון ואותו סוג של חומר כמו בגניזה הקהירית: קטעים-קטעים של כתבי יד, שהתפזרו ונחקרו על ידי חוקרים שונים ולא טופלו נכון. עכשיו, סוף סוף, מצלמים אותם מחדש ופותחים אותם לכל העולם".

לצד מחשוב הגניזה הקהירית מתחיל שויקה בימים אלה לעבוד על פרויקט גדול, מקיף ומשמעותי עוד יותר מהאחרים, לדבריו. הפרויקט, שייקרא "הכי גרסינן" (על שם האופן שבו ציין רש"י בפירושו את שינויי הגרסאות בתלמוד הבבלי), יציג את כל שינויי הנוסחאות של התלמוד, לפי כל כתבי היד והדפוסים שבעולם. "זה יהיה אתר אינטרנט חדשני שייבנה בצורה שלא היתה כמותה מעולם", אמר שויקה. "כל מי שלומד דף גמרא - אם זה בחור ישיבה, אם תלמיד בבית ואם חוקר באוניברסיטה - יוכל לראות על כל שורה שהוא לומד את כל שינויי הנוסחאות שלה, על פי כל כתבי היד הקיימים". זה 150 שנה בקירוב שחוקרי תלמוד מנסים להשיק פרויקט דומה. כעת, בזכות המחשבים והטכנולוגיה של שויקה, גם הפרויקט הזה יהיה באוויר תוך כמה שנים. כך הוא מבטיח.



הוספת תגובה
  מגיב אנונימי
שם או כינוי:
חסימת סיסמה:
  זכור אותי תמיד במחשב זה

כותרת ראשית:
אבקש לקבל בדואר אלקטרוני כל תגובה לטוקבק שלי
אבקש לקבל בדואר אלקטרוני כל תגובה למאמר הזה