זיהוי טקסט וחיפוש בכתבי יד עבריים היסטוריים

שחר ערמון 19.01.2012 07:59
זיהוי טקסט וחיפוש בכתבי יד עבריים היסטוריים


בהרצאה זו נתאר מערכת חדשה לזיהוי טקסט וחיפוש בכתבי יד עבריים היסטוריים. לאחר עיבוד של תמונות כתבי היד המערכת מחשבת ביעילות את הקריאה הסבירה ביותר, מציעה קריאות חלופיות (בעזרת כלי אינטראקטיבי) ובנוסף, מאפשרת לחפש מחרוזות בקריאות החלופיות של אוסף כתבי יד גדול.



בהרצאה זו נתאר מערכת חדשה לזיהוי טקסט וחיפוש בכתבי יד עבריים היסטוריים. לאחר עיבוד של תמונות כתבי היד המערכת מחשבת ביעילות את הקריאה הסבירה ביותר, מציעה קריאות חלופיות (בעזרת כלי אינטראקטיבי) ובנוסף, מאפשרת לחפש מחרוזות בקריאות החלופיות של אוסף כתבי יד גדול.

כתבי יד היסטוריים מאופיינים בפגמים רבים וכן בגמישות של צורת האותיות בכתבי יד, לכן ישנם קשיים רבים בעיבוד וזיהוי מסמכים אלו. המערכת המתוארת מתמודדת עם הקושי ליצור סגמנטציה של אותיות (שיכולות להיות מחוברות או שבורות, או גם וגם) ועם הקושי בזיהוי אותיות (עקב מצבם הרעוע קשה לזהותן בוודאות). המערכת מפרידה אותיות מחוברות בשיטה חדשה על ידי חלוקת האותיות המחוברות לכמה חלקים. בהמשך, המערכת בודקת צירופים של חלקי אותיות (שנוצרו בעיבוד המקדים לשם ההפרדה או שהיו כבר מופרדים בתמונה) והצירופים הטובים מסווגים. שיטה משופרת שימשה לתיאור תמונת האותיות לשם הסיווג. כל האותיות שנמצאו סבירות וציונן (שהתקבל מהסיווג) מאוכסנים בגרף הקריאה השומר גם את קשרי השכנות של האותיות. גרף הקריאה הינו מבנה הדומה ל- candidate-lattice והוא מתאר את הקריאות האלטרנטיבות של תמונת הטקסט.

בעזרת גרף הקריאה של תמונת טקסט ועל סמך הציונים שבו (הכוללים גם הסתברות של זוגות האותיות) המערכת מחשבת את הקריאה הסבירה ביותר. בנוסף, המערכת מאפשרת לבדוק את הקריאה שהתקבלה בעזרת כלי אינטראקטיבי. אותיות עם חלופות טובות מעכבות את מהלך הבדיקה וניתנת למשתמש אפשרות החלפה עבורן. לבסוף, המערכת מאכסנת את כל גרפי הקריאה במבנה נתונים מבוסס אינדקסים לשם שליפה מהירה על סמך חיפוש מחרוזות. באופן זה, אנו מאפשרים חיפוש מהיר בקריאות החלופיות של אוסף כתבי יד גדול.

תוצאות של ניסויים שערכנו על מסמכים מגניזת קהיר מראים שהמערכת מצליחה לקרא כתבי יד רבים הסובלים מבעיות מגוונות (הדבקות אותיות, אותיות שבורות, רעש, כתמים ועוד). בנוסף, המערכת מסוגלת לחפש בהצלחה ובמהירות רבה מחרוזות באוסף גדול של כתבי יד כאלו.

מצגת ההרצאה


attachment 191-זיהוי טקסט וחיפוש בכתבי יד עבריים היסטוריים.pdf



הוספת תגובה
  מגיב אנונימי
שם או כינוי:
חסימת סיסמה:
  זכור אותי תמיד במחשב זה

כותרת ראשית:
אבקש לקבל בדואר אלקטרוני כל תגובה לטוקבק שלי
אבקש לקבל בדואר אלקטרוני כל תגובה למאמר הזה