Automatically Identifying Join Candidates in the Cairo Genizah
חיבור (join) הוא אוסף של קטעי כתב יד הידיים הידועים כמקורם באותה יצירה מקורית. גניזה קהירית היא אוסף המכיל כ-250,000 קטעים, בעיקר של טקסטים יהודיים, שהתגלו בסוף המאה ה-19. הקטעים מפוזרים כיום בספריות ובאוספים פרטיים ברחבי העולם, וקיים מאמץ מתמשך לתעד ולקטלג את כל הקטעים הקיימים. משימת מציאת החיבורים מתבצעת כיום באופן ידני על ידי מומחים, וסביר להניח שרק חלק קטן מהחיבורים הקיימים התגלו. בעבודה זו, אנו חוקרים את בעיית המציאה האוטומטית של חיבורים מועמדים, על מנת לייעל את המשימה. השיטה המוצעת מבוססת על שילוב של תיאורים מקומיים וטכניקות למידה. כדי להעריך את ביצועי שיטות מציאת החיבורים השונות, מבלי להסתמך על זמינותם של מומחים אנושיים, אנו בונים מערך נתונים מבוסס על מדד Labeled Faces in the Wild לזיהוי פנים. באמצעות מדד זה, אנו מעריכים מספר ייצוגי תמונה וטכניקות למידה חלופיות. לבסוף, זוהתה קבוצה של מועמדים חדשים לחיבור באמצעות השיטה שלנו ואומתה על ידי מומחה אנושי.
322-Automatically_identifying_join_candidate.pdf