מלינגו: חיפוש וחילוץ ישויות בסביבות שונות

ליאור ארנן וחיים גילהר 23.10.2014 03:00
מלינגו: חיפוש וחילוץ ישויות בסביבות שונות


בשל המבנה המיוחד שלה, השפה העברית מעמידה אתגר לא פשוט בפני מנוע חיפוש. השפה העברית מתאפיינת בריבוי רב משמעות, בכתיב מלא/חסר, ניקוד, מילים נרדפות וכו' . פעולת החיפוש במערכת ללא טיפול במאפיינים אלו תסבול מאחזור חסר או מאחזור תוצאות לא רלוונטיות. הפתרון הוא לשלב במנוע החיפוש מנגנון חכם - רכיב מורפולוגי - ובכך לפתור את כל בעיות החיפוש בעברית ולשפר באופן משמעותי את תוצאות החיפוש.



 

מלינגו: חיפוש וחילוץ ישויות בסביבות שונות

 

ליאור ארנן וחיים גילהר

 

בשל המבנה המיוחד שלה, השפה העברית מעמידה אתגר לא פשוט בפני מנוע חיפוש.

השפה העברית מתאפיינת בריבוי רב משמעות, בכתיב מלא/חסר, ניקוד, מילים נרדפות וכו' .

פעולת החיפוש במערכת ללא טיפול במאפיינים אלו תסבול מאחזור חסר או מאחזור תוצאות לא רלוונטיות.

הפתרון הוא לשלב במנוע החיפוש מנגנון חכם - רכיב מורפולוגי - ובכך לפתור את כל בעיות החיפוש בעברית ולשפר באופן משמעותי את תוצאות החיפוש.

 

הרכיב המורפולוגי הוא API  המותאם למנועי החיפוש המובילים בשוק כגון LuceneSolR, Attivio, Microsoft SPS & SQL, Idol, Oracle . הוא תומך בחיפוש על פי הקשר, חיפוש על פי המשפחה הסמנטית, חיפוש על פי סאונדקס (מצלול), טיפול בכתיבים שונים, חיפוש על פי מילים נרדפות (תזאורוס), חיפוש ממוקד שמות, והוא מאפשר סימון מילות החיפוש בתוצאות.

 

הרכיב המורפולוגי פועל בצורה של נרמול – כל צורה מאלפי הצורות השונות תומר לערך יסוד אחד (צורת יסוד) הן בזמן אינדוקס החומר והן בזמן השאילתה, תוך ניתוח ההקשר אשר בה היא מופיעה, ובאופן כזה מתבצעת בסופו של דבר ההתאמה והאחזור.

 

הרכיב המורפולוגי מתממשק למנוע החיפוש באמצעות ממשק תוכנה (API) של מערכת האינדוקס והחיפוש של מנוע החיפוש כך שהוא מהווה חלק אינטגרלי ממנוע החיפוש.

האינדקס שייבנה יהיה אינדקס מנורמל.

בזמן השאילתה, מילת / מילות החיפוש מנותחות מורפולוגית (כמו בתהליך האינדוקס). תוצאת הניתוח היא ערך מנורמל המופנה לאינדקס המנורמל.

רמת הדיוק והרלוונטיות של האחזור מגיעה ל 97%.

 

תחום ניתוח הטקסטים אינו מסתיים בחיפוש. לקוחות רבים מעוניינים בכלי שיסייע להם להבין טוב יותר את הטקסטים שהם עובדים אתו, לעיתים גם במסגרת מנוע החיפוש. לצורך כך יצרה מלינגוAPI    אשר ייתן מענה לניתוח מורפולוגי וחילוץ ישויות טקסטואליות. זהו ה-Intelligent Content Analysis  

 

ה-  ICA של מלינגו היא מערכת לזיהוי וחילוץ ישויות בטקסט בלתי מובנה בשפות עברית ערבית ופרסית.

התוכנה מחלצת מטקסט את הישויות המרכזיות המופיעות בו כגון שמות אנשים, מקומות, ארגונים, כתובות, מילים מקבוצות סמנטיות מסוימות, וכן מחרוזות חוץ לשוניות בעלות משמעות כגון מספרי טלפון, מספרי רישוי רכב, כרטיסי אשראי, כתובות דוא"ל, אתרי אינטרנט ועוד. 

בנוסף, מחזירה המערכת גם ניתוח מורפולוגי מלא ותלוי הקשר עם התגברות על רב המשמעות. הפלט מכיל מידע מלא על צורת בסיס, שורש, מספר, מין, ועוד.

הישויות מחולצות לתקציר שבו הן ממוינות לפי קטגוריה. הICA - כולל אפשרויות להוספת והעשרת קטגוריות ארגוניות  יכולות אלו מאפשרות שיוך מילים או שמות בשפה העברית לישויות (קטגוריות) חדשות או להוסיפן לישויות קיימות.

 

דוגמה אחת לשילוב שני המוצרים ה- CS וה- ICA במערך החיפוש היא שימוש ב-facets, כאשר הפלאג המורפולוגי למנוע החיפוש מאפשר אחזור תוצאות מדויקות, ומערכת ה-ICA מאפשרת יצירה של סינונים עפ"י הישויות שנמצאו בטקסטים.

 

 מצגת ההרצאה




הוספת תגובה
  מגיב אנונימי
שם או כינוי:
חסימת סיסמה:
  זכור אותי תמיד במחשב זה

כותרת ראשית:
אבקש לקבל בדואר אלקטרוני כל תגובה לטוקבק שלי
אבקש לקבל בדואר אלקטרוני כל תגובה למאמר הזה