עיבוד שפה טבעית בערבית: סיווג מסמכים באונטולוגיה מוגדרת

נמרוד הרשברג וכפיר בר עלון SIGTRS כרך 14 חוברת 1 18.10.2007 08:36

הכלי ש-Intuview מפתחת מקבל מסמכים בערבית (בשלב הראשון, שפות אחרות תיתוספנה בשלבים הבאים), מנתחם ומפיק דו"ח עליהם. הדו"ח מכיל מידע ישיר ועקיף שאפשר להפיק מהמסמכים ואפיון המסמכים בקטגוריות כגון רמת הרדיקליות של המסמך, סיווגו לכתות אסלאמיות מסוימות וכן הלאה.



הכלי ש-Intuview מפתחת מקבל מסמכים בערבית (בשלב הראשון, שפות אחרות תיתוספנה בשלבים הבאים), מנתחם ומפיק דו"ח עליהם. הדו"ח מכיל מידע ישיר ועקיף שאפשר להפיק מהמסמכים ואפיון המסמכים בקטגוריות כגון רמת הרדיקליות של המסמך, סיווגו לכתות אסלאמיות מסוימות וכן הלאה.

המידע ממוצה מהטקסט בהתבסס על בסיס ידע ש- Intuview בונה בעצמה ומכיל אונטולוגיה (בלתי תלוית שפה), לקסיקון (כרגע בערבית בלבד) ובסיסי נתונים חיצוניים.

תהליך עיבוד הטקסט נעשה בעזרת מנוע עיבוד שפה, שתפקידו למצוא את המשמעויות בטקסט וליצור- Document Digest של המסמך בקלט, ומנוע סטטיסטי הנותן ציון למסמך הקלט עבור כל אחת מהקטגוריות המוגדרות לו. אחר כך מופעלת מערכת חוקים על ה- Document Digestולפי תוצאות שלושת השלבים הללו מפיק מנוע הפלט דו"ח למשתמש.

מנוע עיבוד השפה הוא כמובן תלוי שפה. עיבוד השפה מתבצע בשכבות –
• השכבה הראשונה – ניתוח מורפולוגי – עוסקת במילה הבודדת. השכבה אחראית לפירוק המורפמות של המילה ולזיהוי הגזע (stem). בשכבה זו אנחנו גם מוצאים את גבולות המשפטים לפי סימני פיסוק אם קיימים.
• השכבה השנייה – תיוג חלק הדיבר של כל מילה.
• השכבה השלישית – ניתוח תחבירי "רדוד"– עוסקת ברמת המשפט. אנחנו מבצעים Shallow Parsing (או בשם אחר: Base-Phase chunking), כלומר, אנחנו מוצאים אך הצירופים הבסיסיים של המשפט (לא רקורסיביים).
• השכבה הרביעית – ניתוח סמנטי – עוסקת בהוצאת משמעויות מהמשפט. בשכבה זו אנו ממפים מילים או צירופים שמצאנו בשכבות הקודמות למופעים ומחלקות מהאונטולוגיה. השכבה משתמשת במערכת חוקים פנימית שלנו על מנת לבצע את התהליך.

המנוע הסטטיסטי משתמש במספר רק של מסמכים שנותחו באופן ידני על מנת לחשב את הניתוח של מסמך חדש. אנחנו משלבים שתי שיטות: SVM (Support Vector Machine)  וCentroid-Based הידועה מתחום ה- Text : Categorization, אולם המאפיינים של המסמך הם מופעי האונטולוגיה שמצאנו במנוע העיבוד שפה ולא המילים עצמן. את הציונים שמקבל המסמך בשתי השיטות בקטגוריות השונות אנחנו משקללים לציון משולב וצירוף הציונים הללו נותן לנו את האפיון הראשוני של המסמך.

האפיון הסופי של המסמך מתקבל לאחר השלב הבא, שהוא מערכת החוקים שאנחנו מגדירים למופעי אונטולוגיה נוספים שאפשר להסיק מהמסמך, אף על פי שהם לא מופיעים בו בצורתם שהוגדרה בלקסיקון.

תוצאות העיבוד במלואן מועברות למנוע פלט המפיק על פיהן דו"ח באנגלית למשתמש. המנוע בונה את הדו"ח על סמך הציונים שניתנו למסמך בקטגוריות השונות ובעזרת עיבודו של הפלט הגולמי של מנוע ה-NLP, כלומר הערכים האונטולוגיים שזוהו במסמך.



מצגת ההרצאה


attachment 141-Intuview.pdf



הוספת תגובה
  מגיב אנונימי
שם או כינוי:
חסימת סיסמה:
  זכור אותי תמיד במחשב זה

כותרת ראשית:
אבקש לקבל בדואר אלקטרוני כל תגובה לטוקבק שלי
אבקש לקבל בדואר אלקטרוני כל תגובה למאמר הזה