עיבוד שפה טבעית בערבית: סיווג מסמכים באונטולוגיה מוגדרת

נמרוד הרשברג וכפיר בר עלון SIGTRS כרך 14 חוברת 1 18.10.2007 08:36

הכלי ש-Intuview מפתחת מקבל מסמכים בערבית (בשלב הראשון, שפות אחרות תיתוספנה בשלבים הבאים), מנתחם ומפיק דו"ח עליהם. הדו"ח מכיל מידע ישיר ועקיף שאפשר להפיק מהמסמכים ואפיון המסמכים בקטגוריות כגון רמת הרדיקליות של המסמך, סיווגו לכתות אסלאמיות מסוימות וכן הלאה.

המידע ממוצה מהטקסט בהתבסס על בסיס ידע ש- Intuview בונה בעצמה ומכיל אונטולוגיה (בלתי תלוית שפה), לקסיקון (כרגע בערבית בלבד) ובסיסי נתונים חיצוניים.

תהליך עיבוד הטקסט נעשה בעזרת מנוע עיבוד שפה, שתפקידו למצוא את המשמעויות בטקסט וליצור- Document Digest של המסמך בקלט, ומנוע סטטיסטי הנותן ציון למסמך הקלט עבור כל אחת מהקטגוריות המוגדרות לו. אחר כך מופעלת מערכת חוקים על ה- Document Digestולפי תוצאות שלושת השלבים הללו מפיק מנוע הפלט דו"ח למשתמש.

מנוע עיבוד השפה הוא כמובן תלוי שפה. עיבוד השפה מתבצע בשכבות –
• השכבה הראשונה – ניתוח מורפולוגי – עוסקת במילה הבודדת. השכבה אחראית לפירוק המורפמות של המילה ולזיהוי הגזע (stem). בשכבה זו אנחנו גם מוצאים את גבולות המשפטים לפי סימני פיסוק אם קיימים.
• השכבה השנייה – תיוג חלק הדיבר של כל מילה.
• השכבה השלישית – ניתוח תחבירי "רדוד"– עוסקת ברמת המשפט. אנחנו מבצעים Shallow Parsing (או בשם אחר: Base-Phase chunking), כלומר, אנחנו מוצאים אך הצירופים הבסיסיים של המשפט (לא רקורסיביים).
• השכבה הרביעית – ניתוח סמנטי – עוסקת בהוצאת משמעויות מהמשפט. בשכבה זו אנו ממפים מילים או צירופים שמצאנו בשכבות הקודמות למופעים ומחלקות מהאונטולוגיה. השכבה משתמשת במערכת חוקים פנימית שלנו על מנת לבצע את התהליך.

המנוע הסטטיסטי משתמש במספר רק של מסמכים שנותחו באופן ידני על מנת לחשב את הניתוח של מסמך חדש. אנחנו משלבים שתי שיטות: SVM (Support Vector Machine) וCentroid-Based הידועה מתחום ה- Text : Categorization, אולם המאפיינים של המסמך הם מופעי האונטולוגיה שמצאנו במנוע העיבוד שפה ולא המילים עצמן. את הציונים שמקבל המסמך בשתי השיטות בקטגוריות השונות אנחנו משקללים לציון משולב וצירוף הציונים הללו נותן לנו את האפיון הראשוני של המסמך.

האפיון הסופי של המסמך מתקבל לאחר השלב הבא, שהוא מערכת החוקים שאנחנו מגדירים למופעי אונטולוגיה נוספים שאפשר להסיק מהמסמך, אף על פי שהם לא מופיעים בו בצורתם שהוגדרה בלקסיקון.

תוצאות העיבוד במלואן מועברות למנוע פלט המפיק על פיהן דו"ח באנגלית למשתמש. המנוע בונה את הדו"ח על סמך הציונים שניתנו למסמך בקטגוריות השונות ובעזרת עיבודו של הפלט הגולמי של מנוע ה-NLP, כלומר הערכים האונטולוגיים שזוהו במסמך.

מצגת ההרצאה

הוספת תגובה שלח הדפסה דווח

הוספת תגובה

	מגיב אנונימי

מגיב אנונימי

שם או כינוי:	הירשם לקבלת שם מגיב שיהיה רק שלך הירשם לקבלת שם מגיב שיהיה רק שלך בחר בבקשה שם כינוי קבוע וייחודי לך וסיסמה לשימוש עם השם הזה. שם או כינוי: חסימת סיסמה: הקלדה נוספת של אותה סיסמה: כתובת דואר אלקטרוני:
חסימת סיסמה:
	זכור אותי תמיד במחשב זה

כותרת ראשית:

כותרת ראשית:

אבקש לקבל בדואר אלקטרוני כל תגובה לטוקבק שלי
אבקש לקבל בדואר אלקטרוני כל תגובה למאמר הזה

עמוד הבית | "מידע וטקסט" עלון ק.עניין Information and Text", SIGTRS"

המאמרים החדשים

אתר הגבורה – איסוף מידע נרחב, עיבודו והפצתו לציבור כפרויקט לאומי המוצר אוטונומי עלון קבוצת העניין אחזור מידע וטקסט, חוברת 2 כרך י"ט - דצמבר 2012, קובץ מלא להורדה חדשות קבוצת עניין אחזור מידע וטקסט - SIGiTRS - כרך י"ט חוברת 2 - דצמבר 2012 אינדקס לכרכים א' עד י"ט (כולל חוברת 2) עפ"י מחברים אינדקס לכרכים א' עד י"ט (כולל חוברת 2) עפ"י כותרים חברי הכנסת כצרכני מידע Full Text Search – צעד מעבר (beyond) למסד נתונים יחסי זיכרון לטווח רחוק מחשוב ארכיונים

הנקראים ביותר

SIGTRS - המפגש הבא Next meeting מפגשים קודמים Previous meetings הספר Information Retrieval של C.J. van RIJSBERGEN תכונות מנוע החיפוש Attivio "אנו משתדלים יותר" – שימושי אחזור מידע באתר השאלות והתשובות השני בגדלו בעולם Web 3.0 מעבר לפינה – טכנולוגיות סמנטיות באינטרנט ובארגונים רשימת תפוצה Mailing list כנס טלדן 2009 על אודות הקבוצה חיפוש עברי: לראשונה בקוד פתוח. אתגרים, פתרונות והתמודדויות אחרות.

עוד מאמרים מ "מידע וטקסט" עלון ק.עניין Information and Text", SIGTRS"

תחזית לעולם ה-AI מבוסס מאמר AI2027 ספר חדש של האקדמיה ללשון לזכרו של פרופ' עוזי אורנן הצעה לשיפור התנהגות מודלים מול משתמשים ב- chat gpt 5 בטיפול בטקסט עברי עלון קבוצת העניין אחזור מידע וטקסט, חוברת 2 כרך ל"ב - דצמבר 2025, קובץ מלא לקריאה והורדה חדשות קבוצת עניין אחזור מידע וטקסט - SIGiTRS - כרך ל"ב חוברת 2 - דצמבר 2025 אינדקס לכרכים א' עד ל"ב (כולל חוברת 2) עפ"י תאריך פרסום אינדקס לכרכים א' עד ל"ב (כולל חוברת 2) עפ"י מחברים יד ושם זיהה חמישה מיליון משמות הנרצחים בשואה דו״ח משתמש – תהליך יצירת איורים במערכת OpenAI איך לייצר הסכת בכלי AI תקציר הדו״ח להאצת תחום הבינה המלאכותית של ועדת נגל - אוגוסט 2025 Automatically Identifying Join Candidates in the Cairo Genizah חוק הבינה המלאכותית של האיחוד האירופי הסכתים מבית SIGTRS מחשבים, דברו עברית: מיזם ivrit.ai התוכנית הלאומית לבינה מלאכותית - תמונת מצב – אפריל 2025 עלון קבוצת העניין אחזור מידע וטקסט, חוברת 1 כרך ל"ב - יוני 2025, קובץ מלא לקריאה והורדה חדשות קבוצת עניין אחזור מידע וטקסט - SIGiTRS - כרך ל"ב חוברת 1 - יוני 2025 אינדקס לכרכים א' עד ל"ב (כולל חוברת 1) עפ"י מחברים אינדקס לכרכים א' עד ל"ב (כולל חוברת 1) עפ"י תאריך פרסום