עיבוד טקסט - מונחים ויישומים

עפר דרורי 13.01.2008 08:57
עיבוד טקסט - מונחים ויישומים


בהרצאה הוסברו מושגי ייסוד בעיבוד טקסט, אחזור מידע ויישומים בתחום. הוסבר ההבדל בין שדות פתוחים לשדות מפורמטים ומה היתרונות של כל אחד מהפורמטים. הוצגו הפעולות השימושיות באחזור טקסט הוצגו המונחים הקיימים בעיבוד טקסט



עיבוד טקסט - מונחים ויישומים
עפר דרורי
 
בהרצאה הוסברו מושגי ייסוד בעיבוד טקסט, אחזור מידע ויישומים בתחום.
הוסבר ההבדל בין שדות פתוחים לשדות מפורמטים ומה היתרונות של כל אחד מהפורמטים.
 
הוצגו הפעולות השימושיות באחזור טקסט
 מציאת המידע המעניין אותי למשימה נתונה מתוך מאגר נתונים גדול ללא ידיעת מפתח הגישה
 גזירת מידע אוטומטי / כריית מידע
 סיוע בהבנת טקסט – תמצות ותרגום חלקי
 
הוצגו המונחים הקיימים בעיבוד טקסט
 תו או אות
 מחרוזת תווים
 מילה
 ביטוי
 משפט
 פיסקה
 מסמך
 הגדרת מרחק
 ניתוח צורני (מורפולוגי) תוך איתור שורשי המילים  "הנשים באולם תצפנה בתצוגה כשתתפננה מההרצאה"
 ניתוח חלקי דיבר (שם עצם, פועל וכו')
 ניתוח תחבירי (נושא, נשוא, מושא וכו')
 ניתוח סמנטי (מה הכוונה / מה המשמעות)
 ידע מוכר משלים "שוב פרס במקום השני"
 
קיבוץ
 יצירת קבוצות מסמכים בעלות דמיון רב בכל קבוצה ללא הבנת הטקסט (סמנטיקה) וללא מונחים מוגדרים מראש (קטגוריזציה).
 מטרה: חלוקה של מאגר מסמכים גדול לקבוצות דומות, נהוג לקבוע את מספר הקבוצות מראש
 דוגמא: פיזיקה: כל המסמכים שהמילה "ניוטון" מוזכרת בהקשר לערך פיזיקאלי. כל המסמכים שדנים בזמרת או במוזיקה. כל המסמכים המתארים את העיר.
 
סיווג
 מטרה: הוספת תווית מוגדרת מראש (="סיווג") לטקסט נתון
 אין הבנה של התוכן (סמנטיקה)
 שימושים: ניתוח אוטומטי של מסמכים, סינון מסמכים,  ניתוב מסמכים לצרכנים שונים
 הסיווגים מוגדרים מראש, המסמכים ממוינים לסיווגים המתאימים להם ביותר
 
הוצגו שיטות סיווג שונות - חוקי ועפ"י דוגמאות
כיסוי – Recall
מדד המתאר את שיעור המידע הרלוונטי  שאוחזר מתוך כלל המידע שקיים בנושא במאגר.
 
דיוק – Precision
מדד המתאר את שיעור המידע הרלוונטי לנושא החיפוש מתוך כלל  המידע המוצג במענה לשאילתא.
 
אחזור סמנטי
 תוצאות האחזור יושפעו מ"הבנת" המשפט ו"הבנת" כוונת האחזור
 ניתן לשפר את התוצאות ע"י:
 הקשר סמנטי, רק מסמכים בהם יש הקשר למילים במשפט יוצגו כתוצאות רלוונטיות
 הרחבה, יוצגו מסמכים בהם לא מופיע כלל מילת החיפוש אלא הרחבה של משמעותה, לדוגמא, חיפוש "מטוסים" יציג גם מסמכים עם "אווירונים" וגם מסמכים עם "F16" ו- "בואינג 777"

 


attachment 142-drori-text-processing.pdf



הוספת תגובה
  מגיב אנונימי
שם או כינוי:
חסימת סיסמה:
  זכור אותי תמיד במחשב זה

כותרת ראשית:
אבקש לקבל בדואר אלקטרוני כל תגובה לטוקבק שלי
אבקש לקבל בדואר אלקטרוני כל תגובה למאמר הזה