עיבוד טקסט - מונחים ויישומים
עיבוד טקסט - מונחים ויישומים
עפר דרורי
בהרצאה הוסברו מושגי ייסוד בעיבוד טקסט, אחזור מידע ויישומים בתחום.
הוסבר ההבדל בין שדות פתוחים לשדות מפורמטים ומה היתרונות של כל אחד מהפורמטים.
הוסבר ההבדל בין שדות פתוחים לשדות מפורמטים ומה היתרונות של כל אחד מהפורמטים.
הוצגו הפעולות השימושיות באחזור טקסט
מציאת המידע המעניין אותי למשימה נתונה מתוך מאגר נתונים גדול ללא ידיעת מפתח הגישה
גזירת מידע אוטומטי / כריית מידע
סיוע בהבנת טקסט – תמצות ותרגום חלקי
מציאת המידע המעניין אותי למשימה נתונה מתוך מאגר נתונים גדול ללא ידיעת מפתח הגישה
גזירת מידע אוטומטי / כריית מידע
סיוע בהבנת טקסט – תמצות ותרגום חלקי
הוצגו המונחים הקיימים בעיבוד טקסט
תו או אות
מחרוזת תווים
מילה
ביטוי
משפט
פיסקה
מסמך
הגדרת מרחק
ניתוח צורני (מורפולוגי) תוך איתור שורשי המילים "הנשים באולם תצפנה בתצוגה כשתתפננה מההרצאה"
ניתוח חלקי דיבר (שם עצם, פועל וכו')
ניתוח תחבירי (נושא, נשוא, מושא וכו')
ניתוח סמנטי (מה הכוונה / מה המשמעות)
ידע מוכר משלים "שוב פרס במקום השני"
תו או אות
מחרוזת תווים
מילה
ביטוי
משפט
פיסקה
מסמך
הגדרת מרחק
ניתוח צורני (מורפולוגי) תוך איתור שורשי המילים "הנשים באולם תצפנה בתצוגה כשתתפננה מההרצאה"
ניתוח חלקי דיבר (שם עצם, פועל וכו')
ניתוח תחבירי (נושא, נשוא, מושא וכו')
ניתוח סמנטי (מה הכוונה / מה המשמעות)
ידע מוכר משלים "שוב פרס במקום השני"
קיבוץ
יצירת קבוצות מסמכים בעלות דמיון רב בכל קבוצה ללא הבנת הטקסט (סמנטיקה) וללא מונחים מוגדרים מראש (קטגוריזציה).
מטרה: חלוקה של מאגר מסמכים גדול לקבוצות דומות, נהוג לקבוע את מספר הקבוצות מראש
דוגמא: פיזיקה: כל המסמכים שהמילה "ניוטון" מוזכרת בהקשר לערך פיזיקאלי. כל המסמכים שדנים בזמרת או במוזיקה. כל המסמכים המתארים את העיר.
יצירת קבוצות מסמכים בעלות דמיון רב בכל קבוצה ללא הבנת הטקסט (סמנטיקה) וללא מונחים מוגדרים מראש (קטגוריזציה).
מטרה: חלוקה של מאגר מסמכים גדול לקבוצות דומות, נהוג לקבוע את מספר הקבוצות מראש
דוגמא: פיזיקה: כל המסמכים שהמילה "ניוטון" מוזכרת בהקשר לערך פיזיקאלי. כל המסמכים שדנים בזמרת או במוזיקה. כל המסמכים המתארים את העיר.
סיווג
מטרה: הוספת תווית מוגדרת מראש (="סיווג") לטקסט נתון
אין הבנה של התוכן (סמנטיקה)
שימושים: ניתוח אוטומטי של מסמכים, סינון מסמכים, ניתוב מסמכים לצרכנים שונים
הסיווגים מוגדרים מראש, המסמכים ממוינים לסיווגים המתאימים להם ביותר
מטרה: הוספת תווית מוגדרת מראש (="סיווג") לטקסט נתון
אין הבנה של התוכן (סמנטיקה)
שימושים: ניתוח אוטומטי של מסמכים, סינון מסמכים, ניתוב מסמכים לצרכנים שונים
הסיווגים מוגדרים מראש, המסמכים ממוינים לסיווגים המתאימים להם ביותר
הוצגו שיטות סיווג שונות - חוקי ועפ"י דוגמאות
כיסוי – Recall
מדד המתאר את שיעור המידע הרלוונטי שאוחזר מתוך כלל המידע שקיים בנושא במאגר.
מדד המתאר את שיעור המידע הרלוונטי שאוחזר מתוך כלל המידע שקיים בנושא במאגר.
דיוק – Precision
מדד המתאר את שיעור המידע הרלוונטי לנושא החיפוש מתוך כלל המידע המוצג במענה לשאילתא.
מדד המתאר את שיעור המידע הרלוונטי לנושא החיפוש מתוך כלל המידע המוצג במענה לשאילתא.
אחזור סמנטי
תוצאות האחזור יושפעו מ"הבנת" המשפט ו"הבנת" כוונת האחזור
ניתן לשפר את התוצאות ע"י:
הקשר סמנטי, רק מסמכים בהם יש הקשר למילים במשפט יוצגו כתוצאות רלוונטיות
הרחבה, יוצגו מסמכים בהם לא מופיע כלל מילת החיפוש אלא הרחבה של משמעותה, לדוגמא, חיפוש "מטוסים" יציג גם מסמכים עם "אווירונים" וגם מסמכים עם "F16" ו- "בואינג 777"
תוצאות האחזור יושפעו מ"הבנת" המשפט ו"הבנת" כוונת האחזור
ניתן לשפר את התוצאות ע"י:
הקשר סמנטי, רק מסמכים בהם יש הקשר למילים במשפט יוצגו כתוצאות רלוונטיות
הרחבה, יוצגו מסמכים בהם לא מופיע כלל מילת החיפוש אלא הרחבה של משמעותה, לדוגמא, חיפוש "מטוסים" יציג גם מסמכים עם "אווירונים" וגם מסמכים עם "F16" ו- "בואינג 777"
משה
1. הרצאה טובה מאוד, נתנה רקע ומושגים הכרחיים
ניר
2. הרצאה טובה מואד
איריס
3. הרצאה טובה מאוד. ברורה ועוזרת לעשות סדר בתחום. היה רצוי להרחיב בכמה משפטים על כל אחד מהנושאים (דוגמאות ...)
Anonymous
4. הרצאה מעניינת במיוחד לחדשים בתחום
Anonymous
5. הרצאה מעניינת ומסכמת את עולם המושגים בתחום "אחזור טקסט"
הוספת תגובה