שימוש בלמידת מכונה לצורך זיהוי שפת האם של כותב טקסט

איתמר ברץ ואיתי מונדשיין 14.07.2021 19:44
שימוש בלמידת מכונה לצורך זיהוי שפת האם של כותב טקסט


המשימה שלנו הייתה לסווג טקסט נתון בעברית – האם נכתב על ידי דובר עברית כשפת אם או לא, עם דגש על כותבים ששפת אמם ערבית. בשביל לבנות את המסווג שלנו השתמשנו בכלי למידת מכונה של ספריית הפייתון .scikit- learn המידע שעליו אימנו את המסווג התבסס על ערכי וויקיפדיה ופוסטים מפייסבוק בעברית, וכדוגמאות לטקסט שנכתב על ידי דובר ערבית בעברית השתמשנו בקטעים מתוך אתר חמאס בעברית וכמו כן חיבורים של תלמידים לעברית ממצרים. השתמשנו במספר מאפיינים (features) שתוכננו כדי לתפוס הבדלים בכתיבה בין הקבוצות השונות, ביניהם משלב, תקינות תחבירית ודקדוקית, ודפוסי כתיבה טיפוסיים.




attachment 282-shibolet.pdf



הוספת תגובה
  מגיב אנונימי
שם או כינוי:
חסימת סיסמה:
  זכור אותי תמיד במחשב זה

כותרת ראשית:
אבקש לקבל בדואר אלקטרוני כל תגובה לטוקבק שלי
אבקש לקבל בדואר אלקטרוני כל תגובה למאמר הזה