שימוש בלמידת מכונה לצורך זיהוי שפת האם של כותב טקסט
המשימה שלנו הייתה לסווג טקסט נתון בעברית – האם נכתב על ידי דובר עברית כשפת אם או לא, עם דגש על כותבים ששפת אמם ערבית. בשביל לבנות את המסווג שלנו השתמשנו בכלי למידת מכונה של ספריית הפייתון .scikit- learn המידע שעליו אימנו את המסווג התבסס על ערכי וויקיפדיה ופוסטים מפייסבוק בעברית, וכדוגמאות לטקסט שנכתב על ידי דובר ערבית בעברית השתמשנו בקטעים מתוך אתר חמאס בעברית וכמו כן חיבורים של תלמידים לעברית ממצרים. השתמשנו במספר מאפיינים (features) שתוכננו כדי לתפוס הבדלים בכתיבה בין הקבוצות השונות, ביניהם משלב, תקינות תחבירית ודקדוקית, ודפוסי כתיבה טיפוסיים.
מצגת ההרצאה
הוספת תגובה