כלים ללימוד מכונה (Machine Learning) בביג-דטה
למידת מכונה – יובל פיינשטיין
מהי למידת מכונה?
למידת מכונה היא "המדע בו גורמים למחשבים לפעול ללא תכנות מפורש" (אנדריו נג).
תתי-תחומים של למידה הם חיזוי (prediction) ותיאור (description).
חיזוי הוא ניבוי של מידע חדש לאור מידע קיים.
תיאור מתמצת את המידע הקיים או מאיר בו תבניות שמשפרות את ההבנה שלו.
משימות בלמידת מכונה:
א. המלצה (recommendation): "אם אהבת את הסרט שר הטבעות, ייתכן שתאהבי גם את ההוביט".
ב. סיווג (classification): למשל, מיון דואר אלקטרוני להודעות זבל או הודעות אמתיות
ג. אשכּוּל (clustering): למשל, הצגת כתבות בנושאים דומים יחד ב-Google News
ד. קבוצת עצמים שגורה (frequent itemset): למשל, אילו מוצרים קונים בדרך-כלל יחד בסופר?
התחום קיים לפחות מאז 1960, אך התרחב בהרבה עם הזמינות של כמות גדלה והולכת של נתונים ושל כוח חישוב. בימינו, למידת מכונה היא תחום מחקר ענף, ובעל יישומים מעשיים רבים.
שילוב למידת מכונה במוצרי תוכנה
נתונים – לרוב נמצאים בצורה כלשהי כחלק מהמוצר. צריך להתאים אותם לצרכי למידת מכונה. איסוף וניקוי הנתונים ובחירת מאפיינים (feature selection) הם שלב קריטי.
אימון – בניית מודל – לרוב נעשה מראש, ולוקח זמן רב.
חיזוי – שימוש במודל כדי לסווג/לתאר מידע חדש. תהליך יותר מקוון – פעמים רבות גורם לבחירה בדרך פעולה ספציפית (למשל סימון עסקה כמרמה פוטנציאלית).
ברוב האתרים/מוצרים, למידת מכונה תשמש כדי לשפר מדדים החשובים לעסק – אינטראקציה עם משתמשים, מכירות, חזרת לקוחות וכו'. לרוב זהו מודול נפרד.
ביג דאטה
יש וויכוחים על הגדרת ביג דאטה – נשתמש בהגדרה המתארת מידע שלצורך עיבודו נדרש אשכול של מחשבים, ולא ניתן לעבד אותו במחשב בודד. למידת מכונה היא כלי חשוב בהתמודדות עם ביג דאטה – פעמים רבות אי אפשר להבין את המידע מתוך התבוננות בו, ורק למידה תציג לנו תבניות בתוכו.
כלי קוד פתוח ללמידת מכונה
נתאר מספר מערכות קוד פתוח ללמידת מכונה – משלב הכנת הנתונים, בניית מודל, השימוש בו ובדיקת התוצאות.
בעזרת מערכות כאלה יכול המשתמש/מתכנת להשוות את אופן פעולתם של מספר אלגוריתמים של למידת מכונה על הנתונים שלו, לכוון את הפרמטרים, לבחור ולפרוס את המודל כחלק מהמוצר.
המשאב העיקרי הנדרש – זמן ועבודה לצורך אינטגרציה של כלי הקוד הפתוח לבעיה הספציפית.
מצגת ההרצאה