שימוש בטכנולוגיות מבוססות קוד-פתוח בפרוייקטי אחזור-טקסט

ליאוניד גליבוב ואורן יוסיפון 21.10.2010 03:02
שימוש בטכנולוגיות מבוססות קוד-פתוח בפרוייקטי אחזור-טקסט


שימוש בכלי-קוד פתוח בפרוייקטי אחזור-מידע עשוי להקטן האת משך הפרויקט ועלותו וכן לספק יכולות משמעותיות. ההרצאה דנה בפרטי הדברים.



שימוש בכלי-קוד פתוח בפרוייקטי אחזור-מידע עשוי להקטן האת משך הפרויקט ועלותו וכן לספק יכולות משמעותיות.

 

בשנים האחרונות מתחזקת יותר-ויותר המגמה של שימוש ברכיבים מבוססי קוד-פתוח בפרוייקטי-תוכנה וכן שימוש במערכות מבוססות קוד-פתוח עבור צרכים תשתיתיים כגון מסדי-נתונים ומערכות-הפעלה. תוכנה בקוד-פתוח הנה תוכנה אשר מי שמפתח אותה חושף, תחת רשיון מסוים, את קוד המקור שלה. הסיבות לשחרור תוכנה בקוד פתוח הינן רבות ומגוונות וכוללות בין היתר: יכולת לשתף מפתחים רבים בפיתוח התוכנה, תוכנה המפותחת ע"י מוסד אקדמי המעונין בהמשך פיתוח בתוכנה לאורך זמן, שקיפות הקוד יכולה לאפשר למומחים להתריע מפני פרצות אבטחה וכן שימוש במודלים עסקיים המתאימים לתוכנות קוד-פתוח.

רבים מהכלים המבוססים על קוד פתוח ניתנים בחינם, או תמורת תשלום קטן יחסית המקנה גם שירות ותמיכה.

בהרצאה זו נסקור בקצרה את עולם הקוד-הפתוח ונעבור ונתמקד במרכיבי אחזור-טקסט. כיום קיימים כלים חזקים ביותר לחיפוש, עיבוד שפה, החזיה, איסוף, ניתוח וקצירת מידע  שכולם מבוססי קוד-פתוח. כמו-כן מספר חברות (וביניהן IBM ו Attivio למשל) שמבססות מוצרים מסחריים על רכיבי קוד פתוח.

עולם הקוד הפתוח

נכון לאוגוסט 2010 , רוב אתרי האינטרנט (54%) מאוחסנים על שרת-ה Web הפופולרים Apache, בערך כפול ממספרים האתרים המאוחסנים למשל , על שרתי Windows   . כמו-כן, 45% מהמשתמשים ברשת עושים זאת באמצעות דפדפן Firefox  . גם Apache וגם Firefox הינם כלים מבוססי קוד-פתוח איכותיים ביותר ובעלי פופולריות עצומה, איתם ניתן למנות את מערכת ההפעלה לינוקס, חבילת היישומים  OpenOffice  וכלים נוספים.

הרבה פעמים נשאלת השאלה, האם ניתן להרויח כסף מהפצת תוכנה בקוד פתוח? התשובה היא בהחלט כן ! דוגמאות רבות קיימות וביניהן:

-MySQL – החברה שפיתחה את מסד-הנתונים הפופולרי נמכרה ל Sun תמורת מיליארד דולר.

-RedHat – המספקת גירסא פופולרית של לינוקס ואת שרת-האפליקציות JBoss נסחרת בשווי של 7 מיליארד דולר(!)

 

אם כך, ברור כי יש משקל רב לכלי קוד-פתוח וכי הם נפוצים סביבנו ומפעילים מערכות קריטיות תחת שימוש כבד ביותר.

 

טכנולוגיות קוד פתוח לאחזור ועיבוד טקסט

 

במהלך ההרצאה נסקור את הכלים הבאים:

 

1.      Nutch – רובוט לאיסוף מידע

2.      Lucene – מנוע אינדוקס פופולרי

3.      Solr – מנוע חיפוש מבוסס Lucene.

4.      Gate – פלטפורמה וחבילת יישומים לעיבוד-שפה-טבעית.


מצגת ההרצאה


attachment 171-open-source-ir.pdf



הוספת תגובה
  מגיב אנונימי
שם או כינוי:
חסימת סיסמה:
  זכור אותי תמיד במחשב זה

כותרת ראשית:
אבקש לקבל בדואר אלקטרוני כל תגובה לטוקבק שלי
אבקש לקבל בדואר אלקטרוני כל תגובה למאמר הזה