מנועי אחזור טקסט בעברית - רשימת ספקים / מוצרים, גרסת מאי 2015

עפר דרורי 06.05.2015 00:21
מנועי אחזור טקסט בעברית - רשימת ספקים / מוצרים, גרסת מאי 2015


מטרת מסמך זה להציג את רשימת הספקים והמוצרים הקיימים בתחום, התומכים בשפה העברית וניתנים להשגה בארץ. מסמך זה נילווה למסמך "קריטריונים לבחירת מנוע אחזור טקסט - גרסה 5" ואשר יכול לסייע בתהליך בחירת מנוע מסחרי מסוים מתוך רשימה של מספר מנועים



 

 

מנועי אחזור טקסט בעברית - רשימת ספקים / מוצרים

גרסת מאי 2015

 

עפר דרורי

offerd@gmail.com

 

 

 

מבוא

מערכות מידע בעבר טיפלו בעיקר בניהול רשומות בתוך בסיסי נתונים כאשר רוב המידע ברשומות היה מידע מפורמט בשדות נתונים בעלי אופי מוגדר מראש (הן בגודל שדות המידע והן בפורמט שלהם). מזה  שנים רבות מערכות מידע נדרשות לטפל גם במידע שאיננו מפורמט כמו טקסטים, תמונות, קבצי קול ועוד. גם בהווה בו קיימים סוגי מדיה שונים מרכיב הטקסטים במערכות המידע הוא גדול ביותר. מכיוון שטיפול בטקסטים הוא משימה מחשבית מורכבת מתקיים בתחום הנוהג שמפתחי מערכות אינם מפתחים מנועי אחזור טקסט למערכות המידע שהם כותבים בדומה לכך שלא נהוג לפתח תכונות של עיבוד טקסט המתקיים במעבדי תמלילים. בנוסף מוצרי תשתית רבים בתחום מערכות המידע כוללים בתוכם מנוע חיפוש מובנה דבר שלעתים מייתר את הצורך במנוע חיפוש חיצוני.

 

"עברית שפה קשה" אמר המשורר ובכל הקשור לטיפול ממוחשב בשפה העברית על אחת כמה. נהוג לדרג את השפות בעולם על פי הקושי הנדרש בטיפול ממוחשב בהן. בתחתית הסולם נמצאת השפה הסינית שבה אין הטיות ואין רב משמעות למילים. אחרי הסינית מבחינת הסיבוכיות נמצאת האנגלית, אחריה צרפתית כאשר העברית והערבית נחשבות כשפות הקשות ביותר לטיפול ממוחשב מכיוון שהן מכילות הטיות רבות, מורפולוגיה מורכבת וריבוי משמעויות.

את התכונות הנדרשות בשפה העברית ניתן לחלק לטיפול בטקסט ולטיפול בממשק (במידה והוא מסופק עם המוצר).

טיפול בטקסט מתייחס לתכונות כמו: כיווניות שפה, מורפולוגיה (שהיא ייחודית לשפה), אחזור על פי שורש מילה (השונה מהותית בשפה העברית משפות לועזיות אחרות), צליל (סאונדקס), גדומים (אשר יש להם משמעות רבה יותר בשפה האנגלית מאשר בשפה העברית),  טיפול בתזאורוס המותאם לשפה ועוד.

טיפול בממשק מתייחס לשפת התפריטים, כיווניות השפה המוקלדת בעת ביצוע שאילתת החיפוש, להצגת המידע, לעזרה המקוונת ועוד. כאמור יש להתייחס למרכיב זה כאשר המוצר כולל ממשק.

 

מטרת מסמך זה להציג את רשימת הספקים והמוצרים הקיימים בתחום, התומכים בשפה העברית וניתנים להשגה בארץ. מסמך זה נילווה למסמך "קריטריונים לבחירת מנוע אחזור טקסט - גרסה 5" ואשר יכול לסייע בתהליך בחירת מנוע מסחרי מסוים מתוך רשימה של מספר מנועים. המסמך עצמו נמצא כאן [1]

 

בשנים האחרונות חלו תמורות בשוק מנועי החיפוש. מנועים חיפוש  רבים נבלעו ע"י מנועים אחרים. חברות גדולות רכשו חברות קטנות יותר אם לשם קבלת המוצר בהיותו חסר בסל המוצרים שלהן  ואם לשם "הריגת" המוצר המתחרה. סופו של התהליך מראה כי היקף המוצרים בתחום הצטמצם משמעותית, אולי למספר הקטן ביותר של מוצרים בשוק הישראלי מזה שנים.

 

לצד צמצום החברות והמוצרים בתחום חל גידול בשוק ה Open source בו מוצרים טובים ואפילו מוצרים טובים מאוד עומדים זמינים לכל אחד ומספקים את כל התכונות שהמוצרים המקצועיים מספקים. אם בתחילה היה חשש משימוש במוצרים חופשיים שאין להם "אבא" עם כתובת בארץ והתמיכה העברית בעייתית, המצב היום שונה. לשני המוצרים המובילים בתחום יש תמיכה עברית, הן מסורתית של חברות והן של מוצרים חופשיים שלא נופלים משמעותית מהמוצרים הנרכשים. בנוסף קמו חברות ובודדים המספקים שרותי תמיכה למוצרים החופשיים כך שהן אלטרנטיבה שחייבים לקחת אותה בחשבון בעת החלטה על רכישת מנוע חיפוש לארגון.

 

היבט נוסף שגם אותו חובה להזכיר הוא השינוי התפיסתי של ארגנים בהקשר של מנועי חיפוש. בעבר הארגון רכש מנוע כזה כדי לאנדקס את המידע שלו ולאפשר למשתמשי הארגון להגיע למידע הנדרש במהירות. בשנים האחרונות, היקף המידע בארגונים גדל מאוד והוא מאוחסן בסביבות עבודה רבות ומגוונות. גם הצרכים של הארגונים גדלו והבקשות ממנועי חיפוש גדלו בהתאמה. כל זה הוביל למצב בו חברות אינטגרציה נכנסו לתחום והן מציעות "שרות" מלא בתחם האחזור הכולל מוצר חיפוש שנילווה בשירותים רבים היקפיים. לארגונים גדולים זהו שרות שיש לשקול מבחינת עלות מול תועלת ולזכור שהחיפוש היום במאגרי הארגון הוא משימה מורכבת שרק מומחים יכולים לתת לה טפול יעיל.

 

להלן רשימת הספקים והמוצרים הנתמכים בארץ וכוללים טיפול מסוים בשפה העברית. כפי שנאמר הטיפול בעברית יכול להיות בכמה רמות ועל הארגון הבוחר את המוצר לתת את הדעת לנושא זה כמו לתכונות האחרות של המוצר. הרשימה כוללת מוצרים שניתן להפעילם על פלטפורמות שונות ושאינם מוגבלים לעבודה מול בסיס נתונים מסחרי אחד.

 

רשימת המנועים מעודכנת למאי 2015 באדיבות היצרנים והנציגים, אם הנך נציג מוצר התומך באחזור טקסט בעברית או אם אתה משתמש ומכיר מוצר כזה אנא העבר לי פרטיו כדי שאוכל לשבץ אותו בטבלה לתועלת הציבור המתעניין בתחום. ניתן להעביר את הפרטים באמצעות דוא"ל ל- offerd@gmail.com. עדכונים למוצרים עצמם, גרסאות או פרטים מזהים אחרים יתקבלו בברכה.

 

מסמך זה הוא גרסה מעודכנת ותשיעית למסמך המקורי שיצא לאור לראשונה בשנת 2002. ממסמך זה הושמטו מספר מנועים שאינם פעילים יותר בשוק הישראלי, ראה הערות בסוף המסמך.

 

 

פרטים מזהים של הספקים

 

שם המוצר

Active Intelligence Engine™ (AIE)

GSA

שם קודם

 

 

גרסה נוכחית

4.3.1

7.4

שם החברה המפתחת

Attivio

Google

כתובת החברה

ארה"ב

ארה"ב

שם הנציגות בארץ

AIS

DoIt ויעל תוכנה

כתובת הנציגות

http://www.active-is.com

http://doit-intl.com

אתר אינטרנט של המוצר

www.attivio.com

https://www.google.com/work/search/products/gsa.html

הערות

מבוסס לוסין

פתרון אחזור הכולל שרתים

מעודכן לתאריך

מאי 2015

מאי 2015

 

שם המוצר

ElasticSerch

Solr

שם קודם

 

 

גרסה נוכחית

 

5.1

שם החברה המפתחת

 elastic

 אפאצ'י

כתובת החברה

   

 

שם הנציגות בארץ

 

 

כתובת הנציגות

 

 

אתר אינטרנט של המוצר

https://www.elastic.co/products/elasticsearch

http://lucene.apache.org/solr/

הערות

Open source מבוסס לוסין

Open source מבוסס לוסין

מעודכן לתאריך

 מאי 2015

 מאי 2015

 

מנוע מורפולוגי (לעברית וערבית)

שם המוצר

מורפיקס

שם קודם

 

גרסה נוכחית

בהתאם למנועים השונים

שם החברה המפתחת

מלינגו

כתובת החברה

תוצרת הארץ 16 תל אביב

שם הנציגות בארץ

כנ"ל

כתובת הנציגות

כנ"ל

אתר אינטרנט של המוצר

www.morfix.co.il

הערות

מוצר ישראלי, גרסאות למנועים השונים 

מעודכן לתאריך

מאי 2015

 

 

הערות לגבי מוצרים שיצאו מהרשימה בשנים האחרונות

1.                             - Verity נרכשה ע"י אוטונומי והמוצר הוטמע בתוך Idol

2.                             Idol  ירד מהרשימה בגלל פעילות נמוכה

3.                             Retrieval Ware - נרכשה ע"י Fast

4.                             XRS – הופסקה מכירה של המוצר לפני כשנתיים+

5.                             Fast – המוצר שולב תחת SP  וסוף חיי המוצר כבר הוכרז לשנים הקרובות

6.                             DTSearch – המוצר לא נתמך יותר בארץ

7.                             WizDoc  - המוצר לא נמכר כמוצר חיפוש עצמאי


attachment drori268-052015.pdf



הוספת תגובה
  מגיב אנונימי
שם או כינוי:
חסימת סיסמה:
  זכור אותי תמיד במחשב זה

כותרת ראשית:
אבקש לקבל בדואר אלקטרוני כל תגובה לטוקבק שלי
אבקש לקבל בדואר אלקטרוני כל תגובה למאמר הזה