מנוע אחזור Attivio

צחי יעקובוביץ וערן אלדור 23.04.2009 01:43
מנוע אחזור Attivio


עיקרי המידע שנמסרו במפגש קבוצת עניין אחזור טקסט - SIGTRS על מנוע האחזור ATTIVIO



נס TSG עוסקת במערכות מודיעין מאז שנת 88.

במסגרת זו פיתחנו מערכות התומכות באחזור טקסטואלי ואחזור מובנה של נפחי מידע גדולים.בין היתר מערכת המודיעין של משטרת ישראל "מלאכת מחשבת". המערכת משרתת 1700 משתמשים, פרוסה בכל הארץ, ומנהלת מיליוני מסמכים ומאות מיליוני רשומות - כולם ניתנים לאחזור מיידי.

המערכות שפיתחנו התבססו ברובן על מנוע האחזור הטקסטואלי XRS של חברת 2001.

מאז שנת 2007, אנו עוסקים בפיתוח מערכת מודיעינית-מבצעית לגוף מודיעיני גדול בצה"ל.

1.      אופי המערכות

במערכות מודיעין מחקרי מבוצע עיבוד של מידע גלמי (טקסטואלי או מובנה)

2.      האתגר

מאז שנת 2007, אנו נמצאים בתהליכי תכנון מערכת מודיעינית-מבצעית לגוף מודיעיני גדול בצה"ל.

המערכת נועדה לתת יכולות אחזור  ברמה גבוה, כולל אחזור גיאוגרפי, על מידע וידע מתעדכנים בקצבים גבוהים.

בין דרשות המערכת:

  1. ניהול מיליוני יישויות מידע מובנה
  2. מיליוני מסמכים, מאות מיליוני רשומות אשר כוללות טקסט.
  3. יישויות ידע מובנות אשר עשויות לכלול עשרות אלפי רשומות.
  4. הפעלת שאילתות התעניינות על מידע נכנס
  5. עדכון אינדקסים בעשרות שניות בודדות
  6. מאות רשומות נקלטות/מתעדכנות בשנייה
  7. כ 100 מסמכים נקלטים בדקה
  8. דרישות למידור באחזור
  9. אחזור גיאוגרפי

3.      השיטה המקובלת לייצוג ידע במערכת מודיעינית

ידע עוסק בישויות ידע קונקרטיות: אנשים, יחידות, בסיסים וכו'.

יידע הוא מיצוי ממידע למטרה מסוימת.

כדי להפעיל מנועי אחזור על ידע, ניתן "לשטח" את כל הידע על ישות מסוימת לכלל מסמך טקסט, שאותו מנוע אחזור "מעכל" בקלות.

מנוע אחזור לרוב לא מאפשר עדכון של מסמך חלקי. לפיכך כל עדכון בישות מחייב אינדוקס מחדש של הישות בשלמותה.

4.      Lucene

Lucene הוא מנוע אחזור אשר פותח במקור ע"י Doug Cutting אדם אשר עבד בתחום מנועי חזור שנים רבות, והיה, בין היתר, המפתח הראשי של מנוע האחזור Excite.

המערכת נכתבה במקור כתרגיל בכתיבת java, ונקרא על שם אשתו. Lucene שוחרר כקוד פתוח בשנת 2001, ומאז עבר פיתוח אינטנסיבי, והוא חלק ממוצרים רבים, ומפעיל אתרים רבים.

יתרון חשוב של Lucene מבחינתנו היא הפתיחות המלאה. לדעתנו, כאשר דרישות האחזור הן מורכבות, Lucene עשוי להיות הפתרון הקל ביותר להתאמה.

ל Lucene קהילת מפתחים ערה ומשתפת פעולה.

5.      Attivio  

החברה הוקמה בשנת 2007 ע:י המנכ"ל לשעבר של FAST, Ali Riaz. בשיתוף מנהלים נוספים מ FAST. החברה מייצרת מנוע אחזור AIE(Attivio Intelligence Engine).

AIE מבוסס על אינדקסים של Lucene (לדברי סמנכ"ל הפיתוח "Indexes are Comodity")

AIE הוא פלטפורמה מוכללת לגישה למידע אשר כוללת בין השאר:

·        אחזור טקסטואלי ומובנה.

·        יכולת Join מהיר בין מסמכים.

·        יכולות SQL  חלקיות, כגון פעולות SUM על שדות מספריים.

·        תמיכה בשדות שעדכונם אינו מחייב עדכון הישות כולה.(Real Time Fields)

·        יכולת להפעלת התראות על מידע נכנס (טיפול בעשרות-אלפי שאילתות התראה תוך פחות משניה)

·        יכולת ל Scale-Out חזק, כולל הוספת שרתים מבלי לבנות אינדקסים מחדש.

·        שילוב אופרטורים מרחביים באחזור.

·        מודל ranking  גמיש

·        תהליכי אינדוקס ואחזור גמישים (workflow).

·        יכולות עיבוד טקסט נוספות כגון sentiment analysis, entity extraction, clustering.

 

AIE כתוב ב Java, וניתן להרחבה ב Java  או בשפות script.

 

 

על הדוברים

צחי יעקובוביץ

עוסק במערכות אחזור מאז שנת 83. היה המפתח הראשי של מערכות האחזור של חברת 2001 בתחילת דרכן.

מנהל הפיתוח של מערכת המודיעין של משטרת ישראל.

ארכיטקט תחום המודיעין בנס TSG.

ערן אלדור

עוסק במערכות מודיעין מאז שנת 96. תחילה במסגרת יחל"ם, ולאחר מכן במסגרת נס.

תכניתן ראשי של התחום, וראש צוות האחזור.

מצגת ההרצאה

 


attachment 152-attivio.pdf



בתיה ב.
הוספת תגובה
  מגיב אנונימי
שם או כינוי:
חסימת סיסמה:
  זכור אותי תמיד במחשב זה

כותרת ראשית:
אבקש לקבל בדואר אלקטרוני כל תגובה לטוקבק שלי
אבקש לקבל בדואר אלקטרוני כל תגובה למאמר הזה