אחזור באמצעות קלסיפיקציה של מידע

אלעד רזניקוב 30.10.2008 10:32
אחזור באמצעות קלסיפיקציה של מידע


אלעד תיאר את המרכיבים המרכזיים של המוצר Noga Class המאפשרים לסייע בקלסיפיקציה של מאגרי מידע. מודול אחד ממערכת מאפשר לאתר גרסאות של כל מסמך עפ"י התוכן שלו. מודול אחר יוצר קשר בין מסמך לבין הלקוחות העסקיים הקשורים אליו. מודול אחר כולל מנוע חוקים שיכול להתבסס על "תגיות" ארגוניות קיימות. הייחוד של המוצר הוא היכולת לזהות את הקלסיפיקציה של פרט מסוים ללא תהליך למידה ובצורה אוטומאטית (תפיסת העולם של המוצר היא שתיוג ידני אינו ריאלי). מעל כל המאגר פותח מנוע חיפוש מבוסס קלסיפיקציה. הוצגה הדגמה של המערכת.



הבעיה העסקית

כאשר אנו מתמודדים עם בעיה, ראשית אנו זקוקים לנתונים ולעובדות על מנת למצוא לה פתרון. פתרון בעיות בפעילות השוטפת בארגון אינה קלה יותר בשום צורה, ולעיתים אנו נדרשים לדין וחשבון מדוקדק לגבי הפתרון הנבחר. הנתונים והעובדות שמורים בארגון עסקי בתצורה של פרטי מידע ממוחשבים.  אולם,  היקף הפעילות ומערכות המידע הרבות הקיימות בארגונים כיום, מציגות אתגר למשתמש הקצה באיתור העובדות שיעזרו לו בפתרון הבעיה.

המידע הנדרש לתפעול וקבלת החלטות בסביבה עסקית מבוסס על מידע המפוזר על פני מאגרי מידע שונים המוטמעים בארגון (CRM, מערכות קבצים, דוא"ל ועוד) או מחוץ לארגון (אינטרנט). משנה לשנה כמויות המידע גדלות ובמקביל ארגונים נדרשים לעמוד בתיקני רגולציה שונים, ולהיות ערוכים לספק במהירות מידע מקיף בעת חשד לחריגות. בארגונים רבים כיום משימה זו מאופיינת כאתגר.

 

אחזור מידע מקיף ומהיר, המאפשר שימוש מושכל ויעיל בנכסי הידע הארגוניים, הופך להיות צורך הכרחי עבור ארגוניים עסקיים, הנדרשים לגמישות ומהירות תגובה בסביבה עסקית תחרותית המצריכה הסתגלות מהירה לשינויים התכופים ועמידה בדרישות הרגולציה.

 

הצורך הנגזר

פתרון אחזור מידע (חיפוש ומציאה) המשלב הבנה של התהליך העסקי לאחזור יעיל של כלל נכסי הידע הארגוניים, מאפשר ייעול של התהליך העסקי.

על מנת לייעל את התהליך העסקי אנו נדרשים לתשובות על השאלות העסקיות השונות המעורבות בתהליכי העבודה, כגון:

Ø       מהם ההתחייבות האחרונות שלי ללקוח?

Ø       מהי הגרסה העדכנית ביותר של הצעת המחיר? האם גרסה זו נשלחה ללקוח? האם הוא אישר אותה?

Ø       היכן מסמכי האפיון לפרויקט?

Ø       היכן נמצא מסמך ההתקנה המעודכן של גרסת המוצר שהותקנה אצל הלקוח שכרגע פתח קריאת שירות תכופה?

 

ריבוי התהליכים העסקיים בארגון המהווים יצרנים של פריטי מידע שונים במאגרי מידע רבים, מקשים על תהליך האחזור. לא תמיד ניתן "לנחש" את צורת הניסוח המדויקת של התכנים ולבנות שאילתת חיפוש המבוססת על הטקסט המופיע בפריטי המידע המבוקשים (כתבתי moshe@my_company.com’', 'ראש מחלקת כספים' או 'משה פלד'? לפי מה לחפש?). האנשים שמכירים את ההתחכמויות הנדרשות לחיפוש אפקטיבי הופכים להיות מבוקשים, והמידע לא זורם באופן אפקטיבי.

היינו מצפים מפתרון אחזור המבין את התהליכים העסקיים לאפשר לנו להגדיר את שאילתת החיפוש במונחים עסקיים ולאחזר את המידע בהתאם.

 

על מנת לענות על השאלות העסקיות שהצגנו, מערכת האחזור אמורה לתמוך באיסוף מקיף של מידע המפוזר במאגרי המידע הארגוניים ולאפשר שפת תשאול נוחה, פשוטה ואינטואיטיבית - שפה המאפשרת הגדרה של "שאילתות עסקיות".

נחלק את פעולת מערכת האחזור לשני אלמנטים עיקריים:

 

v      איסוף ותיוג המידע

o        סריקה של כלל מקורות המידע הארגוניים

o        תמיכה בכלל סוגי המידע הארגוני- מידע מובנה (רשומות בעלי מבנה מוגדר במסדי נתונים תפעוליים), מידע שאינו מובנה (טקסט חופשי) ופורמטים שונים של קבצים הנפוצים בארגון.

o        איסוף נתוני התפוצה (דוא"ל, מעבר בין מערכות) של פריטי המידע

 


 

v      מנגנון תשאול

מנגנון תשאול (חיפוש) המאפשר שימוש במונחים עסקיים לאפיון שאילתת החיפוש.

מנועי האחזור הקיימים כיום מחייבים אותנו "לנחש" מהם מילות המפתח המאפיינות את פריט המידע אותו אנו מחפשים. אולם, לא תמיד אנו יודעים בוודאות כיצד בדיוק נוסח המלל. הסיבות לכך הן רבות ומגוונות, לדוגמא: המסמך נכתב ע"י גורם אחר, מילון מונחים לא עדכני עבור מסמכים ישנים וכד'.

כתוצאה מכך פעולת החיפוש מתרחבת לתהליך מתמשך של שימוש במילות מפתח שונות, עיון בתוצאות החיפוש, שינוי מחרוזת החיפוש או הוספת מילים נוספות לעידון התוצאות... ומכאן אנו מקבלים תהליך מתמשך לאיתור המידע אשר בסופו של התהליך לא תמיד נדע אם אכן איתרנו את כלל פריטי המידע הרלוונטיים לבעיה העסקית.

על מנת לייעל את התהליך ולאפשר אחזור מידע ממוקד המהווה מענה לבעיה העסקית, פתרון האחזור נדרש לתמוך בשפת מונחים עסקית המבוססת על ישויות עסקיות המגדירות את שאילתת החיפוש.

ישויות עסקיות אילו הן הישויות השותפות בתהליכים העסקיים בארגון כגון: עובדים, מחלקות, מוצרים, לקוחות, ספקים, חשבוניות וכד'.

מנגנון תשאול שמבוסס על הגדרות עסקיות (חיפוש עסקי) מאפשר התמקדות בבעיה העסקית ומייעל את תהליך האחזור ע"י שיפור זמן האחזור ושיפור באיכות תוצאות האחזור (אחזור ממוקד).

 

אפיון פתרון האחזור

על מנת לאפשר מנגנון חיפוש עסקי עלינו לתמוך במספר אלמנטים של תיוג (classification):

ü       תיוג המייצר מיפוי בין פריטי המידע לישויות העסקיות

ü       אחזור של הגרסאות השונות של כל פריט מידע

ü       מעקב ואחזור נתוני התפוצה של פריטי המידע

 

מעבר לכך פתרון האחזור אמור לכלול מאפיינים נוספים:

ü       הרשאות – שיקוף מדוייק של הרשאות המידע ממערכות המקור ע"מ לתמוך במדיניות ההרשאות הארגוניות כפי שהיא מיושמת במערכות המקור (לא ניתן להגיע דרך מנוע האחזור למידע לא מורשה)

ü       יכולות מיון וסינון של תוצאות החיפוש

ü       תצוגה מקדימה של פריטי המידע (לנוחות עבודה עם מסמכים רבים בזמן קצר ולטובת תמיכה בפריטי מידע שנמחקו ממערכות המקור ונשמרים במערכת האחזור)

ü       ממשק אחיד ומרכזי המהווה פתרון אחזור מרכזי לכלל מקורות הידע הארגוניים

ü       תמיכה במורפולוגיה (הטיות שונות של אותה מילה) עבור כלל השפות בהן נעשה שימוש בארגון

ü       הצעות תיקון לשגיאות איות (“did you mean”)

ü       תזאורוס – מילון של מושגים נרדפים (פנים ארגוניים ואוניברסאליים)

 

כמובן שהרשימה עוד ארוכה ואכן ישנם מאפיינים נדרשים נוספים אשר רובם מוכרים לנו ממערכות האחזור הנפוצות כיום.

בבואנו לבחור פתרון אחזור עלינו לאפיין את הבעיה העסקית, לבחון את תהליכי העבודה בארגון ולתעדף את מאפייני המפתח על מנת שניתן יהיה לבחור את פתרון האחזור המייעל את התהליך העסקי תוך החזר השקעה מהיר (ROI).

           

 

 

 

 

 

 

הכותב הינו סמנכ"ל מו"פ בחברת Nogacom המפתחת פלטפורמה לסיווג אוטומטי של מידע ארגוני ופתרון אחזור מידע המבוסס על תוצרי הסיווג.

 


attachment 151-nogacom.pdf



הוספת תגובה
  מגיב אנונימי
שם או כינוי:
חסימת סיסמה:
  זכור אותי תמיד במחשב זה

כותרת ראשית:
אבקש לקבל בדואר אלקטרוני כל תגובה לטוקבק שלי
אבקש לקבל בדואר אלקטרוני כל תגובה למאמר הזה