Full Text Search – צעד מעבר (beyond) למסד נתונים יחסי

אסף פרנקל 10.10.2012 23:52
Full Text Search – צעד מעבר  (beyond) למסד נתונים יחסי


מסדי נתונים יחסיים, המשרתים את התעשיה כבר 30 שנה, מוכרחים לצאת מהפרדיגמה של טיפול בנתונים יחסיים בלבד. נתונים רבים היום הנם לא מובנים או חצי מובנים (unstructured and semi structured) כדוגמת מסמכים, XML, הקלטות, ביו-אינפורמטיקה ועוד.



Full Text Search – צעד מעבר  (beyond) למסד נתונים יחסי

אסף פרנקל, ארכיטקט בכיר, Microsoft Consulting Services, assaff@microsoft.com

מסדי נתונים יחסיים, המשרתים את התעשיה כבר 30 שנה, מוכרחים לצאת מהפרדיגמה של טיפול בנתונים יחסיים בלבד. נתונים רבים היום הנם לא מובנים או חצי מובנים (unstructured and semi structured) כדוגמת מסמכים, XML, הקלטות,  ביו-אינפורמטיקה ועוד.

יכולת חיפוש הנה טכנולוגית מפתח לטיפול בסוגים שונים של מידע. אבל, יכולת זו צריכה להיות סקלבילית, מהירה (באינדוקס ובחיפוש) וידידותית. מטבעם של דברים, מסד נתונים הנו מקום טבעי לשמור גם סוגי נתונים כאלו.

SQL SERVER היה בעל יכולות חיפוש כבר משנת 2000, אבל, החל משנת 2008 יכולות אלו הינן חלק בלתי נפרד מהמנוע. דבר זה מאפשר יכולת אינטגרטיבית של חיפוש בין נתונים יחסיים ונתונים לא מובנים בצורה מאוד יעילה.

חשוב לציין, המנוע אינו מיועד להיות מנוע חיפוש אוניברסלי לכל סוגי הבעיות. יתרונו הגדול הנו בתחום שילוב הנתונים בו ניתן לחפש בקלות על מידע משולב

סוגי שאילתות אופייניים:

·         One or more specific words or phrases (simple term)

·         A word or a phrase where the words begin with specified text (prefix term)

·         Inflectional forms of a specific word (generation term)

·         A word or phrase close to another word or phrase (proximity term)

·         Synonymous forms of a specific word (thesaurus)

·         Words or phrases using weighted values (weighted term)

חשוב לציין כי המנוע נותן ציונים (rank) לתוצאות החיפוש המאפשרים בקלות מיון לפי איכות.

להלן דוגמא הממחישה שאילתא אופינית:

כל המאמרים הכוללים את המלה SQL  שהתפרסמו בשנת 2012 על ידי נשים

הסבר:

·         חיפוש בתוכן המאמר למציאת SQL

·         חיפוש ב Metadata של המאמר למציאת השנה והמחברים

·         חיפוש במאגר המחברים למציאת המגדר

 מעבר לכך, כחלק מהפלטפורמה של SQL Server, מנגנון החיפוש נהנה מכלי ניהול מלאים הכוללים גם גיבוי ושחזור ויכולות אופטימיזציה.

המנוע כולל תמיכה בשפות רבות כולל עברית. מורפולוגיה בעברית אינה כלולה במוצר אך ניתנת לרישה מחברה אחת לפחות http://www.melingo.com/morfix_data.htm#sql .

בעולם המודרני, אני לא רואה טעם להעתיק מאמר קיים. להלן לינק מרכז בו נמצאים רוב המאמרים החשובים בתחום http://technet.microsoft.com/en-us/library/hh393581.aspx זאת כמובן בנוסף לתיעוד המוצר הנמצא באינטרנט http://msdn.microsoft.com/en-us/library/ms142571.aspx  .

סרטון המצגת



הוספת תגובה
  מגיב אנונימי
שם או כינוי:
חסימת סיסמה:
  זכור אותי תמיד במחשב זה

כותרת ראשית:
אבקש לקבל בדואר אלקטרוני כל תגובה לטוקבק שלי
אבקש לקבל בדואר אלקטרוני כל תגובה למאמר הזה