סמנטיק ווב וארגון ה-W3C

אורי עידן 30.10.2008 10:33
סמנטיק ווב וארגון ה-W3C


אורי סקר בקצרה את ארגון ה- w3c שהוא בפועל "מכון התקנים" של WEB. בעקבות פעילותו פורסמו עד כה כ- 110 תקנים הקשורים לטכנולוגיית ה- WEB. הוצגה הרשת הסמנטית המהווה מבנה נתונים מקובל המאפשר קריאה קלה של נתונים ע"י מכונה והבנתם ע"י תוכנה. נמסרו בהרצאה הגדרות למבנה, יתרונות שהגדרות משותפות מקנות לאתרים שונים וכו'. אורי הציג גם תקנים "בקנה" שנועדו לשפר את ההבנה של טקסטים באינטרנט, הבנה אוטומאטית שלהם ועוד.



רשת סמנטית היא שם של סט תקנים והמלצות על ידי ארגון ה W3C לשיתוף נתונים בין אתרי אינטרנט או בכלל שיתוף נתונים.
הרשת הסמנטית אינה באה להחליף את הרשת הקיימת אלא רק להשלים אותה.
הרעיון הוא רשת של נתונים שאפשר לחבר בינהם על ידי תוכנות שונות.

הרשת של היום היא בעצם רשת של מסמכים עם קישורים בינהם, הרשת הסמנטית מוסיפה רשת של נתונים. קישורים אלו יאפשרו בניית אפליקציות מעניינות שיאפשרו למשל קישור בין לוח השנה לגלריית התמונות, או קישור בין מספר לוחות שנה של מספר אנשים על מנת למצוא למשל זמן פנוי לפגישה בין אנשים ולמצוא מלון בו אפשר להתאכסן בזמן נסיעה.

הרשת הסמנטית היא יותר מאחורי הקלעים ולא נראית על הדפדפן, כל מה שיראה הוא תוצאות שאילתות לבסיסי הנתונים.

תקני הרשת הסמנטית מגדירים מבני נתונים מקובלים לשמירת הנתונים, כך שאפשר יהיה לחבר בקלות יחסית נתונים ממקומות שונים ברשת.
תקנים אחרים מגדירים סט של טרנספורמציות המאפשרות יצירת בסיסי נתונים של רשת סמנטית מתוך דפי ווב קיימים, בהנחה כמובן שדפים אלו כתובים לפי התקן וכוללים בתוכם מספר הנחיות למנועי שליפת הנתונים.

מבנה הנתונים העיקרי של הרשת הסמנטית נקרא RDF ראשי תיבות של Resource Description Framework מתוך נתונים אלו אפשר לשלוף את הנתונים הרצויים לנו בעזרת שאילתות בשפת שאילתות הנקראת SPARQL שהינה שפת שאילתות המזכירה במקצת את שפת SQL המקובלת בבסיסי נתונים טבלאיים.

נתוני RDF מאוכסנים במבנים של שלשות של נושא יחס ומושא (Subject, Predicate, Object) הנתונים עצמם מבוססים על מבנה דומה ל URL (כתובת רשת).
הדרך המקובלת לאכסון נתוני RDF היא במבנה דמוי XML.
לדוגמה: אם נרצה לציין את שמו של יוצר דף מסוים, הנושא יהיה הדף, היחס יהיה המילה "שם יוצר" והמושא יהיה שמו של היוצר.
יומן פגישות של אדם יצוין במספר שלשות כאשר הנושא הוא שם היומן, היחסים יהיו "שם האירוע". כאשר כל אירוע ישמש כנושא לשלשות נוספות של "זמן התחלה", "זמן סיום", מיקום וכד'.

שאילתת SPARQL כדי לקבל למשל את שם היוצר של דף כלשהו תראה כך:

SELECT ?creator WHERE {
   <http://example.org/book/book1>
   <http://purl.org/dc/elements/1.1/creator>
   ?creator.
};


כאן אנו רואים שני חלקים לשאילתה SELECT בו נכתוב את הנתונים אותם אנו רוצים לקבל וחלק שני WHERE בו נכתוב את הנושא והיחס אותו אנו מחפשים על מנת לקבל את התוצאה שלנו.
במקרה שלנו התוצאה היא creator היא מסומנת עם ? לפניה על מנת לציין שזהו שדה עליו אנו מבצעים שאילתה. השורה הראשונה בחלק ה WHERE היא שם הדף. השורה השנייה היא היחס. מקובל להשתמש במבנה URI כאשר המבנה במקרה זה מפנה לסכמת בסיסי נתונים הנקראת Dublin Core.
סכמות בסיסי נתונים דרושות על מנת שנוכל ליצור חיבור קל יחסית בין בסיסי נתונים. ללא ידיעת הסכמה של בסיס הנתונים לא נוכל לבצע שאילתות לבסיס הנתונים. לכן נוצרה יוזמה הנקראת Dublin Core להגדרת יחסים מתאימים לבסיסי נתונים.
בישראל קיימת יוזמה של איגוד האינטרנט ומשרד החינוך הנקראת IsraCore להגדרת יחסים מתאימים על מנת ליצור קטלוג מידע אקדמי.
בדוגמה הפשוטה שלנו, אין אפשרות לקבוע חתך של נתונים. בניגוד לשפת SQL בה חתך הנתונים נקבע על ידי WHERE. בשפה זו כדי להוסיף תנאים לחתך נתונים משתמשים ב FILTER, כאשר FILTER אפשר לעשות תנאי על כל דבר המסומן עם סימן שאלה (?) בחלק ה WHERE

שילוב בדפי רשת קיימים וחדשים
נתוני RDF לא חייבים להיות בקבצים נפרדים, אמנם על מנת לבצע שאילתות אנו צריכים את הנתונים בקבצי RDF אולם לכתוב קבצי RDF בנוסף בנוסף לדפים קימים עלול להיות מורכב מדי, מה שיעצור את השימוש בטכנולוגיות Semantic web.
לשם כך הומצאו טכנולוגיות אחרות כגון GRDDL ו RDFa, טכנולוגיות אלו מאפשרות בעזרת תוספות קטנות לדפים קיימים או חדשים, לאפשר תרגום אוטומטי של הדפים לקבצי RDF.
חשוב לציין כי טכנולוגיות אלו הינם רק קווים מנחים ליצירת תוכנות תרגום ולא ממש תוכנות. נכון לכתיבת שורות אלו עדיין לא מוכרות לי תוכנות מסחריות המממשות טכנולוגיות אלו.
כיצד אפשר לעשות שימוש ב RDF ו SPARQL אפשר לקרוא בקישור הבא: http://www.w3.org/TR/grddl-primer

ואיפה כל זה שימושי כיום?
כל נושא הרשת הסמנטית כיום הינו בעקרו תחום מחקרי עם מעט ישומים יחסית. יחד עם זאת כמעט כל יום מופיעים ישומים חדשים העושים שימוש בעקרונות הרשת הסמנטית.
פורמט המסמכים הפתוח ODF כולל כבר מזמן שדות המאפשרים להכניס נתוני RDF (ראה הערה 1) בשיחה שהתקיימה עם מתכנתים מחברת Sun הבנתי שהגרסה הבאה של OpenOffice, גרסה 3.1 תתמוך בהכנסת נתונים ובשאילתות עליהם. חברת יאהו הודיעה שהיא תאסוף נתוני RDF המוטמעים באתרים ותאפשר שאילתות עליהם (http://www.ysearchblog.com/archives/000527.html).
תוסף לדפדפן פיירפוקס בשם zotero הינו בעצם תוכנה שלמה לאכסון ואחזור נתונים לסטודנטים וחוקרים המשתמשת בנתונים סמנטיים באתרים שונים ומאפשרת אכסון מידע ושאילתות עליו, כאשר הכל נעשה בעזרת רשת סמנטית.
אתר e-culture מאפשר שאילתות ממספר אתרים בנושאי אמנות על מנת לקבל נתונים על יצירות אמנות ואמנים שונים.
הדוגמא המקושרת כאן היא דוגמה לחלק באתר המאפשר הכנסת פרטים על תמונה. כאשר מתחילים להקיש פרט מסויים המערכת עושה שאילתות SPARQL במספר מקורות מידע ומחזירה שמות מתאימים המתחילים באותן אותיות.


למצגת ההרצאה



הוספת תגובה
  מגיב אנונימי
שם או כינוי:
חסימת סיסמה:
  זכור אותי תמיד במחשב זה

כותרת ראשית:
אבקש לקבל בדואר אלקטרוני כל תגובה לטוקבק שלי
אבקש לקבל בדואר אלקטרוני כל תגובה למאמר הזה