Matcher - מנוע זיהוי ישויות

מיקי קולקו 14.01.2010 04:06

ה Matcher הינו מנוע זיהוי ישויות גמיש ורב עוצמה למצבים בהם המידע אינו מדויק ומתואם עם בסיסי המידע בארגון. המנוע משלב טכנולוגיית FUZZY MATCHING וארכיטקטורת אינדקסים ייחודית המאפשרת לארגונים לבנות יישומי זיהוי ואיתור ישויות בתחומי ביטחון, מודיעין, שירות לקוחות ועוד. המנוע מסייע בזיהוי והתאמת ישויות - אנשים וארגונים, תוך התגברות על חוסר דיוק ואי וודאות במידע. ה Matcher נותן מענה למגוון רחב של תסריטי זיהוי של אנשים וארגונים כמו: חיפוש ישויות מול רשימות לבנות/שחורות, בדיקת תקינות של נתונים אשר חולצו ממידע לא מובנה כמו טקסט, סטנדרטיזציה של נתוני קלט או נתונים הנקלטים ממקורות חיצוניים וחיפוש מקוון מבוסס דמיון.

Matcher - מנוע זיהוי ישויות

מיקי קולקו

רקע

ה Matcher נותן מענה למגוון רחב של תסריטי זיהוי של אנשים וארגונים כמו: חיפוש ישויות מול רשימות לבנות/שחורות, בדיקת תקינות של נתונים אשר חולצו ממידע לא מובנה כמו טקסט, סטנדרטיזציה של נתוני קלט או נתונים הנקלטים ממקורות חיצוניים וחיפוש מקוון מבוסס דמיון.

עקרונות הפתרון

ה Matcher הינו פתרון כללי למציאת דמיון בין ישויות בבסיסי נתונים ארגוניים. תהליך ההתאמה מתבצע באמצעות אלגוריתמים יעילים אשר מזהים אי התאמות במידע כמו טעויות איות, מידע חסר, חוסר סטנדרטיזציה הנובע מריבוי מקורות קלט , מידע המחולץ מטקסט, ריבוי סמנטיקות עסקיות ושילובים שונים של אי התאמות אלו.

הדיאגרמה הבאה מציגה שילוב של ה Matcher במערכת בקרת גבולות לזיהוי אנשים במגוון תסריטים:
Matcher - מנוע זיהוי ישויות

ה Matcher תומך ביישומים מגוונים המנהלים מודל נתונים מגוון ומורכב. היישום ממפה את ישויות המידע באמצעות כלי מיפוי המותאם ל XML – מיפוי זה נקרא מודל המידע . מערכת האינדוקס ב Matcher עוקבת אחר השינויים במידע וע"פ מודלי המידע מסנכרנת את מערכת האינדקסים עם נתוני הארגון. תהליך הזיהוי וההתאמה מבוצע באמצעות מערך האינדקסים ביעילות ללא גישה לבסיס הנתונים. לוגיקת הזיהוי ניתנת להגדרה והתאמה מלאה של הלקוח באמצעות מודל הזיהוי. ניתן ליישם מספר מודלי זיהוי למגוון תסריטים אפשריים.

לדוגמא, מערכת בקרת גבולות בודקת נוסעים באמצעות חיפוש מקוון מבוסס דמיון ברשימה שחורה של חשודים:

	נתוני דרכון	Black list	אלגוריתם לזיהוי
שם	Muhamad Usman Abdel Raqeeb	Haj Mohd Othman Abdul Rajeeb	Multi culture name analysis
שם האב	Hasim	Chasim	Arabic phonetics similarity
גיל	19	20	Age range
אזרחות	Lebanon	Iran	Countries relationships

פרוט יכולות וערכי מוסף

מודל מידע גמיש התומך בעדכון בזמן אמת : ה Matcher מותאם לזהות ישויות ע"פ מודל מידע XMLי. באמצעות מודלי המידע וכלי המיפוי, מפתחי היישום ממפים את הישויות הרצויות למערך האינדקסים של ה Matcher. לאחר ביצוע המיפוי, ה Matcher עוקב אחר השינויים בזמן אמת באמצעות מנגנון תור בבסיס הנתונים. תור זה מאכלס את כל השינויים הנדרשים לסנכרון מערך האינדקסים.

מודל המידע המשמש את מערך הכנת האינדקסים זהה למודל המידע המשמש את תהליך הזיהוי. מודל זה מפשט את תהליך השילוב של ה Matcher והיישום באמצעות סכמה אחידה.

מודל זיהוי גמיש להתאמות היישום: תהליך הזיהוי נשלט במלואו ע"י היישום. מודל המידע מגדיר את שיטות הזיהוי לכל שדה ושדה, משקולות חשיבות בין השדות וספי זיהוי. פרמטרים אלו משמשים את ה Matcher לתכנן את אסטרטגיית הזיהוי האופטימלית לנתוני הקלט מחד ונתוני בסיס התונים מאידך. ניתן ליישם מספר מודלי זיהוי למגוון תסריטים אפשריים.

מערך מוכן של אלגוריתמים לזיהוי: ה Matcher משווק Out-of-the-box עם מערך אלגוריתמים לזיהוי סוגי נתונים שונים כמו: שמות, כתובות, תאריכים, מספרים מזהים. כל אלגוריתם לזיהוי מתמודד עם התאמות בהתאם לסוג הנתון. למשל התאמה של שם תכלול התאמה פונטית והתאמה של מספר דרכון יכלול החלפה של ספרות. כל אלגוריתם לזיהוי פועל באמצעות אינדקס מתאים המוגדר ומנוהל במערכת האינדקסים. למשל התאמה פונטית פועלת באמצעות אינדקס SOUNDEX. מערך האלגוריתמים ניתן להרחבה והתאמה לסוגי הנתונים הקיימים וסוגי נתונים חדשים.

ריבוי שפות למערכות גלובליות: ה Matcher תומך בזיהוי ישויות במאגרים מרובי שפות. המידע הארגוני מעובד ע"י מודול שפה ייעודי. מודול השפה כולל אלגוריתמים המתאמים לשפה ומאפשרים זיהוי מידע ע"פ אי התאמות המקובלות לשפה. מודוליי שפה נרכשים בנפרד ע"פ בחירת הלקוח.

זיהוי שמות מונחה תרבות: ה Matcher משולב עם הפתרון המוביל של חברת IBM לניתוח וזיהוי שמות –
IBM Globale Name Scorting. טכנולוגיית הזיהוי של IBM משלבת מידע איכותי על כל שם ושם בהתאם לתרבות המוצא של השם. המידע על השם , הכולל ניתוח אוטומטי של תרבות השם, מין, חלוקת השם למרכיביו - מאפשר זיהוי ייחודי של אנשים וארגונים ברחבי העולם, ובמגוון תעתיקים. למשל השמות Zhang Qiusu, Chang Ch’iu-Su, Chiusu Sae Chang, Cheung Yau So, Cheung Yau So מתייחסים כולם לאותו שם שמקורו במזרח אסיה. מודול זה נרכש בנפרד ע"פ דרישת הלקוח.

זיהוי פונטי מרובה שפות: כחלק ממודול השפה מאפשר ה Matcher זיהוי פונטי רגיש שפה למידע טקסטואלי. הזיהוי הפונטי מאפשר איתור ישויות תוך התעלמות מאי התאמות מבוססות שמיעה וכתיב. אלגוריתם הזיהוי הפונטי הנו מבוסס חוקים המאפשרים גמישות והתאמות. ה Matcher כולל מענה לשפות אנגלית, עברית וערבית . שפות נוספות יתווספו ע"פ דרישה. למשל שם החברה האיראנית Cobel Daron נשמע כמו Kobbel Daaron בתעתיק לטיני.

זיהוי ישויות מספריות: בעולם הדיגיטלי נוצרים מקרים רבים בהם יש עיוותים בשדות מזהים כמו מספר דרכון, מספר רכב . ה Matcher כולל אלגוריתמים ייעודיים לאיתור דמיון בין מזהים הכוללים בין השאר החלפת ספרות, השמטת ספרות.

ביצועים מעולים מבוססי ארכיטקטורת אינדקסים ייחודית: מערך האינדקסים הנו לב ליבו של טכנולוגיית ה Fuzzy matching של ה Matcher. מערך האינדקסים ובשילוב רכיבי מטמון מאפשר זיהוי ישויות במאגרים רחבי היקף ובביצועים מעולים. מערך האינדקסים מנוהל ע"י ה Matcher באמצעות כלי ניהול המבצעים סנכרון עם שינויים בנתוני היישום .

Federation: למאגרים רחבי היקף, ולצורכי Scalability כולל ה Matcher מודול נפרד ל Federated Match. מודול זה מאפשר ביזור בסיס הנתונים למספר מערכי אינדקסים המפוזרים ע"פ פני מספר שרתים. הזיהוי המבוזר מתבצע במקביל וביעילות. מודול זה נרכש .

מצגת ההרצאה

הוספת תגובה שלח הדפסה דווח

חילוץ מידע זיהוי ישויות

הוספת תגובה

	מגיב אנונימי

מגיב אנונימי

שם או כינוי:	הירשם לקבלת שם מגיב שיהיה רק שלך הירשם לקבלת שם מגיב שיהיה רק שלך בחר בבקשה שם כינוי קבוע וייחודי לך וסיסמה לשימוש עם השם הזה. שם או כינוי: חסימת סיסמה: הקלדה נוספת של אותה סיסמה: כתובת דואר אלקטרוני:
חסימת סיסמה:
	זכור אותי תמיד במחשב זה

כותרת ראשית:

כותרת ראשית:

אבקש לקבל בדואר אלקטרוני כל תגובה לטוקבק שלי
אבקש לקבל בדואר אלקטרוני כל תגובה למאמר הזה

עמוד הבית | "מידע וטקסט" עלון ק.עניין Information and Text", SIGTRS"

המאמרים החדשים

אתר הגבורה – איסוף מידע נרחב, עיבודו והפצתו לציבור כפרויקט לאומי המוצר אוטונומי עלון קבוצת העניין אחזור מידע וטקסט, חוברת 2 כרך י"ט - דצמבר 2012, קובץ מלא להורדה חדשות קבוצת עניין אחזור מידע וטקסט - SIGiTRS - כרך י"ט חוברת 2 - דצמבר 2012 אינדקס לכרכים א' עד י"ט (כולל חוברת 2) עפ"י מחברים אינדקס לכרכים א' עד י"ט (כולל חוברת 2) עפ"י כותרים חברי הכנסת כצרכני מידע Full Text Search – צעד מעבר (beyond) למסד נתונים יחסי זיכרון לטווח רחוק מחשוב ארכיונים

הנקראים ביותר

SIGTRS - המפגש הבא Next meeting מפגשים קודמים Previous meetings הספר Information Retrieval של C.J. van RIJSBERGEN תכונות מנוע החיפוש Attivio "אנו משתדלים יותר" – שימושי אחזור מידע באתר השאלות והתשובות השני בגדלו בעולם Web 3.0 מעבר לפינה – טכנולוגיות סמנטיות באינטרנט ובארגונים רשימת תפוצה Mailing list כנס טלדן 2009 על אודות הקבוצה חיפוש עברי: לראשונה בקוד פתוח. אתגרים, פתרונות והתמודדויות אחרות.

עוד מאמרים מ "מידע וטקסט" עלון ק.עניין Information and Text", SIGTRS"

"את ההשפעה שלו אי אפשר לחשב, כפי שאת ההצפנה שלו אי אפשר לפצח": מת פרופ' מיכאל רבין יומן מסע, עדים במדים האיש שהמציא את ה World Wide Web רשלנות מקצועית וחוסר עקביות בביצועי המודל ג'מיני של גוגל הצעה לשיפור ותלונה על מודל ג'מיני של גוגל ליצירת שילוב גרפי וטקסט לא מורכב תחזית לעולם ה-AI מבוסס מאמר AI2027 ספר חדש של האקדמיה ללשון לזכרו של פרופ' עוזי אורנן הצעה לשיפור התנהגות מודלים מול משתמשים ב- chat gpt 5 בטיפול בטקסט עברי עלון קבוצת העניין אחזור מידע וטקסט, חוברת 2 כרך ל"ב - דצמבר 2025, קובץ מלא לקריאה והורדה חדשות קבוצת עניין אחזור מידע וטקסט - SIGiTRS - כרך ל"ב חוברת 2 - דצמבר 2025 אינדקס לכרכים א' עד ל"ב (כולל חוברת 2) עפ"י תאריך פרסום אינדקס לכרכים א' עד ל"ב (כולל חוברת 2) עפ"י מחברים יד ושם זיהה חמישה מיליון משמות הנרצחים בשואה דו״ח משתמש – תהליך יצירת איורים במערכת OpenAI איך לייצר הסכת בכלי AI תקציר הדו״ח להאצת תחום הבינה המלאכותית של ועדת נגל - אוגוסט 2025 Automatically Identifying Join Candidates in the Cairo Genizah חוק הבינה המלאכותית של האיחוד האירופי הסכתים מבית SIGTRS מחשבים, דברו עברית: מיזם ivrit.ai