איתור ישויות מתוך אוכלוסייה רחבה

אביבה יפת 09.01.2019 21:12
איתור ישויות מתוך אוכלוסייה רחבה


מטרת מערכת האיתורים להצמיד את המידע המתקבל לישות הנכונה, מערכת האיתורים משתמשת במאגרי מרשמים חוקיים שונים המתקבלים ממספר גורמים.



רקע כללי

 

בשע"ם פועלת מזה שנים רבות מערכת איתורים ממוחשבת. הכוללת בתוכה מספר תת מערכות לאיתור מידע על ישויות שונות (תושבים ותאגידים). 

מקורות המידע לאיתור הם לרוב מקורות חוץ המגיעים מארגונים וגופים שונים. המידע מתיחס לתושבים או תאגידים וכולל בתוכו מאפיינים שעל פיהם מתבצע האיתור.  במאפיינים אלו נתונים מזהים על הישות נשוא המידע כגון: מספר זהות של התושב או מספר תאגיד, שם וכתובת.

 

המערכת משמשת את המערכות של אגפי המיסים בשע"ם ובעיקר את חטיבת מאגרי מידע באגף מודיעין וחקירות שעיקר פעילותה באיסוף מידע מודיעיני על ישויות שונות והעמדתו לרשות מערכות שונות של אגפי המיסים.

 

מטרת מערכת האיתורים להצמיד את המידע המתקבל לישות הנכונה, מערכת האיתורים משתמשת במאגרי מרשמים חוקיים שונים המתקבלים ממספר גורמים.

המרשמים הקיימים היום בשע"מ הם: מרשם החברות, מרשם האגודות, מרשם העמותות, מרשם המפלגות, מרשם ההקדשות, מרשם התושבים, מרשם תושבי חוץ ומרשם חסרי ישות משפטית (הכולל ישויות שאינן רשומות במרשם חוקי כלשהו כגון משרדי ממשלה, מועצות מקומיות).

 

הבסיס לאיתור הוא מספר הישות והשם של נשוא המידע ובנוסף קיימים מאפיינים נוספים שעל פיהם נעזרים לצורך איתור.

 

פעולת האיתור כוללת:

 

הצמדת המידע מגורם חיצוני לישות הנכונה

בשע"ם מתקבלים סוגי מידע שונים מגורמי חוץ, יש צורך לוודא שהמידע יוצמד לישות הנכונה. המידע הינו בתחומים שונים ומגורמים שונים. בכל סוג מידע מועברים נתונים מזהים על נשוא המידע. לא כל גורם מעביר נתונים מזהים נכונים או מושלמים כגון: מספר זהות לתושב, שם וכתובת, מין, גיל או מספר חברה לתאגידים.

המערכת אמורה לאתר את הישות הנכונה שהמידע שייך לה ולהחזיר את המספר הנכון והשם הנכון מתוך המרשמים.

 

איתור מידע עפ"י מאפיינים נוספים

כאשר הנתונים המזהים המתקבלים במידע אינם מושלמים או משובשים במידה ניכרת, האיתור אינו וודאי, לכן יש צורך להשתמש במאפיינים נוספים כגון: כתובת, ישוב מגורים, מין, שנת לידה.

כל אחד ממאפינים אלו יכולים להוסיף נקודות לציון הסופי שנקבל בסוף פעולת האיתור.

 

איתור באצווה

המידע המתקבל בשע"ם מגורמי חוץ מתיחס לרוב לקבוצות אוכלוסייה גדולות, לכן יש צורך לאתר את המידע בשלבים. בכל שלב מתבצע איתור עמוק יותר, הדורש משאבים גדולים יותר. מהלכים כבדים אלו צורכים משאבים רבים והם מתבצעים באצווה (BATCH).

 

איתור מקוון פרטני

נועד לענות על הצורך לאתר ישות בודדת כאשר אין מספר מדויק ונכון של הישות או שאין בכלל מספר אלא רק שם, קיימת שאילתא המאפשרת איתור עפ"י פרמטרים רבים.

 

איתור תוך כדי עדכון מאגר

מידע שלא אותר בכלים הרגילים של איתור באצווה נמצא במאגרים עם סימון "לא מאותר", יש צורך במערכת שתציג כלים בפני המשתמש לאיתור ידני של המידע. המערכת מבצעת הצפה של המקרה הבודד עם אפשרות להשתמש במגוון השאילתות לאיתור פרטני ולאחר בחירה של הישות המתאימה ביותר לנשוא המידע, המידע מתעדכן במאגר.

 

שלבי האיתור באצווה:

 

כדי לצמצם את זמן העיבוד, האיתור מתבצע בשלבים, כאשר כל שלב נוסף מבצע פעילות נוספת.

קיימים 6 שלבים. כאשר לא מצליחים להגיע לתוצאה חד משמעית בשלב ראשון עוברים לאיתור בשלב שני וכך הלאה.

 

שלב 1 -

חיפוש הישות במרשמים עפ"י  9 ספרות של מספר הישות כפי שמתקבל מהמידע החיצוני, אם נמצא מספר תואם מבצעים השוואת שמות (סאונדקס).  השוואת שמות נעשית בין שם מהמידע המיועד לאיתור מול שם מהמרשמים, אם לא נמצא מספר ישות במאגרים עוברים לשלב 2.

 

שלב 2 -

מתיחסים רק ל- 8 ספרות של המספר המתקבל מהמידע החיצוני ומבצעים חישוב ספרת ביקורת. ורק אז מבצעים חיפוש במרשמים. אם נמצא מספר תואם במרשמים מבצעים השוואת שמות.

 

שלב 3 -

לשלב זה מגיעים משלב 1 ושלב 2. כאשר נמצא מספר ישות במאגרים אך בהשוואת השמות לא אותר המקרה, אז מבצעים השואת שמות בצורה פונטית, הכוונה להשוואה עפ"י צליל. נוצר מפתח מספרי פונטי מהשם והוא משמש גישה למאגר עפ"י אותו מפתח.

זה מצריך ליצור לשמות בכל המאגרים המרשמיים מפתח פונטי לצורך איתור.

 

שלב 4 -

מתבצע חיפוש במאגרי המרשמים עפ"י 6 ספרות המרכזיות של המספר המתקבל מהמידע החיצוני.

הכוונה ל- 6 ספרות ללא מזהה, סידרה וללא סיפרת ביקורת

סיפרת

ביקורת

 

6 ספרות

 

סידרה

 

מזהה

מתוך המרשמים מתקבלים מספר שמות העונים על קריטריון המספר ומבצעים השוואה של השם מול כל אחד מהשמות במרשמים להם 6 ספרות זהות, כאשר ההשוואה של השם היא השוואה של סאונדקס.

 

שלב 5 -

חיפוש עפ"י 6 ספרות עם תזוזה שמאלה (סדרה + 5 ספרות מרכזיות) והשוואת כל השמות.

 

שלב 6 -

חיפוש לפי 6 ספרות עם תזוזה ימינה (ללא מזהה סדרה וספרה ראשונה מתוך ה- 6 מרכזיות).

 

 

בכל אחד מהשלבים הנ"ל, אם תוצאת האיתור אינה חד משמעית מתבצעת השוואת כתובות.

אם הכתובות דומות תוצאת האיתור תהיה חיובית.

 

תוצאת האיתור הוא ציון מספרי הנע בין 0 ל- 6.

0-2         לא מאותר.

3             מאותר בספק (במקרים אלו מתבצעת השוואת כתובות).

4             מאותר לפי סאונדקס עם שיבוש קל.

5             מאותר לפי סאונדקס ללא שיבושים כלל.

6             מאותר לפי פונטיקה.

 

תהליך האיתור מתבצע בשלבים, כאשר ניתן לבחור במספר שלבים של איתור, ככל שמוסיפים שלבים האיתור יהיה מעמיק יותר.

קביעת מספר השלבים נעשה עפ"י סוג המידע לאיתור, רמת השלמות של מאפייני האיתור, מספר השלבים מאופיין כפרמטר מספרי, ככל שהמספר גבוה יותר הוא כולל יותר שלבים.

 

הפרמטרים לאיתור באצווה

קלט:     מספר ישות

               שם

               כתובת

               מס. שלבים לאיתור

              

פלט:      ציון האיתור

               מס. הישות הנכון

               קוד ישות (סוג הישות: תושב תאגיד, וסוג התאגיד או סוג התושב)

               שם מתאים

 

 

השוואת שמות

קיימות שתי שיטות לחיפוש שמות דומים

 

עפ"י תוכנית SOUNDEX

שיטה בה כל קבוצת אותיות זהה מקבלת משקל כלשהו, השקלול הוא של מספר הקבוצות הזהות וגודל כל קבוצה.  גודל כל קבוצה ביחס למספר האותיות בשם נותן מספר מסוים הקובע את מידת ההתאמה בשמות.

ככל שיש יותר קבוצות זהות והן גדולות יותר בהשוואה למספר אותיות בשם, נקבל משקל גבוה יותר והציון שנקבל בסופו של דבר יהיה גבוה יותר.

אם כל השם זהה לחלוטין לשם במרשמים נקבל ציון גבוה - 5 , אם יש שיבוש קל נקבל ציון 4.

אם יש שיבוש יותר משמעותי אך עדיין יש קבוצות זהות למרות שהן לרוב קטנות במספר האותיות הזהות נקבל ציון 3 שמשמעותו מאותר בספק.

 

בשלב זה של ציון 3 - מאותר בספק מתבצעת השוואת כתובות. באותה שיטה, אם מקבלים ציון 4 או 5 אזי הציון הסופי של המקרה עולה מ- 3 ל- 4.

אם אין מספיק אותיות זהות או קבוצות אותיות נקבל ציונים נמוכים מ- 3, במצב זה המקרה אינו מאותר כלל.

 

במקרים בהם הציון נמוך מ- 4 מבצעים מניפולציה על השמות.

המניפולציה כוללת: השמטה של אותיות מסוימות או קידומות כגון: חברה, בע"מ, עו"ד. השמטת סימנים כגון גרשיים, סוגריים.

קיים שימוש בשמות חיבה כגון: יוסי במקום יוסף.

הפיכת שם פרטי עם שם משפחה, ונסיון חוזר בהשוואת השמות.

השמטת שם פרטי נוסף ושם משפחה נוסף.

 

עפ"י מפתח פונטי

בשיטה זו כל שם ברשמים מתורגם למפתח פונטי עפ"י כללים מסוימים, המפתח הוא מספרי

מ- 0 עד F - מספר הקסה דצימלי.

כל אות בודדת או  זוג אותיות מתורגם למספר.

אותיות "אהוי" מקבלות ערך זהה 0, למעט מקרים בהם ישנן שתי אותיות "אהוי" בצמידות.

בכל מקרה המתקבל לאיתור מתורגם השם למפתח פונטי ואז מתבצע חיפוש במאגרי המרשמים על פי המפתח הפונטי.

שיטת השוואה זו מהירה מאוד אינה גוזלת זמן CPU אך מצריכה אחזקת מפתח פונטי בכל מאגרי המרשמים לצד כל שם ועדכון שוטף של המפתח ברגע שיש שינוי שם.

בהשוואה פונטית אם נמצא מפתח במרשמים נקבל ציון 6 אחרת נקבל ציון 0 לא מאותר כלל.

 

השוואת כתובות

תהליך זה מתבצע רק כאשר ציון האיתור 3 - מאותר בספק.

נשלפת הכתובת של נשוא המידע מתוך המרשמים. ההשוואה היא עפ"י תוכנית הסאונדקס בהתיחס לכתובת. התוכנית יודעת לנפות מחרוזות מסוימות כגון רחוב, רח', שדרה, שדרות, סמטה וכיוצ"ב.

יש שינוי מתוכנית הסאונדקס של השמות בהתיחסות למספרים בתוך המחרוזת של הכתובת.

אם הציון המתקבל גבוה מ- 3, הכתובות נחשבות זהות ואז הציון הסופי של האיתור יעלה

מ- 3 ל- 4.

 

איתור פרטני בצורה מקוונת

קיימות שתי מערכות המאפשרות ביצוע פעולות איתור שונות על מקרה בודד.

מערכת מבוססת בסיס נתונים ב- M.F. ומערכת המתבססת על תוכנת Qlik View

 

מערכת מבוססת  M.F.

ישנם 5 סוגים שונים של איתור פרטני:

1.            איתור לפי תחילית של שם

               אם מדובר בתאגידים, מקישים אות או יותר מתחילת שם התאגיד ומקבלים את כל התאגידים שהשם מתחיל באותיות אלו. ניתן לצמצם את הרשימה ע"י הכנסת פרמטרים נוספים כגון: סוג התאגיד.

                              אם ידוע שיש לאתר תושב מקישים אות או יותר מתוך שם המשפחה ומקבלים רשימה של כל התושבים ששם משפחתם מתחיל באותיות אלו.

               ניתן לצמצם את מספר המקרים ע"י מילוי פרמטרים נוספים כגון: שם פרטי, מין, גיל, אזור מגורים או שם אב.  

 

2.            איתור לפי צליל

               מזינים שם. המערכת מתרגמת את השם למפתח פונטי ונעשית פניה למרשם התושבים לפי אותו מפתח.

               כל מי שעונה על התנאי נכנס לרשימה, כאשר ניתן לצמצם את מספר המקרים ברשימה ע"י מילוי פרמטרים נוספים כגון:  ישוב, מיקוד, מין, גיל.

               מזינים שם תאגיד.

              

3.            אחזור תאגידים

               מזינים שם תאגיד או חלק מהשם.

               המערכת פונה לקובץ שמות תאגידים הבנוי כקובץ אינדקס לאחזור מידע ונשלפים מקרים שהשם כפי שהתבקש קיים בקובץ זה כאשר מזינים רק חלק משם התאגיד או צרוף של 2-3 מילים מתוך השם, המערכת תחזיר מקרים גם אם סדר המילים בתוך השם כפי שמופיע בקובץ שמות תאגידים שונה.

               ניתן לצמצם את מספר המקרים שיוצגו אם מזינים את סוג המאגר שיש לחפש בו כלומר סוג הישות שרוצים לאתר.

 

4.            איתור לפי ספרות של מספר הישות

               בשיטה זו מאפשרים לקבל את כל המקרים שהמספר בהם דומה.

               הכוונה כאשר יש חוסר בספרה אחת מסוימת בתוך המספר, החוסר יכול להיות בכל אחד מהמקומות במספר, או כאשר אחת הספרות במספר משובשת.

               מתקבלים מקרים רבים, מוקרנים המקרים ללא כפילויות, והמשתמש אמור עפ"י השם המוקרן לבחור מי מהמקרים מתאים לו.

 

5.            איתור לפי  כתובת מגורים

               בשיטה זו מאפשרים לקבל רשימה של כל התושבים שמתגוררים בכתובת.

               בשיטה זו מתרגמים את הכתובת למפתח מספרי הכולל סמל ישוב, סמל רחוב, מספר בית ומיקוד.

 

מערכת מבוססת  Qlik View

במערכת זו המידע של כלל המרשמים נטען לזיכרון.

החיפוש הוא על כל פרמטר שנמצא בנתונים

ניתן לסנן את התוצאות עפ"י הצורך העת החיפוש

 

מערכת איתור בצורה מקוונת ועדכון המאגרים

מערכת המאתרת את נשוא המידע הקיים במאגרים השונים ומעדכנת ב- ON-LINE את הרשומה.

המערכת שולפת את הרשומה לאיתור ממאגרים שונים עפ"י פרמטרים שונים.

הרשומה מוצגת עם כל הנתונים הרלוונטיים לצורך איתור וניתן להתפצל לכל המערכות שבאמצעותם ניתן לאתר את נשוא המידע.

 

השגים עיקריים

כל מידע חיצוני המגיע, יכול לעבור דרך מערכות איתורים אלו בצורה שקופה ולהגיע למצב שהמידע יוצמד לישות הנכונה. כל פתיחת רשומה במאגרי שע"ם תלויה במערכות אלו.

גורמים חיצוניים מבצעים שימוש במערכות האיתורים האלו. למשל מערכת מרכבה בחשכ"ל משתמשת בשלב פתיחת תיקי מוטבים, מערכת האיתורים מספקת מידע לגבי מספר הישות והשמות הנכונים.

המערכת לאיתור ידני מאפשרת השלמת איתור במקרים בעיתיים, ולעדכן בצורה מקוונת את המאגרים.

אחוז המקרים הלא מאותרים מצטמצם משמעותית.

אחוז הטעויות בשיוך מידע הולך וקטן.

 

בעיות הידועות במצב הקיים היום

אין שילוב אוטומטי של מאפיינים מסוימים בתוך המערכת.

כגון: מין, שנת לידה, שם בלועזית. מצב זה נוצר עקב נתונים שונים המגיעים עם כל סוג מידע.

אין טבלה מושלמת לקיצור השמות, לשמות חיבה ותוספות לשמות שצריך לנפות בזמן ביצוע השוואת השמות.

 

כיווני פיתוח לעתיד

שילוב מאפיינים נוספים בזמן איתור.

אפשרות להקשחת הקריטריונים לאיתור או הגמשה בצורה אוטומטית עפ"י פרמטר חיצוני.

הגדלת טבלאות של קיצורי שמות, שמות נרדפים או סימנים מסוימים שיש להתיחס אליהם בזמן האיתור.


סרטון המצגת




הוספת תגובה
  מגיב אנונימי
שם או כינוי:
חסימת סיסמה:
  זכור אותי תמיד במחשב זה

כותרת ראשית:
אבקש לקבל בדואר אלקטרוני כל תגובה לטוקבק שלי
אבקש לקבל בדואר אלקטרוני כל תגובה למאמר הזה