על פרופ' יעקב שויקה בעקבות ההספד של הרב סבתו
הרב חיים סבתו ספד לדודו פרופ' יעקב שויקה בגיליון שבת (19 ביוני 2020) ומציין את החיבור שעשה פרופ' שויקה בין עולם התורה לעולם המתמטיקה בפרויקט השו"ת. כמי שהכיר את פרופ' שויקה קרוב לשלושה עשורים במסגרת קבוצת ענין שהקמתי לאחזור מידע (SIGTRS) ושפרופ' שויקה הופיע בפניה מספר פעמים אני רוצה להוסיף בתחום המקצועי המחשבי.
פרופ' שויקה כבלשן ואיש מדעי המחשב היה מאוד חד ודייקן בלשונו. בכנס חצי היובל של הקבוצה שהתקיים בסוף 2018 הזמנתי אותו לתת את הרצאת הפתיחה. פרופ' שויקה ציין כי הקבוצה עוסקת ב"אחזור מידע" אף שנושא הקבוצה בראשית עידן המחשבים בשנות השישים נקרא "אחזור מסמכים". לכאורה סמנטיקה אבל ההבדל גדול. אחזור מסמכים מציין שאנו שואלים שאלה ומערכת המחשב מחזירה לנו בתשובה את המסמכים בהם מילות החיפוש נמצאו. "אחזור מידע" משמעותו שהמערכת מחזירה לנו את המידע עצמו שהוא התשובה לשאלה. פרופ' שויקה הדגיש כי טרם הגענו לשלב זה וכי השינוי לשם "אחזור מידע" מ"אחזור מסמכים" הייתה משאלת לב של קובעי המונח.
עוד נקודה פחות ידועה על פרופ' שויקה שהיה מומחה עולמי בחיבור בין מורפולוגיה למחשב. כבר בשנת 1982 פיתח יחד עם שותף אמריקני את האלגוריתם למציאת חלקי מילה בחיפוש ממוחשב. כלומר מתן פתרון לחיפוש חלקי של אותיות בתוך מילה או מחרוזת תווים. היו יכולות כאלו בעבר אבל זמני התגובה לחיפוש כזה היו ארוכים. שויקה ועמיתו פתחו אלגוריתם זריז ומהיר שהכה את העולם האקדמי בחדשנותו. האלגוריתם נחשף בכנס בארה"ב בצורה חופשית וגופי ענק בתחום עשו בו שימוש כמו ה-CIA וגופי ביון נוספים העוסקים בטקסטים רבים ומורכבים.
חידוש טכנולוגי מיוחד שפיתח פרופ' שויקה קשור למורפולוגיה. בעבר ביצעו חיפושים בתוך טקסטים ואם היית רוצה לאפשר חיפוש על כל צורה של המילה היית צריך להכין מבעוד מועד במאגר המידע את כל הצירופים האפשריים של אותה מילה. כאשר המאגר ענק עם מילים רבות קיימת בעיה בזמני הביצועים של המערכות.
פרופ' שויקה בא עם הרעיון המאפשר להשאיר במאגר רק את המילים הגולמיות כפי שהן מופיעות בטקסט המקורי ואילו איתור כל הצרופים שלהם יעשה באמצעות אלגוריתם מורפולוגי אשר יבוצע בעת החיפוש ויאתר את הצרופים מבלי שהם נמצאים בפועל במאגר. זו הייתה פריצת דרך משמעותית בעולם המחשוב ובעיקר בשפה העברית הידועה "כשפה קשה". רק כדי לסבר את האוזן באנגלית יש כמיליון צורות בשפה ובעברית כ-70 מיליון. יש מצבים שהפיתוח המורפולוגי נעשה במקוון ויש מצבים בו הוא נעשה על המאגר עצמו בעת המיפתוח ולעתים בצורה משולבת בהתאם לבעיה. מבלי להיכנס לפירוט טכני הצורך בפתרון מסדר גודל אחר היה חובה בטיפול בטקסטים עבריים דבר שמומחי האחזור לשפות המערביות כלל לא נתקלו בהם. ההתמודדות של פרופ' שויקה עם בעיה זו הובילה לפיתוח המילון המורפולוגי בעברית שבעקבותיו פורסם הרב מילים שהוא המילון העברי המלא על כל צורותיו. על עבודה הנובעת ממנו זכה שויקה בפרס ראש הממשלה על תוכנת הנקדן שבפועל אפשרית רק מתוך "הבנה" של השפה הכתובה.
תקצר היריעה מלתאר את הישגיו המקצועיים של פרופ' יעקב שויקה. כן חשוב לזכור שהאיש היה פורץ דרך ברמה העולמית בתחום אחזור המידע ובטח בעברית. כתפיו הרחבות של יעקב שויקה נושאות על גבן דורות של פתרונות ממוחשבים שאנו מכירים וגם כאלו שטרם הומצאו.