ארכיטקטורת מידע/תזאורוסים ושפה מבוקרת/טופולוגיה

טופולוגיה עריכה

תזאורוס מובחן משפות מבוקרות באמצעות טופולוגיה של ביטויים אשר עשירה ב: קשרים סמנטיים, הגדרה מוקדמת של מונחים מועדפים ותמיכה בקטלוג והיררכיה רחבה. הגדרה לוגית וברורה של הקשרים בין הביטויים והטופולוגיה שלהם תאפשר למשתמש בתזאורוס להרחיב את החיפוש למושגים המוגדרים כקשורים בתזאורוס זה.

קשרים סמנטיים עריכה

הביטויים בתזאורוס קשורים בסוגים שונים של קשרים. קשרים אלו סובייקטיביים וקשורים ישירות לאופי התזאורוס והצורך בו. קשרים בין ביטויים בתזאורוס לאתר קניות יהיו שונים בתכלית לעומת תזאורוס למערכת משפטית לחיפוש פסקי דין. להלן מספר קשרים בולטים:

שוויון עריכה

שוויון יוגדר כאשר ביטויים שווים במשמעותם בתוך תזאורוס נתון- ביטויים נרדפים. ביטויים אלו ישמשו לצורך אחזור. כך שהביטוי "עזריאלי" בתזאורוס לצרכי אתר קניות יהיה שווה ערך לביטויים כגון קניון ומרכז מסחרי ויחזיר את כל הרשומות שעוסקות באחד מהשלושה. לעומת זאת בתזאורוס כלכלי הביטוי יהיה שווה ערך לביטויים "עשירי המדינה" ו"האחים עופר" ויחזיר רשומות אלו. קשרי שוויון מוגדרים היטב ישמשו צינור לאחזור אוסף רחב של רשומות אשר בעיני המשתמש באתר/מערכת עוסקים בנושא דומה.

 
היררכיה

קשר היררכי עריכה

קשר היררכי יוגדר בתזאורוס בין ביטויים הקשורים אחד לשני , כך שהאחד מוגדר כמוכל בשני או כ"בן" בהיררכיה מוגדרת מראש. במקרה זה אופי והגדרת ההיררכיה חשוב. לדוגמא ניתן להגדיר היררכיה גיאוגרפית ואז הים ההודי יהיה "בן" של אסיה-פסיפי. ניתן להגדיר היררכיה אויקאנוגרפית ואז הים ההודי יהיה בן לאוקיינוסים ואח לים התיכון. קיימים שלושה סוגים שונים של היררכיות: היררכיה כללית, היררכיה של חלק משלם/אב והיררכיה של מופע של אב.

היררכיה כללית עריכה

היררכיה כללית הינה היררכיה רגילה בה הבנים בהיררכיה בעלי תכונות משותפות עם האב, אשר הם יורשות ממנו. לדוגמא:פרסי ומצרי כבנים של חתול.

היררכיה של חלק משלם/אב עריכה

בהיררכיה זו הבנים הינם חלקים מהאב. לדוגמא: גליל ונגב כחלק מישראל.

היררכיה של מופע/סוג של אב עריכה

בהיררכיה זו הבנים יהיו מופע של/סוג של/דוגמא ל אב. לדוגמא: ירושלים וושינגטון סוג של ערי-בירה.

 
קשרים
קשר אסוציאטיבי עריכה

כשם שהיררכיה ניתן להגדיר באופנים שונים, אסוציאציה בין ביטויים הינה גמישה ביותר באופן הגדרה ומאוד סובייקטיבית. אופי התזאורוס וצרכי אחזור המידע יגדירו הביטויים אסוציאטיבים כגון פטיש- מסמר . בעולם המרושת קשר זה חשוב ביותר. משתמש הדיוט ברשת יטה יותר (ככל אדם) לחפש ביטויים לפי קשר אסוציאטיבי (חולצה-מכנסיים) ולא לפי שמות נרדפים או היררכיות. עקב היות קשר אסוציאטיבי סובייקטיבי מטבעו, הוגדרו ע"י ANSI/NISO מספר סוגי אסוציאציות מקובלות להקלה על בניית תזאורוס:

  • תחום מחקר/עיסוק-מושא מחקר דוגמא: ארכיטקטורת מידע- תזאורוסים
  • תהליך ומרכיביו דוגמא: הדברה-רעל
  • פעולה-תוצאה דוגמא: כתיבה- מסמך
  • מושגים קשורים דוגמא: חגיגה- יום העצמאות

בדוגמא הבאה ניתן לראות שחיפוש "רעל" בדפי זהב מחזיר תוצאות בעלות קשרים מסוגים שונים:

  • בקשר אסוציאטיבי מסוג תהליך ומרכיביו: רעל - הדברת מזיקים
  • בקשר של שיווין: כימיקלים-רעל
  • בקשר של היררכיה: רעל כענף של נושאי איכות סביבה.

ביטויים עריכה

שפות מבוקרות בכלל ותזאורוסים בפרט נועדו קודם כל לשמור ולאחזר מידע בהתאם לביטוי מבוקש וכל הביטויים בתזאורוס שהוגדרו כקשורים אליו. לכן הגדרת המונח "ביטוי" הכרחית לשם בניית תזאורוס. הביטוי שתזאורוס ישמור,יקשור ויאחזר יכול להיות מילה בודדת כגון "נס" או "נס הרים" (בתזאורוס מושבים). בהגדרת ביטויים כביטוים מועדפים, ביטויים אשר ישמשו בתזאורוס, יש להקפיד על אפיון: מבנה הביטויים, בחירת הביטויים, הגדרת הביטויים, מורכבות הביטויים וסיווגם.

 
מבנה ביטוי

מבנה ביטוי עריכה

מבנה הביטוי בתזאורוס נתון לדיון אף הוא - מה צורת האיות המקובלת? האם להשתמש ברבים או יחיד? מה הקיצורים המקובלים. גם כאן ANSI/NISO מכתיב מספר המלצות:

  • מבנה תחבירי - ההמלצה היא להשתמש בשם העצם כביטוי מועדף. נסיעה לא לנסוע או נסענו.
    • כמובן בקשרי שיווין יוגדרו ההטיות הנוספות ובעיקר אלו שפופולאריים בשפה הטבעית.
  • איות - מילון מקובל ( כגון אבן-שושן) ישמש להגדרת האיות הנכון. בנוסף יש להגדיר קשר שיווין לצורות נוספות או שגיאות איות נפוצות. בנלאומי=בינלאומי-בין-לאומי
  • רבים/יחיד - על אף שמקובל לבחור ביחיד הכלל החשוב הינו שמירה על עקביות
  • קיצורים וראשי תיבות- יש להימנע מראשי תיבות וקיצורים כביטויים מועדפים למעט כאשר שימושם נפוץ יותר מהפירוש. צה"ל כדוגמא.

בדוגמא הבאה ניתן לראות כי באתר זאפ הביטויים המועדפים מופיעים לרוב בצורת רבים (מצלמות, מסכים ...) מתוך הנחה כי כך המשתמש מחפש. כמו כן קיצורים נפוצים כגון GPS ו MP3 מופיעים כקיצור.


הגדרת ביטוי עריכה

תזאורוס טוב אמור למנוע דו-משמעות - האם בירה היא משקה או עיר מרכזית? על-מנת להימנע מדו-משמעות הגדרת הביטוי צריכה להיות מדויקת וברורה. בשימוש בחיפוש ואחזור, הערות כגון בירה (עיר), בירה (משקה) יימנעו בלבול.

מורכבות ביטוי עריכה

אפיון הביטוי בתזאורוס מחייב אף הגדרה של איזה רמת מורכבות התזאורוס ישמור ויאחזר. האם "ארכיטקטורת מידע" הינו ביטוי אחד או שניים? אפיון מורכבות ישפיע לא רק על הביטוי עצמו, אלא גם על קשרי- מידע=ידיעה=דעת=הכרה ואילו "ארכיטקטורת מידע" = "מדעי המידע" = "שירותי מידע". על-אף ANSI/NISO ממליץ להימנע משימוש בביטויים מורכבים בתזאורוסים, הימנעות מוחלטת משימוש בהם יגרום לאיחזור של מידע לא רלבנטי. ולכן פעם נוספת נדרש מתכנן התזאורוס להפעיל שיקול דעת בשימוש בביטויים מורכבים נפוצים בהקשר למטרת התזאורוס.

 
ניתן לראות בדוגמא הבאה כי הביטוי מצלמה מקוטלג הדפי זהב בהיררכיה מרובה תחת מספר קטגוריות כגון צילום, צלמים וקולנוע. לעומת זאת בזאפ מצלמה מקוטלגת תחת חשמל ואלקטרוניקה.

סיווג ביטוי (היררכיה) עריכה

סיווג הביטוי בתזאורוס מציב אף הוא אתגרים נוספים. באיזה קטגוריה מופיע ביטוי מסוים? האם קיימת היררכית ביטויים? האם ביטוי יכול להיות תחת שתי היררכיות שונות? תקנים ושיטות קיטלוג כגון שיטת רנגנשסאן (ספרן הודי) ניסו לייצר קטגוריות אוניברסאליות לקיטלוג. אולם אם התפתחות עולם המידע והמידע המקוון ניתן לראות שכל גוף מאמץ לעצמו את הקטגוריות שהוא מוצא לנכון.

ניתן לראות בדוגמא הבאה כי הביטוי מצלמה מקוטלג הדפי זהב בהיררכיה מרובה תחת מספר קטגוריות כגון צילום, צלמים וקולנוע. לעומת זאת בזאפ מצלמה מקוטלגת תחת חשמל ואלקטרוניקה.

 
אינדקסים בדפי זהב וזאפ

בנוסף לכך אפשר להבחין כי בדפי זהב קיימים עשרות סיווגים ברמה אחת בלבד ואילו בזאפ קיימות 13 קטגוריות ראשיות (בסרגל הכלים העליון) ותחת כל קטגוריה קיימות מספר תת-קטגוריות.

מקורות עריכה


הפרק הקודם:
תזאורוסים
טופולוגיה הפרק הבא:
תכנון ארכיטקטורת המידע