Hocr - הפיכת תמונה עם אותיות עבריות לקובץ טקסט/התקנה: הבדלים בין גרסאות בדף

תוכן שנמחק תוכן שנוסף
חורחה (שיחה | תרומות)
אין תקציר עריכה
 
חורחה (שיחה | תרומות)
אין תקציר עריכה
שורה 1:
{{בעבודה}}
 
מדריך זה מסביר את השימוש בתכנות חופשיות לצורך סריקת מסמכים עבור hocr-gtk.
 
התכנות בהן יעשה שימוש במדריך זה הן:
 
*[http://www.gimp.org/ GIMP] - תכנה חופשית לעיבוד תמונה
*[http://www.sane-project.org/ SANE] - תכנה חופשית לסריקת מסמכים
 
המדריך מסביר כיצד להפעיל ולכוון את התכנות GIMP ו SANE. רוב התכנות שמבצעות סריקה ועיבוד תמונה מכילות אותן אופציות, כך שבמידה ויש ברשותכם תכנה שונה, תכלו לחפש את האופציות המקבילות בתוכנה שברשותכם.
 
המדריך מניח כי יש לכם מערכת עובדת הכוללת סורק ומחשב וכי אתם יודעים להפעיל את הסורק שברשותם עם תכנת הסריקה. במידה ואינכם מצליחים להפעיל את הסורק או את תכנת הסריקה/עריכה שברשותכם פנו לסיוע מספק הסורק או התכנה. לתכנת [http://www.sane-project.org/ SANE] דפי עזרה מקיפים באתר התכנה.
 
תוכנת [http://www.sane-project.org/ SANE] מאפשרת גם סריקה ללא מינשק גרפי. צורה כזו של סריקה נוחה, כאשר רוצים לסרוק מספר רב של דפים. המדריך אינו מסביר כיצד להתשתמש באפשרות זו.
 
לפרטים נוספים על סריקה משורת הפקודה בעזרת [http://www.sane-project.org/ SANE]:
 
[http://www.sane-project.org/man/scanimage.1.html scanimage] - תכנת בררת המחדל של [http://www.sane-project.org/ SANE] לשורת הפקודה. התכנה קלה להפעלה ושימושית לאוטומציה של סריקה. התכנה שולטת בכל המדדים של הסריקה ומאפשרת להפעיל מזין דפים אוטומתי בסורקים המאפשרים זאת.
 
 
לקבלת תוצאות מיטביות בעת זיהוי תוים אופטי יש צורך בקלט המתאים לדרישות תוכנת הזיהוי, מדריך זה מלמד כיצד יש לסרוק מסמכים כדי לקבל את התוצאות הטובות ביותר עבור תכנת hocr-gtk. יתכן ולתכנות ocr אחרות מדריך זה אינו מתאים.
 
===== מדריך מקוצר =====
 
 
תכנת hocr-gtk מפיקה את התוצאות הטובות ביותר כאשר הטקסט נקי וברור וגודל השורות והאותיות אחיד. התכנה גם מניחה כי גודל האותיות בערך חצי ס"מ, והשורות מקבילות לבסיס הדף.
רוב ספרי הקריאה והעיתונים המודפסים בארץ עונים לקריטריונים הללו. במידה והטקסט שברשותכם מכיל אותיות קטנות יותר או גדולות יותר, אינו ברור או מכיל מספר סוגי כתב באותו דף יש לקרא גם את המדריך המתקדם.
 
==== הנחת החומר לסריקה על הסורק ====
 
כדי לקבל שורות המקבילות ככל האפשר לבסיס התמונה, כדאי להניח את החומר המיועד לסריקה בצורה מקבילה ככל האפשר לבסיס מדף הסריקה. התמונה מדגימה כיצד יש להצמיד את החלק העליון של הדף הנסרק לבסיס מדף הסריקה בסורק כדי לקבל את ההקבלה המקסימלית. במידה והספר שאתם מעוניינים לסרוק מכיל שורות עקומות שאינן מקבילות לבסיס הדף, יש צורך בהתאמה נוספת כדי לקבל את ההקבלה הרצויה.
 
 
__תמונה א, הנחת החומר לסריקה על הסורק__
 
{{guid:xsane-letter-orientation-photo.jpg?400x200}}
 
==== הפעלת תכנת המחשב לצורך סריקה ====
 
תכנות GIMP ו SANE הן תכנות חופשיות המיועדות לסריקה ועיבוד תמונה, ניתן להפעיל כל אחת מהן בניפרד. במדריך זה נסביר כיצד מפעילים את שתי התוכנות במשולב כדי לקבל את התוצאה המיטבית עבור תכנת hocr-gtk.
 
 
יש לפתוח את תכנת GIMP ולבחור את התפריט: aquire->xsane->device_dialog. במידה ויש לכם תכנה אחרת לסריקה חפשו אופציה דומה בלוח התפריטים, לחיצה על תפריט זה תפתח חלון חדש עבור תכנת SANE ממנו תוכלו לכוון את תכונות הסריקה ולסרוק את התמונות לתוך תכנת GIMP.
 
__תמונה א, פתיחת חלונית SANE מתוך תכנת GIMP__
 
{{guid:gimp-sane.jpg?400x300}}
 
לאחר שלב זה יפתח חלון של תכנת SANE ויתר העבודה עד שלב שמירת התמונה יתבצע בתכנת SANE.
 
==== הגדרת בררות תכנת הסריקה =====
 
תכנות סריקה מאפשרות למשתמשים להגדיר את מאפייני הסריקה בהתאם ליכולת הסורק. אנו נסביר כאן כיצד לכוון את תכנת SANE לסריקה מיטבית עבור תכנת hocr-gtk. כל תכנות הסריקה שולטות על אותם מאפיינים התלויים בחומרת הסורק, לכן גם אים אתם משתמשים בתוכנה שונה תוכלו למצוא את אותם מאפיינים גם בתכנה שלכם.
 
אנו נבחר בהגדרות הללו כדי לקבל תוצאות מיטביות, סריקה באיכות אופטימלת עם 300 נקודות באינצ' ,300dpi, שחור לבן ,B/W Line-art,
ודרגת בהירות של 50%. ההגדרות רמת הבהירות ואיכות הסריקה נמצאות בחלונית ההגדרות: window->show_standard_options, של תכנת SANE. במדריך המתקדם מוסבר כיצד יש לשנות את הגדרות אלו במידת הצורך.
 
* **המדריך מניח כי הדפים שברשותכם מודפסים על נייר לבן באיכות דפוס טובה**. במידה ואתם סורקים ספר ישן עם דפים צהובים מאוד ודפוס באיכות ירודה, כדאי לסרוק **בצבע מלא** ולקרא גם את [[מדריך לסריקת דפים ישנים]] המסביר כיצד להמיר ידנית את התמונה לתמונה בגוני שחור ולבן. המרה ידנית לתמונה בגוני שחור ולבן, מוסיפה עוד שלב לתהליך, אך מפיקה תוצאות טובות יותר עבור דפים צהובים במיוחד.
 
__תמונה א, חלון הגדרות המאפיינים בתכנת SANE__
 
{{guid:xsane-scan-window-1.jpg}}
 
==== אזור הסריקה ====
 
לרוב לא נרצה לסרוק את כל הדף אלה רק את האזור המעניין אותנו ועוד ס"מ אחד או יותר של אזור לבן מסביב, סריקת תמונות והערות יקשה על תכנת hocr-gtk לזהות בצורה מיטבית את הטקסט המיועד לזיהוי. כדי לבחור את האזור המיועד לסריקה נפתח חלונית תמונה מקדימה: preview, שתאפשר לנו לבחור את האזור אותו אנו מעוניינים לסרוק.
 
פתיחת חלונית התצוגה המקדימה מתבצע ע"י תפריט חלונות בחלונית הראשית: window->show_preview. לאחר פתיחת חלונית התמונה המקדימה נסמן בה את האזור הרצוי לסריקה, בעזרת העכבר.
 
__תמונה א, בחירת אזור רצוי לסריקה בתכנת SANE: המלבן המקווקו הוא האזור שיסרק__
 
{{guid:xsane-scan-window-3-preview.jpg?300x400}}
 
 
לאחר שבחרנו את האזור המיועד לסריקה נלחץ על כפתור הסריקה: scan, בחלונית הראשית של SANE ונמתין לפתיחת חלון התוצאה.
 
כאשר הסורק יסיים את תהליך הסריקה יפתח חלון עריכה של תכנת GIMP המכיל את התמונה הסרוקה. אנו לא נערוך את התמונה בתכנת GIMP אלה רק נשמור את התמונה בסידור המתאים לתכנת hocr-gtk.
 
כאשר חלון העריכה של GIMP יפתח עם התמונה שנסרקה, נתבונן בתמונה ונבדוק שהיא אכן מכילה את הטקסט שרצינו ואינה מכילה לכלוכים ותמונות מיותרות. במידה והתמונה ניראת ברורה ניתן לשמור את התמונה המתקבלת. תכנת GIMP יכולה לשמור את התמונה בסידורים רבים, אנו נבחר בסידור jpg אשר מתאים לתכנת hocr-gtk. תכנת hocr-gtk יכולה לקרא את רוב סידורי התמונה הנפוצים, כך שאים תכנת הסריקה שלכם אינה יודעת לשמור תמונות בסידור jpg, רוב הסיכויים ש hocr-gtk עדיין תוכל לקרוא את התמונה.
 
__תמונה ב, חלונית שמירת התמונה בתכנת GIMP__
 
{{guid:gimp-save-as.jpg?400x300}}
 
 
התמונות אותן נשמור בשלב זה יהיו התמונות עליהן נבצע את זיהוי האותיות האופטי בשלב מאוחר יותר. יש להכין בצורה דומה את כל הדפים אותם אנו רוצים לעבד מאוחר יותר בעזרת תכנת hocr-gtk.
 
כדאי בתחילת העבודה לסרוק דף בודד ולבדוק האים הוא עובר זיהוי טוב ע"י תכנת hocr-gtk. רק אם הזיהוי טוב, להמשיך ולסרוק את יתר הדפים. במידה ותוכנת hocr-gtk מתקשה בזיהוי התווים העבריים כדאי לקרא את המדריך המתקדם, לכוון את תכנות הסריקה עד לקבלת תוצאה מיטבית, ואז לסרוק את כל יתר הדפים.
 
===== מדריך מתקדם =====
 
מדריך זה ינסה להסביר בצורה עמוקה יותר את הסיבות לבחירת מאפייני הסריקה שהוצעו במדריך המהיר. כוונת המדריך לתת למשתמשים יכולת לבחור מאפיינים אחרים המתאימים יותר למטרותיהם ולחומר היחודי אותו הם רוצים לסרוק ולהעביר דרך מנוע זיהוי האותיות האופטי של hocr-gtk. משתמשים המעוניינים לסרוק חומר בעל מאפיינים יחודיים ירצו גם לבחון את השימוש בתכנת שורת הפקודה hocr כדי ליעל את עבודתם. הסבר על תכנת שורת הפקודה hocr אפשר לקבל באתר הפרוייקט וע"י שימוש בפקודה man במערכות התומכות בפקודה זו.
 
==== בחירת האיזור המיועד לסריקה ====
 
תכנת hocr-gtk מסוגלת להתמודד עם עמודות וציורים, אך כדי לקבל את התוצאה הטובה ביותר רצוי להקל על התכנה ולספק לה טקסט נקי ככל האפשר ללא תמונות ליכלוכים והערות בכתב שונה מהכתב בו כתוב רוב הטקסט. תכנת hocr-gtk מבצעת מיצוע של כל הסימנים שנראים כאותיות, כולל חלקים מהתמונה והערות שוליים הכתובים בכתב שונה. אים המיצוע יתבצע גם על אותיות וסימנים שאינם האותיות אותם אנו מעוניינים להעביר דרך מנוע הזיהוי, הזיהוי של האותיות אותם אנו כן רוצים לזהות יהיה באיכות פחות טובה, שכן המערכת תתקשה להפריד בין סימנים שאינם רצויים לסימנים רצויים.
 
כדי להקל על התוכנה לבצע את זיהוי האותיות, צריך לבחור אזורים המכילים עד כמה שאפשר רק כתב אחיד ונקי.
 
 
__תמונה א, בחירת האזור הרצוי בלבד ללא תמונות והערות צד__
 
{{guid:xsane-scan-window-3-preview-pics.jpg?200x300}}
 
==== בדיקת האותיות בדף ====
 
כדי להקל על תכנת הסריקה, תכנת hocr-gtk מניחה מספר הנחות לגבי החומר המיועד לזיהוי. הנחה חשובה אחת היא לגבי גודל האות, גודל האות צריך להיות בערך 25 נקודות על בערך 35 נקודות. גודל אות כזה מתקבל כאשר סורקים אותיות בגודל של בערך חצי ס"מ בהפרדה של 300 נקודות לכל אינצ'. בהמשך, בסעיף המסביר כיצד יש לכוון את תכנת הסריקה, מוסבר כיצד יש לשנות את תכונת ההפרדה כאשר גודל האות גדול או קטן בצורה משמעותי מחצי ס"מ.
 
 
__תמונה א, גודל האות צריך להיות בערך חצי ס"מ__
 
 
{{guid:xsane-letter-size-photo.jpg?400x300}}
 
 
הנחה נוספת היא כי גודל האותיות אחיד. כדי להקל על התכנה, hocr-gtk מבצע בדיקה של גודל האות פעם אחת ומניח כי כל האותיות בדף הן מאותו גודל. דף המכיל אותיות בגדלים שונים יגרום לזיהוי לקוי של חלק מהאותיות. אים אתם רוצים לבצע זיהוי אותיות אופטי בעזרת תכנת hocr-gtk תאלצו לחלק את התמונה לאזורים בעלי גודל אות דומה, ולבצע את זיהוי האותיות על כל חלק בנפרד. התמונה מראה טקסט שיהי צורך לחלק לשתי תמונות נפרדות לצורך זיהוי בתכנת hocr-gtk.
 
 
__תמונה ב, האותיות בכל האזור המיועד לזיהוי צריכות להיות באותו גודל (הטקסט בתמונה זו יזוהה בצורה שגויה)__
 
 
{{guid:xsane-letter-avg-font.jpg}}
 
==== הנחת הדף המיועד לסריקה על מדף הסריקה ====
 
תכנת hocr-gtk מכוונת לאותיות עבריות מרובעות המכוונות בזוית ישרה לבסיס הדף, אותיות המודפסות בזוית, italic, יקשו על התכנה את הזיהוי וכך גם אותיות שאינן מכוונות בזוית ישרה לבסיס הדף.
 
הטקסט הסרוק צריך להיות מקביל ככל האפשר לבסיס התמונה, בעזרת תכנת SANE ניתן לסובב את התמונה בכפולות של 90 מעלות, אך כיוונוים עדינים יותר של זויות שאינן 90 מעלות יגרמו לאיבוד מידע. עדיף לסרוק את החומר בזוית הרצויה. ניתן להקפיד על סריקה בזוית נכונה ע"י הצמדת חלקו העליון של הדף לקצה מדף הסריקה.
 
__תמונה א, ספר המוצמד לקצה מדף הסריקה__
 
 
{{guid:xsane-letter-orientation-photo.jpg?400x150}}
 
איכות הדפוס בספרים ישנים גרמה לעיתים להדפסה שאינה מקבילה לדף. אים אתם רוצים לקבל תוצאות זיהוי טובות בטקסט שהודפס בזוית, כדאי למדוד עד כמה השורה מוטה ביחס לקו המקביל לבסיס הדף ולהניח את הספר על מדף הסורק בדיוק בהטיה המתאימה כדי לקבל ושרות ישרות. ניתן למדוד בעזרת סרגל את המרחק של צידה הימני של השורה מהקצה העליון של הדף ואת המרחק של צידה השמאלי של השורה מהקצה העליון של הדף. בשורות המקבילות לקצה העליון של הדף המרחק צריך להיות זהה. אים המרחק שמדדתם שונה אפשר להניח את הספר אותו אתם רוצים לסרוק בצורה שתתקן את הטיית השורה. ע"י סרגל יש למדוד את המרחק של קצה העליון של הספר מספת מדף הסריקה ולתקן את הזוית עד שיתקבלו שורות המקבילות לספת מדף הסריקה בסורק.
 
__תמונה ב, ספר, שהשורות בו הודפסו בזוית, מונח בדיוק בזוית מתאימה כדי לקבל שורות ישרות__
 
{{guid:gimp-sane-rottate.jpg?400x150}}
 
==== כיוון תוכנת הסריקה ====
 
רוב החומר המודפס בארץ מודפס באותיות בגודל 12 נקודות בהפרדה של 150 נקודות באינץ. גודל האות יהיה בפועל 12/150 האינץ שהם בערך חצי ס"מ. תכנת hocr מצפה לאותיות בגודל בערך 24 נקודות. אים נסרוק את הטקסט המודפס בהפרדה של 300 נקודות באינץ, נקבל אותיות בגודל של 24 נקודות וזה גודל האות בנקודות המתאים לתכנת hocr.
 
אים האותיות אותן אנו סורקים קטנות מאוד, כדאי לנסות להגדיל את ההפרדה. הפרדה גדולה יותר, למשל 600 נקודות באינץ יתנו פי שתיים יותר נקודות עבור אותו גודל של אות בפועל. ובהקבלה אים גודל האות גדול מאוד, כדאי יהיה לסרוק בהפרדה קטנה יותר, למשל הפרדה של 150 נקודות באינץ יתנו מחצית מספר הנקודות עבור אותו גודל אות.
 
__תמונה א, כיוון רמת ההפרדה ביחידות של נקודה לאינצ'__
 
{{guid:xsane-scan-window-1-dpi.jpg}}
 
תכנות הסריקה יכולות להפיק תמונה במספר אופנים. תכנת hocr-gtk יכולה לפעול גם על תמונות צבעוניות. אך כמו שלאדם יותר נוח לקרוא טקסט שחור על רקע לבן, גם התכנה מעדיפה סוג כזה של תמונה. ישנם מספר דרכים בהם תוכנות הסריקה מפיקות תמונות שחור לבן:
 
קו-אומנותי: lineart - התמונה המופקת מכילה רק צבע שחור וצבע לבן, ללא כל עיבוד.
גוני אפור : grayscale - התמונה מופקת בגוני אפור.
חצאי גון : halftone - התמונה מכילה רק את הצבעים שחור ולבן אך עוברת עיבוד שמפיק נקודות צפופות יותר באזורים כהים יותר ונקודות מרווחות יותר באזורים בהירים.
 
תכנת hocr-gtk תעבוד היטב עם קו-אומנותי וגווני אפור, אך אינה מתאימה לשימוש עם תמונה שהופקה בשיטת חצאי גון : halftone.
 
__תמונה ב, סוג הסריקה__
 
{{guid:xsane-scan-window-1-lineart.jpg}}
 
כאשר מפיקים תמונה המכילה רק את הצבעים שחור ולבן צריך להגדיר מאיזו רמת בהירות נקודה נחשבת לבנה. כדי להגדיר זאת נשנה את רמת הבהירות. אים נבחר רמת בהירות נמוכה מידי כל האותיות יתחברו ונקבל תמונה כהה, ואים נבחר רמת בהירות גבוהה מידי נקבל תמונה לבנה המכילה אותיות שבורות ומחולקות.
 
__תמונה ג, שינוי רמת הבהירות Threshold__
 
{{guid:xsane-scan-window-2-standart-options.jpg}}
 
===== נקודות כשל אפשריות ודרכים לפתרונן =====
 
מטרת מדריך זה לתת תשובות מהירות לבעיות נפוצות. כדאי גם לקרא את המדריך המתקדם כדי לקבל הסברים מפורטים יותר על מהות הבעיה והדרך המוצעת לפתור אותה.
 
==== שורות שאינן מקבילות לדף ====
 
תכנת hocr-gtk מצפה לשורות המקבילות לבסיס הדף. אם הטקסט אותו אתם רוצים לסרוק מכיל שורות שאינן מקבילות לבסיס הדף יש לנסות לסובב את הספר על בסיס מדף הסריקה על לקבלת תמונה במכילה שורות המקבילות לבסיס התמונה. ראה את המדריך המתקדם להסבר מפורט.
 
__תמונה א, סריקת ספר שהשורות בו אינן מקבילות לבסיס הדף__
 
{{guid:gimp-sane-rottate.jpg?400x150}}
 
==== אותיות מחוברות ====
 
תמונות שנסרקו ברמת בהירות גבוהה מידי עלולים להכיל אותיות שנדבקו זו לזו. כדי לתקן בעיה זו כדאי להוריד מעט את רמת הבהירות.
 
__תמונה א, סריקה בבהירות גבוהה מידי__
 
{{guid:xsane-scan-window-2-standart-threashold-65.jpg?400x300}}
 
==== אותיות שבורות המחולקות לכמה חלקים ====
 
תמונות שנסרקו ברמת בהירות נמוכה מידי עלולים להכיל אותיות שבורות וחלולות. כדי לתקן בעיה זו כדאי להעלות מעט את רמת הבהירות.
 
__תמונה א, סריקה בבהירות נמוכה מידי__
 
{{guid:xsane-scan-window-2-standart-threashold-30.jpg?400x300}}
 
==== האותיות בדף גדולות/קטנות מגודל האותיות המומלץ ====
 
אים האותיות שברצונכם לסרוק גדולות או קטנות בצורה משמעותית מחצי ס"מ, כדאי לשנות את ההפרדה בה מבוצעת הסריקה. אותיות גדולות כדאי לסרוק בהפרדה נמוכה יותר, ואותיות קטנות בהפרדה גבוהה יותר. ראה הסבר מפורט לגבי משמעות רמת ההפרדה במדריך המתקדם.
 
__תמונה א, שינו דרגת ההפרדה בתכנת SANE__
 
{{guid:xsane-scan-window-1-dpi.jpg}}
 
==== יש בדף מספר אזורים בהם הכתב שונה מהכתב בו כתוב רוב הדף ====
 
תכנת hocr-gtk מניחה כי כל הכתב בתמונה הוא בעל אותם תכונות של גודל וצורה. דף המכיל כמה סוגים וגדלים של אותיות צריך להיסרק בחלקים, כך שכל תמונה תכיל רק אותיות באותו גודל וצורה.
בתמונה נראה טקסט שאינו מתאים לשימוש בתכנת hocr-gtk ויש צורך לחלקו לשתי תמונות שונות, אחת המכילה רק את הטקסט התנכי באותיות הגדולות ושניה המכילה רק את הפרושים.
 
__תמונה א, קטע מדף המכיל שני סוגי אותיות__
 
{{guid:xsane-letter-avg-font.jpg}}
 
==== הדף ישן וצהוב ====
 
המדריך מניח כי הדפים שברשותכם מודפסים על נייר לבן באיכות דפוס טובה. במידה ואתם סורקים ספר ישן עם דפים צהובים מאוד ודפוס באיכות ירודה, כדאי לסרוק בצבע מלא ולקרא גם את [[מדריך לסריקת דפים ישנים]] המסביר כיצד להמיר ידנית את התמונה לתמונה בגוני שחור ולבן. המרה ידנית לתמונה בגוני שחור ולבן, מוסיפה עוד שלב לתהליך, אך מפיקה תוצאות טובות יותר עבור דפים צהובים במיוחד.
 
 
[[http://www.imagemagick.org/|ImageMagick]] היא תכנה חפשית המאפשרת להמיר ידנית תמונות צבעוניות לתמונות שחור לבן.
 
שימוש רגיל בתכנה זו, לצורך המרת תמונה צבעונית לתמונה בגווני אפור בלבד, נראה כך:
 
convert 006.jpg -monochrome 006-auto-mono.jpg
 
אנו רוצים לשלוט ברמת הסף בה תשתמש התוכנה. בתכנת
[[http://www.imagemagick.org/|ImageMagick]] הדגל הקובע את רמת הסף הוא דגל ה threshold. בתכנה זו רמת הסף המינימלית היא 0 והמקסימלית היא 65000.
 
שימוש בתכנה תוך שליטה על רמת הסף, נראה כך:
 
convert 006.jpg -monochrome -threshold 25000 006-mono.jpg
 
כדי לקבל תוצאות מיטביות צריך לנסות רמות סף שונות עד לקבלת תמונה המפיקה את הזיהוי הטוב ביותר.
 
 
__תמונה א, דף צהוב, תוצאות טובות יותר יתקבלו בהמרה ידנית לשחור לבן__
 
{{ויקי:006.jpg?150x300}}