Hocr - הפיכת תמונה עם אותיות עבריות לקובץ טקסט/סריקה


סידרה 0.10 עריכה

כללי עריכה

hocr מסידרה 0.10 ומעלה מסוגלת לבצע עיבוד תמונה אוטומטי ואינה רגישה לתמונת הקלט כמו סדרות 0.6 ו 0.8. רצוי לסרוק את הטקסט בצורה ישרה, בהפרדה גבוהה (600 dpi) ובצבע מלא. סידרה 0.10 יודעת להתמודד גם עם טקסטים שניסרקו בצורה לא אופטימאלית. התכנה יודעת לישר בצורה אוטמאטית טקסטים שניסרקו מעט עקום. התכנה יודעת להמיר תמונות צבעוניות לתמונות שחור לבן בצורה אוטומאטית וכן לסלק פגמים בתמונה.

 
hocr-gtk יכול לפענך גם דפים ישנים וצהובים, אך רצוי להשתמש בדפים שניסרקו בצורה מיטבית

דגשים עריכה

התכנה מסוגלת לבצע עיבוד גם לתמונות שלא נסרקו בצורה אופטימאלית, אך כדי לקבל תוצאות טובות יותר רצוי לסרוק בצורה מיטבית.

  • יש להקפיד שהחומר הניסרק יהיה צמוד ללוח הסורק, כדי למנוע "מריחה" של אותיות קרוב לשדרת הספר.
  • יש להקפיד כי החומר הניסרק יהיה מקביל עד כמה שאפשר לבסיס הסורק, כדי לקבל שורות מקבילות וישרות בתמונה.
  • יש לסרוק בהפרדה גבוהה (600 dpi) וברמת צבע גבוהה. ככל שהתכנה תקבל יותר נתונים כך ביצוע זיהוי האותיות יהיה מדויק יותר.
  • יש לסרוק רק את האזור בדף אותו אנו מעוניינים לפענח. תמונות, לכלוכים וטקסטים שאנו לא מעוניינים בהמרתם יקשו על התכנה לבצע זיהוי מיטבי.

אם עיבוד התמונה האוטומאטי נותן תוצאות שאינן מספקות, ניתן לבצע את עיבוד התמונה גם ידנית בעזרת תכנת hocr. בד"כ אין צורך בתכנות עיבוד תמונה נוספות.

סידרה 0.8 עריכה

כללי עריכה

סידרה 0.8 אינה נתמכת יותר ע"י המפתח, רצוי לעבור לגירסה חדשה יותר. סדרה זו של התכנה רגישות מאוד לתמונת הקלט. יש לעקוב אחר הוראות הסריקה בצורה קפדנית.

לקבלת תוצאות מיטביות בעת זיהוי תוים אופטי יש צורך בקלט המתאים לדרישות תוכנת הזיהוי, פרק זה מלמד כיצד יש לסרוק מסמכים כדי לקבל את התוצאות הטובות ביותר עבור סידרה 0.8 והוא אינו מתאים לגירסאות אחרות של התכנה.

דגשים עריכה

תכנת hocr-gtk מפיקה את התוצאות הטובות ביותר כאשר הטקסט נקי וברור וגודל השורות והאותיות אחיד. התכנה גם מניחה כי גודל האותיות בערך חצי ס"מ, והשורות מקבילות לבסיס הדף. רוב ספרי הקריאה והעיתונים המודפסים בארץ עונים לקריטריונים הללו. במידה והטקסט שברשותכם מכיל אותיות קטנות יותר או גדולות יותר, אינו ברור או מכיל מספר סוגי כתב באותו דף יהיה צורך בשינויים ובהתאמות נוספות כדי לקבל את התוצאה המיטבית.

הנחת החומר לסריקה על הסורק עריכה

כדי לקבל שורות המקבילות ככל האפשר לבסיס התמונה, כדאי להניח את החומר המיועד לסריקה בצורה מקבילה ככל האפשר לבסיס מדף הסריקה. התמונה מדגימה כיצד יש להצמיד את החלק העליון של הדף הנסרק לבסיס מדף הסריקה בסורק כדי לקבל את ההקבלה המקסימלית. במידה והספר שאתם מעוניינים לסרוק מכיל שורות עקומות שאינן מקבילות לבסיס הדף, יש צורך בהתאמה נוספת כדי לקבל את ההקבלה הרצויה.

הגדרת בררות תוכנת הסריקה עריכה

תכנות סריקה מאפשרות למשתמשים להגדיר את מאפייני הסריקה בהתאם ליכולת הסורק. אנו נסביר כאן כיצד לכוון את תכנת SANE לסריקה מיטבית עבור תכנת hocr-gtk. כל תכנות הסריקה שולטות על אותם מאפיינים התלויים בחומרת הסורק, לכן גם אים אתם משתמשים בתוכנה שונה תוכלו למצוא את אותם מאפיינים גם בתכנה שלכם.

אנו נבחר בהגדרות הללו כדי לקבל תוצאות מיטביות, סריקה באיכות אופטימלת עם 300 נקודות באינצ' ,300dpi, שחור לבן ,B/W Line-art, ודרגת בהירות של 50%. ההגדרות רמת הבהירות ואיכות הסריקה נמצאות בחלונית ההגדרות: window->show_standard_options, של תכנת SANE.

המדריך מניח כי הדפים שברשותכם מודפסים על נייר לבן באיכות דפוס טובה. במידה ואתם סורקים ספר ישן עם דפים צהובים מאוד ודפוס באיכות ירודה, כדאי לסרוק בצבע מלא ולבצע המרה ידנית, בעזרת תכנה לעיבוד תמונה, לתמונה בגוני שחור ולבן.

אזור הסריקה עריכה

לרוב לא נרצה לסרוק את כל הדף אלה רק את האזור המעניין אותנו ועוד ס"מ אחד או יותר של אזור לבן מסביב, סריקת תמונות והערות יקשה על תכנת hocr-gtk לזהות בצורה מיטבית את הטקסט המיועד לזיהוי. כדי לבחור את האזור המיועד לסריקה נפתח חלונית תמונה מקדימה: preview, שתאפשר לנו לבחור את האזור אותו אנו מעוניינים לסרוק.


הפרק הקודם:
ממשק
סריקה הפרק הבא:
זיהוי תנועה