Hocr - הפיכת תמונה עם אותיות עבריות לקובץ טקסט/ממשק


סידרה 0.10עריכה

ממשק גרפיעריכה

 
הממשק של hocr.

לאחר התקנת התכנה יופיע ישום חדש, בשם hocr-gtk , תחת תפריט "משרד" בתפריט הראשי של שלחנות עבודה gnome ו kde.

לאחר הפעלת הישום נקבל חלון המחולק לשני חלקים עקריים. החלק העליון, מכיל חלון תמונה, בו נוכל לראות את הטקסט הסרוק כפי שהוא נסרק על ידנו. וחלק תחתון, המכיל מעבד תמלילים, בו נוכל לערוך את הטקסט שנוצר ע"י התכנה.

ניתן לבצע את ההמרה של דף מודפס ישירות, ע"י הפעלת הסורק מתוך תכנת hocr-gtk או ע"י שימוש בקובץ שניסרק מראש.

ביצוע ההמרה, מתמונה לטקסט, מתבצע במספר שלבים:

  • פתיחת קובץ תמונה המחכה לזיהוי או סריקת דף בסורק, והצגתו בחלון התמונה.
  • הפעלת מערכת הזיהוי על התמונה לקבלת קובץ טקסט הניתן לעריכה בחלון העורך.
  • הגהה של הטקסט בחלון העורך.
  • שמירת הטקסט, כך שניתן יהיה לערוך אותו במעבד תמלילים.


חלונות התמונה והעריכה מסודרים זה מעל זה כדי להקל על מלאכת ההגהה של הטקסט הסרוק. חלון העורך מקל על עבודת ההגהה, אך תמיד ניתן לשמור את הטקסט המתקבל כמו שהוא, ולבצע את כל עבודת ההגהה במעבד תמלילים.

לצורך ביצוע פעולת הפיענוח אנו זקוקים רק לשלושת הכפתורים הראשונים בסרגל הכפתורים:

  • פתיחה - כפתור הפותח קובץ תמונה מוכן, ומעביר את התמונה לחלון התמונה.
  • הפעלה - כפתור המפעיל את תהליך הזיהוי על התמונה ויוצר טקסט בר עריכה בחלון הטקסט.
  • שמירה - כפתור השומר את הטקסט שנוצר כקובץ הניתן לעריכה ע"י מעבד תמלילים.
 
הממשק של hocr.

בהמשך מדריך זה מפורטים כל התפריטים והכפתורים בתוכנת hocr-gtk המקלים על ביצוע הפיענוח של תמונה לטקסט בר הגהה ועריכה, ומאפשרים להפעיל ולבטל תכונות בתהליך הפיענוח.

סרגל התפריטיםעריכה

סרגל התפריטים מאפשר להגיע לכל האפשריות והפעולות שניתן לבצע בעזרת תכנת hocr-gtk, לחלק מהפעולות מקשי קיצור דרך המופעים לצד שם הפעולה. ניתן להשתמש במקשי קיצור הדרך ליעול העבודה, מקשי-קיצור הדרך מאפשרים לבצע פעולות ללא צורך לפתוח את התפריט, פשוט לוחצים על צרוף המקשים והפעולה מתבצעת כאילו לחצתם על התפריט.

 
הממשק של hocr.

תפריט הקבצים:

פתיחה: פתיחת קובץ תמונה חדש, והצגתו בחלונית התמונה.

הפעלה: ביצוע זיהוי טקסט אופטי על התמונה, והצגת הפלט בחלונית הטקסט.

שמירה: שמירת הטקסט שנוצר בקובץ טקסט לצורך עיבוד במעבד תמלילים.

סרוק: סרוק דף חדש ע"י הסורק

יציאה: סיום העבודה בתכנה וסגירת החלון.

תפריט העריכה:

מאפשר לשלוט על תכונות שונות של תהליך ההמרה מתמונה לטקסט.

תפריט התצוגה:

מאפשר לקרב ולהרחיק את התמונה כדי לזהות פרטים עדינים בתמונה, או לחלופין לראות את כל התמונה.

תפריט העזרה:

אודות: מציג פרטים אודות התכנה.

פס ההתקדמותעריכה

כאשר הזיהוי מבוצע על תמונות גדולות, תהליך הזיהוי עשוי לקחת זמן ממושך. כדי להדגים למשתמש כמה מתהליך הזיהוי הושלם, מציג פס ההתקדמות את החלק בתהליך הזיהוי שכבר בוצע. פס ההתקדמות מתמלא שלוש פעמים, פעם אחת עבור תהליך עיבוד התמונה, פעם שניה עבור תהליך זיהוי עימוד הדף ופעם שלישית עבור זיהוי האותיות. כאשר כל הפס התמלא בפעם השלישית הסתיים תהליך הזיהוי.

 
הממשק של hocr.

סרגל הכפתוריםעריכה

סרגל הכפתורים מאפשר גישה מהירה לביצוע פעולות המבוצעות בתדירות גבוהה יותר, ללא צורך בפתיחת תפריטים או שימוש במקשי קיצור-דרך.

 
הממשק של hocr.

אזור התמונהעריכה

לאחר שפתחנו תמונה שמחכה לזיהוי היא תופע בחלונית התמונה. ניתן להתבונן בתמונה במבט תקריב המאפשר לבחון את איכות הסריקה או במבט מרוחק המדגים את מבנה הדף.

 
הממשק של hocr.

אזור הטקסטעריכה

לאחר ביצוע זיהוי הטקסט, הטקסט המזוהה יופיע בחלונית עריכת הטקסט. בחלונית זו ניתן לבצע הגהה ראשונית לפני העברת החומר למעבד תמלילים. ניתן לערוך את הטקסט והניקוד וכן לבצע פעולות עריכה כמו העתקה הדבקה וניקוי.

 
הממשק של hocr.

תפריט עורך הטקסטעריכה

לחיצה על לחצן העכבר הימני כאשר סמן העכבר על חלונית העריכה תפתח את תפריט עורך הטקסט. תפריט זה מאפשר לבצע פעולות עריכה כמו העתקה והדבקה.

סידרה 0.8עריכה

סידרה 0.8 אינה נתמכת יותר ע"י המפתח. רצוי לעבור לסידרה מתקדמת יותר, אך ניתן גם לחפש עזרה בפורומים השונים המספקים תמיכה בתוכנה חופשית.

מנשק גרפיעריכה

מנשק גרפי קל לשימוש ולמידה המיועד למספר מצומצם של דפים. ניתן לגשת אל התכנה מתוך תפריט "משרד" בשולחנות העבודה של gnome ו kde הנפוצים ברוב הפצות הלינוקס. השימוש במנשק דומה מאוד לשימוש במינשק הגרפי של סידרה 0.10


הפרק הקודם:
המרה לטקסט
ממשק הפרק הבא:
סריקה