Hocr - הפיכת תמונה עם אותיות עבריות לקובץ טקסט/המרה לטקסט: הבדלים בין גרסאות בדף

תוכן שנמחק תוכן שנוסף
אין תקציר עריכה
שורה 10:
===hocr-gtk===
מנשק גרפי קל לשימוש ולמידה המיועד למספר מצומצם של דפים. ניתן לגשת אל התכנה מתוך תפריט "משרד" בשולחנות העבודה של gnome ו kde הנפוצים ברוב הפצות הלינוקס.
 
תהליך ההמרה של תמונה לקובץ טקסט כולל מספר שלבים:
 
====סריקה ישירות מהסורק====
כדי לסרוק קובץ ישירות מהסורק נלך לתפריט "קובץ" וניבחר באופציה "סרוק". יפתח חלון חדש בו נוכל לבחור את הסורק בו אני רוצים להשתמש ואת הקטע בדף אותו נרצה לסרוק.
 
====שימוש בקובץ שניסרק מראש====
כדי להשתמש בקובץ תמונה שניסרק מראש נלך לתפריט "קובץ וניבחר באופציה "חדש". יפתח חלון חדש בו נוכל לבחור בקובץ אותו אנו מעוניינים להמיר לקובץ בר עריכה וחיפוש.
 
====ביצוע ההמרה לטקסט====
לאחר שיש לנו קובץ תמונה בחצי העליון של חלון התכנה נלך שוב לתפריט "קובץ" וניבחר באופציה "החל". התכנה תתחיל לבצע עיבוד וזיהוי. תהליך העיבוד והזיהוי יכול להיות ארוך מאוד, ניתן לעקוב אחר התהליך בעזרת פס התקדמות שיפתח בתחתית החלון, פס התקדמות זה יתמלה ויתרוקן שלוש פעמים לפני שהתכנה תסיים את תהליך הזיהוי, פעם אחת עבור תהליך עיבוד התמונה, פעם שניה עבור תהליך זיהוי עימוד הדף ופעם שלישות עבור זיהוי האותיות.
 
====הגהה ושמירה====
לאחר סיום ביצוע הזיהוי ע"י התכנה יש לבצע הגגה ידנית של הטקסט. טקטסים שהודפסו איכותית וניסרקו בהפרדה גבוהה לא יצריכו הגהה כלל, טקסטים שהודפסו בצורה לא מושלמת או טקסטים ישנים בהם האותיות אינן ברורות יצריכו הגהה מרובה. לאחר סיום ההגהה ניגש שוב לתפריט "קובץ" ונוכל לשמור את התוצאה הסופית של תהליך זיהוי האותיות לתוך קובץ אותו נוכל לערוך בכל מעבד תמלילים או עורך טקסט.
 
===hocr===