Hocr - הפיכת תמונה עם אותיות עבריות לקובץ טקסט/הקדמה


תקציר עריכה

 
hocr מזהה טקסט עברי עם ניקוד

hocr היא תכנה לזיהוי תווים אופטי המפותחת ע"י יעקב זמיר ומשוחררת תחת רשיון GPL V3 . התכנה מעבדת דפים מודפסים, והופכת אותם לטקסטים דיגיטאליים הניתנים לעריכה. הטקסטים הנוצרים, יכולים לשמש לעיבוד במעבדי תמלילים, בבלוגים ובדפי מרשתת.

טקסטים שהומרו לפורמט דיגיטאלי בעלי יתרונות רבים לעומת טקסטים מודפסים. טקסטים בפורמט דיגטאלי זקוקים לפחות מקום איכסון, ומאפשרים אפסנה ושמירה טובים יותר על הטקסט המקורי. טקסטים דיגיטאליים מאפשרים חיפוש ואיחזור מידע קל ויעיל יותר לפי מילות מפתח, תאריכים ונושאים. טקטסטים דיגיטאליים גם מאפשרים שיתוף, עריכה ושליחה קלים יותר של החומר בבלוגים, דפי מרשתת ודואר אלקטרוני.

ל hocr מספר יחידות נפרדות, המשמשות בתהליך המרת התמונה לטקסט בר עריכה. יחידת עיבוד התמונה, אחראית על קבלת התמונה ושיפורה. יחידת זיהוי העימוד, אחראית על זיהוי מבנה העמוד ויחידת זיהוי האותיות, האחראית על זיהוי האותיות הבודדות. לתכנה גם מספר מספר מנשקי משתמש המיועדים לתת מענה לצרכים שונים של משתמשים שונים.

לעומת תכנות OCR אחרות, hocr מתוכנן לבצע עיבוד של דפי שירה וטקסטים ישנים. דגש מיוחד ניתן לזיהוי ועיבוד של דפים ישנים וצהובים, זיהוי עימודי דף מסובכים וזיהוי של טקסט מנוקד. hocr הופכת טקסט מודפס, קשה לקריאה, לטקסט דיגיטאלי המאפשר עריכה, שיתוף וחיפוש קלים. hocr מסוגלת לקרוא ולהבין טקסט מנוקד.

hocr היא תוכנה חופשית (“free speech”, not “free beer”), יש עוד תוכנות חופשיות רבות כדוגמת תוכנה זו. רשימה של תוכנות חופשיות המתאימות גם לחלונות אפשר לראות כאן

 
hocr מזהה טקסט עברי בעמודות

יחידת זיהוי העימוד עריכה

hocr מסוגלת לזהות בצורה אוטמאטית את עימוד הדף. התוכנה מסוגלת לזהות עמודות, להפריד בין טקסט ותמונה ולסלק אזורים של לכלוך.

יחידת זיהוי האותיות עריכה

hocr יודעת לזהות אותיות עבריות וניקוד. התכנה מתוכננת להתמודד עם טקסטים ישנים, עשירים בניקוד וטעמי המקרא. התכנה יודעת לזהות את כל סימני הניקוד, כולל דגשים, שין ושין וסימני פיסוק.

ממשקי משתמש עריכה

לתכנה מספר ממשקי משתמש המיועדים לכסות את הצרכים השונים ומאפייני שימוש שונים. לתכנה ממשק גרפי קל לשימוש ולמידה, ממשק שורת פקודה המאפשר שליטה מדוייקת יותר על ביצועי התכנה ואוטומציה של הפעלת התכנה על מספר גדול של קבצי תמונה, כן מכילה התכנה גם ממשק תכנותי לכתיבת תסריטים גדולים ומורכבים בשפת Python.

היסטוריה עריכה

הגירסה הראשונה של הפרוייקט יצאה ב 2005. יצאו מספר גירסאות לתכנה והן מחולקות לסדרות, לכל סידרה תכונות ואיפיונים שונים. הסידרה הנמצאת בפיתוח פעיל כיום ונתמכת ע"י המפתח היא סידרה 0.10. סידרה 0.10 היא המתקדמת ביותר כיום. גירסאות התכנה השונות ממוספרות במיספר סידרה, בתוספת מספר גירסה. לדוגמה, הגירסה ששמה hocr-0.10.8 היא גירסה 8 בסידרה 0.10.

פרוייקט hocr מרוכז ע"י יעקב זמיר והתכנה משוחררת תחת רשיון GPL גירסה 3. בתהליך הפיתוח השתתפו תורמים רבים. בין התורמים קוד לפרויקט היו, עדו קנר, דיאגו יסרובאני, יובל טאני, דן קניגסברג, טל (מפרויקט בן יהודה) ומיכאל ילקוסקי. תרגום לשוודית נתרם ע"י דניאל נילנדר, גרפיקה יחודית לפרוייקט נתרמה ע"י שלומי ישראל. חבילות בינאריות להפצות לינוקס הוכנו ע"י דוביקס (מנדריבה) , ליאור קפלן וצוות דביאן עברי (דביאן ואובונטו). אתר האינטרנט של הפרויקט מתארח בשרתי פרויקט ברליאוס. סיוע כספי נתקבל מאיגוד האינטרנט הישראלי ואריק חינקיס. נשלחת בזאת תודה לכל התורמים לפרויקט, לאלו שהוזכרו פה למעלה ואלו ששכחתי לציין את שמם. תודה מיוחדת גם למתנדבי פרויקט בן יהודה שאיפשרו לפרויקט להשתמש במאגר הספרים הסרוקים שלהם, כדי לשפר את איכות זיהוי האותיות של התכנה. כל מי שמעוניין לתרום לפרוייקט בכל צורה שהיא, מוזמן לפנות בדואר אלקטרוני למרכז הפרוייקט.

hocr סידרה 0.6 עריכה

יצאה ב 2005, סידרה זו היתה הגירסה הראשונה של התכנה ששוחררה. סידרה 0.6 היתה תכנת ה OCR העברי הראשונה שתמכה בקריאה והבנה של טקסט מנוקד, עד היום אין תכנת OCR עברי אחרת המסוגלת להבין ולהמיר טקסט מנוקד לטקסט בר עריכה כולל הניקוד.

hocr סידרה 0.8 עריכה

יצאה ב 2006, סידרה זו אינה נתמכת יותר ע"י המפתח. סידרה 0.8 נפוצה יותר, היא מופצת במאגרים של מספר הפצות לינוקס גדולות (אובונטו, מנדריבה) וכוללת קובץ התקנה לחלונות. סידרה זו אינה יודעת לבצע עיבוד תמונה וחסרה הרבה מהתכונות הקיימות בסידרה 0.10. סידרה 0.8 היתה ה OCR העברי הראשון שאיפשר אוטומציה ברמת שורת הפקודה של פעולות ה OCR, יש היום תכנות OCR נוספות המאפשרות אוטמציה כזו, אך היכולות של hocr להשתמש בשפת התכנות הנפוצה python לצורך כתיבת תסריטים מורכבים עדיין יחודית.

hocr סידרה 0.10 עריכה

יצאה ב 2008, סידרה זו נתמכת ע"י המפתח. סידרה 0.10 משופרת ביכולות עיבוד תמונה טובות יותר ויכולות זיהוי של תווים בתמונות משובשות יותר. סידרה 0.10 היתה תכנת ה OCR הראשונה שאיפשרה עיבוד של תמונות בכל פורמטי התמונה הידועים ובכל רמות הצבע, כיום יש תכנות OCR נוספות היכולות לקלוט תמונות בפורמטים שונים, אך הן עדיין אינן כוללות את יכולות עיבוד התמונה של hocr הכוללות העלמת כתמים, סיבוב תמונה עקומה וזיהוי עימודים מסובכים. ניתן להתקין את התכנה בקלות בכל הפצות הלינוקס ובקרוב היא תכנס למאגרים של ההפצות הגדולות. קיימות באתר התכנה הוראות פשוטות להתקנה בלינוקס, וניתן לפנות למפתח לקבלת עזרה. לא מתוכנן כרגע להפיץ קובץ התקנה לחלונות או מק, משתמשים המעוניינים להתקין את התכנה בחלונות או מק יכולים לפנות למפתח התוכנה או לטכנאי מוסמך לקבלת עזרה בהתקנת התכנה בתשלום.


- הקדמה הפרק הבא:
התקנה