איך לעשות דיגיטציה של טקסטים בשלושה צעדים לא פשוטים?
19 באוקטובר, 2018

יש הרבה סוגים של עיסוק בלשון. יכול להיות שאני מוטה — כי זו הגרסא דינקותא שלי וזו הדרך שבחרתי להמשיך בה — אבל הצורה שאני מוצא הכי מעניינת מבחינת התוצאות שהיא מניבה והכי ריגורוזית היא בלשנות אמפירית ששואבת את המידע שלה מייצוג סטטי ובלתי־תלוי של פלט לשוני (כתוב או מוקלט) וחותרת לבירור מבנה המערכת הלשונית לפיו, בהנדסה הפוכה; כשהייתי רך בשנים אפילו כתבתי על זה פוסט פולמי (מדי?). התוצאה הישירה של התבססות על יצוג כזה של פלט לשוני (קורפוס) היא שאנחנו צריכים הרבה ממנו כדי שנוכל להפיק תוצאות מבוססות ומדוייקות, בפרט אם התופעה שאותה אנחנו חוקרים לא מאוד נפוצה בשימוש. אני עובד בעיקר על שפה כתובה, ולכן אני נזקק לטקסטים כתובים. כדי שאלה יהיו שימושיים לדרך העבודה שלי, שנעשית כולה בעזרת כלים ממוחשבים, אני צריך שהטקסט יופיע בצורה של קובץ שאפשר להריץ עליו כל מני שאילתות, להעתיק ממנו, ולערוך אותו בקלות: קובץ טקסט פשוט. רצה הגורל ורוב הטקסטים שעניין אותי לעבוד עליהם לא זמינים בקובץ דיגיטלי נוח, ולכן הייתי צריך להפיק כזה מספר מודפס או מסריקות. נו, מילים דיגיטליות.

הפוסט הזה הוא סיכום של הפרקטיקה שאני מוצא כטובה ביותר ליצירה של קובץ טקסט נקי. היא שימשה אותי החל מטקסטים קצרים ועד לדיגיטציה של ספר שלם באנגלית עתיקה ששימש כקורפוס עבור התיזה שלי. זה פוסט טיפה ארוך, אבל אם אתם עושים דיגיטציה של טקסטים ארוכים הוא אולי יחסוך לכם בסופו של דבר שעות יקרות רבות.

השיטה בנויה משלושה שלבים:

סריקה ועיבוד

אז השלב הראשון הוא להשיג סריקה טובה של הטקסט שאתם רוצים לעשות לו דיגיטציה: ברזולוציה גבוהה, עם אותיות ברורות ועם כמה שפחות רעש וארטיפקטים (בין אם כאלה שנוצר בסריקה ובין אם כאלה שיש במדיום המקורי). סריקה טובה חשובה משתי סיבות:

אם כבר יש בידכם עותק סרוק איכותי, אשריכם. אם לא, תצטרכו ליצור אחד בעצמכם מהעותק המודפס שיש לכם. הנה כמה עצות:

מה אנחנו עושים עם הפלט הזה? שני דברים:

אם תציצו בקובץ שהופק על ידי תוכנת ה־OCR תוכלו לראות שגם אם הוא טוב (בהנתן מקור טוב מבחינה גרפית, סריקה טובה, עיבוד סריקה נכון, תוכנת OCR מוצלחת, קבצי שפה מוצלחים עבורה והרבה מזל) הוא לא מושלם. לא נוכל להשתמש בו למחקר בלשני, אין לזה צורה. מה נעשה? נמשיך לשלב הבא בתוכנית שלושת השלבים שלנו.

הקלדה

חשבתם שהסריקה והעיבוד זאת עבודה קשה? עכשיו הגיע החלק המפרך ביותר! אין מה לעשות, גם תוכנות ה־OCR המוצלחות ביותר לא מצליחות להפיק פלט 100% מדוייק, ולכן אין מנוס מלהקליד את כל הטקסט ידנית. מצד שני, יש לנו בידיים קובץ PDF נוח של הטקסט, כך שלא נצטרך לנקוע את הצוואר בלקרוא מהספר הפתוח לצד המחשב (שתמיד נסגר ולא עומד ישר) אלא נוכל לפתוח את קובץ ה־PDF בחלון אחד ואת עורך הטקסט (או מעבד התמלילים) בחלון לצדו ולהעתיק בנוחות. מנהלי חלונות מרצפים מתאימים בול למטרה הזאת, אבל אפשר בקלות גם לסדר את החלונות ככה ידנית.

ההקלדה אולי לוקחת הרבה זמן, אבל יש לה גם יתרונות: אם אתם מקלידים טקסט בשפה זרה, אתם לומדים תוך כדי בסוג של לימוד מדיטטיבי־פסיבי. גם אם אתם לא מבינים כל מה שכתוב, עדיין המבנה של השפה ותבניות חוזרות שוקעים לאט לאט במוח שלכם ואחרי זה יהיה לכם יותר קל לזהות את התבניות. אם אתם שולטים בשפה, קריאה „דרך האצבעות” היא דרך טובה להיכרות קרובה עם הטקסט.

השוואה

עכשיו גם יש לכם את קובץ הפלט של ה־OCR וגם את הקובץ שהקלדתם בעצמכם. די בטוח שבשניהם יש טעויות, אבל מה שיפה הוא שסוג הטעויות בכל אחד מהם שונה: ה־OCR טועה בדברים כמו חיבור של rn ל־m או החשבת האות I כספרה 1 ובני־אדם טועים בדברים כמו הקלדה של אות סמוכה במקלדת או טעויות של top-down (לי, נגיד, היתה תקופה שהייתי עושה מוטציה על מוטציה בהקלדה של טקסטים וולשיים). לכן, אם נשווה בין שני הקבצים אות־אות השוני בין הקבצים יגלה איפה כל אחד מהם שגוי. השוואה כזאת זה משהו שמחשבים מעולים בו ואנשים ממש לא. יש הרבה תוכנות להשוואה של טקסטים, שמסמנות בדיוק את ההבדלים באופן ברור ויזואלית; אני משתמש בכלי ההשוואה שמובנה ב־‎(Neo)Vim, ואתם מוזמנים לבחור מה שמתאים לכם (כאן יש ערך בוויקיפדיה עם שם נפלא שמשווה תוכנות להשוואה…). עבור כל חוסר־התאמה אם הטעות טריוויאלית וברור לכם מה אמור להיות שם ואיזה משני הקבצים צודק, אפשר לתקן בלי לבדוק במקור, אבל לפעמים זה לא כל כך ברור וצריך לבדוק מול המקור לפני שמתקנים. באופן הזה מתקנים שגיאה־שגיאה עד ששני הקבצים זהים. שגיאות חוזרות של ה־OCR אפשר לתקן בעזרת חיפוש והחלפה אוטומטיים בעורך הטקסט או מעבד התמלילים.

זהו, התהליך הזה מבטיח לכם קובץ שהסיכוי לטעות בו (כלומר, הסיכוי שגם אתם וגם ה־OCR עשיתם את אותה הטעות בדיוק) הוא מאוד מאוד נמוך.

אם מסיבה כלשהי אתם לא יכולים להשתמש ב־OCR (נגיד, כי השפה שאתם עובדים עליה לא נתמכת או כי המקור לא מספיק ברור ולכן הפלט של ה־OCR מכיל יותר מדי שגיאות מכדי להיות שימושי), אתם יכולים להקליד פעמיים ולהשוות את הקבצים. החסרון של זה הוא שלא רק שבני־אדם נוטים לעשות טעויות דומות, אלא שספציפית אתם יש סיכוי לא נמוך שתחזרו על אותה טעות פעמיים. לכן, אם יש לכם קולגה שאפשר לסנג׳ר למען המדע עדיף שהוא/היא יקליד/תקליד קובץ אחד ואתם את האחר ואז תשוו.

תגים