טיפים לסריקת ספרים – חלק שני

סריקת ספר ויקיפדיה


כיצד הכי טוב לבצע סריקת ספרים במינימום נזק?

הגישה הטובה ביותר לסריקת ספרים היא לסרוק את הספר כאשר הוא פתוח ושטוח, עמוד אחד או שני עמודים בכל פעם. הדרך השניה היא להסיר את הכריכה ולחתוך את הדפים. לסרוק אותם ולאחר מכן לחבר שוב את הכריכה ללא שיהיו סימנים ל"ניתוח" שעשיתם.

הדרך השלישית היא להסיר את הכריכה מבלי שיהיה צורך להחזיר את הספר לקדמותו, לסרוק את הדפים בסורק מהיר עם מזין נייר אוטומטי.  קחו בחשבון שלא תוכלו להחזיר את הספר לצורתו המקורית.

היתרון הוא שבסריקת ספרים עם דפים בודדים חתוכים בסורק עם מזין אוטומטי בודדים אין שום בעיה של אזורים שחורים בנקודות מרכז הספר.

הבהרה, הכהיה ובקרת איכות הסריקה

אם אתם בוחרים שמהירות הסריקה תהיה המהירה ביותר, תצטרכו לעשות טסטים ולראות עם האיכות מקובלת עליכם. במידה ולא, תצטרכו להגדיר את רמת הבהירות בעצמכם. כמובן שניתן להגדיר זאת באופן אוטומטי אך חשוב לוודא שהאיכות טובה.

אם אתם צריכים לבצע אחר כך גם תהליך של זיהוי טקסט שיאפשר לכם לבצע המרת קובץ PDF לפורמט וורד (OCR), אל תסרקו את כל הספר ואחר כך תתפללו שהגדרות הסריקה יאפשרו OCR מוצלח. בצעו סריקת נסיון. סרקו מספר עמודים ובדקו בתוכנת ה- OCR שתהליך הזיהוי של הטקסט יוצא מוצלח והגדרות הסריקה לא פגעו באיכות.

ביצוע ניסיון מקדים זו הדרך הטובה ביותר לחסוך הרבה זמן. אפשר לעשות נסיונות להגדלת או  הקטנת רמת הבהירות עד שמקבלים מסמך נקי של טקסט ורק אז להתחיל לסרוק את כל הספר.

זכרו: הדרך הקלה ביותר לקבל את התוצאה הטובה ביותר, היא להשתמש במהירות האיטית ביותר של הסורק. הגדרה זו נותנת רמת בהירות שמותאמת באופן אוטומטי.

OCR עברי לטקסט בלבד

אם אתם צריכים רק את הטקסט בספר לצורך עריכה מחדש, הכי טוב שתגדירו בתוכנת ה-  OCR שלא לשמור על גרפיקה. זה יחסוך לכם הרבה זמן וזה גם יאיץ את פעולת תוכנת הזיהוי.

שמירת עיצוב הפיסקה

הגדירו בתוכנת ה- OCR לשמור על עיצוב פיסקה בהתאם למקור.  בדרך זו הטקסט שלאחר הזיהוי ייראה ממש כמו בטקסט המקורי, ותוכלו לראות בבירור את המילים המודגשות בספרהמקורי כשהן מודגשות גם בקובץ בר העריכה שקיבלתם. כנ"ל גם לגבי סימנים מיוחדים, כותרות משנה, כותרות וכו'.

הפעלת זיכרון וירטואלי

אם אתם סורקים יותר מכמה עשרות עמודים של טקסט רגיל כדאי שתגדירו הפעלת זיכרון וירטואלי, אחרת מהר מאוד ייסתם זיכרון ה- RAM והסריקה תהיה איטית או תיעצר. סריקה אוטומטית של 100 עמודים יכולה בקלות לצרוך נפח של 50 מגה בייט מהזיכרון בזמן שהטקסט נמצא בתהליך סריקה ועיבוד. השימוש בזכרון הזה הוא זמני אלא אם כן אתם שומרים את המסמך לעבודה על הכונן הקשיח. 

חשוב לזכור שבגמר הסריקה יש להחזיר את הזיכרון הוירטואלי להגדרתו הבסיסית כיוון שהוא גורם לתוכניות אחרות לעבוד באופן איטי יותר מאשר בדרך כלל.

זכרו שצריך זכרון…

לפעילות סריקה ובהמשך ביצוע OCR בקבצים שסרקתם יש צורך במספיק זכרון פנוי בדיסק הקשיח. תכננו להשאיר לפחות 1 גיגה בייט פנוי בדיסק.  אם אתם עומדים לסרוק כמות גדולה של דפים ברצף השתדלו להשאיר יותר מקום פנוי.

טיפים לסריקת ספרים – חלק ראשון

טיפים לסריקת ספרים – חלק שלישי

מחפשים חברה לסריקת ספרים? צרו קשר עכשיו. 

סריקת ספרים

Comments are closed.