בעברית OCR – ארכיון אלקטרוני של מסמכים סרוקים

סריקת תיקים רפואיים


כל מנהל מערכות מידע או מנהל מחשוב המתחיל בבניית ארכיון מסמכים (ארכיון דיגיטלי / ארכיון אלקטרוני) יודע שבשלב די מוקדם בתהליך בניית המערכת הוא יזדקק לתוכנת OCR.

כדי להצליח בבניית הפתרון הנקרא "משרד ללא נייר", יש צורך במספר מרכיבים איכותיים נוספים. אם אתם רוצים לחסוך ולא להשתמש בשירותי סריקה של חברה חיצונית, תוכלו לבצע תהליך סריקה בעצמכם. ראשית יש צורך לרכוש סורק. רצוי סורק מסמכים מקצועי ומהיר כדי שניתן יהיה לבצע סריקת מסמכים ישנים לצורך שילובם במערכת הארכיון האלקטרוני.

סריקה של מסמכים היא שלב מקדים המייצר את "חומר הגלם" למערכת ניהול מסמכים שתדע לנהל בחוכמה את מסמכי הארגון. אם בכל זאת בחרתם לבצע סריקת מסמכים בחברה מתמחה, תוכלו לעשות זאת באתר הלקוח. זה יקטין את הסכנה בזליגת מסמכים החוצה.

שנית, יש צורך בתוכנה שתנהל את מסמכי הארגון. אם אתם ארגון קטן ואתם מחפשים תוכנת ניהול מסמכים חינם, חשוב שתגדירו את הצרכים שלכם לפני שתתפתו לעשות שימוש בתוכנות ניהול מסמכים שאינן מתאימות לארגון שלכם.

ניהול מסמכים סרוקים יכול להתאפשר בהצלחה רק עם תוכנת זיהוי תווים אופטי. בנייה מוצלחת של תוכנת זיהוי תווים אופטי (OCR) לשפה העברית מהווה אתגר מורכב. 

להבדיל מהשפות הלועזיות, השפה העברית משתמשת בניקוד של הטקסט, ובנוסף, קיימות מילים שעיצובן דומה, לדוגמה האות ו' והאות ן', האות ג' והאות נ', האות ם' הספרה 0 והאות ס' ועוד. מעצבי פונטים מודרניים בעת האחרונה נוטים לצמצם את ההבדלים הקטנים ממילא ולא תורמים את חלקם להגדלת אחוזי הזיהוי של תוכנות ה- OCR.

מפתחי תוכנות זיהוי טקסט משתמשים בטכנולוגיות מתקדמות כדי להגדיל את אחוזי הזיהוי של האותיות בעברית ואין טעם להיכנס לנבכי הטכנולוגיות הללו, רק נציין שהשימוש בהן מאפשר זיהוי כתב עברי באחוזי הצלחה גבוהים. להבדיל מאחוזי הזיהוי הלא גבוהים, יחסית, בשפה העברית, אחוזי הזיהוי של האותיות הלטיניות קרוב ל- 99% והוא נובע מחיבור התוכנה למילון משוכלל המקטינים את אחוזי הטעות בכך שהם מוצאים את המילים הנכונות במילון.

מהי בכלל תוכנת זיהוי טקסט או בקיצור OCR?

זו תוכנה המאפשרת לתרגם מסמך סרוק לאוסף של תווי טקסט המומרים לקובץ בר עריכה. תהליך זיהוי תווים אופטי מאפשר לחסוך זמן רב של הקלדת מסמכים למחשב. ארגונים שאינם משתמשים בתוכנת OCR צריכים להשקיע שעות רבות של הקלדה ליצירת מסמכים ממוחשבים ברי עריכה. קחו לדוגמה חוזה משפטי המכיל 200 דפים. החוזה נוצר במכונת כתיבה לפני 25 שנים והארגון מעוניין להכניס למחשב כקובץ וורד. 

כדי להקליד את החוזה למחשב הארגון יידרש לעשרות שעות הקלדה ולהוצאה כספית גדולה. כדי לקצר את הזמן ולקבל את אותה התוצאה הארגון מבצע סריקת מסמכים למחשב ואחר כך המסמכים הסרוקים מוכנסים לתוכנת זיהוי תווים אופטי המבצעת זיהוי והמרת הטקסט הסרוק לטקסט בר עריכה כקובץ וורד.הפעלת פתרון OCR מצריך אם כן סורק מסמכים מהיר (סורק ארכיון או סורק מקצועי מתאים) ותוכנת OCR איכותית עם אחוזי זיהוי גבוהים. תוכנה איכותית נחשבת לכזו כאשר אחוזי הזיהוי שלה גבוהים ויש לה יכולת לזהות פונטים מכל סוג, כולל כתב יד (ואפילו כתב רש"י).

תהליך זיהוי טקסט מתבצע במהירות גבוהה (מותנה במערכת מחשוב איכותית) והוא יכול לנתח ולזהות נכונה אלפי מילים בדקה.  לצערנו עדיין לא הומצאה התוכנה האולטימטיבית המבצעת זיהוי של 100% כך שיש צורך לאחר תהליך הזיהוי לתקן שגיאות כדי להגיע לזיהוי מוחלט של המסמכים הסרוקים וטקסט הפלט.

זקוק מיידית להצעת מחיר מדוקיומנטס?

חייג עכשיו 054-588-0060

Comments are closed.