זיהוי תווים אופטי

זיהוי תווים אופטיאנגלית: Optical Character Recognition; בראשי תיבות: OCR) היא טכנולוגיה להמרת תמונה, טקסט מודפס וכתב יד שנסרקו על ידי סורק, למסמך תמליל ממוחשב.

תוכנות לזיהוי תווים אופטי, מתמודדות על פי רוב בהצלחה עם המרה של תמונה בה מצולם או סרוק מסמך מודפס אך רק לעיתים נדירות גם בכתב יד. התהליך כרוך בזיהוי תו אחרי תו מבין התווים השונים המרכיבים את הטקסט. אולם, שיפור הברירה בין תווים שונים נעשה לרוב גם בעזרת שני כללים הקשורים להקשר התווים: הגבלת קטעי תמליל שונים לכאלה הכוללים רק תווים מקבוצה מסוימת (אותיות עבריות, אותיות לטיניות, אותיות ערביות וכיוצא בזה) והגדרת מילים ושפה לשם העדפת תווים היוצרים מילים בעלות כתיב מוכר (למשל, בקטע תמליל המוגדר ככתוב אנגלית יועדפו תווים היוצרים מילים עם כתיב אנגלי תקין אך בקטע תמליל המוגדר ככתוב בספרדית יועדפו תווים היוצרים מילים בעלות כתיב ספרדי תקין).

Hocr-editor-1
באמצעות תוכנת HOCR לזיהוי תווים אופטי, המחשב יכול לפענח את התווים בקובץ תמונה, אך רואים במקרה זה שעדיין ישנה בעיה בהמרה לעברית של טקסט שאינו ברור לגמרי.

שיטות של זיהוי תווים אופטי

את הזיהוי ניתן לבצע בשתי צורות שונות:

  • התאמה תבניתית – בשיטה זו שומרים על תבניות שונות של האותיות, ומנסים לבדוק איזו מהאותיות היא הדומה ביותר לתבנית.
  • תיאור מבני – בשיטה זו מחלקים את האות לחלקים שונים ויוצרים תיאור של חלקיה השונים של האות והיחסים שביניהם.
  • שימוש בלמידת מכונה/רשת עצבית מלאכותית - החל מ 2016 לערך, פתרונות ה OCR המובילים בעולם נשענים על רשתות נוירונים מלאכותיות/ למידה עמוקה. בגישה זו המכונה לומדת לזהות את התווים על ידי "לימוד" על בסיס התבוננות במיליוני תווים. יתרונה הגדול של השיטה הוא ביכולת להתאים אותה לכל שפה ולכל "סגנון כתב", כולל כתב יד. הביצועים של מערכות OCR הפועלות בגישה זו עולים על כל דרך פתרון מסורתית .

כדי למזער את כמות התווים השגויים שנוצרים בתהליך, מפעילה התוכנה לפעמים בדיקה מול מילון. במקרה זה התוכנה מכילה רובד נוסף שמרכיב את התווים המזוהים למילים שלמות, מחפש כל מילה במילון, ובמקרה שאינו מוצא אותה, מנסה לשנות תווים מסוימים (אלה שבהם ודאות הזיהוי נמוכה) עד שהמילה המזוהה נמצאת באוצר המילים של המילון.

שימושים

PlainPaperOMRFormSm
טופס לסקרים באמצעות OCR

שימוש בטכנולוגיה של זיהוי תווים אופטי, והמרת קובץ גרפי טקסטואלי לקובץ המורכב מתווים, נעשים בדרך כלל לשם המטרות הבאות:

  • עיבוד מחדש וסידור של התמליל, שילובו בתמליל מודפס עתידי, או הדפסתו מחדש בעיצוב אחר
  • אחסון נתונים טקסטואליים במחשב, תוך הנגשת האפשרות של חיפוש תוכנם לחיפוש, למשל בתוכנת החיפוש הפנימית או במנועי חיפוש כדוגמת גוגל
  • הפצת תוכן טקסטואלי עם תוכנה לאחזור מידע
  • העלאת הטקסט לאתרי אינטרנט, או שליחתו בדואר אלקטרוני
  • שינוי עיצוב התמליל לשם הפיכתו לנגיש עבור אנשים עם לקויות:
    • הדפסת התמליל או הצגתו על מרקע המחשב עבור אנשים עם לקות ראייה באותיות גדולות על דף צר, בצבעים בעלי ניגודיות חזקה (למשל צהוב על שחור), תוך הגדלת הרווחים בין המילים או בין השורות ביחס לגודל המילים, תוך ניקוי כתמים מהדף המקורי וכיוצא בזה.
    • הקראת התמליל על ידי המחשב בעזרת תוכנת הקראה (Text To Speech) עבור עיוורים ודיסלקטים קשים
  • הזנה למחשב של טופסי נייר באופן ממוכן
  • זיהוי מספר רישוי של מכוניות בחניונים ובכבישי אגרה

שלבי התהליך

  • דגימת התמונה כדי למצוא איזה גוון מבדיל בין הטקסט לרקע התמונה.
  • חיפוש כל הצורות הכהות (או הבהירות) בתמונה ושמירתן במבנה נתונים נניח: רשימה מקושרת. צורה הנשמרת ברשימה היא רשימה מקושרת המכילה מיקום נקודות מגבול הצורה שנמצאה בתמונה.
  • זיהוי שורות הטקסט ויישור השורה כך שהאותיות יהיו אופקיות. שלב זה פותר בעיות של דפים שסריקתם נעשתה בזווית, מה שמקשה על התוכנה לזהות את צורת האותיות בצורה נכונה.
  • ניקוי של הרקע מלכלוך. במקרה של טקסט עברי מנוקד מאותר גם הניקוד ונמחק, כדי להקל על זיהוי האותיות עצמן.
  • הפרדת השורות השלמות לאותיות ומילים על פי מרווחים.
  • זיהוי הגופן (פונט) שבו הודפס הטקסט, על ידי הפעלת אלגוריתם (איטי) המזהה מאפיינים של גופנים שונים, ובוחר את הגופן הקרוב ביותר.
  • זיהוי האותיות הבודדות לפי המאפיינים המפרידים בין האותיות בהתאם לגופן הנבחר (זהו שלב מהיר).
  • חיפוש המילים המזוהות במילון (אופציונלי). בכל מקרה של מילה שאיננה במילון, מבוצע ניסיון להחליף אותיות באותיות קרובות מבחינת מאפיינים, עד הגעה למילה שנמצאת במילון.
  • במקרה של מקור שמכיל גם תמונות, יצירת קובץ שבו משולב הטקסט עם התמונות הסרוקות.

חלק ממאפייני האותיות הם פשוטים, כדוגמת מיקומי קווים אופקיים ואנכיים, או משקל השחור בתתי האזורים השונים בתוך הריבוע המכיל את האות, רוחב האות וגובהה, חריגה מעל או מתחת לקו השורה וכדומה. במקרים בהם המרחק בין מאפייני אותיות דומות הוא גדול יחסית, ההפרדה היא אופטימלית.

במקרים בהם התוכנה היא כזו שמזהה מילים, ניתן להקטין את כמות השגיאות בתהליך אם ניתן לבדוק האם המילה הנבחרת מתאימה לתוכן, כלומר האם במיקום בו היא זוהתה, היא בהקשר סביר לטקסט. הבנת ההקשר היא מורכבת ונעשית על ידי בדיקה האם המילה ממלאת תפקיד חיבורי הגיוני במשפט, או בשיטות סטטיסטיות – האם המילים בקרבתה מופיעות במקום אחר או במסמכים אחרים ובאיזו הסתברות.

תוכנות זיהוי מתוחכמות בנויות כרשת עצבית, שהיא תהליך תכנותי המבוסס על התנסות ולמידה. תוכנה כזו מציגה את הטקסט המזוהה למשתמש, שמתקן שגיאות בזיהוי, והתוכנה לומדת את השגיאות ומנסה להקטין את הסיכוי שתחזורנה בעתיד. ליכולת זו שימוש רק אם סוג הטקסטים שעוברים זיהוי הם דומים מבחינות שונות – גופן הדפסה, גודל אות, אוצר מילים ועוד.

זיהוי כתב יד בשיטות המסורתיות

בזיהוי כתב יד אי אפשר להשתמש באלגוריתם המשווה את מאפייני האות לגופן. לכן משתמשים בשיטות זיהוי אחרות (עיין ערך זיהוי כתב ). אחת מהשיטות (כנראה בין הקלות ביותר לתכנות ולהבנה, מושפעת מרעיונות של כריסטופר בישופ ) היא יצירת תמונה בצורת מלבן (בשחור לבן) של מופעים שונים של אותה אות כתב, לדוגמה : כל שורה מכילה 10 מופעים שונים (תמונות) של אותה אות, וכל שורה מתאימה לאות שונה. כל מופע של אות חסום במלבן (או במעגל),ומתוח לגובה ולרוחב כך שהוא יתאים בדיוק לגודל מלבן המופע. כל המלבנים בשורה גודלם קבוע, והם נמצאים במקום קבוע בתמונה. צבע מופע האות במלבן: שחור, צבע המלבן: לבן, וצבע הרקע: שחור. כדי למצוא מה מאפיין כל אות, התוכנה מחשבת בזמן הלימוד (השלב האיטי), כמה פעמים נחתכת האות על ידי קו ישר העובר בין שתי נקודות על מלבן החוסם את האות. התוכנה בונה קובץ של מספרים שלמים, המכיל את התכונות הטובות ביותר להבדלה בין אות אחת לשנייה. לדוגמה: תכונה מספר 1234 הוא קו החותך את כל מופעי האות שמספרה 15, 3 פעמים, ואת מופעי האות שמספרה 7, 0 פעמים. בזמן הזיהוי (השלב המהיר) התוכנה יוצרת מלבן חוסם סביב תמונת אות המיועדת לזיהוי, קוראת את קובץ התכונות הטובות ביותר, טוענת את תוכנו במערך, ובודקת כמה פעמים נחתכת האות על ידי הקווים המגדירים את התכונות הטובות ביותר, ולפי הנתונים הללו בודקת לאיזו אות התמונה הזאת מתאימה ביותר.

Mylet
תמונת מופעי האותיות

הערות:

  • מיקום נקודה מוגדר על ידי זוג מספרים: אחד מהם קובע היכן היא נמצאת ביחס לרוחב תמונת המופעים, והשני קובע היכן היא נמצאת ביחס לאורכה.
  • טעינת הקובץ למערך לכאורה היא מיותרת, ומבזבזת זמן ומקום בזיכרון המחשב. אבל תהליך החיפוש, מהיר במערך מאשר בקובץ.
  • המערך הוא רב ממדי, בעל 4 ממדים: 2 הממדים הראשונים היא מטריצה ריבועית באורך ורוחב של מספר האותיות, בה כל אות מושוות לאות אחרת. הממד הבא הוא מספר התכונות החשובות ביותר (נניח: עד 3 תכונות מבדילות באופן מוחלט בין 2 אותיות). הממד הבא אורכו 3 מספרים: מספר התכונה לדוגמה: ישר מספר 1234, הציון שניתן לאות נניח: 2 שמשמעותו חותך את האות 2 פעמים, והמספר השלישי הציון שניתן לאות המושוות, נניח: 0, שמשמעותו: חותך את האות 0 פעמים.
  • כשנותנים לתוכנה לחשב באופן אוטומטי מה הן 3 התכונות עם הציון הטוב ביותר, היא נוטה למצוא 3 ישרים הקרובים זה לזה, ובדרך כלל מיצגים את אותה התכונה, ולכן כדי למצוא את 3 התכונות הטובות ביותר נהוג לכתוב שגרה, הבוחרת 3 ישרים המחברים נקודות רחוקות יחסית.
  • לכל אות נותנים 10 מופעים כמה שאפשר שונים יותר, כדי שהתוכנה תלמד את התכונות המשותפות, ולא תגדיר אות על ידי תכונה מטעה. לדוגמה : נניח שבכל 10 המופעים של האות 'ג' בכתב, האות נכתבה כשהחלק העליון שלה נוטה ימינה. בשלב הלימוד התוכנה תיצור קו המקשר שתי נקודות: נקודה על הצלע העליונה של המלבן החוסם את האות, קרוב לפינה הימנית עליונה, ונקודה על אמצע הצלע הימנית של המלבן. בכל המופעים האות 'ג' לא תיחתך, כתוצאה מכך התוכנה תלמד שהאות 'ג' חלקה העליון נוטה ימינה. ולכן התוכנה לא תצליח לזהות 'ג' שחלקה העליון קו אנך (אות 'ג' רגילה).
  • אם אחד ממופעי האות הוא כל כך שונה, שהוא נראה כאילו הוא אות אחרת, הוא לא יאפשר לתוכנה ללמוד את התכונות המאפיינות את האות. במקרה כזה צריך ליצור בתמונת המופעים, שתי שורות המגדירות את אותה אות : שורה של המופעים הרגילים של אותה אות, ושורה של מופעים הדומים למופע השונה.
זיהוי 'ב' כ -' פ' בטעות
האות 'ב ' נחתכה 3 פעמים בעקבות נקודה שחורה בפינה וזוהתה כ -'פ ' בטעות
  • בצג המחשב, קו אלכסוני דק, מוצג לפעמים כסדרה של מלבנים הנוגעים זה בזה בפינות. סביר שאם ננסה לחתוך קו כזה בקו אלכסוני דק אחר, התוצאה תהייה שהקווים לא נחתכו. כי חיתוך שני קווים, פירושו שבנקודה מסוימת קו אחד עלה על קו אחר, אבל במקרה שלנו לא חייב להיות שבנקודת החיתוך, מלבן מקו אחד עלה על מלבן מקו שני. לכן בתוכנה כותבים שגרה להרחבת הקו בצורה כזו: עוברים על כל הנקודות בתמונה (שהן בעצם מלבנים קטנים) ואם מוצאים 4 מלבנים צמודים( 2 למעלה ו-2 למטה) שמתוכם 2 לבנים ו-2 שחורים, כאשר 2 השחורים נוגעים זה בזה רק בפינה אחת (כלומר עומדים באלכסון), משנים אחד מהמלבנים הלבנים לצבע שחור.
  • תכונה המתקבלת מקו חיתוך העובר ליד מרכז המלבן החוסם את האות, מקבלת ציון גבוה מתכונה המתקבלת על ידי קו המחבר שתי נקודות בקרבת פינת המלבן. כי עיקר תכונות האות מוגדרות על ידי מרכזה. לדוגמה : בין האותיות 'ב', 'ה', 'כ' ו -'פ' בכתב, אפשר להבדיל, בעיקר על פי מרכזם.
  • כדי לחסוך בזיכרון ולהאיץ את החישוב, מחשבים את טיב התכונה בעזרת חישוב במספרים שלמים ועיגול התוצאה. לדוגמה : נניח שאות אחת נחתכה בעזרת קו של תכונה מסוימת ב - 9 מתוך 10 המופעים. התוכנה תבצע ממוצע במספרים שלמים:
 = הממוצע

אבל להגיד שאם במקרה אחד האות לא נחתכה היא לא תיחתך אף פעם זו שגיאה משמעותית. לכן במקרה זה מעגלים למעלה והתוצאה יוצאת:

 = הממוצע

התוצאה מלמדת שלא מתחשבים במקרה אחד חריג. אבל בכל זאת זה לא טוב, כי נראה שהתוכנה תיכשל בזיהוי של אחד מתוך עשרה מקרים! במציאות הזיהוי הרבה יותר מדויק ממה שנדמה. כי יש עוד תכונות המגבות במקרה שגוי. ובנוסף לכך החישוב מדמה את הקריאה של האדם, כי כשאנו קוראים אנו בהכרתנו מעגלים.

זיהוי אות ביחס לשורה

הזיהוי הצורני לא עובד על כל האותיות, למשל הוא לא עוזר להבחין בין האותיות במילה "יון". לכן יוצרים תמונת מופעי אותיות נוספת, כמו בתמונת מופעי האותיות לזיהוי צורת האות. בשונה מתמונת המופעים לזיהוי צורה, כל מופע הוא מילה בת 3 אותיות. כדי שהמחשב יוכל להבחין בין 3 האותיות, האות הנלמדת מוקפת בקו עקום צהוב, ושתי האותיות הנלוות, כל אחת בנפרד, מוקפת בקו עקום כחול. שלוש האותיות נמתחות בתוך מלבן המופע, כך שהוא יתחלק ל-3 חלקים מבחינת גובהו: בשליש העליון ימצאו חלקי האותיות מעל השורה, באמצע ימצאו חלקי האותיות שבתוך השורה, ובחלק התחתון חלקי האותיות שמתחת השורה. בשלב הלימוד המחשב יוצר קובץ התכונות הטובות ביותר ביחס לשורה. התכונות הן:

  • האם האות נחתכה על ידי קו מקביל לשורה (האם קו צהוב נחתך?, 16 תכונות בגבהים שונים).
  • יחס גובה האות לגובה השורה באחוזים (באחוזים, כדי שבקובץ התכונות ישמרו מספרים שלמים. גובה האות הוא גובה המלבן החוסם אותה).
  • יחס אורך האות לגובה השורה באחוזים (רוחב האות הוא רוחב המלבן החוסם אותה).
  • מספר החלקים של האות (באות 'ה' שני חלקים, הספרה '8' מוקפת בקו אחד רציף, ולכן מכילה רק חלק אחד).
  • האם האות מחוברת לאות שלפניה.
  • האם האות מחוברת לאות שאחריה.
  • האם האות נמצאת תמיד (בכל 10 המופעים) בסוף המילה.
  • האם האות נמצאת תמיד בתחילת המילה.

ראו גם

קישורים חיצוניים

1948 במדע

ערך מורחב – 1948

ABBYY FineReader

ABBYY FineReader היא תוכנת זיהוי תווים אופטי שפותחה על ידי חברת ABBYY.

התוכנה מאפשרת לקחת תמונות של מסמכים (למשל תצלום, עותק סרוק או קובצי PDF) ולהפוך קבצים אלו למסמכים הניתנים לעריכה. למשל, ניתן להפוך את תמונת המסמך לקובץ בפורמטים הבאים: Microsoft Word, Microsoft Excel, Microsoft Powerpoint, RTF (Rich Text Format), HTML, PDF,‏ PDF/A , PDF בר חיפוש, CSV, קובצי טקסט פשוט וכו'. החל מגרסה 11 של התוכנה ואילך ניתן לשמור את הקבצים גם בפורמט DjVu .

התוכנה מאפשרת זיהוי תווים אופטי במאות שפות, כולל עברית ובגרסאות המאוחרות, גם ערבית. התוכנה מאפשרת גם פענוח מסמכים הכתובים בשתי שפות גם יחד, כגון דף מספר לימוד אנגלית, שנכתב עבור דוברי עברית. גרסה 12 של התוכנה תומכת בזיהוי טקסט ב-190 שפות שונות. ב-48 שפות מתוך שפות אלה, שביניהן גם העברית, משולב בתוכנה גם בודק איות. בדיקת האיות נותנת אפשרות נוספת לבקרת איכות על הסריקה והפענוח.

כמו כן,התוכנה מאפשרת זיהוי תווים אופטי ממסמכים סרוקים, ממסמכים מורדים למחשב ומתצלומי מסך. תוכנה זו מקלה מאוד על הקראה ממוחשבת עבור עיוורים ודיסלקטים. אצל עיוורים היא עשויה להיות גם חלק מקומפלקס תוכנות, שנמכר ביחד, לצורך נגישות מחשבים ונגישות חומר דפוס, בעזרת מחשבים.

CAPTCHA

CAPTCHA במחשבים הוא מבחן אתגר מענה (challenge-response) שמטרתו להבטיח שהתשובה אינה מופקת באמצעות מחשב. במנגנון מעורב בדרך כלל מחשב המייצר שאלה אקראית, כזו שלאדם קל לענות עליה אך למחשב קשה מאוד. מבחן CAPTCHA בדרך כלל מבקש מהמשתמש להקליד אותיות או מספרים המופיעים בצורה מעוותת על המסך.

CAPTCHA הוא סוג של מבחן טיורינג, שבו מחשב ממונה על הבדלה בין אדם למחשב, בשונה ממבחן טיורינג הקלאסי בו אדם באמצעות שיחה ושאלות מנסה להבדיל בין מחשב לאדם.

HebrewBooks

HebrewBooks (בעברית: "ספרים עבריים" או "היברובוקס") היא ספרייה דיגיטלית חינמית מקוונת לספרות יהודית-תורנית. האתר מכיל כ-52,000 ספרים וכתבי עת תורניים סרוקים, החל מראשית הדפוס ועד למחברים בני זמננו, רובם בעברית. הספרים ניתנים לצפייה, להורדה ולחיפוש טקסטואלי בתוכן הספר. האתר נגיש בשפות עברית ואנגלית.

מטרתו הראשונית של המיזם הייתה לשמר את הספרים והחיבורים התורניים של יהדות ארצות הברית, אשר חלקם חדלו להיות זמינים. בהמשך, התרחבה מטרת המיזם וכיום שואפת האגודה להנגיש את כל ספרי הקודש העבריים, במטרה "להחיות את זכרם של החיבורים הרבים שנכתבו במהלך השנים ולמרבה הצער נשתכחו ונזנחו, וכמו כן לעשות את עולם הספר התורני לנגיש וזמין לכל דורש ללא תמורה".

Music OCR

Music OCR הוא יישום של טכנולוגית זיהוי תווים אופטי לצורך המרת תווי מוזיקה מודפסים לפורמט דיגיטלי בר-עריכה (כגון MusicXML ו-LilyPond) ובר-נגינה (כגון MIDI).

OneNote

OneNote היא תוכנת מחשב המשמשת בעיקר כמחברת דיגיטלית ללימודים, עיצוב ועריכת טקסטים. ב-OneNote ניתן לפתור בעיות מתמטיות לצרף קטעי קול, תמונות, סיפורים, ועוד, לצד עריכת מסמכים עם משתמשים אחרים. OneNote יוצרה ושווקה על ידי חברת מיקרוסופט, והיא חלק ממיקרוסופט אופיס.

ReCAPTCHA

reCAPTCHA היא מערכת שפותחה לראשונה באוניברסיטת קרנגי מלון, אשר מטרתה היא לסייע בהמרת טקסטים מודפסים לפורמט דיגיטלי, תוך שימוש ב-CAPTCHA (מנגנון המשמש להגנה על אתרי אינטרנט מפני בוטים). בספטמבר 2009 נרכשה reCAPTCHA על ידי גוגל. נכון לשנת 2012, הפרויקט אותו מובילה reCAPTCHA הוא המרת כל גיליונות העיתון "ניו יורק טיימס" לפורמט דיגיטלי. בנוסף, היא מסייעת לפענח מילים מספרים שנסרקו במסגרת פרויקט גוגל ספרים.

בשנת 2014 הכניסה גוגל למערכת ReCAPTCHA שיטת אימות אחרת המתבססת על אתגר זיהוי תמונות הדורש לסמן תמונות המכילות אלמנט מסוים. בנוסף פיתחה אפשרות אימות באמצעות לחיצה פשוטה על תיבת סימון "אני לא רובוט", המערכת מזהה את תנועות העכבר ולפיהן קובעת אם מדובר באדם.

בנובמבר 2018 השיקה גוגל את גרסה 3, ובה אין צורך באימות מצד הלקוח. מפעיל האתר מטמיע את המערכת באתר, והמערכת מדרגת על פי התנהגות הלקוח, מה הסבירות כי מדובר ברובוט. מפעיל האתר יכול לקבוע כי מרמת סבירות מסוימת הלקוח ייחסם או יידרש ממנו אימות נוסף.

אוצר החכמה

אוצר החכמה הוא מאגר תורני המכיל מאה אלף ספרים תורניים וספרי מחקר סרוקים בפורמט זהה לצורת עמודי הדפוס המקורי שעברו זיהוי תווים אופטי, שמאפשר אחזור מידע באמצעות מנוע חיפוש שמוטמע במערכת.

בגרסה 17.0 (חורף 2018/19) של המאגר ישנם 100,767 כותרים, קצב העדכון של המאגר עומד על כ-5,000 ספרים מדי שנה. המאגר מאפשר חלוקה של הספרים לפי קטגוריות, כמו: תנ"ך ופרשניו; משנה ומפרשיה; תלמוד בבלי ומפרשיו; תלמוד ירושלמי ומפרשיו; קבלה; מוסר; חסידות; היסטוריה; פולמוסים; כתבי עת; ספרי קהילות, ספרי יובל וספרי זיכרון. כתבי יד ודפוסים ראשונים.

המאגר נמכר במחיר מלא על גבי דיסק קשיח לשימוש לא מקוון, או בתשלום מנוי חודשי דרך אתר המאגר המקוון. המאגר מציע גם מנויים יומיים ודרכים שונות לשימוש בו. החיפוש באתר וכל הספרים זמינים לעיון חופשי במגבלת עמודים (נכון ל-2019 עד עמוד 40), דברי דפוס רבים כמו קונטרסים המופיעים במאגר זמינים לעיון חופשי בשלמותם בצורה זו.

המאגר פועל בשיתוף פעולה עם כמה מכוני הוצאה לאור תורניים מובילים וחלקם מציעים את ספריהם בתשלום נפרד כחלק מהמאגר. בין המכונים שספריהם נמצאים במאגר: יד הרב נסים, מוסד הרב קוק, מכון ירושלים, עוז והדר וקה"ת.

יוצר המאגר הוא ארז סלע, בעלי המאגר הם ארז ובשמת סלע.

לצד המאגר מפעילה מערכת אוצר החכמה פורום אינטרנט שבו מתנהלים דיונים בענייני ספרות תורנית, הלכה, היסטוריה יהודית וביוגרפיות של אישים רבניים.

בלשנות חישובית

בלשנות חישובית (אנגלית: Computational Linguistics) היא ענף מחקר רב-תחומי, המשלב רעיונות וכלי מחקר מתחום הבלשנות, מדעי המחשב ותחומים קרובים. לבלשנות החישובית שתי מטרות מחקריות: תאורטית ומעשית.

בלשנות חישובית תאורטית מנסה להתמודד עם שאלות היסוד של מדע הבלשנות, כגון מהי שפה וכיצד בני אדם משתמשים בה ולומדים אותה, באמצעות עקרונות וכלים מתחום מדעי המחשב והבינה המלאכותית. החוקרים בתחום זה מפתחים מודלים של פנים שונות של תופעת השפה, שאפשר ליישם בתוכנה. מודלים אלה נחקרים בכלים תאורטיים של מדעי המחשב ובאמצעות סימולציות.

מטרתה של הבלשנות החישובית המעשית, לעומת זאת, היא לפתח יישומי מחשב התומכים בשימוש בשפה אנושית, כמו תוכנות לתרגום אוטומטי ותוכנות המסוגלות לענות על שאלות המנוסחות בעברית, אנגלית או סינית, לדוגמה. לתת-תחום זה של בלשנות חישובית קוראים גם עיבוד שפה טבעית (באנגלית: NLP – Natural Language Processing). זאת בניגוד לעיבוד שפות מלאכותיות, כמו שפות תכנות, שהיא משימה שמחשבים מבצעים בקלות יחסית.

לעיתים העיסוק בשתי המטרות משולב, וקיימת הפריה הדדית ביניהן. עם זאת, לצורך הבהירות ערך זה מתמקד בעיקר בבלשנות החישובית התאורטית; לקריאה נוספת על בלשנות חישובית מעשית, ראו את הערך עיבוד שפה טבעית.

גוגל ספרים

גוגל ספרים (באנגלית: Google Books) הוא שירות רב-לשוני של גוגל לעריכת חיפושי טקסט בספרים שגוגל סרקה, המירה לטקסט באמצעות זיהוי תווים אופטי, ואחסנה במסד הנתונים הדיגיטלי שלה. בעבר נודע השירות כ-Google Print ("דפוס גוגל"), השם שבו הוא הוצג ביריד הספרים בפרנקפורט באוקטובר 2004. את שמו הנוכחי, Google Book Search, קיבל עת הוכרז רשמית בדצמבר 2004. בדצמבר 2010 השיק האתר את חנות הספרים האלקטרוניים Google eBookstore.

מספר הספרים הסרוקים הגיע ל-15 מיליון ב-2010, 20 מיליון ב-2012, ו-25 מיליון ב-2015.

זיהוי ממוחשב של כתב יד

זיהוי כתב הוא טכנולוגיה המאפשרת למחשב לזהות תווים שנכתבו בכתב יד אנושי ולתרגמם לתווים דיגיטליים. במחשבי כף היד של חברת פאלם תכונה זו ידועה בשם גרפיטי.

ההמרה מתבצעת באמצעות מעקב אחר תנועה של מצביע מיוחד (בדרך כלל בצורת עט) על גבי המסך או משטח אחר, האלגוריתם המשמש להמרה דומה לזה המשמש ב-OCR (זיהוי תווים אופטי), אך משתמש גם בסדר הכתיבה של האות - מידע שלא קיים בביצוע OCR. מצד שני זיהוי כתב יד (בניגוד לדפוס במקרה של OCR) מקשה את הזיהוי. רוב התוכנות שמיישמות את זיהוי הכתב מצפות שהמשתמש יתאים עצמו לצורות המוגדרות מראש בתוכנה, ומיעוטן משתמשות במערכת לומדת על מנת ללמוד את המורפולוגיה של כל משתמש לגופו - ובכך מקלות על המשתמש והופכות את התהליך לשוטף יותר.

הטכנולוגיה קשה ליישום בשל העובדה שבני אדם כותבים בצורות שונות מאוד, והתוכנה לזיהוי כתב היד נדרשת למצוא מאפיינים משותפים לאותן אותיות הנכתבות בידי בני אדם שונים.

שיטות לזיהוי כתב:

התאמת הקו הדו ממדי לרצוי (נרמול) ומציאת הקרוב

זיהוי סמנטי של אותיות (עיגול, קו, גזרה ומיקומם)

מציאת מאפיינים כמו ב-OCR

טכנולוגיה מסייעת לשילוב לימודי

טכנולוגיה מסייעת היא תחום ידע בטכנולוגיה, העוסק בקבוצת מכשירים לשיפור התפקוד של אנשים עם מוגבלות ובידע הנלווה למכשירים אלה. למידה והשתתפות בתוכניות אקדמיות היא תחום חשוב מפעולות היומיום וקיימת טכנולוגיה מסייעת ענפה לשילוב בלימודים למרות לקויות.

לקויות ניתן למיין באופן גס ללקויות חישה (בעיקר לקות ראייה ולקות שמיעה) ללקויות תנועה (לקות בניידות, בתמרון חפצים ובהפקת דיבור), ללקויות קוגניטיביות (למשל לקויות למידה, אוטיזם, פיגור שכלי, תופעות לוואי קוגניטיביות של תרופות לצריכה כרונית) וללקויות נפשיות. את פעילויות הלמידה ניתן למיין באופן גס לפעילויות קלט (למשל הקשבה בהרצאה או קריאת ספר), לפעילויות עיבוד (למשל חזרה על החומר) ולפעילויות פלט (למשל מבחן). תלמידים עם מצבי לקות שונים, עם כישורים שונים וסוגי תפיסה שונים ידרשו מכשור שונה עבור שלבי הלימוד בהם הם מתקשים.

למידת מכונה

למידת מכונה (Machine Learning; לעיתים מכונה גם למידה חישובית) היא תת-תחום במדעי המחשב ובבינה מלאכותית המשיק לתחומי הסטטיסטיקה והאופטימיזציה. התחום עוסק בפיתוח אלגוריתמים המיועדים לאפשר למחשב ללמוד מתוך דוגמאות, ופועל במגוון משימות חישוביות בהן התכנות הקלאסי אינו אפשרי. אין לבלבל בין תחום זה, שבו המחשב הוא הלומד, ובין למידה ממוחשבת, שבה המחשב משמש כעזר למידה על ידי הרצת לומדה או בדרך אחרת.

שני תחומים מקבילים ללמידת מכונה הם תחום כריית מידע (Data Mining) ותחום זיהוי תבניות (Pattern Recognition) שרבים מן הכלים והאלגוריתמים שפותחו בו משותפים לתחומים הללו.

מידע

מידע (או אינפורמציה) הוא כל: ערך, מתאם, נתון, עובדה או פרט תוכן, שניתן לקידוד, שמירה או שימוש בעיבוד. מבחינה סמנטית מידע ניתן להגדרה (בעיקר בתקשורת ובמדעי המחשב) כקשר בין מסמן למסומן, כאשר מסמן הוא סמל מוחשי המצביע על המסומן.

קשר זה יכול להיות קיים ברמה פוטנציאלית מופשטת ואובייקטיבית, או לקבל אופי ממשי וסובייקטיבי על ידי מערכת פירוש כלשהי המקנה לו משמעות.

סמלים נפוצים הם סימני הכתב והצלילים של המילים הדבורות בשפה. המסומן הוא המובן של הסמל, והמידע למעשה הוא ערך מופשט המקודד בסמלים המוחשיים.

מרחק לוינשטיין

מרחק לוינשטיין (ברוסית: Левенштейн; מכונה גם מרחק עריכה) הוא מונח במדעי המחשב ובתורת האינפורמציה שמתאר את מידת השונות בין שתי מחרוזות תווים. את המונח טבע ולדימיר לוינשטיין ב-1965.

מרחק לוינשטיין בין שתי מחרוזות מוגדר כמספר המינימלי של פעולות עריכה שיש לבצע על מחרוזת אחת כדי להגיע למחרוזת השנייה, כאשר פעולות העריכה המותרות הן: הוספת אות, מחיקת אות או שינוי אות לאות אחרת.

עיבוד שפה טבעית

עיבוד שפה טבעית (באנגלית: Natural Language Processing - NLP) הוא תת-תחום של אינטליגנציה מלאכותית ובלשנות. הוא חוקר את הבעיות הקשורות לעיבוד ומניפולציה של שפה טבעית, והבנה של שפה טבעית על מנת לגרום למחשבים "להבין" דברים שנאמרים או נכתבים בשפות אנושיות.

עיבוד השפה הטבעית קשור לתחום הבלשנות החישובית, ולעיתים משתמשים במונחים אלה ללא הבחנה ביניהם. כאן, נתייחס לעיבוד שפה טבעית כתחום המעשי של פיתוח יישומי מחשב המטפלים בשפה אנושית. הערך "בלשנות חישובית" עוסק בפן התאורטי של שילוב רעיונות מתחום מדעי המחשב בחקר השפה האנושית.

עיתונות יהודית היסטורית

אתר עיתונות יהודית היסטורית הוא מאגר מקוון של עיתונים היסטוריים שנכתבו ויצאו לאור על ידי יהודים. המאגר, שהוקם ומופעל על ידי הספרייה הלאומית ואוניברסיטת תל אביב, מאפשר באמצעות דיגיטציה גישה וירטואלית נוחה לעיתונות העברית ברוב ימיה, החל ממחצית המאה ה-19 ועד אמצע שנות השמונים של המאה ה-20, ולצדה עיתונות יהודית ביידיש, ערבית יהודית, אנגלית, צרפתית והונגרית.

קריאת תווים מגנטית

קריאת תווים מגנטית (Magnetic Ink Character Recognition - MICR) היא שיטה להזנת קלט למחשב שבמסגרתה תווים נרשמים על טפסים בדיו מגנטית. הטופס מועבר דרך התקן לקריאת תווים מגנטיים, וזה מקבל זרם חשמלי היחסי לכמות הדיו המגנטית בכל תו. יתרונה של השיטה ביכולתה לזהות את התווים שנכתבו בדיו מגנטית, גם אם הודפסו עליהם תווים אחרים (למשל: חותמת בנק המוטבעת על המחאה שנכתבה בדיו מגנטית). שיטה זו מקובלת כיום ברוב הבנקים לצורכי סימון המחאות והוראות תשלום.

ריי קורצווייל

ריימונד קורצווייל (באנגלית: Raymond Kurzweil; נולד ב-12 בפברואר 1948) הוא ממציא, עתידן וסופר אמריקאי יהודי, חלוץ בתחומי זיהוי תווים אופטי (OCR), זיהוי קול ונושאים אחרים הקשורים לבינה מלאכותית. כתב לפחות שבעה ספרים, מהם חמישה לפחות רבי מכר. שניים מספריו הגיעו למקום הראשון ברשימת ספרי המדע הפופולריים הנמכרים ביותר באמזון: עידן המכונות החושבות (The Age of Spiritual Machines), אשר תורגם לתשע שפות לפחות, בהן עברית ו-The Singularity Is Near, שהיה גם ספר הפילוסופיה הנמכר ביותר באמזון.

דף זה בשפות אחרות

This page is based on a Wikipedia article written by authors (here).
Text is available under the CC BY-SA 3.0 license; additional terms may apply.
Images, videos and audio are available under their respective licenses.