עברית באינטרנט

העברית, כשפה הנכתבת מימין לשמאל, הייתה חריגה בשנים הראשונות לקיומו של האינטרנט, שהתפתח בשפות הנכתבות משמאל לימין, ובפרט אנגלית. כתוצאה מכך ניתנו שני פתרונות להצגתם של טקסטים עבריים בדפדפן, עברית ויזואלית (או "עברית חזותית") ועברית לוגית (או "עברית משתמעת").

עברית ויזואלית

הפתרון הראשון שניתן היה עברית ויזואלית. פתרון זה היה אלתור שבא לתת מענה לבעיית השפה העברית בדפדפן בלי להעסיק בכך את מפתחי הדפדפנים הראשונים. בפתרון זה נכתב הטקסט העברי שנועד להצגה בדפדפן משמאל לימין, והצגתו נעשתה באמצעות גופן מיוחד שפותח למטרה זו. אף שמבחינת מערכת ההפעלה אופיין גופן זה כגופן לטיני (כזה הנכתב משמאל לימין), אותיותיו היו עבריות, והטקסט העברי הוצג כמקובל מימין לשמאל. משתמשי הדפדפנים באותה עת התבקשו להתקין גופן זה במערכת ההפעלה שלהם.

פתרון זה פותח באוניברסיטה העברית בירושלים, על ידי דודו רשתי[1], ולאחר מכן פותחו שני גופנים עבריים נוספים למטרה זו. אתרים עבריים שנבנו עד סוף שנות ה-90 השתמשו כולם בפתרון זה, ובאתרים עבריים ותיקים הוא נמצא עד היום. כפתרון מאולתר, יש בפתרון זה בעיות אחדות:

  • גודל שורה קבוע וחוסר האפשרות של גלישת שורות. בשינוי גודל המסך, הטקסט לא הסתדר מחדש.
  • הדפדפן מתייחס לטקסט העברי כאל טקסט לטיני, ולכן כשהוא מחליט שיש לפצל שורה לשתי שורות, סדר השורות מתהפך.
  • פיתוח יישומי דפדפן (להבדיל מהצגת דפים סטטיים) אינו נוח.
  • לא ניתן להשתמש בכל הגופנים העבריים של מערכת ההפעלה, אלא רק בגופן אחד, אותו גופן שהמשתמש התקין במחשבו.
  • הצורך בהתקנה מיוחדת של גופן יצר בעיה למשתמשים מתחילים.
  • העתקת טקסט עברי ממעבד תמלילים לדפדפן ולהפך הצריכה היפוך של הטקסט באמצעות תוכנה מיוחדת.
  • חוסר תמיכה בניקוד.

עברית לוגית

כאשר חברת מיקרוסופט הצטרפה לשוק יצרני הדפדפנים, היא נתנה פתרון יסודי וטבעי לשפה העברית (ולכל יתר השפות הנכתבות מימין לשמאל), פתרון הקרוי "עברית לוגית", והוא הפך להיות תקן ב-HTML 4. במסגרת גיור תוכנה זה הותאם הדפדפן להכרה בשפות הנכתבות מימין לשמאל, וכתיבת דף HTML המכיל טקסט עברי נעשית, כמקובל בעברית, מימין לשמאל. פתרון זה פתר את כל הבעיות שבעברית הוויזואלית, והפך את העברית לשפה סטנדרטית באינטרנט.

חרף יתרונותיה הרבים של העברית הלוגית, כניסתה לאינטרנט העברי הייתה איטית, הן משום שאתרים מובילים כבר היו כתובים בעברית ויזואלית, והן משום שעברית לוגית נתמכה רק על ידי הדפדפן של מיקרוסופט, אינטרנט אקספלורר. השתלטותו של דפדפן זה על שוק הדפדפנים בעולם ובישראל הביאה למעבר הדרגתי של אתרים לעברית לוגית, ומתחילת המאה ה-21 מפותחים אתרים עבריים חדשים רק בעברית לוגית. מעבר של אתרים ותיקים מעברית ויזואלית לעברית לוגית נעשה באיטיות, עקב מאמץ ההסבה הכרוך בכך. האתר של עיתון "הארץ", למשל, עבר לעברית לוגית רק בתחילת 2004. אחד האתרים הבולטים שהשתמשו בעברית ויזואלית הוא אתר "סנונית" (שבמסגרת הקמתו נוצרה העברית הוויזואלית).

העברית, לפי תקן יוניקוד, היא לוגית בלבד. לפיכך, דף אינטרנט עברי בקידוד UTF-8 (כמו כל ויקיפדיה העברית) יהיה בעברית לוגית. קידוד windows-1255, עברית של חלונות, גם הוא מתייחס לעברית לוגית, וכך גם iso-8859-8-i. רק iso-8859-8 (בלי i בסוף, ולפעמים עם e בסוף) הוא הדרך לציין שהעברית בדף היא ויזואלית.

גרסה 6.1 של הדפדפן "נטסקייפ נוויגייטור" הייתה הגרסה הראשונה של דפדפן זה שתמכה בעברית לוגית, ובכך נפתחה גישה לאתרים הבנויים בשיטה זו גם למשתמשים במערכות הפעלה שבהן "אינטרנט אקספלורר" אינו פועל. דפדפנים שפותחו בתקופות מאוחרות יותר כגון מוזילה פיירפוקס ואופרה תמכו בעברית לוגית מן היסוד. לצורך תאימות לאחור תומכים כל הדפדפנים גם בעברית ויזואלית (על שרת האינטרנט או דף האינטרנט לציין את הקידוד הנכון. כמו כן קורא הדף יכול לשנות בעצמו את הקידוד בו משתמש הדפדפן להצגת הדף במידת הצורך).

הבעיה בתקופה שלפני האינטרנט

הסוגיה של עברית ויזואלית לעומת עברית לוגית, אף על פי שהיא מוצאת את ביטויה הבולט ביותר באינטרנט, אינה מוגבלת לאינטרנט בלבד, אלא כל ההיסטוריה של המחשוב העברי הושפעה ממנה. בתחילת ימי המחשוב העברי משלה העברית הוויזואלית בכיפה. בימי DOS שימשו העברית הוויזואלית והלוגית בערבוביה (למשל, מעבד התמלילים QText השתמש בעברית ויזואלית בעוד שמעבד התמלילים איינשטיין השתמש בעברית לוגית), ובמעבר לחלונות כולם עברו לעברית לוגית בשימוש היומיומי.

ליטון של עברית

עקב הבעיות הצצות לפעמים בכתיבת או קריאת עברית בקידוד בלתי מתואם בין משתמשים ועקב הצורך להתקין גופני עברית במחשב, משתמשים רבים החלו להשתמש באלפבית הלטיני לשם התכתבות בעברית באינטרנט. שימוש זה היה נפוץ בעיקר בהתכתבויות דואר אלקטרוני ובתוכנות מסרים מידיים כגון ICQ בראשית דרכה. כתיבת העברית באותיות לטיניות מתרחשת באינטרנט בדרך כלל לא על פי תקן כלשהו אלא מוגדרת בצורה דינמית אד-הוק בין זוג משתמשים. קיימים תקנים רשמיים, אך אף אחד מהם אינו מוכר לכלל הציבור.

מערכת ההפעלה חלונות XP תמכה בשפות הנכתבות מימין לשמאל וכללה גופנים בעברית בכל הגרסאות שנמכרו ברחבי העולם. עובדה זו גרמה לירידה בצורך בכתיבת עברית באותיות לטיניות.

שמות מתחם בעברית

כיום ניתן לרשום שמות מתחם גם בשפה העברית. שמות דומיין בעברית הם חלק מטכנולוגיית IDN (Internationalised Domain Name). פיתוח טכנולוגיה זו החל בשנת 1998 באוניברסיטת סינגפור. אוניברסיטת סינגפור הקימה את חברת i-DNS.net, על מנת להוציא לפועל את השימוש בטכנולוגיה. תהליך קידום השימוש בטכנולוגיה גבר, בשנים האחרונות, ברחבי העולם. הקידוד שהוסכם כסטנדרט עבור IDN's על ידי ארגון ה-IETF הינו ה–Punycode. השימוש ב–IDN תופס את מקומו כשירות נדרש עם העמקת אחוז החדירה של האינטרנט במדינות ששפתם המקומית שונה מאנגלית, והשפה נכתבת בהן משתמשת בשיטת כתיב שאינה לטינית. הטכנולוגיה הוטמעה בדפדפנים המובילים – על ידי חברת מיקרוסופט בדפדפן אינטרנט אקספלורר 7 ועל ידי מוזילה החל בדפדפן פיירפוקס 2.0. הטכנולוגיה הוטמעה גם בדפדפנים אחרים כגון דפדפן כרום של חברת גוגל, בספארי של אפל ואחרים.

כתובות אתרים בעברית מתאפשרים כחלק מתקן IDN. ניתן לרשום שמות דומיין במספר סיומות, ושמות דומיין בעברית אלו מחלקים ל-2 סוגים (המבוססים על אותה טכנולוגית - Punycode):

  1. שמות דומיין עם סיומת בעברית Full Idn לדוגמה: דומיין.קום
  2. שמות דומיין בעברית עם סיומת באנגלית Hybrid Idn לדוגמה: דומיין.com

נכון לשנת 2011 אין ברשת האינטרנט שימוש בסיומות מתחמים בעברית (Full IDN) למעט מתחמי בדיקות של ICANN, והשימוש בשמות מתחם עבריים בעלי סיומות באנגלית (Hybrid IDN) מוגבל למספר סיומות בלבד, חלק מהסיומות של ישראל נכללות בהן. כמו כן, מאחר שטרם נמצא פתרון לבעיות של שימוש לרעה בתווים מסוימים בשמות המתחם על־מנת להונות את הגולש, ישנן סיומות בהן שמות המתחם לא יופיעו בצורה הרצויה בחלק מהדפדפנים.

ראו גם

קישורים חיצוניים

כלים להמרות

הערות שוליים

  1. ^ Re: Fwd: Re: Israeli HTML Standard, lists.w3.org
דודו רשתי

דוד (דודו) רשתי (נולד ב־1965) הוא יזם ומשקיע הון סיכון בתעשיית ההיי-טק, מחלוצי האינטרנט בישראל.

מיקרוסופט בישראל

חברת מיקרוסופט פועלת בישראל בשתי שלוחות:

סניף שיווק ומכירות בשם "מיקרוסופט ישראל בע"מ" שנוסד בשנת 1989, והיה מראשוני הסניפים של מיקרוסופט מחוץ לארצות הברית.

מיקרוסופט ישראל מחקר ופיתוח (2002) בע"מ, שנוסדה בשנת 2002 ומרכזת את פעילות המחקר והפיתוח בישראל, שהחלה בשנת 1991.

עברית

עִבְרִית היא שפה שמית, ממשפחת השפות האפרו-אסיאתיות, הידועה כשפתם של היהודים ושל השומרונים, אשר ניב מודרני שלה (עברית ישראלית) הוא שפתה הרשמית של מדינת ישראל, מעמד שעוגן בשנת 2018 בחוק יסוד: ישראל – מדינת הלאום של העם היהודי.

עברית (פירושונים)

האם התכוונתם ל...

קוד ישן

קוד ישן (באנגלית: oldcode) הוא שיטת קידוד העברית במחשבים שלא תוכננו לעברית מלכתחילה, אלא לאנגלית בלבד. בכל סוגי הקוד הישן מקודדות 27 האותיות של האלפבית העברי (כלומר כולל האותיות הסופיות) במקום אותיות האלפבית הלטיני. בדרך-כלל כשמדברים על הקוד הישן מתכוונים לתקן SI 960, שהוא ASCII חוץ מהתווים (בכתיב הקסדצימלי) 0x60 עד 0x7A, שאותם תופסות האותיות העבריות.

הקוד הישן אינו נוח לשימוש, משום שאי-אפשר לערבב בו אותיות לטיניות קטנות ואותיות עבריות גם יחד, אך הוא היה האפשרות היחידה כאשר כל סביבות המחשוב הוגבלו ל-7 סיביות. כאשר הוסרה המגבלה הזאת והמחשבים עברו ל-8 סיביות, אפשר היה לקודד את תחום ה-ASCII כמקובל ולהקצות לאותיות העבריות מספרים נפרדים. במחשב האישי הוקצה התחום 0x80 עד 0x9A (עברית של DOS), ובתקן של ISO התחום 0xE0 עד 0xFA. העברית של Windows, מקינטוש ויוניקס מקודדת לפי תקן ISO.

העברית בתקן EBCDIC של חברת IBM, אף שזה היה בן 8 סיביות מלכתחילה, עברה כמה גלגולים. בתקופה שקדמה להופעת המסכים קודדה העברית במקום האותיות הלטיניות הגדולות (תחום המתחיל ב-0xC1 ומסתיים ב-0xE9). קידוד זה, שקיבל את הכינוי "סינית", מנע הדפסה מעורבת של עברית ואנגלית. עם הופעת המסכים הועבר הקידוד של העברית כמו בקוד ישן ASCII אל האותיות הלטיניות הקטנות (תחום המתחיל ב-0x81 ומסתיים ב-0xA9), קוד שקיבל את הכינוי "קוד ישן".בין הייצוג הגרפי של קוד ישן ASCII לייצוג הגרפי של קוד ישן ב-EBCDIC היה הבדל קטן אחד. האות א ב-EBCDIC קודדה במקום הסימן & (ב-EBCDIC ערכו 0x50), בעוד שבקוד ישן ASCII הייצוג הגרפי של האות א היה ` (גרש שכיוונו הפוך), כך שערכה ההקסדצימלי של האות א היה מיד לפני האות ב (0x60 ו-0x61 בהתאמה).

העברית בקוד הישן היא לעולם עברית חזותית (ויזואלית), כי בעבר הקשיים שעברית חזותית יוצרת לא נמצאו ראויים לפתרון מקיף יותר.

שם תחום

שם תחום (באנגלית: domain name; דומיין) או שם מתחם הוא שם ייחודי של אתר ברשת האינטרנט, שמבדיל אותו משאר האתרים הנמצאים ברשת. שמם הכולל של אתרי האינטרנט הזמינים לציבור הוא World Wide Web (רשת כלל-עולמית) או WWW, ונהוג לרשום בתחילת שמות המתחם של אתרי אינטרנט את האותיות הללו (www).

רישום שמות תחום נעשה על ידי ארגון האינטרנט העולמי, ICANN, וגופים המורשים לכך מטעמו. בישראל הגוף היחיד הרשאי לרשום שמות תחום הוא איגוד האינטרנט הישראלי (ISOC), המקצה שמות תחת הסיומת il..

תרגום תוכנה

תרגום תוכנה פירושו התאמתה לשפה אחרת של תוכנה שפותחה ללא התחשבות מלאה בשפה זו. תרגום תוכנה הוא תת-תחום של בינאום תוכנה, כלומר הפיכתה לכזו הניתנת לשימוש בכל תרבות בעולם. בהקשר היהודי, או הישראלי, לעיתים מכונה, בהשאלה, גיור תוכנה. מהמונח גיור.

מניעים לתרגום תוכנה:

כיווניות: דהיינו כיוון כתיבה שונה. שפות מסוימות כעברית, ערבית ופרסית, נכתבות מימין לשמאל. בעוד שהשפות הנפוצות, ובפרט אנגלית, נכתבות משמאל לימין. קימות גם שפות הנכתבות, כדרך שגרה, מלמעלה למטה. כדאי להעיר שהייתה גישה רווחת שניתן לחלק את הטקסט לחלקים כגון שורות, או מילים. ואז לרשום כל חלק בכיוון שונה, למשל משמאל לימין, כדי שבתצוגה יקראו מימין לשמאל. אך גישה זו נזנחה בגלל שהיישום הכללי שלה התגלה כקשה הרבה יותר מאשר נראה בתחילה.

קושי בהזנה, אחסון והתייחסות לטקסט בשפה: קושי זה נובע ממגבלות של מערכת ההפעלה, שאינה ערוכה להזנת טקסט בשפה, ממגבלות של בסיס הנתונים, שאינו ערוך לאחסון נתונים בשפה, או ממגבלות של תוכנה שאינה ערוכה להתייחס לתווים בשפה.

מיון אלפביתי: המיון הרגיל במחשב נעשה לפי סימנים, מספרים ואותיות אנגליות. מערכות שאינן תומכות במערכות כתב אחרות אינן מאפשרות מיון של טקסט.

ניקוד: לתווי הניקוד, ובכלל זה תוספות לאותיות בעלי אופי דומה בשפות שונות, יש קושי נוסף. בגלל שמיקומם מיוחד, והם מופיעים מעל, מתחת, בצד, ואף בתוך, התווים הרגילים של השפה, כל סימן במיקומו המיוחד. בעיה נוספת היא שבפעולות מסוימות, למשל חיפוש, צריך להתעלם מהם, אחרת המחרוזת לא תמצא.

הבדלים תרבותיים: הבדלים תרבותיים כדוגמת שימוש ביחידות מידה שונות, מערכות מטבע שונות, ומנהגים אחרים כגון שימוש בפסיק או בנקודה, להפרדת בהשבר מהשלם במספר עשרוני, מצריכים לעיתים התאמה של התוכנה.

בעיות אלו הובילו גם להצעה לכתוב עברית בתעתיק לטיני, אך מובן שהצעה זו חורגת הרחק אל מעבר לעולם התוכנה.

בתוכנות שאין בהן התאמה לעברית, או שהתכנות שלהן לא שגרתי, הניסיון לשימוש בעברית אף במערכת הפעלה שתומכת בעברית כמו "חלונות", עלול לגרום לבעיות מעורבות ושונות. החל מאי יכולת לשימוש בטקסט עברי, וכלה באי יכולת להציג את הטקסט בצורה נכונה. לעיתים הטקסט יוצג באופן קריא, אבל היכולת לעריכתו עלולה להיות בעיתית, מכיוון שהאותיות אינן נמצאות במקום שבו הן נראות. ישנן מערכות שיודעות להתייחס לניקוד, אבל מציגות אותו כטקסט רגיל, ולא במקום שבו הוא אמור להיות.

ברמה הבסיסית בא גיור התוכנה לאפשר הצגה והזנה של נתונים בעברית, יכולת שבשנים האחרונות ניתנת באמצעות מערכת ההפעלה, ללא צורך בהשקעה בתוכנה הספציפית. ברמה מתקדמת יותר כולל הגיור גרסה עברית לממשק המשתמש ולקובצי העזרה. ההבחנה בין שתי רמות אלה ניכרה במהדורותיה הראשונות של מערכת ההפעלה Windows, שהופצו בישראל בשלוש גרסאות:

הגרסה האנגלית המקורית, שלא תמכה בעברית.

גרסה שתמכה בהצגה והזנה של נתונים בעברית, אך ממשק המשתמש שלה (תפריטים, מסכי עזרה וכו') היה באנגלית (גרסה זו נקראה Hebrew Enabled).

גרסה שתמכה בהצגה והזנה של נתונים בעברית, וגם ממשק המשתמש שלה היה בעברית (גרסה זו נקראה Localized).הצורך בגיור מערכת ההפעלה גרם לכך שבהפצתה של גרסה התומכת בעברית הוחל חודשים רבים לאחר תחילת הפצתה של הגרסה האנגלית, עקב הזמן שנדרש לתהליך הגיור. החל ממערכת ההפעלה Windows 2000 הפכה התמיכה בעברית למובנית במערכת ההפעלה, כך שההכרזה בישראל נעשתה יחד עם ההכרזה בארצות הברית (לגרסת Localized עדיין יש להמתין, דבר הפוגע באטרקטיביות שלה).

דוגמה נוספת לגיור תוכנה היא הגיור שעברה מדיה-ויקי, היא התוכנה שמשמשת את פרויקט ויקיפדיה. ביולי 2003 הסתיים השלב הראשון של גיורה, כאשר ממשק המשתמש ודפי עזרה עיקריים תורגמו לעברית.

תהליך גיור מורכב יותר וממושך יותר הוא זה של הדפדפן, כמתואר בערך עברית באינטרנט.

This page is based on a Wikipedia article written by authors (here).
Text is available under the CC BY-SA 3.0 license; additional terms may apply.
Images, videos and audio are available under their respective licenses.