למה גוגל לא מתרגם לעברית (וגם: דאם דום)

כן, כן, עוד פיצ'ר חדש של גוגל. זה מתחיל לחזור על עצמו. אבל היום יש ערך מוסף לפוסט.

הפיצ'ר הוא בוטים שמאפשרים תרגום מכונה סימולטני לשיחות בגוגל טוק (דרך טק-קראנץ', דרך המומלצים של שרון). עכשיו אפשר לצרף לכל שיחה בגוגל טוק אחד (או יותר, לתרגום דו כיווני) ממגוון רובוטים שיתרגמו מיד כל מה שאתם כותבים בשפה אחת לשפה אחרת. יופי של יישום לטכנולוגיית התרגום היחסית מתקדמת שגוגל מציעה. תוך זמן קצר, יש להניח, יצוצו אלו שישאלו איך זה ומדוע גוגל לא מציעה תרגום לעברית, ומה זה האנטישמים האלה, ולמה ערבית כן ועברית לא וכל הג'ז הזה. לכן, ראוי להקדים תרופה למכה ולהסביר למה גוגל לא מתרגמת וכנראה גם לא תתרגם מ- ולעברית.
תרגום המכונה של גוגל בנוי על לימוד "עצמי" של המערכת שלהם באמצעות מה שמכונה "תרגום סטטיסטי". מה שגוגל עושים זה בעצם לקחת מאגר גדול של "אבני רוזטה" – טקסטים שתורגמו למספר שפות – ולתת למערכת לגלות באמצעים סטטיסטיים איזה מילה או ביטוי נוטים לשמש לתרגום מילה או ביטוי בשפה מסויימת. אחד המקורות העיקריים לטקסטים רבי תרגומים כאלו הוא האו"ם, שמפרסם את כל המסמכים הרשמיים שלו במספר גדול של "שפות רשמיות". כידוע, העברית אינה אחת השפות הללו (אבל ערבית כן, ולכן גוגל יודעים לתרגם מערבית ולערבית). למעשה, בגלל שיש כל כך מעט דוברי עברית, יש, בהתאם, כמות קטנה מאוד של מסמכים שקיימים גם בעברית וגם במספר שפות אחרות בתרגומים אמינים, ועוד פחות מכך טקסטים שתורגמו בצורה אמינה מספר פעמים. לכן, לא סביר שגוגל ישלבו את העברית במנוע התרגום שלהם בעתיד הנראה לעין.

עידן זיירמן כותב נכוחה על הכתבה האדיוטית ששודרה בחדשות ערוץ 2 על החיילים ששיחקו בנשק (נו, אז?) בהשראת משחקי מחשב (הו הזוועה! להוריד את הדברים האלה מהמדפים מיד!). כדאי להדגיש משהו, בעניין הטענה שדווקא דום, ולא אף אחד ממליון הפירסט-פרסון-שוטרז האחרים שיצאו מאז, הוא הוא ההשראה לסרט: דום יצא ב-1993. הוא אמנם נשאר פופולרי במשך שנים רבות מאוד (היה עותק של המשחק על המחשב בבסיס שלי, למעלה מחצי עשור לאחר יציאתו), אבל דחילק, החיילים האלה נולדו איפשהו בין 1987 ל-1990. אתם באמת חושבים שהם שיחקו הרבה בדום כשהם היו בני שש? לא, כי אם כן, אז זה בהחלט יסביר הרבה.

3 Replies to “למה גוגל לא מתרגם לעברית (וגם: דאם דום)”

  1. Doom הראשון אכן יצא ב1993, אבל השני ב 1994 ובטח הגיע לארץ אפילו מאוחר יותר.
    אני אומנם יליד 83 כך שאינני מתאים לטווח הגילאים שהגדרת, אבל שיחקתי במשחק השני רבות כשהוא יצא עם אחי הצעיר, אז בן 7-8 והיום חייל בן 20.
    אז כן, בהסתמך על מקרה אחד אני יכול להסיק שזה סביר בהחלט, ובמיוחד אם לוקחים בחשבון שאפשר לשחק במשחק גם כמה שנים אחרי שהוא יצא – מה שהיה די פופולרי בזמנו לפני האינטרנט והצורבים.

  2. אתה בטוח שהבּוֹטַרְגוּם משתמש במסמכים הרשמיים של האו"ם כפרלל קורפוס?
    כי אם כן אז התרגום יהיה מעפן לעילא.
    מערכות תרגום סטטיסטיות לא לומדות רק אילו מילים להחליף אלא גם אילו מבני משפט דיקדוקיים להחליף. לכן האיכות של מערכת תרגום כזו תלוייה מאוד בקורפוסים המקבילים ממנה היא "למדה" אבל יותר מכך – יש בעיה גדולה מאוד של דומיין אדפטיישן (domain adoptation) כלומר אם ל"תת השפה" ממנה למדת יש מאפיינים דקדוקיים מסויימים ואוצר מילים מסויים אז המערכת לא תפעל טוב על תת-שפה מסוג אחר. כלומר אם למדת ממסמכים רשמיים של האו"ם המערכת תהיה ממש גרועה בתרגות שפה חופשית של צ'אטים שם אוצר המילים שונה לחלוטין, מבני המשפטים שונים לחלוטין, התפלגות אורכי המשפטים שונה לחלוטין ובכלל לא נכנסתי לקיצורים ושגיאות כתיב.

    בעצם זה ראוי לפוסט מקיף ולא סתם תגובה מקוצרת. נו, אם יהיה לי זמן וכח.

  3. מעניין אם המשתתפים בטבח העם ברואנדה גם שיחקו והושפעו ממשחקי מחשב….

    קל מאוד להאשים באלימות משחק מחשב – הרבה יותר קל לא להאשים את עצמנו.
    אם אלו היו החיילים שלי הם היו מבלים הרבה מאוד ימים עם הבטן על הרצפה ומרפקים משופשפים.
    וכמובן הפלאפון מצלמה היה נישאר באוהל…. ולא יוצא משם בחיים. משהו בסיגנון של פאק-מאן (פשוט זה היה בזמני)

סגור לתגובות.