מישהו, אני חושב שזה היה נדב שאלתיאל, קישר לרשומה הזו של אבו מוקאוומה, שכללה את הציטוט הבא:
"An economist is an expert who will know tomorrow why the things he predicted yesterday didn't happen today." — Laurence J. Peter (Whose words, I think, might apply to the social sciences more broadly.)
הציטוט הזכיר לי שיחה שהייתה לי עם אבא שלי לפני זמן מה. דיברנו על המשבר הכלכלי ועל היכולת של כלכלנים לחזות תנודות בשוק. אני טענתי שעוד לא ראיתי הוכחה ליכולת כזו. אבא שלי טען שיש אנשים שמתעשרים מהבורסה, אז סימן שאפשר לחזות את התנודות ברמה סבירה של דיוק – מספיק כדי להרוויח מזה הרבה כסף.
הטיעון הזה הוא דוגמא מצויינת לאחת ההטיות הנפוצות ביותר בחשיבה רציונלית, ואחת שמאוד קל ליפול בה גם כאשר משתדלים להמנע מכשלים לוגים מוכרים יותר, כמו אד הומינם, או פנייה לסמכות: הטיית בחירה (selection bias). הטיות בחירה הן נפוצות להפליא, כולל בכתיבה אקדמית (קל וחומר אצל סטודנטים), ובאות בכל מיני צורות וזנים. ברשומה זו אתן מספר דוגמאות להטייה הזו, ועל מה צריך לחשוב כדי לוודא שלא נפלנו בה.
הטיית בחירה היא מצב בו אדם מסיק מסקנה כלשהי על בסיס התבוננות במדגם מוטה. הבעיה עם ההטייה הזו היא שכמעט אף פעם היא לא נעשית במכוון. המדגמים שאנחנו בוחרים מוטים לא בגלל שאנחנו רוצים מדגם מוטה, או בגלל שאנחנו מנסים לייצר את התוצאה הרצויה לנו, אלא בגלל שאלו המדגמים הזמינים לנו. למעשה, אפשר להגיד שאף מדגם אינו חף מהטיות, ואחת המטלות שלנו בבואנו להסיק מסקנות ממדגמים היא לחשוב כיצד המדגם עשוי להיות מוטה, ובאיזה אופן הדבר עשוי להשפיע על התוצאות שלנו.[]
הגורם הנפוץ ביותר להטיית בחירה, לפחות בדיונים שאינם אקדמיים, היא בחירה על בסיס המשתנה התלוי:[] אני רוצה לדעת מה גורם לתוצאה א', אז אני בודק מקרים בהם התרחשה תופעה א' ומנסה להסיק מתוך כך מה גרם לתוצאה הזו. הבעיה עם הפעולה הזו היא שאין לי שום דרך לדעת האם הגורמים שמצאתי יחודיים למקרים בהם התרחשה התופעה, או שהם נפוצים גם במקרים בהם היא לא התרחשה. ניקח לדוגמא מחקרון של מורי לשעבר פרופ' אברהם דיסקין, עליו הוא סיפר לנו בקורס מתודולוגיה. פרופ' דיסקין רצה לבדוק מה הגורמים שהופכים נשיא אמריקאי ל"חשוב". הוא יצר מדד חשיבות שהסתמך על אורך הערך הרלוונטי אודות כל נשיא באנציקלופדיה כלשהי (חלקי אורך הכהונה של הנשיא), ובחן מה מאפיין את הנשיאים החשובים ביותר לפי מדד זה. אם הוא היה בוחר להסתכל רק על הנשיאים החשובים, הוא היה מגלה ששניים מהם נרצחו (לינקולן וקנדי). בהחלט ניתן להעלות על הדעת אפשרות שנשיא שנרצח הוא גם נשיא שיזכה ליותר מקום בזכרון הקולקטיבי האמריקאי. אבל אם לא בוחרים על בסיס המשתנה התלוי, אלא מסתכלים על כלל המקרים, מגלים שהיו עוד שני נשיאים שנרצחו – ג'יימס גארפילד ו-וויליאם מק'קינלי (מי?), שלאף אחד לא אכפת מהם.[]
בחירה על בסיס המשתנה התלוי היא גם מה שגרם לטעות של אבא שלי: זה שישנם אנשים שהצליחו לעשות כסף מהבורסה לא אומר שאין אנשים שהסתמכו על אותם הכללים ממש, וכשלו – למשל, בגלל שתנודות הבורסה הן כאוטיות, ויש מידה גדולה של מזל בהצלחה או כשלון בהשקעות בה. כמו כן, העובדה שאנשים הרוויחו כסף, ואפילו הרבה כסף, לא אומרת שהם ימשיכו לעשות כן (ואז הם יפלו מהרדאר שלנו), או שהם לא הפסידו הרבה כסף בזמנים ספציפיים (מה שיעיד שוב שהם אינם באמת מסוגלים לחזות את תנודות השוק, אלא רק היה להם יותר מזל מלאחרים בניחושים שלהם).
המקרה הכי קיצוני של בחירה על בסיס המשתנה התלוי היא האנקדוטה: אני מכיר מישהו נורא זקן שמעשן שתי חפיסות סיגריות ושותה בקבוק וודקה ביום, ומכאן שהמרשם לחיים ארוכים הוא עישון ושתייה מרובים. רובנו יודעים להמנע מאנקדוטות אישיות מהסוג הזה כהוכחה למשהו, אבל לעיתים קרובות כן נעשה שימוש באנקדוטות משני סוגים אחרים כמקור להיסקים:
א. אנקדוטות היסטוריות: פעמים רבות בדיון תעלה דוגמא היסטורית כהוכחה לכך שדברים מסויימים חייבים לקרות במצבים מסויימים. למשל, בדיון על התנגדות בלתי אלימה תמיד תעלה הדוגמא ההודית כהוכחה ליעילות השיטה. הבעיה היא שדוגמא אחת אינה מוכיחה אלא התכנות של תוצאה מסויימת: יתכן שהתנגדות בלתי אלימה תוביל לשחרור לאומי. ומה על כל המקרים האחרים של התנגדות בלתי אלימה שלא צלחו? במדעי החברה מקובל לבצע "מחקרי מקרה" (case studies), ומחקרים ממין זה בהחלט שימושיים לניסוח תאוריות או בחינת תאוריות קיימות, אבל הם אינם יכולים, בפני עצמם, להוכיח חוקיות. רק הצטברות של מספר גדול של מחקרים כאלו (או מחקר אחד גדול על מספר מקרים) יכולים לאשש טענה לגבי חוקיות. וגם אז, חשוב לבחון כיצד נבחרו המקרים, כדי להמנע מאותה בחירה על בסיס המשתנה התלוי. וריאציה נפוצה על סוג זה היא השוואה של פחות או יותר הכל לארה"ב, חרף היחודיות של המקרה האמריקאי ואי הרלוונטיות שלו לרוב מה שמשווים אותו אליו.
ב. הוכחות מן הכוכבים: כשהאנקדוטה שלנו אינה מישהו שאנחנו מכירים אישית אלא מישהו שמוכר באופן כללי, אנחנו נוטים פחות להזהר מההטייה שבהסתמכות על המקרה שלו. מכאן נפוץ הז'אנר של ראיונות (או ביוגרפיות, או אוטוביוגרפיות) עם עשירים מתוך ניסיון לפצח את סוד ההצלחה שלהם. גם כאן כמובן, הסיבה היחידה שמראיינים את אותו אדם היא שהוא מציג התנהגות שאנחנו רוצים להבין – כלומר, הוא נבחר על בסיס המשתנה התלוי, אבל מכיוון שמדובר במקרה בודד, ההטייה מוקצנת עוד יותר והופכת את כל הניסיון להפיק מסקנות לחסר ערך לחלוטין.
לעיתים אנחנו בוחרים על בסיס המשתנה התלוי כי אין לנו ברירה אמיתית. מה גורם למינים מסויימים לשרוד בעוד שאחרים נכחדים? כל המינים שאנחנו מכירים מספיק טוב כדי לענות על השאלה הזו קיימים, או לכל היותר נכחדו לאחרונה – מה שאומר שהם שרדו עד התקופה האחרונה והיו נתונים ללחצים אבולוציוניים דומים. ניסיונות להסיק מתוך המדגם המוטה הזה בהכרח יכשלו. הדרך היחידה לנסות לענות על השאלה היא באמצעות ניסויי מחשבה תיאורטיים. זה, למעשה, מה שעשה דארווין.
סוג נוסף של הטיית בחירה היא בחירה עצמית (self-selection). נניח שאני מבצע ניסוי בפסיכולוגיה כלכלית, ומגייס מתנדבים לניסוי באמצעות הצעת תשלום זניח כלשהו. ישנה סבירות לא קטנה שרוב האנשים שיגיעו לניסוי שלי הם בעלי הכנסה נמוכה יחסית – אלו שיש להם הכנסה גבוהה לא יטרחו בכלל להתנדב. מסקנות הניסוי שלי, לפיכך, עלולות להיות מוטות, מכיוון שההתנהגות הכלכלית של בעלי הכנסה נמוכה עשויה להיות שונה בתכלית מזו של בעלי הכנסה גבוהה.
סוג הפוך הוא תמותת מקרים (case mortality). אם אני עורך ניסוי רב שנים בטיפול רפואי מסויים, מה עלי לעשות עם כל המקרים שלי שמתו לאורך השנים (בהנחה שהם לא מתו באופן ישיר מהטיפול)? הכללתם בתוצאות היא בעייתית משום שאין לי עליהם נתונים מלאים. מצד שני, יש סיכוי טוב שהם מהווים תת-קבוצה חשובה להבנת הנתונים, למשל, משום שהם משתייכים ברובם לקבוצת האנשים בעלי מחלות אחרות, או אנשים בעלי סגנון חיים מסויים שהביא לתמותה גבוהה יותר, או פשוט משום שזו קבוצת האנשים המבוגרים יותר. השמטתם מתוך הנתונים שמשמשים להסקת מסקנות מחייבת ניתוח מדוקדק של המקרים הללו כדי לשלול הטיית בחירה.
תמותת מקרים, כמובן, אינה מחייבת תמותה של ממש. מקרים "מתים" גם כאשר הם סתם נעלמים לנו. למשל, אם אני עורך מחקר רב-שנים במהלכו אני מבקש מהמשתתפים למלא שאלון אחת לשנה בנושאים מסויימים, חלק מהמשיבים שלי יפסיקו להשיב, או שאאבד קשר איתם במהלך המחקר. האם האנשים הללו מהווים קבוצה בעלת מאפיינים רלוונטיים להבנת המשתנה התלוי שלי? אם המחקר שלי, למשל, עוסק בהתנהגות כלכלית, ותמותת המקרים שלי נובעת בחלקה מהגירה, יש פה סכנה להטיית בחירה משום שאנשים שמהגרים מישראל נוטים להשתייך לקבוצות סוציו-אקונומיות גבוהות יותר.
כיצד ניתן להמנע מהטיות בחירה? כפי שכבר אמרתי, אין מדגם מושלם. כל מדגם סובל מהטייה מסויימת. המיטב שאנחנו יכולים לעשות הוא להבין את ההטיות הפוטנציאליות במדגם שלנו. בבואנו להסיק מסקנה כלשהי ממספר מקרים, עלינו קודם לשאול את עצמנו: כיצד נבחרו המקרים הללו? האם בחרנו אותם משום שהם מציגים את ההתנהגות אותה אנו מנסים להסביר? אם כן, עלינו לנסות לחשוב על מקרים סותרים, ולנסות לבחור דווקא על בסיס המשתנה המסביר. האם אנחנו יכולים לחשוב על מקרים בהם המשתנה המסביר שלנו קיים בלי שתתקיים התופעה המוסברת? כיצד ניתן להסביר זאת? שאלה נוספת שיכולה לעזור היא איזה מקרים עשויים להתקיים שלא היינו יכולים לחשוב עליהם? סקרים טלפוניים, למשל, מתבססים על ספר הטלפונים. המשמעות היא שמי שאין לו טלפון קווי לעולם לא יעלה במדגם. האם הקבוצה הזו היא בעלת מאפיינים רלוונטיים לשאלה שאני מנסה לבחון באמצעות הסקר? אם כן, כיצד העלמותם מהמדגם שלי צפויה להשפיע על התוצאות?
מטבע הדברים, קשה לנו לנתח את אותם המקרים אותם איננו יכולים לבחון. אם היינו יכולים לבחון אותם, לא הייתה לנו בעיה להכליל אותם במדגם. כלומר, היכולת שלנו להתמודד עם הטיית בחירה היא מוגבלת מעצם מהותה. מודעות לעצם הבעיה, לפיכך, היא כנראה הכלי החשוב ביותר בבואנו להסיק מסקנות מנתונים אמפיריים כלשהם.
--