בלוג על פוליטיקה אמריקאית, ופוליטיקה של מדינות אחרות; מחשבות על דת, על המגזר, ועל דתל"שות; וגם על כל מיני דברים אחרים.

יום רביעי, 18 במרץ 2015

פוסט אורח: שבטי ישראל - נקודות לדמותם, והפעם בכנסת העשרים

שלום לכולם, גם למי מכם שמדוכדך מתוצאות הבחירות, וגם למי שלא. שוב תודה לאור על הנכונות לארח כאן את הפוסט הזה.

ברוכים הבאים לניתוח הססטיסטי של התפלגויות ההצבעה בכעשרת אלפים הקלפיות (10,110 נכון לרגע זה) שנספרו בבחירות לכנסת העשרים. נעשה כאן אנליזה דומה לזאת שעשינו עבור הכנסת התשע עשרה, אבל ננסה קצת לשכלל אותה הפעם.

הניתוח שלנו נבדל מזה שנעשה באתרים אחרים בכך שהוא מסתכל על הנתונים בפילוח של קלפיות ומנסה ללמוד מזה משהו מעניין. בגלל דפוסי המגורים בארץ, קלפיות מאופיינות בקהל מצביעים הומוגני יחסית מבחינת מאפיינים סוציודמוגרפיים ואתניים, וכך אנחנו יכולים לללמוד מניתוח מבוסס קלפיות על דפוסי הצבעה בקרב קהלים שונים, ולאפיין את המניעים הסוציו-אקונומיים והאתניים בהצבעות של הבוחר הישראלי, שההצבעה שלו שבטית למדי. ויובהר שוב, שבכל הדיון שלהלן, כל נקודה בכל אחד מן הגרפים מייצגת קלפי בודדת (ולא מצביע בודד!).

ניתוח כזה יאפשר לנו למשל לנסות לענות על שאלות כדוגמת:
1. מיהן הקלפיות במגזר הערבי (רק מפילוח הנתונים, מבלי להביא בחשבון נתוני חוץ על זהות היישובים), וכמה קולות מקבלות שם הרשימות הציוניות?
2. כמה קולות קיבלה הרשימה המשותפת בקלפיות שאינן במגזר הערבי?
3. מה המתאם (או חוסר המתאם), על פני מרחב הקלפיות, בין הצבעה ל"יש עתיד" ול"כולנו", כביכול שתי רשימות מאוד דומות מבחינת המסר שלהן, אבל עם דפוסי הצבעה שונים.
4. מי המפלגה בעלת בסיס התמיכה הרחב ביותר (מבחינה ה"פיזור" הדמוגרפי והגאוגרפי).
5. כמה "שבטים" ישראלים יש?

(על חלק מהשאלות ננסה להשיב כבר עכשיו, וחלק ייענו בהמשך כאמשיך בניתוח הנתונים).

לכל קלפי יש ברשותנו 26 נתונים של מספר הקולות האבסולוטי לכל אחת מן הרשימות (ובהם נעסוק פה בעיקר), וכן נתונים על מספר המצביעים מתוך מספר בעלי זכות הבחירה בקלפי (מספר הקולות הפסולים זמין גם הוא אבל איננו מעניין במיוחד). יש לנו גם כתובת מדויקת (שאותה, בעזרת ממשק מיוחד של גוגל, תרגמנו לקואורדינטות מדוייקות, אבל לעת עתה נמעט מאוד להשתמש במידע הזה) ומספר יישוב, שיאפשר לנו להציג גם פיזור קלפיות בערים המרכזיות.
נתחיל אפוא בתרשים boxplot של מידת התמיכה שלה זכתה כל רשימה בכל אחת מהקלפיות. זה סוג תרשים שמאפשר לראות את הפיזור של נתון כלשהו, במקרה זה מידת התמיכה. הקו האדום הוא החציון, והתיבה מייצגת את הגבולות שבין האחוזון ה-25 לאחוזון ה-75. האזור המקווקו מראה את שני הרבעונים הנוספים, למעט הנקודות שמחוץ לו שהן עקרונית רחוקו במיוחד מהחציון. כאן יש קצת יותר פירוט איך מפרשים גרף כזה. 

ניתן לראות באופן לא מפתיע שהרשימה המשותפת ויהדות התורה הן בעלות הפיזור עם השונות הכי גבוהה - ברוב רובן של הקלפיות הן מקבלות תמיכה מזערית וכל התמיכה האמיתית שלהן היא ב"זנב" של הנקודות שמחוץ לאזור המקווקו. זאת להבדיל למשל מהליכוד או העבודה או אפילו "כולנו" או "יש עתיד" שיש להן פיזור תמיכה הרבה יותר אחיד על פני הקלפיות.
נעבור למטריצת קורלציות בין כל רשימה ורשימה, על פני כל הקלפיות. מקדם חיובי מייצג קורלציה חיובית ומקדם שלילי מייצג אנטי-קורלציה. האלכסון לא מעניין כי אלו הקורלציות המושלמות של כל רשימה עם עצמה...
ניתן להבחין שיש קורלציה גבוהה יותר בין המחנה הציוני ו"יש עתיד" מאשר בין "כולנו" ו"יש עתיד", וכן קורלציה גבוהה יותר בין הליכוד ו"כולנו" מאשר בין "כולנו" ו"יש עתיד". קורלציה די גבוהה יש בין הצבעה ל"בית היהודי" ו"יחד", באותה מידה כמו בין ש"ס ל"יחד".
תרשים פיזור הדדי בין כל רשימה ורשימה, על פני כל הקלפיות השונות. בכל אחד מן התרשימים שאינו על האלכסון, כל נקודה היא קלפי, וניתן לראות את הפיזור ההדדי בין התמיכה ברשימה ששמה בראש השורה לרשימה ששמה בתחתית הטור.




כדי לעבור מהמרחב בעל 26 המימדים למרחב דו-מימדי שבו נוח יותר לעשות ויזואליזציה לנתונים, אנחנו משתמשים בטכניקה שנקראת ניתוח רכיבים עיקריים, או principal component analysis. המחשב מוצא בעבורנו מערכת צירים בעלת מספר מימדים קטן יותר (במקרה הזה שני מימדים בלבד) שמיטיבה לתאר את הפיזור במרחב המקורי בצורה הטובה ביותר. זאת מערכת צירים סינטית, אבל היא מאפשר לנו ויזואצליה נוחה שתופסת הרבה מהפיזור של נתוני הקלפיות, אף שבמקור הם במימד הרבה יותר גבוה.  במלים אחרות, כלומר המרחב ה-26 מימדי מוטל למרחב דו-מימדי שמיטיב לתאר את הפיזור בו. במרחב הדו-מימדי הזה נצייר את מיקומה של כל קלפי. צמצום המימדים הזה נעשה רק לצרכי הוויזואליזציה, אבל כל שאר הניתוח של הנתונים מתבצע במרחב בעל 26 המימדים.
שיעור ההצבעה (מסומן בסקאלה צבעונית) בכל קלפי, על מערכת הצירים הראשיים של הרכיבים העיקריים. כפי שנראה בהמשך כאשר נמפה את האזורים השונים בתרשים הזה, שיעורי ההצבעה הגבוהים מאפיינים כאן בעיקר קלפיות חרדיות, קלפיות של שמאל-מרכז (בעיקר עם דומיננטיות ליש עתיד), ובמגזר הערבי התמונה מורכבת ולא אחידה מבחינת שיעור ההצבעה.
עכשיו ננקוט בטכניקה אחרת מעולם הלמידה הממוחשבת (הקרויה K-Means), ונבקש מהמחשב לחלק את הנקודות (במרחב ה-26 מימדי) לקטגוריות, לפי הקרבה שבין תוצאותיהן במרחב הזה. אף שהמחשב לא יודע כלום לא על מהות המפלגות, ולא על המפה הפוליטית בארץ, וגם לא השתמשנו כאן בנתונים על המיקום הגאוגרפי של הקלפיות והיישובים, מתקבלת חלוקה טבעית של תוצאות ההצבעה - הקבוצה הירוקה כאן תואמת לקלפיות ביישובים ערביים, האדומה לקלפיות עם יתרון בולט למרכז-שמאל, התכלת ליתרון בולט לימין, והכחולה לקלפיות חרדיות.
ואכן, אלה ממוצעי ההצבעה (באחוזים) לכל אחת מהרשימות שעברו את אחוז החסימה, בפילוח לפי ארבע הקטגוריות שמצא המחשב, ראו כמה הם שונים מקטגוריה לקטגוריה.

אם נבקש מהמחשב לחלק לחמש קטגוריות, נקבל את הפיזור שלהלן. כמו בבחירות הקודמות, גם כאן הפילוח הבא לקטגוריה חמישית (וסליחה על הצבעים שהתחלפו) מניב לנו קטגוריה חדשה שקשה להבחין משני הצירים לבדם שהיא נפרדת, וזאת הקבוצה הסגולה שתואמת קלפיות עם דומיננטיות לבית היהודי ול"יחד".  ואכן, התבוננות בממוצעי הרשימות על פני הקלפיות, בפילוח לפי הקבוצות, מגלה שיש קבוצה מובחנת עם תמיכה כזאת במפלגות הימין האידיאולוגי.

חלוקה לשש קטגוריות כבר לא מניבה משהו מעניין במיוחד. החלוקה לקבוצה הירוקה החדשה שנוספה היא מעין קלפיות פשרה בין קלפיות עם דומיננטיות לימין ואלה עם דומיננטיות לשמאל.
חלוקה לשבע קטגוריות.
נעבור לנסות למפות את פיזור הקלפיות במערכת הצירים של הרכיבים העיקריים, מהתבוננות במידת התמיכה במפלגות השונות על פני מערכת הצירים הזאת.

נתחיל במידת התמיכה ביהדות התורה בקלפיות השונות. סקאלת הצבעים מימין. ניתן לראות את בסיס התמיכה המצומצם (מבחינת מספר הקלפיות) שבו מצביעים ליהדות התורה.
מידת התמיכה ב"יש עתיד" בקלפיות השונות. בסיס תמיכה רחב למדי, וקרוב על מערכת הצירים הזאת לבסיס התמיכה של מפלגת המחנה הציוני.
שיעור ההצבעה למחנה הציוני. שוב, בסיס תמיכה גדול למדי, וכמות קלפיות גדולה (ודי מפתיעה) עם שיעור תמיכה גבוה מאוד (מעל 50 אחוז) - אולי בקיבוצים למשל? וגם בתל אביב? נבחן זאת עוד בהמשך. גם תמיכה כלשהי במגזר הערבי.
שיעור ההצבעה לבית היהודי. בסיס תמיכה מצומצם יחסית ופיזור שאיננו מוסבר היטב כל כך במערכת הצירים הזאת.
שיעור ההצבעה ל"ישראל ביתנו". כמה קלפיות עם שיעור תמיכה גבוה במיוחד. קרוב על מערכת הצירים הזאת לבסיס התמיכה בליכוד.
שיעור התמיכה ב"כולנו". זה הפיזור הכי אחיד מבין הרשימות ביחס לגודל הרשימה. אפשר לראות תמיכה מתונה בקלפיות רבות, ואין כמעט "בייס" שבו שיעור התמיכה גבוה מאוד - רק בקלפיות ספורות שהן חריגות בנוף הקלפיות וחורגות מגוש הקלפיות במערכת הצירים הזאת.
שיעור התמיכה בליכוד. בסיס תמיכה גדול ביחד עם קלפיות רבות עם שיעור תמיכה גבוה במיוחד. תמיכה לא מעטה בקלפיות שאפיינו קודם כקלפיות המגזר הערבי.

מידת התמיכה ברשימה המשותפת. שיעור תמיכה גבוה במיוחד בקלפיות הערביות. הנקודות שבתווך בין שני גושי הנקודות הן קלפיות חריגות - בין אם ביישובים ערבים שבהם זכו גם רשימות אחרות בתמיכה, או ביישובים מעורבים. על פניו נראה שאין כמעט בנמצא קלפיות מובהקות במגזר היהודי שיש בהן תמיכה .
שיעור התמכיה בש"ס. אפשר לראות שאלה הקלפיות ש"מגשרות" בין קלפיות המגזר החרדי לקלפיות שאפיינו כדומיננטיות בימין האידיאולגי. בסיס תמיכה רחב יותר משל יהדות התורה.

שיעור התמיכה ב"יחד" של אלי ישי. די דומה לפיזור של ש"ס, רק מעט מצומצם יותר, ובכל מקרה קרוב למדי במערכת הצירים של הרכיבים העיקריים.
לבקשתו של הלל גרשוני, ננסה לנתח מה קרה למפלגות שהתמודדו בבחירות הקודמות ובבחירות הנוכחיות תחת אותו שם (הליכוד, שס, יש עתיד, הבית היהודי - וגם אחרות בהמשך). נתחיל בתרשימי פיזור של התוצאות שלהם. כל מה שמתחת לאלכסון הוא ירידה, כל מה שעליו - עלייה.




אבל יותר מעניין אולי לראות את התזוזה (השינוי) בכוח שקיבלה רשימה אחת לעומת מה שקרה לרשימה שנייה באותה קלפי. כך למשל ניתן לראות כאן שככל שהשינוי של הליכוד היה חיובי יותר (מכנסת 19 (אז ביחד עם ישראל ביתנו, נא לזכור) לכנסת 20) כך על פי רוב השינוי בכוח של הבית היהודי היה שלילי יותר. ואותו דבר בדיוק קורה בין הליכוד לבין שס: רוב הקלפיות הן ברביע השני (X חיובי, Y שלילי).



לרשומה הזאת יתווספו עוד תרשימים וניתוחים בימים הקרובים בכפוף לזמן שיעמוד לרשותי. כף שמי שמתעניין מוזמן לחזור ולבקר ברשומה הזאת ולראות מה עוד התעדכן.

אשמח לקבל מהקוראים שאלות, בקשות והצעות לניתוחים נוספים (דרך מערכת התגובות של הבלוג) ואשתדל להיעתר לבקשות ככל הניתן.

8 תגובות:

  1. הראל - מאוד מעניין! תודה. כיף שאפשר להתנחם ולהתגרד מהרצפה בקצת ניתוחים סטטיסטיים.
    ניסיתי למצוא פה, אבל ללא הועיל, ראיה לסברה סבירה מאוד ששמעתי מפי רביב דרוקר: הוא טען ששני מנדטים של כחלון עברו ברגע האחרון לנתניהו. באחד הסקרים כמה ימים לפני הבחירות שאלו את מי שזוהה כמצביעי כחלון על איזה ראש-ממשלה היה רוצה שכחלון ימליץ. התוצאות היו משהו כמו 35% לביבי, 35% להרצוג והשאר לא יודעים. אם אח"כ כחלון איבד כשישית מכוחו לליכוד, פירוש הדבר שיש עדיפות מובהקת להרצוג בין מצביעיו. אני כ"כ רוצה שיהיה לו תירוץ לא להצטרף לממשלת הימין של ביבי חסר הבושה, עד שאני מתחיל להתעסק בשטויות..

    השבמחק
  2. נ.ב. הנה נתון מעניין שהייתי שמח לראות: היכן נכרה העליה (כ-4% מהבחירות הקודמות) באחוזי ההצבעה? אתה יכול להראות את ההפרשים בהטלה הדו-ממדית?

    השבמחק
  3. מעניין מאוד, תודה.

    נראה שהרבה קולות בישובים ערביים הגיעו לש"ס..

    השבמחק
  4. מרתק, תודה!

    השבמחק
  5. מעניין אותי ההבדלים הגדולים בין קלפיות שונות הממוקמות באותו בית ספר, במקרים מסויימים. האם זה יכול להעיד על זיוף, או על יד קלה על ההדק בפסילת קולות מסויימים? או שיש הסבר פשוט כמו שיבוץ לקלפי לפי רחוב, כאשר רק במקומות מאוד מסויימים יש הבדלים בין רחובות מסויימים באותה השכונה. הדוגמאות שאני ראיתי הן בשכונת הקטמונים בירושלים, אולפנה לאומנויות (לשעבר מצדה) ובי"ס דנמרק, כאשר השוויתי לפי היחס מרצ חלקי ליכוד.

    השבמחק
  6. תגובה זו הוסרה על ידי המחבר.

    השבמחק
  7. עוד שתי נקודות מעניינות לחובבי הז'אנר:
    1. בדיעבד, גם לו היה שינוי בהסכמי העודפים (מרצ-משותפת, מחנ"צ-לפיד), לא היה הבדל בחלוקה הסופית של המנדטים.
    2. סך כל הקולות שהצביעו ימינה מכחלון (כולל אלי ישי): 2,061,740
    סך הקולות שהצביעו שמאלה מכחלון (כולל עלה ירוק): 1,813,210
    כחלון: 315,202

    השבמחק
  8. תודה! מגניב ממש.
    ממליץ להסתכל בכל זאת על אחוז הקולות הפסולים, יש כאן תופעה מובהקת של פסילת קולות בערים חרדיות בעשרות קלפיות.
    אם מניחים מודל בו כל קול נפסל בסיכוי זהה, (וברור שזה לא מדוייק) הסיכוי לזכות בלוטו סביר פי מליונים...
    לא יודע בדיוק מה זה מוכיח אבל זה מדהים (במיוחד ביחס לבחירות הקודמות).

    השבמחק