בלוג על פוליטיקה אמריקאית, ופוליטיקה של מדינות אחרות; מחשבות על דת, על המגזר, ועל דתל"שות; וגם על כל מיני דברים אחרים.

יום חמישי, 24 בינואר 2013

פוסט אורח: שבטי ישראל: נקודות לדמותם

חמשת קוראי, היסטוריה לפננו: פוסט האורח הראשון בבלוג!
תודה להראל על הפוסט!
------------------------------
[רשומה זו מתפרסמת בנוסח כמעט זהה הן באתר "במחשבה שנייה" והן כאן]

תודה רבה לאור על ההזמנה לפרסם כאן פוסט אורח. תמיד נחמד להתארח בבלוג שאוהבים! 
ובכן, תוצאות הבחירות לכנסת ה-19 מספקות הזדמנות מעניינת לנתח קובץ נתונים מרתק של התפלגות ההצבעות בכל קלפי וקלפי. 9875 הקלפיות שתוצאותיהן התפרסמו על ידי ועדת הבחירות מנותחות כאן בכלים מתחום הלמידה הממחושבת והוויזואליזציה.

בכל הדיון שלהלן, כל נקודה בכל אחד מן הגרפים מייצגת קלפי בודדת (ולא מצביע בודד!). המצביעים בכל קלפי גרים בסמיכות גיאוגרפית ברחובות בודדים (מספר המצביעים בכל קלפי הוא כמאתיים עד שלוש מאות), וכך ניתן לאפיין את הדמוגרפיה הישראלית, שהיא שבטית כל כך.


לכל קלפי יש ברשותנו 34 נתונים של מספר הקולות לכל אחת מן הרשימות (ובהם נעסוק פה בעיקר), וכן נתונים על מספר המצביעים מתוך מספר בעלי זכות הבחירה בקלפי (מספר הקולות הפסולים זמין גם הוא אבל איננו מעניין במיוחד).
כדי לעבור מהמרחב בעל 34 המימדים למרחב דו-מימדי שבו נוח יותר לעשות ויזואליזציה לנתונים, אנחנו משתמשים בטכניקה שנקראת ניתוח רכיבים עיקריים, או principal component analysis. המחשב מוצא בעבורנו מערכת צירים בעלת מספר מימדים קטן יותר (במקרה הזה שני מימדים בלבד) שמיטיבה לתאר את הפיזור במרחב המקורי בצורה הטובה ביותר. כלומר המרחב ה-34 מימדי מוטל למרחב דו-מימדי שמיטיב לתאר את הפיזור בו. במרחב הדו-מימדי הזה נצייר את מיקומה של כל קלפי. צמצום המימדים הזה נעשה רק לצרכי הוויזואליזציה, אבל כל שאר הניתוח של הנתונים מתבצע במרחב בעל 34 המימדים.
עכשיו ננקוט בטכניקה אחרת מעולם הלמידה הממוחשבת (הקרויה K-Means), ונבקש מהמחשב לחלק את הנקודות (במרחב ה-34 מימדי) לקטגוריות, לפי הקרבה שבין תוצאותיהן במרחב הזה. אם נבקש מהמחשב לחלק לארבע קטגוריות, נקבל את הפיזור שלהלן. הקבוצה האדומה כאן היא קלפיות  הימין, הכחולה קלפיות השמאל, הירוקה היא קלפיות ביישובים ערבים, והתכלת קלפיות חרדיות. ניתן להבחין בקלפיות מסויימות שבין המרחב הערבי למרחב החרדי – עובדה ידועה היא שביישובים ערבים מצביעים לא פעם לרשימות חרדיות ובמספרים לא מבוטלים.
אם נעבור לחמש קטגוריות, המחשב מגלה לנו קטגוריה נוספת שקשה להבחין בה בעצמנו בציור הדו-מימדי. זו הקטגוריה של הקלפיות של הציבור הדתי-לאומי. הצבעים כאן שונים ממקודם, ועם הקוראים הסליחה.

מעבר לשש קטגוריות מפצל את הקלפיות ביישובים ערבים לשתי קטגוריות – זאת הסגולה כאן היא של קלפיות שנוטות למפלגת חדש, וזאת הצהובה לקלפיות שנוטות לרע"ם-תע"ל ולבל"ד.

אם נעבור לשבע קטגוריות, תתקבל קטגוריה חדשה – זאת השחורה כאן היא של קלפיות חרדיות שנוטות ליהדות התורה, וזאת התכלת של מצביעי שס-ליכוד.

מעבר לשמונה קטגוריות כבר מגלה חלוקה פנימית של מה שהגדרנו קודם כמצביעי שמאל. הקבוצה הכחולה כאן היא של מצביעי יש עתיד בעיקר, והשחורה נוטה יותר למצביעי עבודה, מרצ והתנועה. אפשר לומר שזו מפת הקלפיות של שמונת שבטי ישראל.

אנחנו נסתפק לשם המשך הניתוח בחמש קטגוריות במקום במספר גבוה יותר. הקטגוריות האלה הן כאמור ימין, שמאל, דתי-לאומי, חרדי וערבי. בהתאם לצבעים בתרשים של חמש הקטגוריות (התרשים השני בפוסט הזה), להלן ממוצעי שיעורי ההצבעה לרשימות השונות בכל אחת מהקטגוריות שבחר המחשב. ניתן להבחין בכך שההפרדה בין קלפיות ימין לקלפיות שמאל איננה חדה כל כך. גם בקטגוריית השמאל זוכה הליכוד למשל לתמיכה בלתי מבוטלת.
עכשיו נניח לרגע לקטגוריות, ופשוט נשרטט את שיעורי ההצבעה לרשימות ספציפיות בכל אחת מן הקלפיות. סקאלת הצבעים מנורמלת לטווח שיעורי ההצבעה שקיבלה הרשימה (משיעור התמיכה המינימלי שלה לשיעור התמיכה המקסימלי).
זה תרשים של מידת התמיכה ביש עתיד, רשימתו של יאיר לפיד. תמיכה אפסית בקלפיות החרדיות והערביות.

וזו מידת התמיכה בליכוד ביתנו בקלפיות השונות. ניתן להבחין בתמיכה סבירה אפילו בקלפיות שאפיינו קודם כקלפיות ערביות.

המפה של מידת התמיכה בעבודה דומה יחסית למפה של יש עתיד, אבל יש ריכוז של מספר קלפיות קטן יחסית שבה התמיכה גבוהה במיוחד, ואפשר להבחין בתמיכה מסויימת בקלפיות הערביות.

מידת התמיכה בבית היהודי של נפתלי בנט גבוהה מאוד במספר קלפיות מצומצם יחסית, שתואם את הקטגוריה החמישית שזיהה המחשב – זו של הקלפיות הדתיות-לאומיות.

מידת התמיכה ביהדות התורה – הקלפיות שבהן זוכה רשימה זו לתמיכה גבוהה מרוכזות כולן באזור מצומצם ומוגדר של ה"זנב" החרדי בתרשים שלנו.

לעומת יהדות התורה, בשס התמיכה דווקא פזורה על פני מרחב גדול הרבה יותר, ובשיעורים הרבה פחות אחידים. ניתן להבחין בתמיכה הנאה בשס בקלפיות של ימין לא חרדי ובקלפיות ערביות.

מידת התמיכה במרצ מתרכזת באזור קצת אחר של התרשים. גם פה אפשר להבחין בקבוצה מצומצת של קלפיות שבהן התמיכה בה גבוהה במיוחד (המגזר הקיבוצי למשל) ובתמיכה מסויימת (די ספורדית) במגזר הערבי. בעזרת החלוקה ל-5 קטגוריות שיש לנו ממקודם, ניתן לחשב ולראות שמרצ זוכה לכ11,000 קולות במגזר הערבי.
התמיכה בחדש מפוזרת בחלק מהמגזר הערבי (לא בכולו – ראו החלוקה לשבע או שמונה קטגוריות קודם לכן) ובמידה מסויימת גם בקלפיות יהודיות. אפשר לומר שחדש חזקה באותו מרחב נקודות דליל יחסית שבין הגוש היהודי לגוש הערבי. בעזרת החלוקה לקטגוריות ממקודם, ניתן לחשב שחדש זוכה לכ17,000 קולות במגזר היהודי.

עכשיו, אחרי שבדקנו את התמיכה בכמה מפלגות במפת הקלפיות שלנו, אפשר לחזור לחלוקה לחמש קטגוריות, ולשרטט הפעם את הקלפיות בערים גדולות נבחרות, באותה מערכת צירים ששימשה אותנו כל הזמן (זו של הרכיבים העיקריים).
זה פיזור הקלפיות הירושלמיות, בצביעה לפי חמש קטגוריות. אפשר להבחין בקלפיות מכל חמש הקטגוריות – ימניות, דתיות, חרדיות, שמאלניות (בכמות די מפתיעה) וגם כמה קלפיות ערביות.


זה פיזור הקלפיות בחיפה. שוב אפשר להבחין בכך שזו עיר מעורבת ויש בה גם קלפיות חרדיות.
פיזור הקלפיות בתל אביב מצומצם יותר. רובן מקוטלגות כקלפיות שמאל, יש כמה קלפיות ערביות ומה שנראה כקלפי חרדית מובהקת בודדת.

בבאר שבע פיזור הקלפיות מצומצם אף יותר ורובן קלפיות ימין או דתי-לאומי.

ונקנח בתרשים של שיעור ההצבעה בכל הקלפיות. הסקאלה כאן מנורמלת לשיעור הצבעה שבין 40% ל80%. אפשר להבחין בשיעורי ההצבעה הגבוהים במגזר החרדי, הדתי לאומי וגם בקלפיות השמאל, בעיקר באזור שראינו ש"יש עתיד" חזקה בו, וזאת לעומת שיעורי הצבעה נמוכים ב"שפיץ" הימני של התרשים שמזוהה עם הליכוד ביתנו ובזנב הנקודות של הקלפיות הערביות.

לסיכום, השתמשנו בכלים מתחום הלמידה הממוחשבת לחלוקה של הקלפיות בבחירות לכנסת לקטגוריות שונות. כך יכולנו לאפיין עד שמונה "שבטים" ישראליים שונים, חלקם מבודלים יותר (חרדים אשכנזים, ערבים לאומנים) וחלקם פחות. בדקנו כיצד הצביעו בערים הגדולות, ובמפת הקלפיות שלנו זיהינו את הפיזור שמאפיין כמה מהרשימות הגדולות. 

17 תגובות:

  1. מרתק. כל מילה מיותרת.
    בתקווה שנוכל להוסיף בקרוב את המילה 'יחד' לכותרת הפוסט.

    השבמחק
  2. הי הראל,

    אכן מאוד מעניין! כן ירבו!
    אתה יכול לומר מה הם בערך שני הצירים בתרשימים?
    אני מניח שציר ה-X זה איזושהי קומבינציה של המפלגות היהודיות החילוניות, וציר ה-Y הוא התמיכה בחרדים ובימין פחות זו בשמאל ובערבים. אבל יהיה מעניין לשמוע מה זה באמת.

    אגב, עוד נתון מעניין:
    נכון לשישי בערב,
    סך הקולות שניתנו ל-4 רשימות הימין שעברו את אחוז הרשימה: 1,758,404
    סך הקולות שניתנו ל-8 רשימות המרכז-שמאל שעברו את אחוז הרשימה: 1,765,298
    כלומר, השמאל-מרכז קיבל כמעט 7,000 קולות יותר. הוא קיבל שני מנדטים פחות בגלל הפיצול (ובאדר-עופר).
    אגב, אם מצרפים לקולות הימין את עוצמה ואת אמנון יצחק, ולמרכז-שמאל את עלה ירוק, ארץ חדשה, הירוקים ודע"מ, מתקבל יתרון של כ-4,000 קולות לימין. (את שאר המפלגות שלא עברו, כמו אמסלם והישראלים, לא ברור לי איך לסווג).

    השבמחק
    תשובות
    1. מעניין - לא הערכתי שבאדר-עופר יכול כל כך להשפיע, אם כי בסיטואציה של כמעט תיקו כנראה שכן.
      אני אתן להראל לענות בגדול, רק אעיר שלא נכון לדעתי לסווג את עלה ירוק כשמאל - הם התחברו עם התנועה הליברלית ופרסמו מצע כלכלי מאוד ימני כלכלית, מה שהביא להם מצביעים ימניים כלכלית אידיאולוגים, שהם לאו דווקא מצביעי שמאל.
      אמסלם לדעתי הולך חצי-חצי. היו לו מצביעים חרדים מחד ומצביעי שמאל מתחכמים מאידך.

      מחק
  3. המצע של עלה ירוק באמת ימני מאוד כלכלית, אבל אני בספק אם אפילו עשירית מ-8,000 החיילים שהצביעו להם, למשל, יודעים בכלל מהו המצע הזה.
    (מצד שני, זה גם לא הופך את החיילים האלה לשמאל-מרכז).

    השבמחק
    תשובות
    1. 8000 קולות חיילים לעלה ירוק?? זה סקופ היסטרי.

      מחק
  4. I don't remember the last time I enjoyed reading political analysis (Nate Silver included).

    השבמחק
  5. מצויין.
    נראה מתבקש להציג את הקלפיות לפי "צבעי השבטים" גם על גבי מפה גיאוגרפית - של המדינה ושל ערים מסויימות. זוהי דרך הצגה דו-מימדית מעניינת שתאפשר לראות את ה"גיאוגרפיה של השבט".

    השבמחק
  6. הראל,

    תודה על הויזואליציה המעניינת. הבנתי את הרעיון העיקרי אבל לא הבנתי - מה נמדד בשני הצירים?

    השבמחק
    תשובות
    1. הראל יכול לתקן או להעיר בנוסף - אני אתערב כדי לא להשאיר את קוראי הבלוג כשתאוותם בידם :-)
      אאמ"נ, לצירים אין משמעות משל עצמם. כל קלפי היא נקודה במרחב וקטורי 32-מימדי (אחוז ההצבעה לכל מפלגה). המישור המוצג הוא המישור שאם מטילים את הנקודות ה32-מימדיות עליו מאבדים הכי פחות אינפורמציה. הצירים לא נקבעים מראש אלא הם מה שיצא.
      עם זאת, אפשר לדעתי לתת פרשנות מסויימת לצירים - ציר הX הוא מידת הבידוד של הקלפי, וציר הY הוא משהו קרוב לאוריינטציה פוליטית (התיאוריה שלי בפוסט התגובה: http://sadnadearaa.blogspot.com/2013/01/blog-post_24.html)

      מחק
  7. נ.ב. מסקרנות - באיזו תוכנה השתמשת?

    השבמחק
  8. שלום,

    הצגה חביבה וברורה.
    אני חושש שיש כאן פרשנות לא מבוססת מספיק בגרף האחרון שעוסק בשיעור ההצבעה.
    הטענה היא שקלפיות עם שיעור הצבעה נמוך הן קלפיות ליכוד.
    אני כופר בכך.
    העובדה היא שבקלפיות עם שיעור הצבעה נמוך יש אחוז גבוה לליכוד (לא ההפיך). למה זה חשוב? כי אולי אילו דווקא מצביעי שמאל שלא יצאו להצביע ולכן הקלפי הזו היא של הליכוד?
    יש דרך להוכיח או להפריך את התיזה הזו?

    אורי

    השבמחק
    תשובות
    1. כאמור - אשאיר להראל לענות את דעתו.
      אבל אני אישית לא מסכים, כלומר אני מסכים עם הראל. כמובן שהתיאוריה שלך אפשרית, ואין דרך להפריך אותה רק בעזרת הנתונים האלו. אבל צריך לקחת בחשבון שהיתה קבוצת קלפיות אחרת עם אחוז גבוה של הצבעה לשמאל ואחוז הצבעה גבוה. יש שתי אפשרויות להסביר את התמונה:
      1. בקבוצת קלפיות אחת מצביעי ליכוד הצביעו כרגיל ומצביעי שמאל לא יצאו להצביע, ובקבוצת קלפיות אחרת מצביעי שמאל יצאו להצביע בהמוניהם.
      2. בכל קלפי אחוז ההצבעה לא משפיע על התוצאה בקלפי; בקלפיות הליכוד אחוז ההצבעה היה נמצוך ובקלפיות השמאל גבוה יותר.
      אני חושב שהתער של אוקם מטה לאפשרות 2. אבל כאמור, אין הוכחה חותכת בנתונים עצמם.

      מחק
    2. טוב, אחרי שחשבתי על זה קצת מחקתי עכשיו כל מה שהתכוונתי לחשוב. אני חושב שהפרשנות הנכונה יותר היא שבקלפיות שבלאו הכי יש בהן באופן "טבעי" (בגלל ההעדפות הפוליטיות של האוכלוסייה המקומית) נטייה לליכוד, שיעור ההצבעה היה נמוך. כמו שהקלפיות החרדיות לא "הפכו" חרדיות רק כי היה בהן שיעור הצבעה גבוה, אלא בגלל ההעדפה האמיתית של האוכלוסייה שם (וכל הפוסט הזה ממחיש לדעתי בצורה משכנעת עד כמה אפשר לדבר על פרופיל הצבעה בקלפי, והפרופיל הזה לא נקבע מאחוז ההצבעה בה), גם הקלפיות הערביות לא הפכו כאלה רק בגלל שיעור ההצבעה הנמוך. הגרירה חזקה יותר בכיוון פרופיל ערבי => שיעור הצבעה נמוך מאשר ההיפך. כך גם לדעתי קלפיות עם נטייה לליכוד => שיעור הצבעה נמוך היא גרירה חזקה יותר מאשר בכיוון ההפוך. זה סובייקטיבי, אבל לדעתי הכתם הכחול הברור מאוד בפינה הימנית של התרשים ממחישה את זה יפה. בקלפיות עם פרופיל ליכודי (שוב: איפיון הפרופיל נעשה ללא תלות בשיעור ההצבעה) יש מעט מאוד קלפיות עם שיעור הצבעה גבוה.

      מחק
  9. הפוסט העצוב שלי על 12 שבטי ישראל - http://eitan99.wordpress.com/2010/10/14/

    השבמחק
  10. מאד יפה!
    אפשר לשאול באיזה תוכנה השתמשת?

    השבמחק
  11. שילוב של Numerical python, matplotlib, sklearn, pandas.

    השבמחק