Reaktor

Statisztikai alapon valami nagyon nincs rendben az eredményekkel

Egy névtelenséget kérő amerikai statisztikus elemezte a gyanúsabb választói körzetek eredményeit, ahol Joe Biden látványosan elhúzott, és tegnap éjjel részletesen publikálta az eredményeit. Elmagyarázzuk, bemutatjuk és le is ellenőrizzük ezeket!

 

Háttértörténet

Egy inaktív Twitter-fiók, @statsguyphd elkezdett a választások után Benford-törvénnyel vizsgált anomáliákat posztolni, nem csak az eredményeket, hanem a korai módszereit, amit itt elolvashatsz.

Ekkor még egy kicsit ködös volt, hogy pontosan mit és hogy dolgozott fel, de megígérte, hogy részletesebben és hitelesebben közzé fogja tenni. Ezt meg is tette ma éjjel és ezen a GitHub linken mindenki számára elérhető.

Erről részletesen majd később, előbb ismerkedjünk meg a módszerrel.

 

A módszer: Benford-törvény

Nem ismeretlen azoknak, akiket érdekel a matematika, azon belül is a meghökkentőbb alkalmazási területei, például választások tisztaságának ellenőrzése anélkül, hogy megfigyelőket kellene az adott országba küldeni.

2018-as magyarországi országgyűlési választások után, már csak a valasztas.hu emlékezetes átmeneti leállása okán is felmerült a csalás gyanúja, és az Index akkor alkalmazta ezt a módszert a rendelkezésre álló adatokra:

"A legsúlyosabb vádat, a rendszerszerű csalás lehetőségét azonban alaposan ellenőrizhetjük statisztikai alapon is. A választási csalások gyanújánál érdemes például alapból megnézni a Benford-törvény alapján a számok előfordulásának gyakoriságát. A számjelölő rendszereink nyelvtani szerkezetéből adódóan a számok előfordulási gyakorisága nem azonos, ha átírogatják a számokat, akkor ennek az anomáliának meg kell látszania a szavazóköri eredményeknél is." 

"Ha megnézzük az utolsó számjegyet a Fideszre leadott szavazóköri szavazatok számánál és az ellenzéki pártokra leadottaknál, akkor alapvetően azonos mintázatot kapunk, ami önmagában elég erősen kizárja, hogy komolyan belenyúltak volna választásba."

Az Index akkor nem talált csalásra utaló jelet a statisztikai analízis alapján, az eredményük gyönyörűen illeszkedik a várt eloszlási görbére:

"Ha csak az első számjegyek eloszlását vizsgáljuk meg, ott se látunk jelentős anomáliát"

Aki jobban szeretné érteni, annak ez a magyar Youtube videó részletesen elmagyarázza a jelenség hátterét:

Tudomány! Ha mindenkinek sikerült ezen a ponton elég mélyen elmerülnie a témában ahhoz, hogy bízzon benne,  akkor folytassuk Amerikában!

 

Statsguyphd eredményei 

Statsguy 5 államból közölt eredményeket, nem a teljes államot vizsgálta, hanem bizonyos körzeteket. 2 esetben úgy tűnik, hogy minden rendben - egyfajta kontroll -, míg 3 esetben igen jelentős anomáliára bukkant.

Kezdjük az egyik leglátványosabbal, Chicagóval:

screen_shot_2020-11-06_at_9_03_23.png

Amíg Trump eredményei követik az eloszlást, Biden esetében egyértelmű az eltérés.

Távolabbról megvizsgálva a chicagói eredményeket az is látszik, hogy a harmadik utas jelöltek is illeszkednek, kizárólag Biden lóg ki:

chicago.png

(N = szavazókörzetek száma, amikben a jelöltre jött szavazat)

Hasonló a helyzet Milwaukeeban, azzal az extra poénnal, hogy a beírt jelöltek (például protest szavazat, "Nagy Árpi") is követik a várt eloszlást, csak Biden nem:

milwaukee.png

Ráadásnak egy pennsylvaniai körzet, ahol a Benford-törvény által várt leggyakoribb számjegy esetében látható  súlyos deficit Biden eredményeiben:

allegheny.png

Allegheny, Pennsylvania

Végezetül két körzet, ahol a módszer szerint minden rendben ment, vagy ha csaltak is, az nem lehetett annyira tömeges, hogy az eloszlás ne térjen el látványosan a várttól, Georgiából és Floridából:

fulton.png

Fulton megye, Georgia

miami_dade.png

Miami-Dade megye, Florida

 

Konklúzió

Ha elfogadjuk, hogy @statsguyphd nem akar minket átverni, akkor a fenti eredmények alapján az a konklúzió, hogy a Benford-törvényt alkalmazva a publikált választási eredményeken, Joe Biden esetében olyan eltérések tapasztalhatóak a fenti három körzetben, amelyek jelentős csalásra utalnak.

Van okunk megbízni egy látszólag pedáns, névtelenségbe burkolózó nerdben?

Amennyiben megbízol, köszönjük a figyelmed, oszd meg a cikket, like, subscribe, miegyéb!

 

kor1.gif

 

Ha nem bízol, vagy csak biztosra akarsz menni, olvass tovább!

 

GitHub csomag vizsgálat 

Itt található: https://github.com/cjph8914/2020_benfords

(Saját mirror az általunk vizsgált változatból.)

screen_shot_2020-11-06_at_11_46_50.png

Töltsük le és tömörítsük ki. Tartalom:

screen_shot_2020-11-06_at_11_48_17.png

Data mappa:

Adatok három, fent bemutatott körzetből: Chicago, Fulton megye és Allegheny. XLS és CSV fájlok, összesen hat.

Az XLS fájlok az adott körzet választási irodáiból származnak:

screen_shot_2020-11-06_at_12_01_51.png

A CSV fájlokat @statsguyphd csinálta ezek alapján, egységes formátumban, amit a feldolgozó scriptje elfogad:

screen_shot_2020-11-06_at_12_01_17.png

Images mappa: a cikkünkben is szereplő képek.

Valamint a gyökérben öt "ipynb" fájl az öt körzetről. Értelemszerűen a csomagban csak háromhoz van - jelenleg - adat. Ezek munkafüzetek, amiket a Jupyter Notebookkal tudunk használni.

 

Jupyter Notebook

A munkafüzet betöltéséhez látogassunk el a Jupyter oldalára, tekerjünk le a Jupyter Notebookhoz, majd kattintsunk a "Try it in your browser"-re.

Ezután "Try Classic Notebook", amire elindul egy új munkamenet inicializálása. (Ez nem biztos, hogy elsőre sikerül, attól függ, hogy van-e az oldalnak szabad kapacitása, minden munkamenet egy virtuális gép 8GB memóriával. Az is lehet, hogy a munkamenet időközben / inaktivitás miatt megszakad).

Ha sikerült, egy új munkamenetben leszünk:

screen_shot_2020-11-06_at_12_15_16.png

 

Itt "File" => "Open", amire egy új böngészőfülön megnyílik a filekezelő:

screen_shot_2020-11-06_at_12_15_36.png

Itt a jobb felső sarokban kattintsunk az "Upload"-ra, majd válasszuk ki a "Chicago_Wards_Precincts_Benfords_Data.ipynb" fájlt. Ezután egy kék "Upload" gombbal meg kell erősíteni a lépést, ugyancsak jobbra fent. 

Ugyanígy töltsük fel a "chicago_dataexport.csv" fájlt a "data" mappából.

Ha minden jól ment, ez látszik a filekezelőben:

screen_shot_2020-11-06_at_12_16_17.png

Ezután kattintsunk a "Chicago_Wards_Precincts_Benfords_Data.ipynb" fájlra, amire egy új fülön megnyílik a munkafüzet:

screen_shot_2020-11-06_at_12_16_47.png

 

Itt egy teendőnk van még, a második cellába kattintva írjuk át az alapértelmezett input file nevét "dataexport.csv"-ről "chicago_dataexport.csv"-re:

screen_shot_2020-11-06_at_12_17_48.png

 

Majd kattintsunk az első cellára, és utána a "Run" gombra a menüben. Minden "Run"-ra kattintásra lefut egy cella, és ugrik a fókusz a következőre, amíg a legvégén a script el nem ér a grafikonok kirajzolásához.

Ha minden jól ment, akkor a bejövő adatokból a script a cikkben is látott chicagói grafikont gyártja le, sikeresen reprodukáltuk a várt eredményt!

 

De mit csinál a script? Biztos azt, ami Benford törvénye?

Első ránézésre azt:

screen_shot_2020-11-06_at_12_29_42.png

Második pillantásra a script rövid, no-nonsense, és nincs benne olyan IF ág, hogyha Biden, akkor insert torzítás.

Az "ipynb" fájlt megvizsgálva sincs eldugva semmi, vannak benne beágyazott képek, de azokat nem használja adatforrásnak, amikbe cseles módon el lenne valami dugva. A script a munkafüzetben teljes valójában, meztelenül előttünk van.

Egy helyen lehetünk még megvezetve, ha @statsguyphd belenyúlt az input adatsorba. 

 

Adatok ellenőrzése

Most, hogy értjük, láttuk és tapasztaltuk, hogy a CSV fájlból szerzi a az adatokat a script, vessük össze a CSV tartalmát a hivatalos, választóiroda által publikált Excel fájllal.

Ezt mellékeli a csomagban, de ne higgyünk neki, töltsük le saját példányt a hivatalos forrásból.

screen_shot_2020-11-06_at_12_41_31.png

Itt a "Submit"-ra kattintást követően válasszuk az XLS letöltését, kis várakozás után elkészül és megkapjuk. A kapott XLS mérete - a mi vizsgálatunkban - egyezik azzal, amit @statsguyphd mellékelt, tehát jó úton járunk.

Ezután szúrópróba szerűen összevethetjük a CSV és az XLS számait. Például a 35-ös választókörben:

screen_shot_2020-11-06_at_12_43_29.png

screen_shot_2020-11-06_at_12_43_55.png

Egyezik!

Ismételhető ad infinitum, egyezik. A másik két körzethez a link a hivatalos forráshoz az "ipynb" fájl elején található a kiváncsiaknak.

Működik a Benford-törvény választási csalások vizsgálatára? 

Elvileg igen. Röviden.

Hosszabban: nem csak két jelöltről van szó, hanem akár 6-ról, és a lehetséges torzító tényezők nincsenek hatással rájuk sem, illeszkednek. Az ő illeszkedésük a legerősebb érv arra, hogy alkalmazható az eredményekre a törvény, még az olyan kiszámíthatatlan eseteknél is működik, mint a protest szavazatok.

Egyik olvasónk azzal érvel, hogy a Benford-törvény az itt bemutatott eseteknél félrevezető lehet. Ha idáig eljutottatok, mindenképpen olvassátok el! Közben az Azonnali.hu-n is megjelent egy magyarázat a Benford-törvénnyel bemutatott anomáliákra Karsánszky Ferenc közgazdásztól.

Konklúzió

1. A script a Benford-módszert implementálja
2. A scriptben nincs elrejtve Biden-specifikus torzítás
3. A script által használt input adatok megfelelnek a hivatalos számoknak
4. A script az input adatokkal reprodukálja a cikk elején látott képeket.

5. A fenti eredmények alapján az a konklúzió, hogy a Benford-törvényt alkalmazva a publikált választási eredményeken, Joe Biden esetében olyan eltérések tapasztalhatóak Chicagóban, amelyek jelentős csalásra utalnak.


Meggyőzött? Van kifogásod? Kövess minket a Facebookon és tedd szóvá!

Érdekel, hogy  mi lesz a vége? Akkor kövesd az élő közvetítésünket!

Ha pedig ellenőrizted, és úgy gondolod, megalapozottan, hogy a módszer itt nem használható, írd meg nekünk:  szerkesztoseg@reakt.hu.

Reaktor

Facebook

süti beállítások módosítása