Reaktor

Statisztikai alapon lassan a testtel!

Neve elhallgatását kérő, természettudományos területen aktív olvasónk válaszát közöljük a tegnapi, Benford-törvénnyel kapcsolatos cikkünkre. Ő amellett érvel, hogy a törvény az általunk bemutatott esetekben félrevezető lehet.

inverted.png

A Benford-törvény az olyan adatsorokról szól, amikor sok számot veszünk fel, és azokat a tízes számrendszerben reprezentáljuk. Azt látjuk, hogy az első számjegy gyakran 1-es, és nagyon ritkán 9-es. Közte meg folytonosan csökken a valószínűség. A jelenség csak akkor lép fel nagy bizonyossággal, ha olyan adatsort nézünk, ami sok nagyságrenden át vesz fel értékeket. Ilyenkor egyszerűen arról van szó, hogy ha a logaritmikus skálán nagyjából egyenletes az eloszlás néhány nagyságrenden át, akkor ha ezt levetítjük az első számjegyre, akkor a log függvény miatt feltétlenül felülreprezentált lesz az 1-es.

De ez az egész csak akkor működik jól, ha tényleg több nagyságrenden át kb egyenletes a log skálán az eloszlás. Ugyanis szükséges az, hogy az egyes számjegyekhez rendelt értékeket különböző nagyságrendekből gyűjtsük össze. Tehát legyenek értékek mondjuk 1 és 10 közöttről is, de ugyanúgy 10 és 100 közöttről és 100 és 1000 közöttről is. Korlátozott különbségű értékek esetén, vagy akár csak 1 nagyságrendet átölelő értékeknél nem igazán alkalmazható a törvény. Vagy ha van is nyoma az egésznek, az nem lesz annyira pontos.

A statsguyphd által közölt adatok valószínűleg helyesek, azonban az értelmezésükkel számos probléma van:

  • Egyik, és legfontosabb, hogy a választókörzetek nagysága nem fog át több nagyságrendet. Megyei szinten biztos nem. Emiatt eleve nincs okunk feltételezni, hogy a Benford-törvény megvalósul.
  • Másik, hogy kis adatszámú sorozatokat néztek (bár lehet, hogy ez más típusú adatnál elegendő lehet, ezt nem tudom)
  • Harmadik, hogy nincs pontos kimutatás arról, hogy más megyékben hogyan néznek ki az adatok. Első ránézésre ez 24 kiragadott grafikon 5 megyéből. Ennél jóval több megye van az USA-ban. És pontosabban kellene tudni számos tényezőt, hogy megbecsüljük az ilyen adatsorok előfordulásának valószínűségét. Számos tényezőt a szavazókörök nagyságairól, a szavazatok eloszlásáról. Illetve össze kell hasonlítani korábbi évek adataival.

A számadatokat én nem kezdtem el részletesen elemezgetni. Az elemzéshez azt kell megnézni, hogy egy adott megyében (vagy államban) eleve hogyan oszlik el a szavazókörök száma, és hogy a demográfia milyen. Vagyis hogy a Biden-re meg Trump-ra szavazók azonos vagy különböző méretű szavazókörökből jönnek-e. Ismeretes, hogy a demográfiai eloszlás erősen különbözik (nagyon-nagyon leegyszerűsítve: Trump szavazók vidéken, Biden szavazók a városokban), így nem meglepő, ha a megyékre lebontott statisztikák az eloszlásnak más részeit érzékelik.

Mások már nekiálltak a pontosabb elemzésnek. Egy konkrét magyarázat megtalálható itt.

Ez Allegheny megye adatait mutatja, amit statsguyphd is elemzett. Itt látszik, hogy miből van a probléma: a Bidenre érkezett szavazatok olyan körökből jöttek főként, amik nagysága egy nagyságrenden belül van. Így a Biden-re jött szavazatok többsége mondjuk 150 és 550 közötti pontokat fog hozni. Akkor nyilván dominálni fognak az első számjegyben az 1 és 5 közötti értékek, mondjuk nagyon gyakori lesz a 2 és a 3. Semmit nem jelent. A Trumpra érkezett szavazatok nagy része meg a kisebb körökből jön, mondjuk 200 vagy 300 alattiakból. Itt a 100 alattiak hozhatnak egy olyan adatsort, ahol az első számjegyek eloszlása nagyjából stimmelhet az 5-9 közötti számokra. Az 1,2,3-nak mondjuk így is felülreprezentáltnak kell lennie, és a konkrét megyénél ezt is látjuk:

allegheny.png

Tehát legalábbis Allegheny megye adatait teljesen jól meg lehet magyarázni. Trump adatai jobban illeszkednek, mert az ő számai már eleve két nagyságrendből jönnek (10 és 100, illetve 100 és 1000 közöttről), és nem csak egy nagyságrendből.

Tehát ez volt Allegheny. És akkor ugyanezt az elemzést meg kell ismételni az összes megyére. Véleményem szerint hasonló magyarázatokat fogunk találni. Ezek a magyarázatok talán meg is fognak jelenni egymás után.

A neten egyébként lehet találni számos olyan adatsort, amelyik mindenféle irányú kitéréseket tartalmaznak. 2012-ben és 2016-ban pl Trump adatai mutattak nagy kilengést Iowa-ban és Mississippi-ben, és ez nem jelentett akkor se csalást.

Ha az országos adatokat összegezzük, akkor pedig nagyobb eséllyel fog kijönni a statisztika. Vélhetően azért, mert az egyes kis eltérések kiegyenlítik egymást. Minél több mindent átlagolunk, annál valószínűbb, hogy a végén valami elméleti jóslat stimmelni fog. Idén konkrétan stimmel az országos átlag az USA-ban.

Ez lehet attól, hogy különböző államok különböző megyéiben nem ugyanaz a felállás van, mint a fent említett Allegheny-ben. Az egyes eltérések kioltják egymást.

Az amatőr elemzésen túl, amennyire rövid olvasgatás alapján látom, a tudományos cikkek NEM javasolják, hogy ezt  a módszert alkalmazzák. Konkrétan:

Ezt írják:

,,It is not simply that the Law occasionally judges a fraudulent election fair or a fair election fraudulent. Its “success rate” either way is essentially equivalent to a toss of a coin, thereby rendering it problematical at best as a forensic tool and wholly misleading at worst.’’

- Publius PhD

süti beállítások módosítása