sunnuntai 23. toukokuuta 2021

Benfordin jakauma

Jotakin tilastodataa katsellessa tuntuu usein siltä, että datassa on ykkösellä alkavia lukuja eniten. Loppupään lukuja 7, 8, 9 on ensimmäisenä numerona huomattavasti vähemmän. Esimerkiksi Terveyden ja hyvinvoinnin laitoksen verkkosivuilta on saatavissa koronavirustartunnat viikoittain ja päivittäin pandemian koko ajalta. Näiden ensimmäisistä numeroista tehdyt jakaumat näyttävät seuraavilta:


Viikoittaisten tartuntojen ensimmäisen numeron jakauma

 

Päivittäisten tartuntojen ensimmäisen numeron jakauma

Samaan tapaan voidaan tarkastella Suomen kuntien väkilukuja, pinta-aloja ja väentiheyksiä. Sama ilmiö näkyy näissäkin (keltaiset pylväät, mustat pisteet viittaavat alempana esiteltävään Benfordin jakaumaan):

Kuntien väkilukujen ensimmäisen numeron jakauma

Kuntien pinta-alojen ensimmäisen numeron jakauma

Kuntien väentiheyksien ensimmäisen numeron jakauma



Ykkösten osuus näyttäisi olevan 30 prosentin paikkeilla, kakkosia on 15-20 prosenttia, kolmosia 10-15 prosenttia, nelosia kymmenkunta prosenttia, loppuja alenevasti muutamia prosentteja. Vaihtelu on melko suurta.

Ilmiöön kiinnitti huomiota amerikkalainen sähköinsinööri ja fyysikko Frank Benford julkaisussaan The Law of Anomalous Numbers vuonna 1938. Hän ei tosin ollut ensimmäinen, sillä jo 1881 oli kanadalainen astronomi ja matemaatikko Simon Newcomb havainnut logaritmitaulujen alkupään olevan kuluneempia kuin myöhemmät sivut ja päätellyt tästä laskuissa tarvittavien lukujen yleisemmin alkavan alkupään numeroilla.

Julkaisussaan Benford esitti jakauman, jota sittemmin on alettu kutsua Benfordin jakaumaksi. Todennäköisyys, että luvun ensimmäisen numero on $d$, on \[ \log_{10}\Bigl(1+\frac{1}{d}\Bigr), \quad d = 1,2,3,4,5,6,7,8,9.  \] Prosentteina todennäköisyydet ovat 30.1, 17.6, 12.5, 9.7, 7.9, 6.7, 5.8, 5.1 ja 4.6. Mustat pisteet yläpuolella olevissa kuvissa esittävät Benfordin jakaumasta laskettuja arvoja.

Äkkiseltään tulos tuntuu ihmeelliseltä. Eikö olisi luonnollisempaa, että ensimmäinen numero jakautuisi tasaisesti, ts, jokaisen numeron todennäköisyys olisi noin 11 %? Näinhän käy, kun tarkastellaan esimerkiksi väliltä $]0,1[$ tasaisesti arvottuja satunnaislukuja. Tilastodata ei tosin ole satunnaislukuja, ja tulos riippuu myös siitä, miltä väliltä tasaisesti jakautuneet satunnaisluvut arvotaan.

Useista tilastodatoista on laskettu ensimmäisen numeron jakaumia, ja erittäin usein nämä noudattavat Benfordin jakaumaa ainakin kohtuullisella tarkkuudella. Miksi näin käy?

Ensimmäisen numeron jakauma voidaan laskea mistä tahansa lukujoukosta, ei yksinomaan jostakin tilastodatasta. Sadan ensimmäisen Fibonaccin luvun ensimmäiset numerot näyttävät noudattavan Benfordin jakaumaa kohtuullisen tarkasti. Sama koskee väliltä $]0,\pi/2[$ otettuja sataa tangenttifunktion arvoa, joista otetaan ensimmäinen merkitsevä (nollasta eroava) numero, mutta ei vastaavasti muodostettuja sinifunktion arvoja.

Fibonaccin lukujen ensimmäisen numeron jakauma

Tangenttifunktion ensimmäisen numeron jakauma

Sinifunktion ensimmäisen numeron jakauma


Ilmiön syy alkaa paljastua tarkastelemalla kakkosen (tai yhtä hyvin monen muun luvun, vaikkapa kolmosen) potensseja. Tuhannen ensimmäisen kakkosen potenssin ensimmäiset numerot noudattavat täydelleen Benfordin jakaumaa:

Kakkosen potenssien ensimmäisen numeron jakauma


Alkaa vaikuttaa siltä, että eksponentiaalinen kasvu jotenkin liittyy Benfordin jakaumaan. Tämä on kuitenkin hieman hätäinen huomio: tarkasteltavia lukuja voidaan nimittäin jokaista erikseen skaalata 10:n potensseilla ilman, että ensimmäinen (merkitsevä) numero muuttuu. Jakaumakaan ei tällöin muutu.

Tarina siis on monimutkaisempi. Tyydyn viittaamaan Rashida Hakimin blogikirjoitukseen Putting #1 First – Deriving Benford’s Law. Huolellinen esitys ja lukiotiedoilla luettavissa, vaikka tietty matemaattinen kypsyys saattaakin olla tarpeen.

1 kommentti:

Anonyymi kirjoitti...

Varmaankin myös 10-,11-,12-,13- ja 14-alkuisia on yhteensä enemmän kuin 15-,16-,17-,18- ja 19-alkuisia yhteensä?
Onhan tähän alkuperäiseen ongelmaan myös jonkinlainen "maalaisjärkiperustelu": jos ajattelee, että tilastoa kokoaa alusta lähtien luku kerrallaan, niin jossain vaiheessa jonkun tilastomuuttujan arvon lukumäärä ensimmäisenä tavoittaa luvun 100 (alkaa ykkösellä!). Sitten, kun tilasto on koottu valmiiksi, ja jos sen suurimmat luvut ovat vaikkapa viisinumeroisia, niin näiden joukossa on puheena olevan "maalaisjärjen" mukaan eniten ykkösellä alkavia ja vähiten yhdeksiköllä alkavia, tätä loppupäätä ei yksinkertaisesti ole ehtinyt kertyä yhtä paljon kuin alkupäätä.
No, eihän tämä selitä esimerkiksi kolminumeroisten 1-alun voittoisuutta - vai selittäisikö? Alkuosaanhan niitäkin kertyy koko ajan lisää kaksinumeroisten kasvaessa.
Heikki H.