Pähkinänkuoressa: pieniä muutoksia näkyy aina, pelkästään satunnaisvaihtelun vuoksi. Jotta tunnistetaan muutokset, jotka ovat niin suuria, että niiden syntyminen sattumalta on riittävän epätodennäköistä, käytetään tilastollista testausta. Tilanteessa jossa mitataan useita asioita, muodostuu useita hypoteeseja ja tilastolliset rajat pitäisi korjata sen mukaan. Tätä kuitenkin tehdään hyvin harvoin.
Sama vielä (suunta antavin) numeroin. Abstraktin mukaan otos oli n=47, joten pienin mahdollinen empiirinen p-arvo (r=0) on silloin p' = (r+1)/(n+1) ~= 0.02. Toki paljon hienostuneempiakin tapoja p-arvon määrittämiseen on ja silloin voidaan saada pienempiä arvoja, mutta samoissa suuruuksissa kuitenkin liikutaan.
Abstrakti listaa 12 verenkuvasta katsottua asiaa, ilmeisesti niitä oli enemmänkin. Ja tässä päästään yleiseen ja vaikeaan ongelmaan: todellisuudessa testattuja hypoteeseja on usein vielä huomattavan paljon enemmän, koska siinä vaiheessa kun data on käsissä ja siitä piirretään eka käppyrä, voivat tutkijat rajata mielessään pois jo läjäkaupalla hypoteeseja ja sama jatkuu raportin kirjoittamiseen asti. Raportoidut hypoteesit ovat usein huolella datan pohjalta valikoitu joukko, joka on vastoin p-arvoon perustuvan merkitsevyystestauksen lähtökohtia.
Kumminkin, jos nyt otetaan se 12 hypoteesia ja tehdään simppeli Holm-Bonferroni korjaus yleisesti käytetylle merkitsevyysrajalle a=0.05, niin saadaan a' = a/12 ~= 0.004. Eli raja on kertaluokkaa pienempi kuin pienin mahdollinen p-arvo, eli toisin sanoen näistä lähtökohdista on teoriassakaan mahdoton saada merkitseviä tuloksia, ja vielä reilulla marginaalilla. Muitakin korjauksia kuin Holm-Bonferroni on, mutta tässä tapauksessa on kuitenkin perusteltua kontrolloida tiukkaa FWER-virhettä, joten kovin paljon löyhempään rajaan ei voida päätyä.
Nämä nyt olivat toki vain esimerkinomaisia laskelmia, mutta minusta kuitenkin kertovat ihan hyvin ongelman luonteesta. Pieneltä datalta ei saa kysyä monia kysymyksiä, koska silloin ei voida tietää onko vastaus todellinen vai sattuman aiheuttama.
Ko. tutkimus oli hyvä generoimaan uusia hypoteeseja testattavaksi ja olisikin perusteltua järjestää uusi tutkimus, jossa tutkitaan vain yhtä hypoteesia (vaikutusta tulehduksiin) ja päätetään se tarkasti etukäteen. Tällöin monihypoteesiongelmia ei ole. Toinen vaihtoehto olisi tehdä samankaltainen tutkimus luokkaa 1000 ihmisille, jolloin siitä voitaisiin jo tehdä tilastollisesti luotettavia päätelmiä.
Tässä vielä linkki artikkeliin, joka yleensä nostetaan esille kun näistä ongelmista kirjoitetaan:
http://www.plosmedicine.org/article/info:doi/10.1371/journal.pmed.0020124