Saman testin yhteydessä saisi myös kirjattua avoimet maistokommentit, joista selviää - jos siis eroja ylipäänsä löytyy - korostaako joku mylly enemmän cremaa, hedelmää, happoa, makeutta, tms...
Eikös tämmöiset kommentit olisi vähän hankalia tulkita? Maistelukertoja on kuitenkin paljon, joten siitä tulisi aika pitkä liuska. Jotenkin tuntuisi että niistä lähinnä näkisi mitä termejä ihmiset keksivät käyttää ja missä vaiheessa ne kyllästyvät kirjaamaan samoja asioita uudelleen ja uudelleen.
Tämänkaltainen testi olisi vielä kohtalaisen helppoa järjestää. Saatujen tulosten perusteella voi tehdä uusia hypoteeseja ja miettiä pitäisikö järjestää toinen erä, jossa voisi sitten testata esim. eri myllyjä ristiin eri annostusmäärillä tms. Nämä ovat kuitenkin mielestäni vasta sitten se second step.
Näin minäkin ajattelisin. Jos haluaa tutkia yhtä kysymystä, niin sitten voi vielä samana iltana tai myöhemmin järjestää uuden maistelun, vain kahdella myllyllä.
Mitenkään väheksymättä mittalaitteiden tarkkuutta (=maistajia) absoluuttisten pisteiden antamista tulisi välttää näillä testimäärillä viimeiseen asti. WBC kisoissa shotit pisteytetään makutuomareiden toimesta, mutta se on aika kova koulu että kyseiseen pisteyttäjän asemaan pääsee. Meidän tilanteessa ei olisi (mielestäni) toivoakaan että eri maistajien pisteet saataisiin vähänkään vertailukelpoisiksi (edes saman maistajan eri maistelukertojen välillä) vaikka touhua harjoiteltaisiin viikko etukäteen.
Asiaa mietittyäni pisteytys on kyllä yhä mainio menetelmä, siitä ei pääse yli eikä ympäri. Mutta pisteytyksen tekeminen on vaikeaa, siitäkään ei pääse yli eikä ympäri.
Jos meillä olisi WBC-tuomareita, niin silloin voitaisiin maistella vaan tuotoksia satunnaisista myllyistä. Maistelut olisivat riippumattomia ja niiden pohjalta olisi helppo johtaa meitä kiinnostavia tuloksia. Saman myllyn saamia pisteitä vertaamalla näkisimme, että WBC-tuomarit ovat kannuksensa ansainneet ja pisteyttävät samanlaista espressoa samoin pistein.
Nyt maistajat tulevat kuitenkaan olemaan alle WBC tason, ehkä jopa merkittävästi.
On totta, että kaikista helpoin on maistaa kahta rinnakkain tai etsiä poikkeavaa 2+1-joukosta. Tällaisen järjestelyn varjopuoli on se, että voidaan tehdä lähinnä yksinkertaisen hypoteesin testausta, eli tulokset eivät sano kovinkaan paljon. Vertaileva maistelu ei anna yhtään tulkinnan varaa, vaan päinvastoin: jos pitää vaikka valita kahdesta parempi, niin se ohjaa löytämään makueron ja pitämään jompaa kumpaa parempana. Mahdollisuus tasapeliin auttaa jonkun verran, mutta silloinkin koeasetelma ohjaa tuloksia aika vahvasti ja vaikka mylly X voittaa myllyn Y pistein 10-0, niin tiukasti ottaen ei voida sanoa että se on merkittävästi parempi, vaan pelkästään havaittavissa määrin.
Kompromissi näiden välillä olisi järjestely jota olen ehdottanut: maistellaan 3-4 shottia kerrallaan jotka tulevat tuntemattomista ja mahdollisesti samoista myllyistä (mutta ei tietenkään uutoista), ja pisteytetään ne hyvin yksinkertaisesti, esimerkiksi asteikolla 1-5 joista jokaiselle on sovittu sanallinen kuvaus. Pisteytettäviä asioita voi olla muutama. Kun shotteja on enemmän edessä, niin erojen havaitseminen helpottuu ja pisteitä voi kalibroida ainakin kyseisen satsin sisällä. Ja periaatteessa pisteet voisi myös tämän jälkeen analyysissa normalisoida satsien kesken. Toimisiko tämä kokemattomilla maistajilla? Siitä minulla ei ole hajuakaan, koska en ole koskaan järjestänyt espressomaistajaisia. Alkon (aloittelijoille tarkoitetut) viinipruuvit muistaakseni toimivat suunnilleen tähän tyyliin, mutta ne nyt eivät ole mikään referenssi. Tällä tavalla saataisiin kuitenkin lukuja, jotka minun mielestäni palvelisivat paremmin sitä lopullista tarkoitusta eli "titaanien" välisten erojen tunnistamista ja arviointia. Lisäksi se vaatisi maistajilta vähemmän kuin suora yksittäisten shottien maistelu, mutta en tiedä riittääkö se.
Teme: mainitsit että saisit mukaan ehkä kokeneemman kahvinmaistajan. Olisikohan hänellä kokemusta tällaisten tilaisuuksien järjestämisestä ja osaisiko antaa vinkkejä?
En tiedä miksi hypoteesitestaus koetaan jäykäksi, sen perusideahan on lähinnä asettaa etukäteen selkeä mittaustavoite ja suunnitella toteutus niin että loppujen lopuksi mitataan mitä aiotaan. Ja lopputulokseksi pitää hyväksyä että mitään ei saatu selville (=testijärjestely/ongelman asettelu oli huono). Jos taas ensin mitataan ja sitten tulkitaan - niin tässä annetaan helposti tulosten johdatella päätelmiä.
Tässä lähestytään nyt vanhoja frekventistit vs. bayesilaiset -rintamalinjoja. Tilastotieteilijät eivät ole saaneet asiaa selvitettyä viimeisten kymmenien vuosien aikana, joten ei se varmaan tässäkään selviä. On totta, että hypoteesitestauksessa on etuja joita muilla menetelmillä ei ole. Toisaalta siinä on tiettyä epärehellisyyttä (piilotettuja prioreja), josta bayesilaiset sitä kritisoivat.
Hypoteestitestaus on jäykkää siinä mielessä, että jokaista hypoteesia varten pitää tehdä uusi testi. Lisäksi jos nollahypoteesi jää voimaan, niin ei tiedetä johtuiko se ilmiön heikkoudesta tai kokonaan puuttumisesta vai otoksen pienuudesta (toki näitä voidaan arvioida). Eli esimerkiksi vaikka saataisiin selville että kartioterien makua pidetään parempana, niin sitten pitäisi järjestää uusi testi jos halutaan tietää onko se mielekkäässä määrin parempi - kun pääsee vertailemaan kahta näytettä rinnakkain niin pienenkin eron pohjalta voi päättää kumpi on parempi, vaikka ei normaalisti sellaista eroa minään pitäisikään.
Mutta edelleen, maistelu voidaan järjestää myös em. rentona tapahtumana (mikä on ihan yhtä ok) - mutta silloin siihen ei kannata mitään "tieteellisyyttä" ryhtyä sotkemaan.
Nollahypoteesi ja p-arvo ei ole ainoa tapa tehdä tieteellisiä havaintoja ympäröivästä todellisuudesta - taitaisi mennä Naturen ja Sciencen artikkeleistakin iso osa kierrätyslootaan sillä rajauksella. Ja onhan sitä olemassa tieteitä, joissa ei numeroita pyöritetä ollenkaan. Asiaa voisi kuvata vaikka näin: jos ottaa jonkun nykyaikaisen lääkkeen, niin se on syntynyt pitkälti muuten kuin tiukan hypoteesitestauksen pohjalta, mutta kylläkin käynyt läpi tiukan hypoteesitestauksen ennen myyntiluvan saamista. Lääkkeiden testaus onkin mainio esimerkki hyvästä sovelluskohteesta: on yhdentekevää hylätäänkö lääke huonon tehon tai liian pienen tutkimuksen vuoksi, kunhan markkinoille ei päästetä lääkkeitä joiden tehosta ei ole osoittaa riittävää näyttöä. Kokeita valvoo ja hyväksymisrajat asettaa viranomainen, jolloin hyväksymisrajoillakin on seurantaa ja faktaa taustalla. Yleinen käytäntöjän on vetäistä hatusta merkitsevyysrajaksi a=0,05, mutta tätä käytäntöä ja koko p-arvoon nojaavaa testausta vastaan on julkaistu myös paljon kritiikkiä. Ja mikä olisikaan kahvimyllyjen testaukseen oikea raja, ja miksi?
Koitan siis sanoa, että muun kuin tiukan hypoteesitestauksen käyttäminen ei automaattisesti tee tuloksista huonoja tai epätietieteellisiä. Itse tässä tapauksessa arvioisin tämän kokeilun "tieteellisyyttä" sen itseään korjaavuuden ja avoimuuden kautta. Jos koejärjestely on kuvattu täällä ja ollut vapaasti kaikkien kommentoitavissa, testi on tehty hyvin, ja lopuksi kuvattu tarkasti ja objektiivisesti sekä tulokset (ml. käsittelemättömät lähtöarvot) julkistettu, niin aika monta laatikkoa tieteellisyyden kaavakkeesta on saatu ruksattua. Kuvauksen perusteella on mahdollista järjestää sama testi uudelleen ja kumota tulokset, ja toisaalta datan perusteella on mahdollista tehdä omat analyysit. Hyvä tapa parantaa tieteellistä uskottavuutta olisi muuten kirjoittaa tulokset myös englanniksi ja postittaa jollekin isolle foorumille, jolloin ne päätyisivät huomattavasti isomman joukon "vertaisarvioitavaksi".
Mutta tämähän on tulkitsijoiden ongelma, eikä niinkään testijärjestelyn?
Niinhän se on. Itse pitäisin aika todennäköisenä on että tulosten pohjalta joka tapauksessa tehdään johtopäätöksiä, ja niinpä pyrkisin sellaisiin tuloksiin jotka todennäköisesti vähän niitä tukevat. Nollahypoteesin tapauksessa tiukka linja olisi ilmoittaa että näyttöä myllyjen eroista ei löydetty ja laittaa tämä keskusteluketju lukkoon, koska koe ei tukisi mitään spekulaatioita, joita joka tapauksessa olisi luvassa.
Eikös Temeltä löydy kunnon äänentoistolaitteet? Raati lähelle kaiuttimia erilliseen huoneeseen ja musiikkia kuulumaan (bailando soimaan repeatilla ).
Tai sitten vaan otetaan Ascaso i-Mini mukaan testiin...
Miten olisi arviointisysteemi (arviointikohdat nopeasti keksittyjä):
Makeus : A X B
Body : A X B
Aromi : A X B
Tasapaino : A X B
No tuohan vaikuttaisi hyvältä. Toki hapokkuutta voi arvioida, mutta se sisältynee pitkälti tuohon tasapainoon?
Yhteenvetona: kaikki lienevät sitä mieltä että kannattaa aluksi joka tapauksessa maistella isommalla joukolla, keskustella ja kalibroida näkemyksiä, sekä kirjoittaa ylös subjektiivisia kokemuksia. Tämän jälkeen olisi koe, joka minusta pitäisi järjestää niin että se antaa lisävalaistusta edellä olleeseen runoiluun. Jos koe tuottaa tulokseksi "myllyissä ei eroja tai maistelukertoja liian vähän" tai "myllyissä on eroja", niin kumpikaan tulos ei suuremmin valaise asiaa. Tarkkoja hypoteeseja voisi muodostaa tämän pohjalta ja testata kahdella myllyllä.