Aihe: Titaanien taistelu (Luettu 53928 kertaa)

akallio · « **Vastaus #45 :** Heinäkuu 27, 2009, 10:37:28 ap »

Lainaus käyttäjältä: razzatta - Heinäkuu 25, 2009, 23:51:53 ip

Saman testin yhteydessä saisi myös kirjattua avoimet maistokommentit, joista selviää - jos siis eroja ylipäänsä löytyy - korostaako joku mylly enemmän cremaa, hedelmää, happoa, makeutta, tms...

Eikös tämmöiset kommentit olisi vähän hankalia tulkita? Maistelukertoja on kuitenkin paljon, joten siitä tulisi aika pitkä liuska. Jotenkin tuntuisi että niistä lähinnä näkisi mitä termejä ihmiset keksivät käyttää ja missä vaiheessa ne kyllästyvät kirjaamaan samoja asioita uudelleen ja uudelleen.

Lainaus käyttäjältä: razzatta - Heinäkuu 25, 2009, 23:51:53 ip

Tämänkaltainen testi olisi vielä kohtalaisen helppoa järjestää. Saatujen tulosten perusteella voi tehdä uusia hypoteeseja ja miettiä pitäisikö järjestää toinen erä, jossa voisi sitten testata esim. eri myllyjä ristiin eri annostusmäärillä tms. Nämä ovat kuitenkin mielestäni vasta sitten se second step.

Näin minäkin ajattelisin. Jos haluaa tutkia yhtä kysymystä, niin sitten voi vielä samana iltana tai myöhemmin järjestää uuden maistelun, vain kahdella myllyllä.

Lainaus käyttäjältä: jiitee - Heinäkuu 26, 2009, 14:13:58 ip

Mitenkään väheksymättä mittalaitteiden tarkkuutta (=maistajia) absoluuttisten pisteiden antamista tulisi välttää näillä testimäärillä viimeiseen asti. WBC kisoissa shotit pisteytetään makutuomareiden toimesta, mutta se on aika kova koulu että kyseiseen pisteyttäjän asemaan pääsee. Meidän tilanteessa ei olisi (mielestäni) toivoakaan että eri maistajien pisteet saataisiin vähänkään vertailukelpoisiksi (edes saman maistajan eri maistelukertojen välillä) vaikka touhua harjoiteltaisiin viikko etukäteen.

Asiaa mietittyäni pisteytys on kyllä yhä mainio menetelmä, siitä ei pääse yli eikä ympäri. Mutta pisteytyksen tekeminen on vaikeaa, siitäkään ei pääse yli eikä ympäri.

Jos meillä olisi WBC-tuomareita, niin silloin voitaisiin maistella vaan tuotoksia satunnaisista myllyistä. Maistelut olisivat riippumattomia ja niiden pohjalta olisi helppo johtaa meitä kiinnostavia tuloksia. Saman myllyn saamia pisteitä vertaamalla näkisimme, että WBC-tuomarit ovat kannuksensa ansainneet ja pisteyttävät samanlaista espressoa samoin pistein.

Nyt maistajat tulevat kuitenkaan olemaan alle WBC tason, ehkä jopa merkittävästi.

On totta, että kaikista helpoin on maistaa kahta rinnakkain tai etsiä poikkeavaa 2+1-joukosta. Tällaisen järjestelyn varjopuoli on se, että voidaan tehdä lähinnä yksinkertaisen hypoteesin testausta, eli tulokset eivät sano kovinkaan paljon. Vertaileva maistelu ei anna yhtään tulkinnan varaa, vaan päinvastoin: jos pitää vaikka valita kahdesta parempi, niin se ohjaa löytämään makueron ja pitämään jompaa kumpaa parempana. Mahdollisuus tasapeliin auttaa jonkun verran, mutta silloinkin koeasetelma ohjaa tuloksia aika vahvasti ja vaikka mylly X voittaa myllyn Y pistein 10-0, niin tiukasti ottaen ei voida sanoa että se on merkittävästi parempi, vaan pelkästään havaittavissa määrin.

Kompromissi näiden välillä olisi järjestely jota olen ehdottanut: maistellaan 3-4 shottia kerrallaan jotka tulevat tuntemattomista ja mahdollisesti samoista myllyistä (mutta ei tietenkään uutoista), ja pisteytetään ne hyvin yksinkertaisesti, esimerkiksi asteikolla 1-5 joista jokaiselle on sovittu sanallinen kuvaus. Pisteytettäviä asioita voi olla muutama. Kun shotteja on enemmän edessä, niin erojen havaitseminen helpottuu ja pisteitä voi kalibroida ainakin kyseisen satsin sisällä. Ja periaatteessa pisteet voisi myös tämän jälkeen analyysissa normalisoida satsien kesken. Toimisiko tämä kokemattomilla maistajilla? Siitä minulla ei ole hajuakaan, koska en ole koskaan järjestänyt espressomaistajaisia. Alkon (aloittelijoille tarkoitetut) viinipruuvit muistaakseni toimivat suunnilleen tähän tyyliin, mutta ne nyt eivät ole mikään referenssi. Tällä tavalla saataisiin kuitenkin lukuja, jotka minun mielestäni palvelisivat paremmin sitä lopullista tarkoitusta eli "titaanien" välisten erojen tunnistamista ja arviointia. Lisäksi se vaatisi maistajilta vähemmän kuin suora yksittäisten shottien maistelu, mutta en tiedä riittääkö se.

Teme: mainitsit että saisit mukaan ehkä kokeneemman kahvinmaistajan. Olisikohan hänellä kokemusta tällaisten tilaisuuksien järjestämisestä ja osaisiko antaa vinkkejä?

Lainaus käyttäjältä: jiitee - Heinäkuu 26, 2009, 14:13:58 ip

En tiedä miksi hypoteesitestaus koetaan jäykäksi, sen perusideahan on lähinnä asettaa etukäteen selkeä mittaustavoite ja suunnitella toteutus niin että loppujen lopuksi mitataan mitä aiotaan. Ja lopputulokseksi pitää hyväksyä että mitään ei saatu selville (=testijärjestely/ongelman asettelu oli huono). Jos taas ensin mitataan ja sitten tulkitaan - niin tässä annetaan helposti tulosten johdatella päätelmiä.

Tässä lähestytään nyt vanhoja frekventistit vs. bayesilaiset -rintamalinjoja. Tilastotieteilijät eivät ole saaneet asiaa selvitettyä viimeisten kymmenien vuosien aikana, joten ei se varmaan tässäkään selviä. On totta, että hypoteesitestauksessa on etuja joita muilla menetelmillä ei ole. Toisaalta siinä on tiettyä epärehellisyyttä (piilotettuja prioreja), josta bayesilaiset sitä kritisoivat.

Hypoteestitestaus on jäykkää siinä mielessä, että jokaista hypoteesia varten pitää tehdä uusi testi. Lisäksi jos nollahypoteesi jää voimaan, niin ei tiedetä johtuiko se ilmiön heikkoudesta tai kokonaan puuttumisesta vai otoksen pienuudesta (toki näitä voidaan arvioida). Eli esimerkiksi vaikka saataisiin selville että kartioterien makua pidetään parempana, niin sitten pitäisi järjestää uusi testi jos halutaan tietää onko se mielekkäässä määrin parempi - kun pääsee vertailemaan kahta näytettä rinnakkain niin pienenkin eron pohjalta voi päättää kumpi on parempi, vaikka ei normaalisti sellaista eroa minään pitäisikään.

Lainaus käyttäjältä: jiitee - Heinäkuu 26, 2009, 14:13:58 ip

Mutta edelleen, maistelu voidaan järjestää myös em. rentona tapahtumana (mikä on ihan yhtä ok) - mutta silloin siihen ei kannata mitään "tieteellisyyttä" ryhtyä sotkemaan.

Nollahypoteesi ja p-arvo ei ole ainoa tapa tehdä tieteellisiä havaintoja ympäröivästä todellisuudesta - taitaisi mennä Naturen ja Sciencen artikkeleistakin iso osa kierrätyslootaan sillä rajauksella. Ja onhan sitä olemassa tieteitä, joissa ei numeroita pyöritetä ollenkaan. Asiaa voisi kuvata vaikka näin: jos ottaa jonkun nykyaikaisen lääkkeen, niin se on syntynyt pitkälti muuten kuin tiukan hypoteesitestauksen pohjalta, mutta kylläkin käynyt läpi tiukan hypoteesitestauksen ennen myyntiluvan saamista. Lääkkeiden testaus onkin mainio esimerkki hyvästä sovelluskohteesta: on yhdentekevää hylätäänkö lääke huonon tehon tai liian pienen tutkimuksen vuoksi, kunhan markkinoille ei päästetä lääkkeitä joiden tehosta ei ole osoittaa riittävää näyttöä. Kokeita valvoo ja hyväksymisrajat asettaa viranomainen, jolloin hyväksymisrajoillakin on seurantaa ja faktaa taustalla. Yleinen käytäntöjän on vetäistä hatusta merkitsevyysrajaksi a=0,05, mutta tätä käytäntöä ja koko p-arvoon nojaavaa testausta vastaan on julkaistu myös paljon kritiikkiä. Ja mikä olisikaan kahvimyllyjen testaukseen oikea raja, ja miksi?

Koitan siis sanoa, että muun kuin tiukan hypoteesitestauksen käyttäminen ei automaattisesti tee tuloksista huonoja tai epätietieteellisiä. Itse tässä tapauksessa arvioisin tämän kokeilun "tieteellisyyttä" sen itseään korjaavuuden ja avoimuuden kautta. Jos koejärjestely on kuvattu täällä ja ollut vapaasti kaikkien kommentoitavissa, testi on tehty hyvin, ja lopuksi kuvattu tarkasti ja objektiivisesti sekä tulokset (ml. käsittelemättömät lähtöarvot) julkistettu, niin aika monta laatikkoa tieteellisyyden kaavakkeesta on saatu ruksattua. Kuvauksen perusteella on mahdollista järjestää sama testi uudelleen ja kumota tulokset, ja toisaalta datan perusteella on mahdollista tehdä omat analyysit. Hyvä tapa parantaa tieteellistä uskottavuutta olisi muuten kirjoittaa tulokset myös englanniksi ja postittaa jollekin isolle foorumille, jolloin ne päätyisivät huomattavasti isomman joukon "vertaisarvioitavaksi".

Lainaus käyttäjältä: jiitee - Heinäkuu 26, 2009, 14:13:58 ip

Mutta tämähän on tulkitsijoiden ongelma, eikä niinkään testijärjestelyn?

Niinhän se on. Itse pitäisin aika todennäköisenä on että tulosten pohjalta joka tapauksessa tehdään johtopäätöksiä, ja niinpä pyrkisin sellaisiin tuloksiin jotka todennäköisesti vähän niitä tukevat. Nollahypoteesin tapauksessa tiukka linja olisi ilmoittaa että näyttöä myllyjen eroista ei löydetty ja laittaa tämä keskusteluketju lukkoon, koska koe ei tukisi mitään spekulaatioita, joita joka tapauksessa olisi luvassa.

Lainaus käyttäjältä: jiitee - Heinäkuu 26, 2009, 14:13:58 ip

Eikös Temeltä löydy kunnon äänentoistolaitteet? Raati lähelle kaiuttimia erilliseen huoneeseen ja musiikkia kuulumaan (bailando soimaan repeatilla ).

Tai sitten vaan otetaan Ascaso i-Mini mukaan testiin...

Lainaus käyttäjältä: jiitee - Heinäkuu 26, 2009, 14:13:58 ip

Miten olisi arviointisysteemi (arviointikohdat nopeasti keksittyjä):
Makeus : A X B
Body : A X B
Aromi : A X B
Tasapaino : A X B

No tuohan vaikuttaisi hyvältä. Toki hapokkuutta voi arvioida, mutta se sisältynee pitkälti tuohon tasapainoon?

Yhteenvetona: kaikki lienevät sitä mieltä että kannattaa aluksi joka tapauksessa maistella isommalla joukolla, keskustella ja kalibroida näkemyksiä, sekä kirjoittaa ylös subjektiivisia kokemuksia. Tämän jälkeen olisi koe, joka minusta pitäisi järjestää niin että se antaa lisävalaistusta edellä olleeseen runoiluun. Jos koe tuottaa tulokseksi "myllyissä ei eroja tai maistelukertoja liian vähän" tai "myllyissä on eroja", niin kumpikaan tulos ei suuremmin valaise asiaa. Tarkkoja hypoteeseja voisi muodostaa tämän pohjalta ja testata kahdella myllyllä.

Teme · « **Vastaus #46 :** Heinäkuu 27, 2009, 22:07:03 ip »

Lainaus käyttäjältä: akallio - Heinäkuu 27, 2009, 10:37:28 ap

Teme: mainitsit että saisit mukaan ehkä kokeneemman kahvinmaistajan. Olisikohan hänellä kokemusta tällaisten tilaisuuksien järjestämisestä ja osaisiko antaa vinkkejä?

Ymmärtääkseni kokemus enemmän cuppingista kuin suoranaisesti espressojen maistelusta / myllyjen vertailusta, mutta hyviä ideoita varmaan löytyy. Tsekataan.

Lainaus käyttäjältä: akallio - Heinäkuu 27, 2009, 10:37:28 ap

Lainaus käyttäjältä: jiitee - Heinäkuu 26, 2009, 14:13:58 ip
Eikös Temeltä löydy kunnon äänentoistolaitteet? Raati lähelle kaiuttimia erilliseen huoneeseen ja musiikkia kuulumaan (bailando soimaan repeatilla ).
Tai sitten vaan otetaan Ascaso i-Mini mukaan testiin...

Kyllä täältä parit äänentoistolaitteistot löytyy ja mökän saa kyllä tarvittaessa niin kovaksi ettei varmaan kuule myllyistä pihaustakaan. Eikä tule makutuomaritkaan keskustelemaan keskenään kun eivät toisiaan kuule

Lainaus käyttäjältä: jiitee - Heinäkuu 26, 2009, 14:13:58 ip

Miten olisi arviointisysteemi (arviointikohdat nopeasti keksittyjä):

Makeus : A X B
Body : A X B
Aromi : A X B
Tasapaino : A X B

noissa siis vaihtoehtoehdot shoteille (kumpi parempi - A vai B) ja kolmas vaihtoehto X - en osaa sanoa. Noista voi sitten laskea lopuksi kokonaistuloksen shottien välille (mutta antaa mahdollisuuden vertailla yksittäisiä tekijöitäkin).

Voisi toimia. Mutta pitäisikö sittenkin pitää tuo testi aluksi mahdollisimman simppelinä (ks myös allaoleva kommentti)? Eli esim vain myllyjen välinen paremmuus A X B?

Lainaus käyttäjältä: akallio - Heinäkuu 27, 2009, 10:37:28 ap

Yhteenvetona: kaikki lienevät sitä mieltä että kannattaa aluksi joka tapauksessa maistella isommalla joukolla, keskustella ja kalibroida näkemyksiä, sekä kirjoittaa ylös subjektiivisia kokemuksia. Tämän jälkeen olisi koe, joka minusta pitäisi järjestää niin että se antaa lisävalaistusta edellä olleeseen runoiluun. Jos koe tuottaa tulokseksi "myllyissä ei eroja tai maistelukertoja liian vähän" tai "myllyissä on eroja", niin kumpikaan tulos ei suuremmin valaise asiaa. Tarkkoja hypoteeseja voisi muodostaa tämän pohjalta ja testata kahdella myllyllä.

Vai pitäisikö koe (simppelinä pidetyt sellainen) tehdä eka kun on makuaisti vielä herkkänä. Sen jälkeen pidetään tulokset piilossa, mutta voitaisiin muuten ottaa rennommin, rupatella ja maistella kahveja eikä ehkä enää haittaisi jos näkee ja tietää millä myllyllä kahvi on jauhettu. Kirjattaisiin tuossa sitten niitä aistimuksia ja ajatuksia + katsottaisiin lopuksi ovatko ne linjassa kokeen tulosten kanssa?

T. Teme

jiitee · « **Vastaus #47 :** Heinäkuu 27, 2009, 23:49:26 ip »

Lainaus käyttäjältä: akallio - Heinäkuu 27, 2009, 10:37:28 ap

Asiaa mietittyäni pisteytys on kyllä yhä mainio menetelmä, siitä ei pääse yli eikä ympäri. Mutta pisteytyksen tekeminen on vaikeaa, siitäkään ei pääse yli eikä ympäri.

Lainaus käyttäjältä: akallio - Heinäkuu 27, 2009, 10:37:28 ap

No tuohan vaikuttaisi hyvältä. Toki hapokkuutta voi arvioida, mutta se sisältynee pitkälti tuohon tasapainoon?

Lainaus käyttäjältä: akallio - Heinäkuu 27, 2009, 10:37:28 ap

Yhteenvetona: kaikki lienevät sitä mieltä että kannattaa aluksi joka tapauksessa maistella isommalla joukolla, keskustella ja kalibroida näkemyksiä, sekä kirjoittaa ylös subjektiivisia kokemuksia. Tämän jälkeen olisi koe, joka minusta pitäisi järjestää niin että se antaa lisävalaistusta edellä olleeseen runoiluun.

Lainaus käyttäjältä: Teme - Heinäkuu 27, 2009, 22:07:03 ip

Voisi toimia. Mutta pitäisikö sittenkin pitää tuo testi aluksi mahdollisimman simppelinä (ks myös allaoleva kommentti)? Eli esim vain myllyjen välinen paremmuus A X B?

Vai pitäisikö koe (simppelinä pidetyt sellainen) tehdä eka kun on makuaisti vielä herkkänä. Sen jälkeen pidetään tulokset piilossa, mutta voitaisiin muuten ottaa rennommin, rupatella ja maistella kahveja eikä ehkä enää haittaisi jos näkee ja tietää millä myllyllä kahvi on jauhettu. Kirjattaisiin tuossa sitten niitä aistimuksia ja ajatuksia + katsottaisiin lopuksi ovatko ne linjassa kokeen tulosten kanssa?

Tuossa nuo ominaisuudet olivat tosiaan lähinnä äkkisiltään keksittyjä ehdotuksia. Tietysti tuota skaalaa voidaan tarvittaessa laajentaa hieman:

Kumpi parempi: A a X b B

Eli "A" jos selkeästi, "a" jos pikkaisen, "X" e.o.s., jne... tällöin tuohon tulisi sitä Aleksin kaipaamaa "skaalaa", mutta edelleen siinä olisi selkeä vertailu aina kahden eri kahvin välillä, eikä yksittäisten kahvien pisteytystä erillisinä entiteetteinään (joka ei mielestäni toimisi mitenkään luotettavasti).

akallio · « **Vastaus #48 :** Heinäkuu 28, 2009, 09:29:33 ap »

Lainaus käyttäjältä: jiitee - Heinäkuu 27, 2009, 23:49:26 ip

Tuossa nuo ominaisuudet olivat tosiaan lähinnä äkkisiltään keksittyjä ehdotuksia. Tietysti tuota skaalaa voidaan tarvittaessa laajentaa hieman:
Kumpi parempi: A a X b B
Eli "A" jos selkeästi, "a" jos pikkaisen, "X" e.o.s., jne... tällöin tuohon tulisi sitä Aleksin kaipaamaa "skaalaa", mutta edelleen siinä olisi selkeä vertailu aina kahden eri kahvin välillä, eikä yksittäisten kahvien pisteytystä erillisinä entiteetteinään (joka ei mielestäni toimisi mitenkään luotettavasti).

Tuo olisi minusta hyvä lisäys. Tosin koska tuossa ei pisteytettäisi näytteitä riippumattomina, niin luvuista ei voisi suoraan laskea yhden myllyn saamien arvioiden hajontaa. Pitäisi siis lisätä joukkoon tahalleen näytteitä, joissa molemmat tulevat samasta myllystä, jos haluaa arvioida kuinka suuria eroja maistetaan silloin kun niitä ei pitäisi olla. Sehän ei olisi suuri ongelma, mutta lisäisi maisteltavien shottien määrää hieman. Kun joukossa olisi identtisiä pareja, niin maistelijatkaan eivät pyrkisi aina löytämään eroa, koska he tietäisivät että sellaista ei välttämättä aina ole.

Jos haluaa monimutkaistaa asiaa hieman, niin voisi lisätä toisen pisteytysasteikon: hapokkuus/makeus (siis A hapokas, B makea vs. B hapokas, A makea). Toki ne ovat toisistaan erillisiä makuja, mutta usein asioita mieltää kuitenkin tuolla akselilla. Tuolla kohtuullisen yksinkertaisella lisäyksellä voisi saada kaivettua esiin ihan kiinnostavia tietoja, esimerkiksi että jos kartiomylly A selvästi voittaa levymyllyn B, niin onko paremmaksi pisteytetyt näytteet arvioitu myös makeammiksi.

akallio · « **Vastaus #49 :** Heinäkuu 28, 2009, 09:45:42 ap »

Lainaus käyttäjältä: Teme - Heinäkuu 27, 2009, 22:07:03 ip

Vai pitäisikö koe (simppelinä pidetyt sellainen) tehdä eka kun on makuaisti vielä herkkänä. Sen jälkeen pidetään tulokset piilossa, mutta voitaisiin muuten ottaa rennommin, rupatella ja maistella kahveja eikä ehkä enää haittaisi jos näkee ja tietää millä myllyllä kahvi on jauhettu. Kirjattaisiin tuossa sitten niitä aistimuksia ja ajatuksia + katsottaisiin lopuksi ovatko ne linjassa kokeen tulosten kanssa?

Totta, noin päin olisi parempi. Jos tehdään kahden shotin maistelua niin tarvetta maistajien kalibrointiin ei ole.

Lainaus käyttäjältä: Teme - Heinäkuu 27, 2009, 22:07:03 ip

Kun joukossa olisi identtisiä pareja, niin maistelijatkaan eivät pyrkisi aina löytämään eroa, koska he tietäisivät että sellaista ei välttämättä aina ole.

Ja vielä tuli mieleen, että pareja ei ehkä kannata käydä järjestyksessä läpi, vaan satunnaisesti. Jos mukana on lisäksi niitä identtisiä pareja (ja stereot riittävän kovalla

, niin maistajilla ei olisi mitään käsitystä siitä mitä shotteja eteen kannetaan. Niinpä voisi keskittyä vaan niiden kahden kupin makuihin.

jiitee · « **Vastaus #50 :** Heinäkuu 28, 2009, 10:33:03 ap »

Lainaus käyttäjältä: akallio - Heinäkuu 28, 2009, 09:29:33 ap

Tosin koska tuossa ei pisteytettäisi näytteitä riippumattomina, niin luvuista ei voisi suoraan laskea yhden myllyn saamien arvioiden hajontaa.

Näytteiden riippumattoman arvioinnin ongelma on se että näistä pisteistä lasketuilla tuloksista ei mielestäni voi sanoa yhtään mitään, virhe on aivan liian iso - meillä ei itseasiassa ole käsitystä sen suuruudesta. Ja kaikilla pitäisi olla mielessään jokin perusmalli espressosta johon verrataan.

Voihan tuota tarkkuutta jotenkin testata: laita vettä neljään lasiin, sitten lusikallinen sokeria ensimmäiseen, kaksi toiseen jne... Tämän jälkeen pyydät avustajaa sekoittamaan näytteiden paikat (pohjassa tietysti merkintä mikä oli mikä) ja tämän jälkeen yksi kerrallaan maistamalla annat näytteille pisteet 1-4 makeuden mukaan (ei saa vertailla keskenään - vaan aina yksi näyte ja sille pisteet). Toistat tämän vaikka viisi kertaa avustajan kanssa ja lopuksi tarkistat montako kertaa sait näytteet oikeaan järjestykseen.

Lainaus käyttäjältä: akallio - Heinäkuu 28, 2009, 09:29:33 ap

Pitäisi siis lisätä joukkoon tahalleen näytteitä, joissa molemmat tulevat samasta myllystä, jos haluaa arvioida kuinka suuria eroja maistetaan silloin kun niitä ei pitäisi olla. Sehän ei olisi suuri ongelma, mutta lisäisi maisteltavien shottien määrää hieman. Kun joukossa olisi identtisiä pareja, niin maistelijatkaan eivät pyrkisi aina löytämään eroa, koska he tietäisivät että sellaista ei välttämättä aina ole.

Tällaiset kontrolliparit olisivat minunkin mielestäni tärkeitä (kuten jos tehdään niitä 3 shotin kokeita) - erityisesti siitä syystä jonka tuossa viimeisessä lauseessasi toteat.

Lainaus käyttäjältä: akallio - Heinäkuu 28, 2009, 09:29:33 ap

Jos haluaa monimutkaistaa asiaa hieman, niin voisi lisätä toisen pisteytysasteikon: hapokkuus/makeus (siis A hapokas, B makea vs. B hapokas, A makea). Toki ne ovat toisistaan erillisiä makuja, mutta usein asioita mieltää kuitenkin tuolla akselilla.

Hapokas/makea vertailussa on se ongelma että kahvi voi olla kumpaakin yhtä aikaa - nämä eivät ole toisiensa vastakohtia (kuten jo tuossa totesitkin). Vertailla pitäisi makea/ei makea, hapokas/ei hapokas.

Misse · « **Vastaus #51 :** Heinäkuu 28, 2009, 11:27:00 ap »

Lainaus käyttäjältä: akallio - Heinäkuu 28, 2009, 09:45:42 ap

Totta, noin päin olisi parempi. Jos tehdään kahden shotin maistelua niin tarvetta maistajien kalibrointiin ei ole.

Ja vielä tuli mieleen, että pareja ei ehkä kannata käydä järjestyksessä läpi, vaan satunnaisesti. Jos mukana on lisäksi niitä identtisiä pareja (ja stereot riittävän kovalla , niin maistajilla ei olisi mitään käsitystä siitä mitä shotteja eteen kannetaan. Niinpä voisi keskittyä vaan niiden kahden kupin makuihin.

Toisaalta erot varmasti ovat olemattomat, joten sopiiko sellaiseen tilanteeseen kovalla pauhaava musiikki? Mielestäni kovin suurien erojen löytäminen ei ole mitenkään realistista, koska kuitenkin testipenkissä on neljä myllyä jotka mahtuvat kirkkaasti 10 arvostetuimman espressomyllyn kastiin maailmassa.

Jos minulta kysytään, niin AXB testi olisi aivan riittävä. Ja tuokin menee helposti arvuutteluksi, koska kuitenkin kaikilla myllyillä saa espressoa aikaiseksi (ja luultavasti hyvää sellaista). Eli mahdollisesti maistuvat erot muodostuvat sävyeroista joita ei välttämättä yksiselitteisesti voi laittaa paremmuusjärjestykseen.

Vaikka olenkin skeptinen erojen löytymisen suhteen, niin haluaisin kovasti päästä kokeilemaan olenko väärässä asian suhteen

-Mikko-

akallio · « **Vastaus #52 :** Heinäkuu 28, 2009, 13:46:09 ip »

Lainaus käyttäjältä: Misse - Heinäkuu 28, 2009, 11:27:00 ap

Toisaalta erot varmasti ovat olemattomat, joten sopiiko sellaiseen tilanteeseen kovalla pauhaava musiikki?

Eipä kyllä. Jos papua riittää niin parempi olisi vaan käytellä muita myllyjä samalla.

Lainaus käyttäjältä: Misse - Heinäkuu 28, 2009, 11:27:00 ap

Jos minulta kysytään, niin AXB testi olisi aivan riittävä. Ja tuokin menee helposti arvuutteluksi, koska kuitenkin kaikilla myllyillä saa espressoa aikaiseksi (ja luultavasti hyvää sellaista). Eli mahdollisesti maistuvat erot muodostuvat sävyeroista joita ei välttämättä yksiselitteisesti voi laittaa paremmuusjärjestykseen.

Mutta toisaalta ei ole iso vaiva ruksia oikea kohta lomakkeesta, olipa vaihtoehtoja 3 tai 5. Jos erottelu osoittautuu liian tarkaksi, niin sitten voidaan muuttaa tulokset muotoon AXB, oli katsotaan vaan havaittuja eroja, välittämättä siitä ovatko ne pieniä vai suuria.

Vähän vielä hypoteestitestauksesta, tämä on jo arvailtu mutu-tuntumalla mutta tässä sama asia laskettuna: jos käytetään sitä yleistä merkitsevyysrajaa a=0,05 ja empiirisen p-arvon määritelmää p = (r+1)/(n+1), jossa r on nollahypoteesin mukaisten tulosten määrä ("ei eroa" tms.) ja n tulosten määrä, niin pienin mahdollinen n on 20. Kahden myllyn vertailuun ei voi käyttää noin suurta shottien määrää ja jos kehitellään joku useampia myllyjä yhtä aikaa koskeva väite niin helposti joutuu tekemään monihypoteesikorjauksen ja vaadittu näytteiden määrä pompsahtaa vastaavasti. Kaavaillut näytteiden määrät taitavat olla noin viideosa tuosta, jolloin merkitsevyysrajana pitäisi käyttää vähintään a=0,25; käytännössä paljon enemmän. Lähestytään siis jo rajaa a=0,50, joka tarkoittaa käytännössä sitä että jos väitän kolikon päätyvän aina klaavaksi ja heitän yhden klaavan, niin olen todistanut väitteeni ko. merkitsevyystasolla (tai a=0,05+, jos tarkkoja ollaan).

Eli vaikuttaisi että hypoteesitestauksen kautta ei tässä tilanteessa ole pelkästään erittäin vaikea saada tuloksia, vaan jopa mahdotonta. Ellei joku keksi jotain ovelaa hypoteesia jonka osoittaminen käytössä olevilla näytteillä ja jollain järkevällä merkitsevyystasolla on ainakin teoriassa mahdollista?

Muokkaus: virheellinen lasku poistettu.

jiitee · « **Vastaus #53 :** Heinäkuu 28, 2009, 15:07:21 ip »

Lainaus käyttäjältä: akallio - Heinäkuu 28, 2009, 13:46:09 ip

Eli vaikuttaisi että hypoteesitestauksen kautta ei tässä tilanteessa ole pelkästään erittäin vaikea saada tuloksia, vaan jopa mahdotonta. Ellei joku keksi jotain ovelaa hypoteesia jonka osoittaminen käytössä olevilla näytteillä ja jollain järkevällä merkitsevyystasolla on ainakin teoriassa mahdollista?

Mutta tämähän meillä on ongelmana testataan/mitataan miten tahansa? Mitkä olisivat vaadittavat näytemäärät jotta toinen tapa (shottien pisteytys) antaisi yhtään merkittävämpiä tuloksia?

Mutta jos unohdetaan yksittäisten muuttujien tutkiminen (makeus, jne) ja halutaan laittaa myllyt vain (johonkin) järjestykseen, niin esimerkiksi tämä coffeegeekissä esitelty testaustapa toimisi minusta aivan riittävän hyvin. Tuollakin oli testikoneena GS3:nen. Heti toisessa viestissä on pohtimisen arvoinen kommentti:

Lainaus

"... can safely say that even with Titan-class grinders and a GS3 machine it became clear that the PBTC still makes the biggest difference. The panel judges EASILY picked out the shots that were defective due to barista (*my*) inconsistency"

(PBTC = Person Behind the Counter)

Kartio ja levyterämyllyjen eroja on pohdittu tässä ketjusta - josta voisi saada ideoita siitä mitä halutaan testata, mutta tuolla todetaan jo hieman enteilevästi:

Lainaus

Taste profiles may differ slightly in that the big conical sometimes seems to help delineate better while the large flat burr grinders seem to make smoother/rounder shots. Of course this is very slight to my palate and very dependant on operator technique, most times it would be hard for me to tell the difference.

Tosin on kyse kyseisen henkilön mielipiteestä (ja kokemuksista).

Tässä vaiheessa taipuisin itse ehdottamaan että vertailette myllyjä rennosti keskenänne (säädätte niitä yhdessä kunnolla kohdilleen), otatte näytteet jakauma-analyysiä varten ja tämän jälkeen vaikka tuollainen cg:ssä kuvatun kaltainen järjestykseen laitto - siitä saisi henkilökohtaiset järjestykset ja kokonaistuloksen. Sitten jos joskus haluaa tehdä tarkempaa analyysia, niin vain kaksi myllyä vertailuun ja vertailuja tehdään vähintään samoissa mittasuhteissa kuin home-baristan pakastuskokeilussa.

Teme · « **Vastaus #54 :** Heinäkuu 28, 2009, 18:05:15 ip »

Lainaus käyttäjältä: akallio - Heinäkuu 28, 2009, 09:45:42 ap

Ja vielä tuli mieleen, että pareja ei ehkä kannata käydä järjestyksessä läpi, vaan satunnaisesti. Jos mukana on lisäksi niitä identtisiä pareja (ja stereot riittävän kovalla , niin maistajilla ei olisi mitään käsitystä siitä mitä shotteja eteen kannetaan. Niinpä voisi keskittyä vaan niiden kahden kupin makuihin.

Lainaus käyttäjältä: jiitee - Heinäkuu 28, 2009, 10:33:03 ap

Tällaiset kontrolliparit olisivat minunkin mielestäni tärkeitä (kuten jos tehdään niitä 3 shotin kokeita) - erityisesti siitä syystä jonka tuossa viimeisessä lauseessasi toteat.

Yksi rajoittava tekijä joka tuli mieleen on se, että koneessa on vain yksi gruppo. Eli shottipareja kun valmistetaan, niin ensimmäisellä myllyllä jauhetusta kahvista tehdyt shotit ovat valmiina ainakin 40 sekuntia (todennäköisesti hiukan enemmän) ennen toisella myllyllä jahettuja shotteja. Mutta ehkäpä tällä ei hirmuisen suurta vaikutus kun tuossa maistellaan vielä sitä ekaa kuppia. Vai?

T. Teme

akallio · « **Vastaus #55 :** Heinäkuu 29, 2009, 00:02:41 ap »

Lainaus käyttäjältä: Teme - Heinäkuu 28, 2009, 18:05:15 ip

Yksi rajoittava tekijä joka tuli mieleen on se, että koneessa on vain yksi gruppo. Eli shottipareja kun valmistetaan, niin ensimmäisellä myllyllä jauhetusta kahvista tehdyt shotit ovat valmiina ainakin 40 sekuntia (todennäköisesti hiukan enemmän) ennen toisella myllyllä jahettuja shotteja. Mutta ehkäpä tällä ei hirmuisen suurta vaikutus kun tuossa maistellaan vielä sitä ekaa kuppia. Vai?

En usko että tuo niin suuri ongelma on, kunhan aloittavaa myllyä vaan vaihdellaan. Olisiko sinulla muuten kahta kahvaa ja suodatinta, jotta toisen shotin voisi valmistella samalla kun toinen valuu?

Lainaus käyttäjältä: jiitee - Heinäkuu 28, 2009, 15:07:21 ip

Mutta tämähän meillä on ongelmana testataan/mitataan miten tahansa? Mitkä olisivat vaadittavat näytemäärät jotta toinen tapa (shottien pisteytys) antaisi yhtään merkittävämpiä tuloksia?

Makuarvioiden muoto ei suoraan vaikuta merkitsevyyteen, vaan se riippuu tilastollisesta menetelmästä (jonka toki pitää taas synkata arvioiden kanssa). Edellä mainitut rajat oli laskettu empiirisen p-arvon määritelmän pohjalta ja pätevät vain silloin kun käytetään empiirisiä p-arvoja. Menetelmänä se on tiukimmasta päästä, koska p-arvon pessimismi yhdistettynä empiirisen version rajattuun tarkkuuteen rajaa saavutettavaa merkitsevyystasoa hyvin tehokkaasti. p-arvo perustuu vain väärien positiivisten välttämiseen, kun esimerkiksi väärien positiivisten ja negatiivisten tasapainotuksella voidaan nollahypoteesi hylätä vähemmällä näytöllä. Vaihtoehtoina olisi siis monimutkaisempi frekventistinen menetelmä, bayesilainen analyysi tai joku vielä eksoottisempi tilastollisen päättelyn koulukunta, mutta en kyllä osaa suoralta kädeltä sanoa mikä olisi hyvä menetelmä ja millaisia näytemääriä silloin tarvittaisiin. Hyvän merkitsevyyden saamiseksi tarvittaisiin enemmän näytteitä muillakin menetelmillä.

Lainaus käyttäjältä: jiitee - Heinäkuu 28, 2009, 15:07:21 ip

Tässä vaiheessa taipuisin itse ehdottamaan että vertailette myllyjä rennosti keskenänne (säädätte niitä yhdessä kunnolla kohdilleen), otatte näytteet jakauma-analyysiä varten ja tämän jälkeen vaikka tuollainen cg:ssä kuvatun kaltainen järjestykseen laitto - siitä saisi henkilökohtaiset järjestykset ja kokonaistuloksen.

Tuollaisella semifinaali-finaali -järjestelyllä toki saadaan jännittävämpi kokeilu, mutta minä en tavallaan turhan vuoksi synnyttäisi näytteiden välille riippuvuuksia kun ilmankin selviää - koska vahvat riippuvuudet tekevät tulosten pidemmälle viedyn analysoinnin melkolailla mahdottomaksi. Käytettävät myllyt joutuu joka tapauksessa kirjoittamaan ylös ajolistaksi ettei mene laskuissa sekaisin ja sen jälkeen on helppo Excelille sanoa että "randomize".

Minä siis ehdottaisin kokeilulle tällaista etenemistä:
- maistellaan pareja kuten jiitee ehdotti (mukana myös saman myllyn parit ja järjestys satunnainen)
- maistellaan toinen satsi pareja jos aikaa on
- pisteytetään myllyt voittojen mukaan ja lasketaan järjestys
- arvioidaan luotettavuutta "näppituntumalta" saman myllyn parien avulla
- ja jos jollakulla nikkarilla on aikaa ja intoa, niin merkitsevyyttä voi laskea robustimmin sitten myöhemmin

Lainaus käyttäjältä: jiitee - Heinäkuu 28, 2009, 15:07:21 ip

Sitten jos joskus haluaa tehdä tarkempaa analyysia, niin vain kaksi myllyä vertailuun ja vertailuja tehdään vähintään samoissa mittasuhteissa kuin home-baristan pakastuskokeilussa.

Jep, samaa mieltä.

Misse · « **Vastaus #56 :** Heinäkuu 29, 2009, 08:59:42 ap »

Lainaus käyttäjältä: akallio - Heinäkuu 29, 2009, 00:02:41 ap

En usko että tuo niin suuri ongelma on, kunhan aloittavaa myllyä vaan vaihdellaan. Olisiko sinulla muuten kahta kahvaa ja suodatinta, jotta toisen shotin voisi valmistella samalla kun toinen valuu?

Mites se toinen kahva pysyisi kuumana? Mielestäni on jopa hyvä, että käytössä on yksigruppoinen kone. Tällöin käyttäjävirheet pysynevät minimissään ja uuttovesi luultavimmin on tasalämpöisempää.

Vaikka Marzocco on hyvinkin lämpöstabiili, niin käsittääkseni siinäkin huuhtelun pituus vaikuttaa hieman lämpötiloihin. Ei tietystikään paljon, mutta pieniä eroja yritetäänkin etsiä.

-Mikko-

akallio · « **Vastaus #57 :** Heinäkuu 29, 2009, 09:57:50 ap »

Lainaus käyttäjältä: Misse - Heinäkuu 29, 2009, 08:59:42 ap

Mites se toinen kahva pysyisi kuumana?

Kuppialustalla? Eihän se tietenkään optimaalinen ratkaisu ole, mutta nopeuttaisi vähän shottien valmistusta.

jiitee · « **Vastaus #58 :** Heinäkuu 29, 2009, 21:41:02 ip »

Lainaus käyttäjältä: akallio - Heinäkuu 29, 2009, 00:02:41 ap

Minä siis ehdottaisin kokeilulle tällaista etenemistä:
- maistellaan pareja kuten jiitee ehdotti (mukana myös saman myllyn parit ja järjestys satunnainen)
- maistellaan toinen satsi pareja jos aikaa on
- pisteytetään myllyt voittojen mukaan ja lasketaan järjestys
- arvioidaan luotettavuutta "näppituntumalta" saman myllyn parien avulla
- ja jos jollakulla nikkarilla on aikaa ja intoa, niin merkitsevyyttä voi laskea robustimmin sitten myöhemmin

Kuulostaisi hyvältä. Entäs arviointi? A X B vai A a X b B ?

Tuossa jälkimmäisessä saisi tietysti enemmän skaalaa, mutta en tiedä aiheuttaisiko se turhaa arpomista - maistajalla pitäisi olla jonkinlainen pysyvä käsitys "selvästi paremmasta" ja "hiukan paremmasta".

Tietysti tuossa jälkimmäisessä vaihtoehdossa voisi sitten jälkikäteen katsoa mitä tapahtuu jos muutetaan (A a)->A, (b B)->B, X->X taikka A->A, B->B, (a b X)->X - eli siirrytään viidestä vaihtoehdosta kolmeen vaihtoehtoon joko ottamalla huomioon tuo pieni ero taikka jättämällä se huomiotta (=huomioidaan vain selkeät erot).

akallio · « **Vastaus #59 :** Heinäkuu 30, 2009, 10:18:51 ap »

Lainaus käyttäjältä: jiitee - Heinäkuu 29, 2009, 21:41:02 ip

Tietysti tuossa jälkimmäisessä vaihtoehdossa voisi sitten jälkikäteen katsoa mitä tapahtuu jos muutetaan (A a)->A, (b B)->B, X->X taikka A->A, B->B, (a b X)->X - eli siirrytään viidestä vaihtoehdosta kolmeen vaihtoehtoon joko ottamalla huomioon tuo pieni ero taikka jättämällä se huomiotta (=huomioidaan vain selkeät erot).

Minä kannattaisin tätä; arvioidaan vähän tarkemmalla asteikolla, mutta supistetaan jälkeenpäin jos tarvetta on. Loogisesti ajatellen se ei muuta tuloksia, enkä usko että psykologisestikaan aiheuttaa ongelmia eli että maistajat arvioisivat tuloksia merkittävästi eri tavalla kun käytössä on tarkempi asteikko.

Miten on, halutaanko mukaan ottaa joku toinen kriteeri joka voisi selittää havaittuja eroja (makeus, tasapainoisuus, hapokkuus?), vai tyydytäänkö pelkkään paremmuuden arviointiin?

Uutiset:

Kirjoittaja Aihe: Titaanien taistelu (Luettu 53928 kertaa)

akallio

Vs: Titaanien taistelu

Teme

Vs: Titaanien taistelu

jiitee

Vs: Titaanien taistelu

akallio

Vs: Titaanien taistelu

akallio

Vs: Titaanien taistelu

jiitee

Vs: Titaanien taistelu

Misse

Vs: Titaanien taistelu

akallio

Vs: Titaanien taistelu

jiitee

Vs: Titaanien taistelu

Teme

Vs: Titaanien taistelu

akallio

Vs: Titaanien taistelu

Misse

Vs: Titaanien taistelu

akallio

Vs: Titaanien taistelu

jiitee

Vs: Titaanien taistelu

akallio

Vs: Titaanien taistelu