Ugrás a tartalomhoz

Biostatisztika

Fidy Judit dr., Makara Gábor dr. (2005)

InforMed 2002 Kft.

A hipotézisvizsgálat további két alkalmazása

A hipotézisvizsgálat további két alkalmazása

Páros t próba

Nézzünk egy újabb példát, ami igen gyakori típus az orvosi gyakorlatban. A feladat, hogy egy diétával kombinált tréning hatását vizsgáljuk: Csökken-e a páciensek koleszterin szintje? A tréning előtt és után is megnéztük a koleszterin értékeket. A 12 páciens laboreredménye két adatsor:

6.1. táblázat - A diétával kombinált tréning hatása

Sorszám123456789101112
Előtt201231221260228237326235240267284201
Után200236216233224216296195207247210209
Változás-15-5-27-4-21-30-40-33-20-748


Azonban ez a két adatsor páronként összetartozó adatokból áll! Valójában az a kérdés, hogy a különbség a két adat, az ’előtt’ és az ’után’ közt, tehát a különbség, a változás érdemben eltér-e 0-tól. Tehát nézzük csak a változás adatsort, ami a harmadik sorban látható. A változás (egyetlen adatsor), átlaga 20,17 a szórása 23,13 a standard hiba 6,68. Nézzük most a hipotézis-vizsgálat 5 lépését: (Ez tehát a már ismert egymintás t-próba, melyet a különbségre alkalmaztunk.)

  1. H0 az, hogy a kezelés nem hatékony. Tehát a változás várható értéke 0.

  2. A döntési szint (az ?) 5% legyen.

  3. Megnézzük, hogy a tapasztalt eltérés (a tény 21,17 a hipotézis szerint várt 0-hoz képest) hányszorosa a standard hibának (a 6,68-nak). Ez a távolság (a t értéke) 3,02.

    Mi a valószínűsége annak, hogy legalább ekkora távolság csak a véletlen miatt álljon elő. Erre az egyszerűbb módszer, hogy a számítógép ezt kiszámolja: p = 0,0117 (1,17%).

  4. Mivel pl? (= 0,05), tehát elvetjük a H0-t!

  5. Következtetés: a diéta és a tréning hatékony volt, a változás érdemi, szignifikáns.

Ennek a módszernek a neve páros t próba.

Mint beláttuk, ez valójában egymintás t-próba a „változás”-ra. Azért van külön neve, mert a változás adatokat két – rendszerint egy „előtt” és egy „után” – adat különbségeként kaptuk meg.

Ellenőrző kérdés: Hogyan tudnánk becsülni a p valószínűséget? (Azt kellene tehát belátni, hogy a p érték 5%-nál kisebb. (És, hát esetleg azt, hogy egy százaléknál viszont nagyobb!).

Összefoglalva a két példa (egymintás és páros) alapján az egymintás t próbát: Ha folytonos és normális eloszlású a változó (az adataink), és a kérdés a minta átlaga és egy várható érték eltérése, tehát, hogy van-e különbség, hatás, vagy pedig az eltérés csak a véletlen művének tulajdonítható (ez utóbbi a kezdő hipotézis – emlékszünk?), akkor egymintás t próbával válaszolhatunk a kérdésre. Mégpedig úgy, hogy kiszámoljuk, milyen valószínűséggel okozhat legalább ekkora (a standard hiba t-szerese) eltérést csak a véletlen, ha a H0 igaz. Ez a p valószínűség a (-t, t) intervallumon kívüli terület az adatszámnak megfelelő t eloszlás sűrűségfüggvénye alatt, amit számítógéppel, vagy táblázattal meg tudunk határozni.

Ha ez különbség nagy, akkor az azt jelenti, hogy a p valószínűség kisebb, mint egy előre meghatározott döntési szint (az ?). Vagyis legalább ekkora különbség előfordulása kis valószínűségű, ha a nullhipotézis igaz, ezért elvetjük a nullhipotézist.

Ha ez a különbség nem nagy, tehát a p valószínűség nem kisebb, mint a döntési szint (vagyis p „elég nagy”), akkor viszont nincs okunk elvetni a nullhipotézist.

Speciális eset volt, amikor két, páronként összetartozó adatsorból a különbségre végeztük el ugyanezt, ezt hívjuk páros t próbának. Vegyük észre, hogy ekkor a különbség adatsora (egyetlen minta), mindig a = 0 nullhipotézissel vizsgálandó, hiszen az a kérdés, hogy a különbség nulla-e? Vagyis: volt-e hatás, vagy nem?

Kérdés: Mint láttuk, a t próba feltétele az adatok normális eloszlása. A 6.14. táblázat különbség adatairól vajon jogosan tételezhetjük-e fel a normalitást? (Egy képzeletben felrajzolt hisztogramon milyen képet mutatnak ezek az adatok?)

Az előjel-próba

Nézzünk most újra az előbbi példát (6.14. táblázat.)! Az előbb elemeztük a változás adatsorát. Vegyük észre, hogy a változás a tizenkét páciensből kettőnél volt pozitív, és tíznél negatív. Magyarul tíznél csökkent a koleszterinszint és csak kettőnél nőtt. Hogyan tudjuk ezt az eddigihez hasonló („hipotézisvizsgálat”) gondolatmenettel kiértékelni?

  1. A nullhipotézis ugyanaz, mint az előbb, tehát, hogy a kezelés nem hatékony!

    Ekkor mit várunk – s most vizsgáljuk csak a változás negatív vagy pozitív voltát, tehát –az előjeleket illetően? Ha nem lenne hatékony a kezelés, és a változás csak a véletlen miatt térne el a nullától: akkor azt várnánk, hogy a tizenkét páciensből hatnál pozitív, hatnál negatív legyen a különbség. Mi is ez? Ez a binomiális eloszlás esete! Hiszen, hogy hány pozitív és negatív változás van (ha ez a két kimenetel egyenlő valószínűségű), akkor ez ugyanaz a helyzet, mint amikor tizenkétszer feldobok egy érmét, s azt kérdezem, hányszor kapok fejet és hányszor írást. Véletlenszerű, hogy fej, vagy írás lesz-e egy-egy feldobás eredménye. Ha nincs hatása a diétának és a tréningnek, akkor véletlenszerű az, hogy egy páciens koleszterinszintje a két mérés között csökken, vagy nő. Tehát ez esetben (nullhipotézis) 6 negatív és 6 pozitív változást várunk. Ez tehát a várható érték.

  2. A döntési szint maradjon 5%.

  3. A kérdés, hogy mekkora a H0 esetén várt és a tényleges adat eltérése, és milyen valószínűségű a (k = 6) várható értéktől legalább ekkora (esetünkben legalább 4) vagy ennél nagyobb eltérés?

    Példánkban 2 esetben kaptunk növekedést (ami 4-gyel tér el a várt 6-tól), és 10 esetben csökkenést. Ha felrajzoljuk ennek a binomiális eloszlásnak a B (12, 0.5) paraméterű binomiális eloszlásnak a valószínűségi értékeit, akkor ez úgy fog kinézni, hogy picivel több, mint 20% a valószínűsége, hogy 6 fej, 6 írás lesz. Az 5 illetve a 7 fej eredmény már picivel 20% alatti valószínűségű. A 4 vagy 8 fej az 12% körüli, a 3 illetve 9 fej az 5% körüli valószínűségű. A számunkra most érdekes 2 illetve 10 fej valószínűsége 1,6%, az 1 illetve 11 fej valószínűsége 0,3%, végül a 0 illetve 12 fej mindössze 0,02% valószínűségű. Tehát a valószínűség ennek a három pici valószínűség összegének kétszerese:

    Ez a valószínűség mintegy 3,8%, ami kisebb, mint 5%.

  4. Mivel p l ?, elvetjük a H0-t.

  5. Tehát a diéta és a tréning hatékony volt. A változás érdemi, lényeges, szignifikáns.

Ennek a módszernek a neve előjel próba.

Vegyük észre azt, hogy itt nem használtuk az értékelésnél a változás adatok számértékeit. Tehát az a korábban (a t próbánál) alkalmazott feltétel, hogy az adatsor normális eloszlású, itt értelmetlen. Nincs ilyen feltétel, csak az előjeleket vizsgáltuk. Épp ez a lényeg: ez a módszer alkalmazható olyankor, hogyha nem tudjuk bizonyítani, nem tudjuk feltételezni, hogy az adataink normális eloszlásúak. Ekkor az előjel próba még nyugodtan alkalmazható, hiszen csak az előjeleket vizsgálja.