Ugrás a tartalomhoz

Regressziós modellek az egészségpolitikai tervezésben példatár; Regressziós modellek az egészségpolitikai tervezésben példatár

Vokó Zoltán, Kabos Sándor, Lőw András

ELTE

Statisztikai összefoglaló

Statisztikai összefoglaló

Poisson eloszlás

Az valószínűségi változó -paraméterű Poisson eloszlású ()

2.1. egyenlet -


A Poisson eloszlás várható értéke:

2.2. egyenlet -


A Poisson eloszlás szórásnégyzete:

2.3. egyenlet -


Tehát a Poisson eloszlás várható értéke és szórásnégyzete megegyezik.

Exponenciális eloszlás

Az valószínűségi változó -paraméterű exponenciális eloszlású ()

ha sűrűségfüggvénye

2.4. egyenlet -


Az exponenciális eloszlás várható értéke:

2.5. egyenlet -


Az exponenciális eloszlás szórásnégyzete:

2.6. egyenlet -


Tehát az exponenciális eloszlás várható értéke és szórása megegyezik.

Gamma eloszlás

Az valószínűségi változó -paraméterű Gamma eloszlású, ha darab független, paraméterű exponenciális valószínűségi változó összege (ahol valós szám, egész szám).

A Gamma eloszlás sűrűségfüggvénye:

2.7. egyenlet -


A Gamma eloszlás várható értéke:

2.8. egyenlet -


A Gamma eloszlás szórásnégyzete:

2.9. egyenlet -


Geometriai eloszlás

Az valószínűségi változó paraméterű geometriai (= elsőrendű negatív binomiális, Pascal) eloszlású (ahol , ha lehetséges értékei a nemnegatív egész számok és

2.10. egyenlet -


A geometriai eloszlás várható értéke:

2.11. egyenlet -


A geometriai eloszlás szórásnégyzete:

2.12. egyenlet -


Negatív binomiális eloszlás

Az valószínűségi változó -paraméterű negatív binomiális eloszlású, ha darab független, paraméterű geometriai valószínűségi változó összege (ahol és pozitív egész szám)

2.13. egyenlet -


A negatív binomiális eloszlás várható értéke:

2.14. egyenlet -


A negatív binomiális eloszlás szórásnégyzete:

2.15. egyenlet -


Megjegyzés: ez a definíció kiterjeszthető az valós számokra.

Poisson regresszió kategoriális magyarázó változókkal

2.16. egyenlet -


2.17. egyenlet -


ahol

: a cellát azonosító index: a populáció -ik korcsoport, -ik nem, -ik lakhely népességszám kategória szerint homogén csoportja,

: az -ik cellában megfigyelt esemény-szám,

: az -ik cellában a populáció nagysága (lakónépesség),

: az -ik cellában az intenzitás,

: a modell ismeretlen paraméterei.

A modell illesztése:

  • meghatározzuk az adatokból a paraméterek becslését,

  • meghatározzuk a paraméterekhez tartozó szignifikancia-szinteket,

  • meghatározzuk a modell illeszkedésének szignifikancia-szintjét,

  • megvizsgáljuk a reziduumok eloszlását.

Megjegyzés: az interakciós hatások figyelembevétele a loglineáris elemzésnél szokott módon történik (lásd Agresti[bib_1] 5. fejezet).

Megjegyzés: az a modellben nem magyarázó változó, hanem együttható nélküli (azaz "offset") változó.

Negatív binomiális regresszió kategoriális magyarázó változókkal

2.18. egyenlet -


2.19. egyenlet -


2.20. egyenlet -


a paraméterek értelmezése azonos a Poisson regressziónál elmondottakkal.

Megjegyzés: miközben a feltételes eloszlás Poisson, az feltétel nélküli eloszlása negatív binomiális.

Megjegyzés: a negatív binomiális regresszió fontos jellemzője, hogy a Poisson regressziónál nem kezelhető túlszórást is modellezi.

Megjegyzés: a fentiekkel egy hierarchikus regressziós modellt jellemeztünk.

A modell statisztikai illeszkedésvizsgálata

A lineáris regresszió modell feltételei:

ahol ismeretlen paraméterek és független (tehát állandó szórású)

A 2.1.3. példában az összhalálozást lineáris regresszióval közelítjük. Ez a modell rosszul specifikált, mert nem állandó szórású (például azért, mert különböző népességszámú statisztikai egységekre vonatkozik).

A következőkben bemutatjuk a legegyszerűbb modell diagnosztikai eszközöket, amelyekkel megvizsgálhatjuk, mennyire teljesülnek a modell feltételei.

Residual vs Fitted

A reziduumok homoszkedaszticitását szemléltető görbe: a reziduumok a modell által becsült érték függvényében ábrázolva. A 2.1.3. modell láthatóan rosszul specifikált, reziduumai nem állandó szórásúak: ha a számított érték nagyobb, akkor a reziduum szórása is nagyobb.

Normal Q-Q

A standardizált reziduumok kvantilisei a standard normális eloszlás kvantiliseinek függvényében ábrázolva. A 2.1.3. modell láthatóan rosszul specifikált, reziduumainak eloszlása jelentősen eltér a normálistól.

A Poisson és a Negatív binomiális regressziós modell esetén hasonló illeszkedésvizsgálatot végzünk. A reziduumok értelmezése azonban kissé eltérő.

A modell illeszkedésvizsgálatának döntő eleme a likelihood függvény: ez a paraméterek függvényében fejezi ki, hogy az adott modellben mennyi a valószínûsége a megfigyelt mintának. Azt a paraméter értéket választjuk becslésnek (pontosabban maximum likelihood becslésnek), amely maximalizálja ezt a valószínûséget.

A reziduumok négyzetösszege a lineáris modellben monoton csökkenő függvénye (negatív logaritmus) a likelihoodnak: kisebb reziduális négyzetösszeg = nagyobb likelihood. Ez a kapcsolat itt kissé bonyolultabbá válik, ezért a reziduumok helyébe a deviance lép. A következő pontban szerepel az általános lineáris modell leírása, ahol a deviance fogalmának megvilágítása a fő cél, minden egyéb részlet csak nagyon leegyszerûsítve szerepel.

Az általánosított lineáris modell (GLM)

a kimeneti változó megfigyelt értékei, várhatóértéke

a magyarázó változók ismert értékei

lineáris prediktor, ismeretlen paraméterek

link függvény

Exponenciális eloszlás-család: függetlenek az alábbi eloszlással:

2.21. egyenlet -


ahol (ismeretlen) paraméterek, φ (ismert v. ismeretlen) skála-paraméter,

γ ismert súlyok, γ() és τ() ismert függvények.

A exponenciális eloszlás-család tagja a normális, binomiális, exponenciális, Poisson eloszlás, ilyen eloszlású kimeneti változó esetén alkalmazható a GLM.

2.22. egyenlet -


ahol a maximalizált likelihood ( a kimeneti változó eloszlásfüggvényébe behelyettesítjük a mintában megfigyelt értékeket és a paraméterekben maximalizálunk). A számlálóban az aktuális modell szerepel, a nevezőben a telített modell ( ahol a lehető legtöbb paraméter van).

A modell illeszkedésének likelihood ratio (LR) tesztje: ahol a szabadságfoka = megfigyelések száma - szabad paraméterek száma.

Hatékony számítógépes realizációk állnak rendelkezésre, az SPSS-ben GENLIN néven, a STATA-ban GLM néven. Az R nyelven sok megvalósítás ismert, az egyik a glm() függvény.

Az általánosított lineáris modell az normális eloszlás esetén = és és választással egyenértékû a klasszikus lineáris modellel.

A következőkben az epidemiológiai modellekben leggyakrabban alkalmazott GLM, a Poisson regresszió tulajdonságait foglaljuk össze, a következő fejezetben tárgyaljuk a logisztikus-binomiális regressziót.

A Poisson regresszió, mint általánosított lineáris regresszió

esetén és és és

ahol ahol

A modell illeszkedésvizsgálatának likelihood hányados tesztje:

a modell akkor illeszkedik 0,05 elsőfajú hibavalószínûség mellett, ha a (mintanagyság - modell paramétereinek száma) szabadságfokú eloszlás 0,95-kvantilise.

A fenti LR illeszkedesvizsgálat mellett hasznos a lineáris modellnél megismert modell diagnosztikai ábrák vizsgálata. Kiderül belőle, hogy ha nincs megfelelő illeszkedés, akkor ezt mely cellák tehetők ezért felelőssé (ez természetesen leegyszerûsítés, az illeszkedés hiányát az összes megfigyelés együttesen okozza). Az ábrákon az outlier pont mellett megjelenő szám az input adatfájl sorszámával utal az illeszkedés hiányáért felelőssé tehető cellára.

Q-Q plot hasonlóan szerkeszthető, mint a lineáris modell esetén, a vízszintes tengelyen az elméleti kvantilis, a függőleges tengelyen a standardizált deviance pontonkánti eloszlásának kvantilisei.

A reziduumok homoszkedaszticitását szemléltető görbének itt a scale-location görbe felel meg, a vízszintes tengelyen a modell által becsült érték, a függőleges tengelyen a standardizált deviance abszolut értéke négyzetgyökének pontonkénti értékei (részletesebben Gelman-Hill [bib_3]6.2. fejezet).

A 2.1.1. modell illeszkedésvizsgálata

Normal Q-Q
Scale−Location

deviance = 3792.5 , melynek szabadságfoka: resid df = 297 tehát az illeszkedésvizsgálat LR statisztikája szignifikáns: ez a modell nerm illeszkedik.

( jól közelíthető és normálissal, ha )

Mind a Q-Q plot, mind a reziduumok homoszkedaszticitását szemléltető görbe jól mutatja a az illeszkedés hiányának okát: nagyobb becsült értékeknél nagyobb a std. deviance.

A 2.1.2. modell illeszkedésvizsgálata

Normal Q-Q
Scale−Location

deviance = 311,45 , melynek szabadságfoka: resid df = 280 az illeszkedésvizsgálat LR statisztikájának 95% -os egyoldali elfogadási tartományának felső küszöbértéke 319 és miután ez nagyobb, mint 311,45 ezért a modell illeszkedik.

a számítás részletei:

jól közelíthető és normálissal, ha

és a küszöbérték:

Mind a Q-Q plot, mind a reziduumok homoszkedaszticitását szemléltető görbe jó illeszkedést mutat.

További eljárásokat tárgyal a GLM modellek illeszkedésvizsgálatára Gelman [bib_3]8. fejezet, a prediktív becslési hibát bootstrap és cross-validation segítségével elemzi.