Ugrás a tartalomhoz

Regressziós modellek az egészségpolitikai tervezésben példatár; Regressziós modellek az egészségpolitikai tervezésben példatár

Vokó Zoltán, Kabos Sándor, Lőw András

ELTE

Statisztikai összefoglaló

Statisztikai összefoglaló

Normális eloszlás

Az valószínűségi változó normális eloszlású, jelben

ha sűrűségfüggvénye:

4.1. egyenlet -


Paraméterei: μ: várható érték, : szórásnégyzet (=variancia)

(μ tetszőleges, tetszőleges pozitív valós szám)

Normális eloszlás várható értéke:

4.2. egyenlet -


Normális eloszlás szórásnégyzete:

4.3. egyenlet -


Beta eloszlás

Az Beta eloszlású

4.4. egyenlet -


N+1 darab [0,1]-ben egyenletes eloszlású valószínűségi változó közül a nagyság szerinti k+1-edik eloszlása

Beta eloszlás sűrűségfüggvénye:

4.5. egyenlet -


és f(t) = 0, ha t lt 0 vagy 1ltt (N és k pozitív egész, k leq N).

Beta eloszlás várható értéke:

4.6. egyenlet -


Beta eloszlás szórásnégyzete:

4.7. egyenlet -


Binomiális eloszlás

Az valószínűségi változó N-ed rendű, p paraméterű binomiális eloszlású

4.8. egyenlet -


ahol N pozitív egész,k nemnegatív egész, k leq N, 0 leq p leq 1

P(X = k): annak a valószínűsége, hogy egy p valószínűségű esemény N független megfigyelésben pontosan k alkalommal fordul elő.

4.9. egyenlet -


A binomiális eloszlás várható értéke:

4.10. egyenlet -


A binomiális eloszlás szórásnégyzete:

4.11. egyenlet -


Logit függvény

4.12. egyenlet -


ahol log() az e alapú logaritmus

a függvény értelmezési tartománya: 0 lt x lt 1

a függvény értékkészlete: a valós számok

A logit függvény szigorúan mononoton növekedő.

A logit függvény inverze:

Logisztikus-binomiális regresszió kategoriális magyarázó változókkal

ahol : a cellát azonosító index: a populáció i-ik korcsoport, j-ik nem, k-ik lakhely kategória szerint homogén csoportja,

: az -ik cellában megfigyelt esemény-szám,

: az -ik cellában a populáció nagysága (lakónépesség),

: az -ik cellában az esemény bekövetkezési valószínűsége,

? , , , : a modell ismeretlen paraméterei.

A modell szerint Y cellánként független binomiális eloszlású, az definícióval paraméterű, az -cellában bekövetkező várható eseményszám =

Ez a modell a 2.2.1. pontban tárgyalt Poisson regresszió rokona, mindketten az általános lineáris modell-család tagjai. A kategoriális magyarázó változós logisztikus regresszió a log-lineáris modell-család tagja.

A két modell közötti választás nem mindig triviális. Egy leegyszerűsített szabály az, hogy a értékek kisebbek, mint 0,01 akkor a Poisson modell a jobb. A 4.1. fejezetben bemutatott példák határeset, és mindkét példában mindkét modell használata elfogadható.

Normal Q-Q

Q-Q görbe a Poisson modellnél.

Scale-Location

A reziduumok homoszkedaszticitását szemléltető görbe a Poisson modellnél.

Normal Q-Q

Q-Q görbe a logisztikus-binomiális modellnél.

Scale-Location

A reziduumok homoszkedaszticitását szemléltető görbe a logisztikus-binomiális modellnél.

A két modell nem csak az illeszkedésvizsgálat LR tesztjében mutat hasonló eredményeket, hanem a diagnosztikai görbéknél is. Azt látjuk, hogy azokban a cellákban, ahol nagyon alacsony (1\% körüli) az esély, a binomiális modell rendre túl nagy becsléseket ad meg (ezt a Q-Q görbén látjuk), itt határozottan jobb a Poisson modell.

A reziduumok homoszkedaszticitását szemléltető görbén a binomiális modell jobb, a Poisson modellnél a 0 megfigyelt gyakoriságú cellák egy jól kirajzolódó exponenciális görbén helyezkednek el.

Kevert modell, fix és random magyarázó változókkal

A legegyszerűbb random paraméteres eljárásokat mutatjuk be, a tárgyalt általánosított lineáris modellek lineáris részében az ANOVA eljárásban ismert variancia komponens becslésekkel.

Hasonló eljárások régóta ismertek a Bayes-féle statisztikában. A klasszikus eset az, amikor feltételes eloszlás paraméterű binomiális, és (a priori) eloszlása Beta, akkor a (a poszteriori) feltételes eloszlás is Beta. A Bayes-féle statisztikán alapuló modellezési módszer 2000 óta vált igazán népszerűvé, ekkor olyan számítógépes megvalósítás vált ismertté, mely szinte bármilyen apriori eloszlás esetén hatékony becslést ad. A mi általunk tárgyalt példákban a a priori normális eloszlású, de a pontosabb modellekben indokolt más eloszlásokat is tekintetbe venni.

Kevert logisztikus-binomiális regresszió, kategoriális magyarázó változókkal

ahol a és a valószínűségi változók teljesen függetlenek.

A specifikáció további részei azonosak a 4.2.1. pontbeliekkel.

A döntő különbség az, hogy itt valószínűségi változó, ezért a specifikáció első sorában nem Y eloszlása, hanem Y feltételes eloszlása szerepel.

Kevert Poisson regresszió, kategoriális magyarázó változókkal

ahol a és a valószínűségi változók teljesen függetlenek.

A specifikáció további részei azonosak a 2.2.1. pontbeliekkel.

Szempontok a fix- és random tényezők megválasztásánál

A kérdés gyakran idézett összefoglalása Tom Snijders [bib_8]szócikke. További technikai részleteket tárgyal a Gelman-Hill [bib_3]11. fejezet. A felhasználó számára is érzékelhető különbség a fix tényezős modellekkel szemben az, hogy a Likelihood függvény (és ezért a deviance értékén alapuló illeszkedésvizsgálat) a random tényezős modellekben nem mindig számítható. Mi olyan modelleket tárgyalunk, amikor a random rész normális, és ilyenkor a Likelihood függvényre jó közelítés van, és a fix modellekhez hasonló illeszkedésvizsgálatot lehet végezni.

A Gelman-Hill [bib_3]könyv 24. fejezete tárgyalja azokat a statisztikai szimulációs eszközöket, melyekkel a fenti megszorítások nélkül is lehet modell illeszkedésvizsgálatot végezni.

A 4.1.3. pontban elmondtuk, hogy mikor indokolt a régiót random tényezőnek tekinteni. Pontosabb modell alkotásnál figyelembe kell venni, hogy a survey során a hét régió mindegyikéből milyen mintavétellel választották ki azokat a településeket ahonnan a megkérdezetteket kiválasztották.

A kevert modelleknél általánosabb, hierarchikus (más néven: multilevel) modelleket kell ilyenkor használni, mert itt megfelelő lehetőség van a paraméter random tulajdonságait kellő pontossággal figyelembe vevő beágyazott modelleket építeni. A hierarchikus modellek általános tárgyalásása nem fér jelen példatár kereteibe, de az 5. fejezet egyik példája szemlélteti az itt adódó elemzési lehetőségeket.