Vokó Zoltán, Kabos Sándor, Lőw András
ELTE
Az valószínűségi változó normális eloszlású, jelben
ha sűrűségfüggvénye:
Paraméterei: μ: várható érték, : szórásnégyzet (=variancia)
(μ tetszőleges, tetszőleges pozitív valós szám)
Normális eloszlás várható értéke:
Normális eloszlás szórásnégyzete:
Beta eloszlás
Az Beta eloszlású
N+1 darab [0,1]-ben egyenletes eloszlású valószínűségi változó közül a nagyság szerinti k+1-edik eloszlása
Beta eloszlás sűrűségfüggvénye:
és f(t) = 0, ha t lt
0 vagy 1lt
t (N és k pozitív egész, k leq
N).
Beta eloszlás várható értéke:
Beta eloszlás szórásnégyzete:
Binomiális eloszlás
Az valószínűségi változó N-ed rendű, p paraméterű binomiális eloszlású
ahol N pozitív egész,k nemnegatív egész, k leq
N, 0 leq
p leq
1
P(X = k): annak a valószínűsége, hogy egy p valószínűségű esemény N független megfigyelésben pontosan k alkalommal fordul elő.
A binomiális eloszlás várható értéke:
A binomiális eloszlás szórásnégyzete:
Logit függvény
ahol log() az e alapú logaritmus
a függvény értelmezési tartománya: 0 lt
x lt
1
a függvény értékkészlete: a valós számok
![]() |
A logit függvény szigorúan mononoton növekedő.
A logit függvény inverze:
ahol : a cellát azonosító index: a populáció i-ik korcsoport, j-ik nem, k-ik lakhely kategória szerint homogén csoportja,
: az
-ik cellában megfigyelt esemény-szám,
: az
-ik cellában a populáció nagysága (lakónépesség),
: az
-ik cellában az esemény bekövetkezési valószínűsége,
? , ,
,
: a modell ismeretlen paraméterei.
A modell szerint Y cellánként független binomiális eloszlású, az definícióval
paraméterű, az
-cellában bekövetkező várható eseményszám =
Ez a modell a 2.2.1. pontban tárgyalt Poisson regresszió rokona, mindketten az általános lineáris modell-család tagjai. A kategoriális magyarázó változós logisztikus regresszió a log-lineáris modell-család tagja.
A két modell közötti választás nem mindig triviális. Egy leegyszerűsített szabály az, hogy a értékek kisebbek, mint 0,01 akkor a Poisson modell a jobb. A 4.1. fejezetben bemutatott példák határeset, és mindkét példában mindkét modell használata elfogadható.
![]() |
Q-Q görbe a Poisson modellnél.
![]() |
A reziduumok homoszkedaszticitását szemléltető görbe a Poisson modellnél.
![]() |
Q-Q görbe a logisztikus-binomiális modellnél.
![]() |
A reziduumok homoszkedaszticitását szemléltető görbe a logisztikus-binomiális modellnél.
A két modell nem csak az illeszkedésvizsgálat LR tesztjében mutat hasonló eredményeket, hanem a diagnosztikai görbéknél is. Azt látjuk, hogy azokban a cellákban, ahol nagyon alacsony (1\% körüli) az esély, a binomiális modell rendre túl nagy becsléseket ad meg (ezt a Q-Q görbén látjuk), itt határozottan jobb a Poisson modell.
A reziduumok homoszkedaszticitását szemléltető görbén a binomiális modell jobb, a Poisson modellnél a 0 megfigyelt gyakoriságú cellák egy jól kirajzolódó exponenciális görbén helyezkednek el.
A legegyszerűbb random paraméteres eljárásokat mutatjuk be, a tárgyalt általánosított lineáris modellek lineáris részében az ANOVA eljárásban ismert variancia komponens becslésekkel.
Hasonló eljárások régóta ismertek a Bayes-féle statisztikában. A klasszikus eset az, amikor feltételes eloszlás
paraméterű binomiális, és
(a priori) eloszlása Beta, akkor a
(a poszteriori) feltételes eloszlás is Beta. A Bayes-féle statisztikán alapuló modellezési módszer 2000 óta vált igazán népszerűvé, ekkor olyan számítógépes megvalósítás vált ismertté, mely szinte bármilyen apriori eloszlás esetén hatékony becslést ad. A mi általunk tárgyalt példákban a
a priori normális eloszlású, de a pontosabb modellekben indokolt más eloszlásokat is tekintetbe venni.
Kevert logisztikus-binomiális regresszió, kategoriális magyarázó változókkal
ahol a és a
valószínűségi változók teljesen függetlenek.
A specifikáció további részei azonosak a 4.2.1. pontbeliekkel.
A döntő különbség az, hogy itt valószínűségi változó, ezért a specifikáció első sorában nem Y eloszlása, hanem Y feltételes eloszlása szerepel.
Kevert Poisson regresszió, kategoriális magyarázó változókkal
ahol a és a
valószínűségi változók teljesen függetlenek.
A specifikáció további részei azonosak a 2.2.1. pontbeliekkel.
Szempontok a fix- és random tényezők megválasztásánál
A kérdés gyakran idézett összefoglalása Tom Snijders [bib_8]szócikke. További technikai részleteket tárgyal a Gelman-Hill [bib_3]11. fejezet. A felhasználó számára is érzékelhető különbség a fix tényezős modellekkel szemben az, hogy a Likelihood függvény (és ezért a deviance értékén alapuló illeszkedésvizsgálat) a random tényezős modellekben nem mindig számítható. Mi olyan modelleket tárgyalunk, amikor a random rész normális, és ilyenkor a Likelihood függvényre jó közelítés van, és a fix modellekhez hasonló illeszkedésvizsgálatot lehet végezni.
A Gelman-Hill [bib_3]könyv 24. fejezete tárgyalja azokat a statisztikai szimulációs eszközöket, melyekkel a fenti megszorítások nélkül is lehet modell illeszkedésvizsgálatot végezni.
A 4.1.3. pontban elmondtuk, hogy mikor indokolt a régiót random tényezőnek tekinteni. Pontosabb modell alkotásnál figyelembe kell venni, hogy a survey során a hét régió mindegyikéből milyen mintavétellel választották ki azokat a településeket ahonnan a megkérdezetteket kiválasztották.
A kevert modelleknél általánosabb, hierarchikus (más néven: multilevel) modelleket kell ilyenkor használni, mert itt megfelelő lehetőség van a paraméter random tulajdonságait kellő pontossággal figyelembe vevő beágyazott modelleket építeni. A hierarchikus modellek általános tárgyalásása nem fér jelen példatár kereteibe, de az 5. fejezet egyik példája szemlélteti az itt adódó elemzési lehetőségeket.