Vokó Zoltán, Kabos Sándor, Lőw András
ELTE
Tartalom
Ebben a fejezetben Magyarország 2009-es mortalitási adatait elemezzük. A megválaszolandó kutatási kérdés, hogyan függ a halálozás a nemtől az életkortól és a lakóhely népességszámától.
Bemenő adatok:
teljes halálozás életkor (5-éves korcsoport), nem, lakhely népességszám kategória szerinti bontásban
lakónépesség (ugyanilyen bontásban)
2.1. példa - Poisson regresszió, mortalitás korcsoport, nem, lakhely népességszám szerint
call poisson: Y ~ offset(LOGN) + AGE + GENDER + LSZKOD
Incidencia sűrűség hányados |
Együttható |
Együttható standard hibája |
z érték |
Pr(>|z|) | |
---|---|---|---|---|---|
(Intercept) |
0,00052 |
-7,5534 |
0,05562 |
-135,806 |
0 |
AGE.00-04 |
2,33484 |
0,84794 |
0,0694 |
12,219 |
0 |
AGE.05-09 |
0,24172 |
-1,41996 |
0,14148 |
-10,03663 |
0 |
AGE.10-14 |
0,31793 |
-1,14592 |
0,12354 |
-9,2756 |
0 |
AGE.15-19 |
0,67058 |
-0,39961 |
0,08914 |
-4,48303 |
1,00E-05 |
AGE.25-29 |
1,10842 |
0,10294 |
0,07531 |
1,36684 |
0,17168 |
AGE.30-34 |
1,64896 |
0,50014 |
0,06718 |
7,44527 |
0 |
AGE.35-39 |
2,86927 |
1,05406 |
0,06324 |
16,66724 |
0 |
AGE.40-44 |
5,54978 |
1,71376 |
0,06002 |
28,55144 |
0 |
AGE.45-49 |
11,49942 |
2,4423 |
0,05794 |
42,15066 |
0 |
AGE.50-54 |
20,58072 |
3,02435 |
0,05663 |
53,40833 |
0 |
AGE.55-59 |
27,22385 |
3,30409 |
0,05631 |
58,67517 |
0 |
AGE.60-64 |
38,51154 |
3,65096 |
0,05622 |
64,93928 |
0 |
AGE.65-69 |
52,60813 |
3,96287 |
0,0561 |
70,64271 |
0 |
AGE.70-74 |
78,95571 |
4,36889 |
0,05601 |
78,00325 |
0 |
AGE.75-79 |
128,03337 |
4,85229 |
0,05586 |
86,86199 |
0 |
AGE.80-84 |
218,1694 |
5,38527 |
0,05582 |
96,47972 |
0 |
AGE.85-X |
2004,5429 |
7,60317 |
0,05546 |
137,08131 |
0 |
GENDER.F |
0,4294 |
-0,84536 |
0,0042 |
-201,3572 |
0 |
LSZKOD. –999 |
1,47814 |
0,39079 |
0,00846 |
46,20179 |
0 |
LSZKOD. 1000–1999 |
1,48537 |
0,39567 |
0,00833 |
47,49887 |
0 |
LSZKOD. 2000–4999 |
1,50867 |
0,41123 |
0,00736 |
55,86308 |
0 |
LSZKOD. 5000–9999 |
1,43496 |
0,36113 |
0,00842 |
42,88961 |
0 |
LSZKOD. 10000–19999 |
1,36816 |
0,31346 |
0,0081 |
38,68758 |
0 |
LSZKOD. 20000–49999 |
1,33951 |
0,2923 |
0,00793 |
36,86062 |
0 |
LSZKOD. 50000–99999 |
1,26126 |
0,23211 |
0,00968 |
23,98679 |
0 |
LSZKOD. 100-300 ezer |
1,22477 |
0,20275 |
0,00828 |
24,49597 |
0 |
AGE ref.level: .20-24
GENDER ref.level: .MALE
LSZKOD ref.level= .BP
Az adatelemzés referencia kategóriája a 20-24 éves budapesti férfiak, a modell az ő halandóságukat becsüli az Intercept=0,00052 (azaz 5,2 / 10 000) értékkel. A többi incidencia sűrűség hányados ehhez viszonyított, tehát az 50-54 éves budapesti férfiak esetében hússzoros (pontosabban 0,00052*20,58 = 0,0107) halandóságot becsül a modell.
A legfeljebb 999 lélekszámú településen lakó, 50-54 éves nők esetében ez az érték 0,00052*20,58 *1,47*0,4294 = 0,0067 Fontos tudni, hogy ez nem tényadat, hanem becslés, más modell esetén ugyanezekből az alapadatokból más becslést kapunk.
Goodness of fit signif = 0
(resid deviance = 3792,5 , resid df = 297 )
Az eredménylista fenti két sora azt jelenti, hogy a modell nem illeszkedik. Ez nem jelenti azt, hogy a modell becslései mind tévesek. Az eddig bemutatott halandósági becslések jól közelítik az alapsokasági adatokból a megfelelő részhalmazokra számolt halandósági tényadatokat.
A 2.2. fejezet mondja el, hogyan kell a modell illeszkedésvizsgálat eredményét értelmezni. A gyakorlati adatelemzés számára a lényeges az, hogy a nem illeszkedő modellben (Goodness of fit signif lt
0,05) kapott szignifikancia értékekre nem szabad úgy hivatkozni, mint statisztikai bizonyítékra.
2.2. példa - Negatív binomiális regresszió, mortalitás korcsoport, nem, korcsoport*nem interakció és lakhely népességszám szerint
call negbin: Y ~ offset(LOGN) + AGE + GENDER + AGE:GENDER + LSZKOD
Incidencia sűrűség hányados |
Együttható |
Együttható standard hibája |
z érték |
Pr(>|z|) | |
---|---|---|---|---|---|
(Intercept) |
0,00063 |
-7,37688 |
0,06673 |
-110,5426 |
0 |
AGE.00-04 |
1,59647 |
0,46779 |
0,08893 |
5,26006 |
0 |
AGE.05-09 |
0,18065 |
-1,71117 |
0,18443 |
-9,278 |
0 |
AGE.10-14 |
0,23681 |
-1,44049 |
0,16086 |
-8,95509 |
0 |
AGE.15-19 |
0,57782 |
-0,54849 |
0,10937 |
-5,01514 |
0 |
AGE.25-29 |
1,09534 |
0,09106 |
0,08949 |
1,01756 |
0,30889 |
AGE.30-34 |
1,5239 |
0,42127 |
0,08138 |
5,17668 |
0 |
AGE.35-39 |
2,53666 |
0,93085 |
0,07725 |
12,04994 |
0 |
AGE.40-44 |
5,056 |
1,62058 |
0,07324 |
22,12745 |
0 |
AGE.45-49 |
10,62039 |
2,36278 |
0,07078 |
33,38066 |
0 |
AGE.50-54 |
19,26348 |
2,95821 |
0,06922 |
42,73746 |
0 |
AGE.55-59 |
25,80242 |
3,25047 |
0,06884 |
47,21925 |
0 |
AGE.60-64 |
35,85012 |
3,57935 |
0,06877 |
52,0477 |
0 |
AGE.65-69 |
48,10098 |
3,8733 |
0,06867 |
56,40586 |
0 |
AGE.70-74 |
67,72765 |
4,21549 |
0,06866 |
61,39468 |
0 |
AGE.75-79 |
101,5715 |
4,62076 |
0,06853 |
67,42367 |
0 |
AGE.80-84 |
152,48681 |
5,02708 |
0,06863 |
73,24823 |
0 |
AGE.85-X |
2013,381 |
7,60757 |
0,06782 |
112,17728 |
0 |
GENDER.F |
0,30983 |
-1,17172 |
0,13452 |
-8,71039 |
0 |
LSZKOD. –999 |
1,37744 |
0,32023 |
0,02026 |
15,80531 |
0 |
LSZKOD. 1000–1999 |
1,33491 |
0,28886 |
0,02005 |
14,40887 |
0 |
LSZKOD. 2000–4999 |
1,34887 |
0,29927 |
0,01924 |
15,55678 |
0 |
LSZKOD. 5000–9999 |
1,3035 |
0,26505 |
0,02012 |
13,17331 |
0 |
LSZKOD. 10000–19999 |
1,21119 |
0,1916 |
0,01983 |
9,66075 |
0 |
LSZKOD. 20000–49999 |
1,19949 |
0,18189 |
0,01974 |
9,21476 |
0 |
LSZKOD. 50000–99999 |
1,10914 |
0,10358 |
0,02113 |
4,90233 |
0 |
LSZKOD. 100-300 ezer |
1,09874 |
0,09416 |
0,02003 |
4,70207 |
0 |
AGE.00-04:GENDER.F |
3,03915 |
1,11158 |
0,16041 |
6,92976 |
0 |
AGE.05-09:GENDER.F |
2,50165 |
0,91695 |
0,2969 |
3,08841 |
0,00201 |
AGE.10-14:GENDER.F |
2,53023 |
0,92831 |
0,26188 |
3,54486 |
0,00039 |
AGE.15-19:GENDER.F |
1,72242 |
0,54373 |
0,20142 |
2,6995 |
0,00694 |
AGE.25-29:GENDER.F |
1,0535 |
0,05212 |
0,18197 |
0,28643 |
0,77455 |
AGE.30-34:GENDER.F |
1,36086 |
0,30811 |
0,16059 |
1,91861 |
0,05503 |
AGE.35-39:GENDER.F |
1,57286 |
0,45289 |
0,15167 |
2,98613 |
0,00283 |
AGE.40-44:GENDER.F |
1,42547 |
0,3545 |
0,14578 |
2,43181 |
0,01502 |
AGE.45-49:GENDER.F |
1,37262 |
0,31672 |
0,14168 |
2,23544 |
0,02539 |
AGE.50-54:GENDER.F |
1,31095 |
0,27075 |
0,13912 |
1,94622 |
0,05163 |
AGE.55-59:GENDER.F |
1,26055 |
0,23155 |
0,1385 |
1,67188 |
0,09455 |
AGE.60-64:GENDER.F |
1,33435 |
0,28844 |
0,13825 |
2,08632 |
0,03695 |
AGE.65-69:GENDER.F |
1,40029 |
0,33668 |
0,13796 |
2,44034 |
0,01467 |
AGE.70-74:GENDER.F |
1,61923 |
0,48195 |
0,13774 |
3,49893 |
0,00047 |
AGE.75-79:GENDER.F |
1,88321 |
0,63298 |
0,13749 |
4,60385 |
0 |
AGE.80-84:GENDER.F |
2,27707 |
0,82289 |
0,13745 |
5,98678 |
0 |
AGE.85-X:GENDER.F |
1,18804 |
0,1723 |
0,13681 |
1,25946 |
0,20786 |
AGE ref.level: .20-24
GENDER ref.level: .MALE
LSZKOD ref.level= .BP
Goodness of fit signif = 0,095042
(resid deviance = 311,45 , resid df = 280 )
Megállapítjuk, hogy a 2.1.2. modell 0.05 szignifikancia szinten illeszkedik. Ezt úgy értük el, hogy egyrészt bevontuk a modellbe a korcsoport és nem interakcióját. Ezzel a 2.1.1. modellhez képest ez a modell szélsőségesebb értéket ad a nem szerinti esélyhányadosnak (a GENDER.F érték 43%-ról 31%-ra csökkent), viszont ezt egyes korcsoportokban az interakciós tényező jelentősen módosítja (a 0-4 korcsoportban teljesen eltünteti). A másik ok az, hogy Poisson modell helyett Negatív binomiális modellben számolunk (a részleteket lásd a 2.2 fejezetben)
2.3. példa - (hibásan specifikált modell!): Lineáris regresszió, mortalitás korcsoport, nem, lakhely népességszám szerint
call lm: Y ~ N + AGE + GENDER + LSZKOD
Együttható |
Együttható standard hibája |
t érték |
Pr(>|t|) | |
---|---|---|---|---|
(Intercept) |
1534,4197 |
296,38432 |
5,17713 |
0 |
N |
2,20083 |
0,5123 |
-4,29596 |
2,00E-05 |
AGE.00-04 |
-182,0544 |
162,90938 |
-1,11752 |
0,26468 |
AGE.05-09 |
-219,5142 |
163,50492 |
-1,34255 |
0,18045 |
AGE.10-14 |
-190,2798 |
161,72845 |
-1,17654 |
0,24032 |
AGE.15-19 |
-62,75903 |
156,9521 |
-0,39986 |
0,68955 |
AGE.25-29 |
64,77578 |
157,06404 |
0,41242 |
0,68033 |
AGE.30-34 |
267,49513 |
166,6551 |
1,60508 |
0,10954 |
AGE.35-39 |
168,39621 |
159,17392 |
1,05794 |
0,29095 |
AGE.40-44 |
116,78885 |
156,5768 |
0,74589 |
0,45633 |
AGE.45-49 |
116,60105 |
156,97109 |
0,74282 |
0,45818 |
AGE.50-54 |
455,67318 |
157,36489 |
2,89565 |
0,00407 |
AGE.55-59 |
626,09271 |
158,3914 |
3,95282 |
1,00E-04 |
AGE.60-64 |
504,07648 |
157,34297 |
3,20368 |
0,0015 |
AGE.65-69 |
524,51447 |
160,68026 |
3,26434 |
0,00123 |
AGE.70-74 |
490,40076 |
170,72486 |
2,87246 |
0,00437 |
AGE.75-79 |
659,05218 |
179,49239 |
3,67176 |
0,00029 |
AGE.80-84 |
644,22833 |
196,4611 |
3,27916 |
0,00117 |
AGE.85-X |
6597,1837 |
209,13834 |
31,54459 |
0 |
GENDER.F |
-18,82911 |
54,48614 |
-0,34558 |
0,72991 |
LSZKOD. –999 |
-1029,356 |
175,05217 |
-5,88028 |
0 |
LSZKOD. 1000–1999 |
-906,5593 |
159,16521 |
-5,69571 |
0 |
LSZKOD. 2000–4999 |
-229,8071 |
117,32347 |
-1,95875 |
0,05108 |
LSZKOD. 5000–9999 |
-928,6075 |
159,11282 |
-5,83616 |
0 |
LSZKOD. 10000–19999 |
-697,1132 |
136,51661 |
-5,10643 |
0 |
LSZKOD. 20000–49999 |
-616,3018 |
132,8107 |
-4,64045 |
1,00E-05 |
LSZKOD. 50000–99999 |
-1264,13 |
181,20397 |
-6,97628 |
0 |
LSZKOD. 100-300 ezer |
-741,6092 |
135,91592 |
-5,45638 |
0 |
AGE ref.level: .20-24
GENDER ref.level: .MALE
LSZKOD ref.level= .BP
F-statistics = 145,52 on df1= 27 and df2= 296
R-squared = 0,929942
A lineáris regresszió magyarázó változói ugyanazok, mint a Poisson regressziónál (az egyetlen különbség a népességszám N, ami itt magyarázó változó, a Poisson regressziónál offset volt).
Ez a modell hibásan specifikált, a lineáris modell előfeltételei nem teljesülnek. Nyilvánvalóan félrevezető eredmény pl. az, hogy a GENDER hatás ebben a modellben nem szignifikáns.
Felhívjuk a figyelmet arra, hogy a fenti konvencionális eredményközlésben semmi nem jelzi ezt a hibát: az F statisztika küszöbértéke 5%-os elsőfajú hibavalószínűség mellett 1,51 ezért a modell F=145,5 értéke szignifikáns, tehát a modell magyarázóereje szignifikáns (a null-modellhez képest). A számított R2=0.93 kiválóan magas illeszkedést mutat, szintén szignifikáns.
A 2.2.3. pontban tárgyalunk olyan diagnosztikai eszközöket, amelyek a rosszul specifikált modell hibáinak felderítésére alkalmasak.