Ugrás a tartalomhoz

Regressziós modellek az egészségpolitikai tervezésben példatár; Regressziós modellek az egészségpolitikai tervezésben példatár

Vokó Zoltán, Kabos Sándor, Lőw András

ELTE

2. fejezet - Poisson regressziós modellek kategoriális magyarázó változókkal

2. fejezet - Poisson regressziós modellek kategoriális magyarázó változókkal

Adatelemzési példák

Ebben a fejezetben Magyarország 2009-es mortalitási adatait elemezzük. A megválaszolandó kutatási kérdés, hogyan függ a halálozás a nemtől az életkortól és a lakóhely népességszámától.

Bemenő adatok:

  • teljes halálozás életkor (5-éves korcsoport), nem, lakhely népességszám kategória szerinti bontásban

  • lakónépesség (ugyanilyen bontásban)

2.1. példa - Poisson regresszió, mortalitás korcsoport, nem, lakhely népességszám szerint

call poisson: Y ~ offset(LOGN) + AGE + GENDER + LSZKOD

 

Incidencia sűrűség hányados

Együttható

Együttható standard hibája

z érték

Pr(>|z|)

 (Intercept)

0,00052

-7,5534

0,05562

-135,806

0

AGE.00-04

2,33484

0,84794

0,0694

12,219

0

AGE.05-09

0,24172

-1,41996

0,14148

-10,03663

0

AGE.10-14

0,31793

-1,14592

0,12354

-9,2756

0

AGE.15-19

0,67058

-0,39961

0,08914

-4,48303

1,00E-05

AGE.25-29

1,10842

0,10294

0,07531

1,36684

0,17168

AGE.30-34

1,64896

0,50014

0,06718

7,44527

0

AGE.35-39

2,86927

1,05406

0,06324

16,66724

0

AGE.40-44

5,54978

1,71376

0,06002

28,55144

0

AGE.45-49

11,49942

2,4423

0,05794

42,15066

0

AGE.50-54

20,58072

3,02435

0,05663

53,40833

0

AGE.55-59

27,22385

3,30409

0,05631

58,67517

0

AGE.60-64

38,51154

3,65096

0,05622

64,93928

0

AGE.65-69

52,60813

3,96287

0,0561

70,64271

0

AGE.70-74

78,95571

4,36889

0,05601

78,00325

0

AGE.75-79

128,03337

4,85229

0,05586

86,86199

0

AGE.80-84

218,1694

5,38527

0,05582

96,47972

0

AGE.85-X

2004,5429

7,60317

0,05546

137,08131

0

GENDER.F

0,4294

-0,84536

0,0042

-201,3572

0

LSZKOD. –999

1,47814

0,39079

0,00846

46,20179

0

LSZKOD. 1000–1999

1,48537

0,39567

0,00833

47,49887

0

LSZKOD. 2000–4999

1,50867

0,41123

0,00736

55,86308

0

LSZKOD. 5000–9999

1,43496

0,36113

0,00842

42,88961

0

LSZKOD. 10000–19999

1,36816

0,31346

0,0081

38,68758

0

LSZKOD. 20000–49999

1,33951

0,2923

0,00793

36,86062

0

LSZKOD. 50000–99999

1,26126

0,23211

0,00968

23,98679

0

LSZKOD. 100-300 ezer

1,22477

0,20275

0,00828

24,49597

0


AGE ref.level: .20-24

GENDER ref.level: .MALE

LSZKOD ref.level= .BP

Az adatelemzés referencia kategóriája a 20-24 éves budapesti férfiak, a modell az ő halandóságukat becsüli az Intercept=0,00052 (azaz 5,2 / 10 000) értékkel. A többi incidencia sűrűség hányados ehhez viszonyított, tehát az 50-54 éves budapesti férfiak esetében hússzoros (pontosabban 0,00052*20,58 = 0,0107) halandóságot becsül a modell.

A legfeljebb 999 lélekszámú településen lakó,  50-54 éves nők esetében ez az érték 0,00052*20,58 *1,47*0,4294 = 0,0067 Fontos tudni, hogy ez nem tényadat, hanem becslés, más modell esetén ugyanezekből az alapadatokból más becslést kapunk.

Goodness of fit signif = 0

(resid deviance = 3792,5 , resid df = 297 )

Az eredménylista fenti két sora azt jelenti, hogy a modell nem illeszkedik. Ez nem jelenti azt, hogy a modell becslései mind tévesek. Az eddig bemutatott halandósági becslések jól közelítik az alapsokasági adatokból a megfelelő részhalmazokra számolt halandósági tényadatokat.

A 2.2. fejezet mondja el, hogyan kell a modell illeszkedésvizsgálat  eredményét értelmezni. A gyakorlati adatelemzés számára a lényeges az, hogy a nem illeszkedő modellben (Goodness of fit signif lt 0,05) kapott szignifikancia értékekre nem szabad úgy hivatkozni, mint statisztikai bizonyítékra.

2.2. példa - Negatív binomiális regresszió, mortalitás korcsoport, nem, korcsoport*nem interakció és lakhely népességszám szerint

call negbin: Y ~ offset(LOGN) + AGE + GENDER + AGE:GENDER + LSZKOD

Incidencia sűrűség hányados

Együttható

Együttható standard hibája

z érték

Pr(>|z|)

(Intercept)

0,00063

-7,37688

0,06673

-110,5426

0

AGE.00-04

1,59647

0,46779

0,08893

5,26006

0

AGE.05-09

0,18065

-1,71117

0,18443

-9,278

0

AGE.10-14

0,23681

-1,44049

0,16086

-8,95509

0

AGE.15-19

0,57782

-0,54849

0,10937

-5,01514

0

AGE.25-29

1,09534

0,09106

0,08949

1,01756

0,30889

AGE.30-34

1,5239

0,42127

0,08138

5,17668

0

AGE.35-39

2,53666

0,93085

0,07725

12,04994

0

AGE.40-44

5,056

1,62058

0,07324

22,12745

0

AGE.45-49

10,62039

2,36278

0,07078

33,38066

0

AGE.50-54

19,26348

2,95821

0,06922

42,73746

0

AGE.55-59

25,80242

3,25047

0,06884

47,21925

0

AGE.60-64

35,85012

3,57935

0,06877

52,0477

0

AGE.65-69

48,10098

3,8733

0,06867

56,40586

0

AGE.70-74

67,72765

4,21549

0,06866

61,39468

0

AGE.75-79

101,5715

4,62076

0,06853

67,42367

0

AGE.80-84

152,48681

5,02708

0,06863

73,24823

0

AGE.85-X

2013,381

7,60757

0,06782

112,17728

0

GENDER.F

0,30983

-1,17172

0,13452

-8,71039

0

LSZKOD. –999

1,37744

0,32023

0,02026

15,80531

0

LSZKOD. 1000–1999

1,33491

0,28886

0,02005

14,40887

0

LSZKOD. 2000–4999

1,34887

0,29927

0,01924

15,55678

0

LSZKOD. 5000–9999

1,3035

0,26505

0,02012

13,17331

0

LSZKOD. 10000–19999

1,21119

0,1916

0,01983

9,66075

0

LSZKOD. 20000–49999

1,19949

0,18189

0,01974

9,21476

0

LSZKOD. 50000–99999

1,10914

0,10358

0,02113

4,90233

0

LSZKOD. 100-300 ezer

1,09874

0,09416

0,02003

4,70207

0

AGE.00-04:GENDER.F

3,03915

1,11158

0,16041

6,92976

0

AGE.05-09:GENDER.F

2,50165

0,91695

0,2969

3,08841

0,00201

AGE.10-14:GENDER.F

2,53023

0,92831

0,26188

3,54486

0,00039

AGE.15-19:GENDER.F

1,72242

0,54373

0,20142

2,6995

0,00694

AGE.25-29:GENDER.F

1,0535

0,05212

0,18197

0,28643

0,77455

AGE.30-34:GENDER.F

1,36086

0,30811

0,16059

1,91861

0,05503

AGE.35-39:GENDER.F

1,57286

0,45289

0,15167

2,98613

0,00283

AGE.40-44:GENDER.F

1,42547

0,3545

0,14578

2,43181

0,01502

AGE.45-49:GENDER.F

1,37262

0,31672

0,14168

2,23544

0,02539

AGE.50-54:GENDER.F

1,31095

0,27075

0,13912

1,94622

0,05163

AGE.55-59:GENDER.F

1,26055

0,23155

0,1385

1,67188

0,09455

AGE.60-64:GENDER.F

1,33435

0,28844

0,13825

2,08632

0,03695

AGE.65-69:GENDER.F

1,40029

0,33668

0,13796

2,44034

0,01467

AGE.70-74:GENDER.F

1,61923

0,48195

0,13774

3,49893

0,00047

AGE.75-79:GENDER.F

1,88321

0,63298

0,13749

4,60385

0

AGE.80-84:GENDER.F

2,27707

0,82289

0,13745

5,98678

0

AGE.85-X:GENDER.F

1,18804

0,1723

0,13681

1,25946

0,20786


AGE ref.level: .20-24

GENDER ref.level: .MALE

LSZKOD ref.level= .BP

Goodness of fit signif =  0,095042

(resid deviance = 311,45        , resid df  = 280 )

Megállapítjuk, hogy a 2.1.2. modell 0.05 szignifikancia szinten illeszkedik. Ezt úgy értük el, hogy egyrészt bevontuk a modellbe a korcsoport és nem interakcióját. Ezzel a 2.1.1. modellhez képest ez a modell szélsőségesebb értéket ad a nem szerinti esélyhányadosnak (a GENDER.F érték 43%-ról 31%-ra csökkent), viszont ezt egyes korcsoportokban az interakciós tényező jelentősen módosítja (a 0-4 korcsoportban teljesen eltünteti). A másik ok az, hogy Poisson modell helyett Negatív binomiális modellben számolunk (a részleteket lásd a 2.2 fejezetben)  

2.3. példa - (hibásan specifikált modell!): Lineáris regresszió, mortalitás korcsoport, nem, lakhely népességszám szerint

call lm: Y ~  N + AGE + GENDER + LSZKOD

Együttható

Együttható standard hibája

t érték

Pr(>|t|)

(Intercept)

1534,4197

296,38432

5,17713

0

N

2,20083

0,5123

-4,29596

2,00E-05

AGE.00-04

-182,0544

162,90938

-1,11752

0,26468

AGE.05-09

-219,5142

163,50492

-1,34255

0,18045

AGE.10-14

-190,2798

161,72845

-1,17654

0,24032

AGE.15-19

-62,75903

156,9521

-0,39986

0,68955

AGE.25-29

64,77578

157,06404

0,41242

0,68033

AGE.30-34

267,49513

166,6551

1,60508

0,10954

AGE.35-39

168,39621

159,17392

1,05794

0,29095

AGE.40-44

116,78885

156,5768

0,74589

0,45633

AGE.45-49

116,60105

156,97109

0,74282

0,45818

AGE.50-54

455,67318

157,36489

2,89565

0,00407

AGE.55-59

626,09271

158,3914

3,95282

1,00E-04

AGE.60-64

504,07648

157,34297

3,20368

0,0015

AGE.65-69

524,51447

160,68026

3,26434

0,00123

AGE.70-74

490,40076

170,72486

2,87246

0,00437

AGE.75-79

659,05218

179,49239

3,67176

0,00029

AGE.80-84

644,22833

196,4611

3,27916

0,00117

AGE.85-X

6597,1837

209,13834

31,54459

0

GENDER.F

-18,82911

54,48614

-0,34558

0,72991

LSZKOD. –999

-1029,356

175,05217

-5,88028

0

LSZKOD. 1000–1999

-906,5593

159,16521

-5,69571

0

LSZKOD. 2000–4999

-229,8071

117,32347

-1,95875

0,05108

LSZKOD. 5000–9999

-928,6075

159,11282

-5,83616

0

LSZKOD. 10000–19999

-697,1132

136,51661

-5,10643

0

LSZKOD. 20000–49999

-616,3018

132,8107

-4,64045

1,00E-05

LSZKOD. 50000–99999

-1264,13

181,20397

-6,97628

0

LSZKOD. 100-300 ezer

-741,6092

135,91592

-5,45638

0


AGE ref.level: .20-24

GENDER ref.level: .MALE

LSZKOD ref.level= .BP

F-statistics = 145,52 on df1= 27  and df2= 296

R-squared =  0,929942

A lineáris regresszió magyarázó változói ugyanazok, mint a Poisson regressziónál (az egyetlen különbség a népességszám N, ami itt magyarázó változó, a Poisson regressziónál offset volt).

Ez a modell hibásan specifikált, a lineáris modell előfeltételei nem teljesülnek. Nyilvánvalóan félrevezető eredmény pl. az, hogy a GENDER hatás ebben a modellben nem szignifikáns.  

Felhívjuk a figyelmet arra, hogy a fenti  konvencionális eredményközlésben semmi nem jelzi ezt a hibát: az F statisztika küszöbértéke  5%-os elsőfajú hibavalószínűség mellett 1,51 ezért a modell F=145,5 értéke szignifikáns,  tehát a modell magyarázóereje szignifikáns (a null-modellhez képest). A számított R2=0.93 kiválóan magas illeszkedést mutat, szintén szignifikáns.

A 2.2.3. pontban tárgyalunk olyan diagnosztikai eszközöket, amelyek a rosszul specifikált modell hibáinak felderítésére alkalmasak.