Németh Renáta, Simon Dávid
ELTE
Mikor nem használhatóak a fenti eljárások?
ha nem lineáris a kapcsolat (korábban is láttunk hasonlót)
Ezen az ábrán a függő változó jól látható módon összefügg a független változóval, azonban a lineáris regresszió eredményei a függetlenséghez hasonlóak. Ennek az a magyarázata, hogy az összefüggés nem lináris (jelen esetben négyzetes). Ilyenkor a legegyszerűbb eljárás, ha a független változót két vagy több olyan tartományra bontjuk, amely esetén az összefüggés már jó közelítéssel lineáris.
A fenti példa esetén meghatározhatunk két tartományt a független változón 0-50 és 50-100. Ebben az esetben már értékelhető eredményt kapunk a lineáris regressziós eljárással.
ha extrém esetek vannak a mintában
A fenti példában 10 megfigyelésünk függetlenséget mutat (a függő változó értéke 10 esetben azonos a független változó különböző értékei mellett), egy esetünk pedig „kilóg” a trendből, mind a független, mind a függő változón extrém értéket vesz fel. A lineáris regresszió eredménye erős összefüggést mutat, miközben az eseteink 90%-nál semmilyen összefüggés nincs.
Ilyenkor a kiugró (néhány) esetet el kell hagyjuk (érdemes megvizsgálni ezeknek az eseteknek az egyéb tulajdonságait, – egyéb kérdésekre adott válaszait – hogy rájöjjünk, miért nem illeszkednek a trendhez). Ezután már reális eredményt kapunk a regressziós eljárás alapján. Vigyázat! Nem szabad az esetek jelentős részét elhagyni (erre nincs konkrét szabály, de 10%-nál több esetet ne hagyjunk el), mert fennáll a veszélye annak, hogy az előzetes feltételezéseinket mesterségesen megerősítő elemzést készítünk.
Jó tanács: ha magas mérési szintű változókkal dolgozunk, mindig készítsünk pontdiagramot, amely alapján kialakíthatunk egy elsődleges benyomást az adatokról.
Nagyon fontos!
A lineáris regresszió elvégzésének (itt nem részletezett okok miatt) vannak matematikai-statisztikai feltételei. Ezekről részletesebben a statisztika tankönyvekben lehet olvasni, annyit azonban itt is megemlítünk, hogy a függő változónak normális eloszlást kell követnie, és a függő változó szórása nem függhet össze a független változóval (azaz a függő változó szórása a független változó kisebb és nagyon értékei esetén azonos kell legyen). Ezeket a feltételeket mindig ellenőrizni kell!
Mindezt lefordítva regressziós elemzés olvasására: ha egy regressziós elemzés készül, nézzük meg, hogy ellenőrizték-e a matematikai feltételeket, vizsgálták-e az összefüggés linearitását, kezelték-e a kiugró eseteket.
Nézzük a regresszió feltételeit a kor és a jövedelem kapcsolatánál:
Az ábrán azt láthatjuk, hogy
A felrajzolt illesztett görbe alapján az összefüggés nem lineáris
A jövedelmek szórása közepes életkorig nő, majd csökken
Vannak a trendtől jelentősen eltérő, kiugró esetek is
Itt nem látszik, de a jövedelem ráadásul nem is normális eloszlású
Úgy járhatnánk el helyesen, ha a jövedelem eloszlását normalizálnánk (erről később), az életkort több részre bontanánk és korcsoportonként vizsgálnánk meg az összefüggést (ezzel az eltérő szórást is kezelnénk).
További megjegyzés a regresszióhoz:
Figyeljünk a mértékegységre, a regresszió eredményei függnek ettől
Több változó is használható független változóként (lásd többváltozós elemzések a statisztika tankönyvekben)