Németh Renáta, Simon Dávid
ELTE
Magyarázat: a piros körök jelzik az adatokat (11 megfigyelésünk van), a fekete vonal a regressziós egyenes, az egyenes megkereséséhez a regresszió során a pontok és az egyenes közötti y-tengely mentén mért távolságok négyzetösszegét minimalizáltuk.
A lineáris regressziót a regressziós egyenlettel jellemezhetjük:
= a+bx
ahol
a, b a regressziós együtthatók
regressziós becslés a függő változóra
Az a és b együtthatók meghatározásánál a következő érték minimalizálására törekszünk:
E = ∑(y - )2
Bizonyítható, hogy akkor lesz minimális a fenti eltérés négyzet, ha
ahol
a két változó kovarianciája (erről később)
a független változó varianciája
Visszatérve a munkanélküliség és a bűnözés kapcsolatára a következő eredményt kaptuk:
a = 4848
b = - 79,62
Mit jelent ez?
A b értelmezése: a munkanélküliségi ráta 1 százalékpontos növekedése a 100 ezer főre vetített bűnözési ráta 79,62 esettel történő csökkenésével jár
Az a értelmezése: ha a munkanélküliségi ráta 0 lenne a bűnözési ráta 100 ezer főre vetítve 4848 eset lenne.
Megjegyzés: a lineáris regresszió együtthatói aszimmetrikus mérőszámok
aszimmetrikus asszociációs mérőszám |
előjele a kapcsolat irányát jelzi |
nagysága függ a változók mértékegységétől |
függetlenség esetén értéke nulla |
A regressziós együtthatók becslésén túl fontos, hogy megállapítsuk, az egyenes mennyire illeszkedik az adatokhoz. Ennek egyik jellemző mértéke a becslés négyzetes hibája:
E = ∑(y - )2
Gyakrabban használt mérőszám a determinációs együttható, amely a becslés hibacsökkentő hatásának vagy másként a megmagyarázott varianciának a jellemző mutatója:
A determinációs együttható (r2) tulajdonságai:
értéke 0 és 1 közé esik (A fenti példában a determinációs együttható értéke 0,1 volt)
megmutatja, hogy a függő változó varianciájának mekkora részét magyarázta meg a független váltózóval mérhető kapcsolata (PRE elv elven alapul: mennyivel csökken a függő változó szórása, ha a független változó alapján becslést teszünk rá)