Ugrás a tartalomhoz

Matematikai statisztikai elemzések 6., Regressziószámítás: kétváltozós lineáris és nemlineáris regresszió, többváltozós regresszió

Prof. Dr. Závoti József (2010)

Nyugat-magyarországi Egyetem

6.2 Kétváltozós lineáris regresszió

6.2 Kétváltozós lineáris regresszió

A regressziószámítás a mennyiségi ismérvek közötti sztochasztikus tendenciát vizsgálja, és a kapcsolat természetét valamilyen függvénnyel írja le.

Lineáris regresszió esetén egyenest illesztünk az adatokra.

6.2.1 A lineáris regresszió modellje:

Az (x1,y1), (x2,y2),..., (xn,yn) pontokra szeretnénk egy regressziós egyenest illeszteni.

A megoldáshoz meg kell határozni a paramétereket.

A megoldás során a „legjobb” egyenest – azt, amelyik a legkevésbé tér el a pontoktól – keressük. Ezt az egyenest a legkisebb négyzetek módszerének segítségével fogjuk megkeresni.

6.2.2 A lineáris regresszió alkalmazásának feltételei

  1. Linearitás: Az Y eloszlások várható értéke az ún. alapsokasági regressziós egyenesre esik.

  2. A variancia állandó:

  3. Függetlenség: Az valószínűségi változók függetlenek.

  4. Az eloszlás normális: Az változók normális eloszlásúak.

  5. A hibatényező: Az normális eloszlású, egymástól független változók, amelyek várható értéke 0, varianciája pedig .

6.2.3 Legkisebb négyzetek módszere

A becsült regressziófüggvény:

Keressük a függvény paramétereinek azon becslését, , amely mellett a megfigyelésből származó és a regressziófüggvény alapján becsült Y értékek különbségének eltérésnégyzet-összege a legkisebb:

A regressziófüggvényt behelyettesítve a célfüggvénybe:

A paramétereket a szélsőérték-számítás szabályai alapján határozhatjuk meg.

A és szerinti parciális deriváltjai vesszük, és ezeket nullával tesszük egyenlővé (stacionárius pont meghatározása):

Így eljutunk az ún. normál egyenletekhez:

A normálegyenletek megoldásával a és paraméterek meghatározhatók.

A megoldásra különböző módszerek léteznek. Mi az ismeretleneket a Cramer-szabály felhasználásával határozzuk meg.

Cramer szabály:

A paramétert az alábbi egyenletből kapjuk:

A szemlélet alapján elfogadjuk, hogy a kapott stacionárius pont valóban szélsőérték hely.

A paraméterek értelmezése:

A lineáris regresszió függvény paraméterét regressziós együtthatónak nevezzük. A regressziós együttható arra ad választ, hogy az x magyarázó változó egységnyi változása átlagosan mekkora változással jár együtt az y eredményváltozóban. A együttható, az egyenlet konstans tagja, az x=0 helyhez ad regressziós becslést.

6.2.4 Elaszticitás

Az X és Y változóknak nemcsak különbségeit, hanem relatív változásait is szembeállíthatjuk, így jutunk el az elaszticitás fogalmához. Az elaszticitás arra ad választ, hogy az X magyarázó változó adott értékének egy 1%-os változása az Y függő változóban milyen átlagos relatív változást eredményez.

Az átlaghelyhez tartozó elaszticitás-érték:

6.2.5 A lineáris regresszió tulajdonságai:

  1. , azaz az átlagpont illeszkedik a regressziós egyenesre.

  2. Az kifejezés az értéknél veszi fel a minimumát.

A legkisebb négyzetek módszerével kapott becslések az Y változó lineáris kombinációi. A becsült paraméterek tehát valószínűségi változók, amelyek jellemzőinek megismerése lehetővé teszi, hogy konfidencia intervallumokat készítsünk a sokasági regressziófüggvény paramétereire. Ehhez először a paraméterbecslések mintavételi eloszlásával ismerkedünk meg.

6.2.6 A és mintavételi eloszlása

Tétel:

, azaz torzítatlan becslése -nek.

Tétel:

szórásnégyzete

Tétel:

azaz torzítatlan becslése -nak.

Tétel:

szórásnégyzete

6.2.7 Konfidencia intervallum számítása a β paraméterekre

A mintából becsült paraméterek eloszlásának ismeretében valószínűségi megállapításokat tehetünk a sokasági paraméterekre.

A paraméterre tett (1-α) valószínűségi megállapítás:

Ezt úgy értelmezhetjük, hogy ha ismételt mintavételeket hajtunk végre, és minden mintavételi eredmény alapján elkészítjük a konfidencia intervallumot, az intervallumok 100(1-α) %-a tartalmazni fogja a sokasági paramétert.

Az egyenes meredekségére vonatkozó konfidencia intervallum:

Az egyenes konstans tagjára vonatkozó konfidencia intervallum:

6.2.8 Hipotézisvizsgálat

Fontos annak vizsgálata, hogy az X és Y változók szignifikáns kapcsolatban vannak-e egymással. Ennek vizsgálatára az alábbi hipotéziseket fogalmazzuk meg:

A hipotézisellenőrzést a t-próbával végezzük, amely a becsült regressziós együttható és a standard hiba hányadosa:

Ha a , a H0 hipotézist elfogadjuk. Ebben az esetben a paraméter nem különbözik szignifikánsan a nullától. A konfidencia intervallum ilyenkor tartalmazza a nulla értéket is.

Ha a , a H0 hipotézist elvetjük. A mintabeli információk ekkor azt mutatják, hogy releváns kapcsolat van az X és Y változó között.

6.2.9 Determinációs együttható:

Az r2 mutatót determinációs együtthatónak nevezzük, amelynek értéke 0 és 1 közé esik. Ha a lineáris regresszió paramétere nulla, akkor az r2 értéke is nulla. Ilyen esetben a változók között nincs korrelációs kapcsolat. A determinációs együttható a maximális értékét akkor veszi fel, ha a változók között determinisztikus összefüggés van, vagyis valamennyi megfigyelt Y érték a regressziós egyenesen helyezkedik el. A 0 és 1 közötti r2 értékek a változók közötti kapcsolat erősségét, a regressziófüggvény illeszkedésének jóságát jellemzik.

Példa

14 tőzsdén jegyzett társaság adatai:

  1. Írja fel a lineáris regresszió-függvényt és értelmezze a paramétereket!

  2. Számítsa ki és értelmezze a lineáris együtthatót, a determinációs együtthatót, és a regresszióbecslés relatív hibáját!

Megoldás:

  1. A lineáris regresszió-függvény meghatározása:

    Így a lineáris regresszió-függvény:

  2. A standard hiba:

    hibája:

    A determinációs együttható:

    A lineáris korrelációs együttható: , azaz nagyon szoros a kapcsolat a két ismérv között.