Németh Renáta, Simon Dávid
ELTE
Emlékezzünk vissza arra, hogy az alacsony mérési szintű változók esetén az együttes eloszlást jól vizsgálhattuk kereszttáblák segítségével. Működik-e ez a módszer a magas mérési szintű változók esetén is?
Nézzük meg például az életkor és a jövedelem együttes eloszlását Magyarországon 1995-ben
Úgy tűnik több okból sem célszerű a kereszttáblás ábrázolás:
a tábla áttekinthetetlenül nagy lesz
sok az esethiányos cella
cellánként túl alacsony az esetszám
összességében nem tudunk válaszolni az előbb feltett kérdésekre
Célszerűbb valamilyen ábrát használni az adatok első áttekintéséhez, értékeléséhez.
Ezt az ábrát pontdiagramnak vagy angolul scatterplot-nak nevezzük.
Első áttekintés előtt néhány szokásos jelölés:
y (függőleges) tengely: ha értelmezhető, akkor általában a függő változó
x (vízszintes) tengely: ha értelmezhető, akkor általában a független változó
Minden egyes pont (itt négyzet) egy esetet jelöl.
Mit olvashatunk le az ábrából?
a változók terjedelmét (minimumát és maximumát) a két tengely mentén
az összefüggés tendenciáit (hiányát/meglétét, irányát, alakját(!))
kiugró (a tendenciától eltérő) esetek meglétét vagy hiányát (erről később részletesen lesz szó)
A kapcsolat jellemzéséhez meg kell állapítanunk, hogy látunk-e valamilyen összefüggést a két változó között az együttes eloszlás alapján.
Ismételjük át két változó összefüggésének / függetlenségének fogalmát!
Alacsony mérési szintű változó esetén ezt a definíciót adtuk:
Azt mondjuk, hogy kapcsolat van a két változó között, ha a függő változó eloszlása más és más a független változó különböző kategóriáin belül nézve.
Két változó függetlensége esetén a függő változó eloszlása azonos a független változó különböző kategóriáin belül.
(Amennyiben nem különböztetünk meg függő és független változót akkor az egyik, illetve másik változó kifejzés használható)
Megjegyzés: a függetlenség mindig szimmetrikus tulajdonság, azaz az függő-független szerepek felcserélése esetén nem változhat meg az, hogy két konkrét változó (jelenség) összefügg-e.
Magas mérési szint esetén a függetlenséget így definiálhatjuk:
A függő változó feltételes eloszlása (azaz az eloszlás, ha a független változó konkrét értéket vesz fel) azonos a független változóra, mint feltételre nézve.
Kevésbé precízen (nekünk most elég lesz ez is): a független változó bármely értékénél a függő változó hasonló értékeket vesz fel.
Lássuk ismét a korábbi ábránkat az életkor és a jövedelem összefüggéséről! Független-e a két változó?
Nézzük ugyanezt az adatot olyan módon, hogy most a 150 000 Ft feletti, illetve 0 Ft-os jövedelmeket nem tekintjük!
Most egy kicsit tisztábban látjuk, hogy a két változó nem független egymástól. Hogyan lehetne jellemezni a két változó kapcsolatát?