3.3. A leíró statisztika alapfogalmai

Célkitűzés

Követelmények

Tanulási idő: kb. 45 perc

A 3.3. lecke a leíró statisztika alapfogalmait részletezi. Elsőként a statisztikai mutatók fogalmával ismerkedünk meg:

Definíció

A statisztikai mutatók számszerűen, pontosan megmutatják egy adatsor jellemző értékeit. (Domokos – Vincze-Csom, 2012)

Az alapvető leíró statisztikai mutatók (Falus-Ollé, 2000):

3.3.1. Gyakoriságok

A kutatások elemzésénél gyakran a vizsgált adatok, változók megoszlására vagyunk kíváncsiak.

Definíció

Az abszolút gyakoriság egy olyan mutató, amely jellemzi, hogy egy-egy csoportba hány adat tartozik.

Példa

Megvizsgáljuk, hogy a megkérdezett pedagógusok között hány férfi és hány nő volt.

Definíció

A gyakorisági eloszlást az adott csoportok és a hozzájuk rendelhető gyakoriságok alkotják.

A gyakoriságok százalékban is kifejezhetők.

Definíció

A relatív gyakoriság a csoport abszolút gyakoriság értékének a minta elemszámához százalékosan viszonyított értéke. (Tóthné, 2011)

Definíció

A kumulatív gyakoriság egy olyan statisztikai mutató, mely arra mutat, hogy a mintából mennyi azon elemek száma, amely egy előre meghatározott szintet ér el, vagy halad meg (alulról számított, ill. felülről számított kumulatív gyakoriság). (Tóthné, 2011)

Példa gyakoriságok megjelenítésére SPSS-ben
Példa gyakoriságok megjelenítésére SPSS-ben

3.3.2. Középérték-mutatók

Definíció

Középértékeknek nevezzük azokat a számokat vagy kategóriákat, amelyek valamilyen módon a minta ,,közepét” jellemzik. (Falus, 2014)

A középértékek közül megkülönböztetjük a számtani közepet (átlagot), a móduszt és a mediánt. (Vág, 2005)

A számtani középnek / átlagnak csak legalább intervallum változó esetén van értelme.

Definíció

n darab szám átlagán a számok összegének n-ed részét értjük.

Az átlagot nagyon gyakran használjuk a pedagógiai kutatásokban.

Példa

Az osztály tanulói eredményeinek számítjuk ki az átlagát, majd a kapott átlagokat hasonlítjuk össze.

Az átlag érzékeny a kiugró értékekre, vagyis extrém értékeket tartalmazó számsor esetében nem használható.

Átlagot csak legalább intervallum-változók esetén számíthatunk, azonban az adataink elrendezését kategória-változók esetén is jellemezhetjük olyan középértékekkel, amelyek valamilyen módon az adatok csoportosulására, elhelyezkedésére mutatnak rá.

Definíció

A módusz a számsorban a leggyakrabban előforduló érték, a legnagyobb gyakorisággal rendelkező kategória, illetve intervallum-változó esetén a legnagyobb gyakorisággal rendelkező osztály (intervallum) közepe (osztályközép). (Falus, 2014)

Bármelyik mérési szinten meghatározható. Nominális változó esetén a modus az egyetlen értelmezhető középérték. Ez az az adat, amelyeket a válaszadók legtöbbször választanak.

Definíció

Rendezzük sorba adatainkat, s keressük meg azt a helyet, amelytől jobbra is és balra is az adatok 50–50%-a található. Ha páratlan sok adatunk van, akkor a medián pont a középső adat. Páros számú érték esetén nincs egyetlen középső, ilyenkor a két középen elhelyezkedő adat számtani közepe a medián, feltéve, hogy számíthatunk egyáltalán számtani közepet, egyébként a két középső kategória közül szabadon választhatunk. (Falus, 2014)

A medián nominális adatokra nem, de ordinális skála esetén már definiálható. Feltétele az adatsor sorba rendezhetősége. A medián kevésbé érzékeny a kiugró értékekre.

3.3.3. Szóródásmutatók

Pedagógiai kutatásoknál gyakran felmerül a kérdés, hogyan jellemezhetjük az adatok szóródását. Lehetnek szétszórtabb, becslésre, előrejelzésre kevésbé alkalmas adataink és lehetnek olyanok, amelyek biztosabb kijelentésekre adnak lehetőséget, mert egy érték körül kevésbé szétszórtan, jobban ,,összetömörülve” helyezkednek el.

A szóródási mutatókkal az értékek különbözőségét, változékonyságát jellemezzük.

Definíció

A minta terjedelme a legnagyobb és a legkisebb érték közti különbség.

Ez adatok szóródásának legegyszerűbb mutatója. Önmagában azonban nem ad megbízható tájékoztatást az adatsorról, gondoljunk csak a kiugró értékekre.

Definíció

A kvartilisek (negyedelők) negyedelik az adatsort, négy egyenlő elemszámú részre osztják.

Egy adatsor három kvartilissel rendelkezik. Az alsó, középső és felső kvartilissel. Értelemszerűen a középső kvartilis egybeesik a mediánnal. Az alsó kvartilis érték alatt illetve a felső kvartilis felett van az adatok 25-25 %-a, a két kvartilis az adatok 50%-át fogja közre.

Definíció

A kvartilisek közötti távolságot interkvartilis terjedelemnek (IQR)-nek nevezzük.

A kiugró adatok feltárására használjuk.

Definíció

Az interdecilis távolság az alsó és a felső tíz százalék közötti távolság.

Definíció

A szóródás az átlagtól történő eltérést mutatja meg. Mérőszáma a szórás. (Domokos – Vincze-Som, 2012)

A szórás értéke arról tájékoztat, hogy mennyire egységes az adatállomány.

A szórás a pedagógiai jelenségek egyik fontos mutatója. Gyakran célként fogalmazódik meg a teljesítmények átlagának emelése mellett a szórás csökkentése is.

Példa

Valamely iskolai osztály tanulmányi eredményének vizsgálatában kíváncsiak vagyunk arra, hogy az eredmények mennyire szóródnak az átlag körül.

Definíció

Varianciának nevezzük a szórás négyzetét.

Definíció

A relatív szórás százalékos formában adja meg a szórás és az számtani átlag hányadosát.

A korrelációval egy későbbi leckében foglalkozunk.

Feladat

A statisztika alapfogalmaiba nyújt betekintést az alábbi, középiskolások számára készült oktatófilm-sorozat. Tanulmányozza a videókat és ismételje át a tanult fogalmakat!
http://zanza.tv/matematika/valoszinuseg-statisztika/statisztika-i,
http://zanza.tv/matematika/valoszinuseg-statisztika/statisztika-ii,
http://zanza.tv/matematika/valoszinuseg-statisztika/statisztika-iii,
http://zanza.tv/matematika/valoszinuseg-statisztika/statisztika-iv-statisztikai-mutatok.

Összefoglaló

A lecke a leíró statisztika alapjaiba nyújtott betekintést. Ismertette a statisztikai mutatók fogalmát és fajtáit, az abszolút gyakoriság, a gyakorisági eloszlás, a relatív gyakoriság és a kumulatív gyakoriság fogalmát. Bemutatta a középérték-mutatókat: az átlagot, a móduszt és a mediánt, illetve a szóródásmutatókat: a minta terjedelmét, a kvartiliseket, az interkvartilis terjedelmet, az interdecilis távolságot, a szóródást, a szórást, a variancia, illetve a relatív szórás fogalmát.