Prof. Dr. Závoti József (2010)
Nyugat-magyarországi Egyetem
Ha nagyon sok ismérv van, vagy folytonos ismérvek vannak, ilyen esetben osztályokat célszerű képezni az ismérvekre.
Egy adatrendszer feldolgozásánál alapvető probléma, hogy hány osztály képezzünk? Általában célszerű 20 osztálynál kevesebbet választani. Ha sok osztályt választunk, töredezett a hisztogram, ha kevés osztállyal dolgozunk, akkor pedig durva lesz a felbontás.
Az osztályhatárokat úgy kell megválasztani, hogy minden elem belekerüljön valamelyik osztályba (teljes), minden elem csak egy osztályba kerüljön (diszjunkt), és lehetőleg homogén osztályok legyenek.
Az osztályok számának (k) meghatározására a szakirodalomban általában kétféle módszert javasolnak. Megállapodás kérdése, hogy melyiket választjuk. Kevés adatszámra mindkét módszer közel azonos osztályszámot szolgáltat.
legkisebb k, amelyre
Sturges-képlet:
,
ahol N az osztályozni kívánt adatok száma (minta, vagy sokaság elemszáma)
Egyenközű osztályszélesség esetén minden osztály hossza:
.
De választhatunk különböző osztályszélességeket is.
Jelölések:
: az i-edik osztály alsó határa
: az i-edik osztály felső határa
Az osztályhatárok meghatározása történhet az alábbi szabályok szerint:
Az osztályközép képzési szabálya: