Ugrás a tartalomhoz

Általános pszichológia 1-3. – 1. Észlelés és figyelem

Csépe Valéria, Győri Miklós, Ragó Anett

Osiris Kiadó

Frekvenciaszelektivitás, zajelfedés és kritikus sávok

Frekvenciaszelektivitás, zajelfedés és kritikus sávok

Az 8. fejezetben a fül különböző részeinek tárgyalásakor arról beszéltünk, hogy a belső fül szerepe a beérkező hangok frekvencia szerinti elemzése. Ez jelentheti a tiszta hangok esetében egyetlen frekvencia, a komplex hangoknál pedig több frekvencia kinyerését. Láttuk azt is, hogy az alaphártya működésének milyen mechanizmusai képesek ezt megvalósítani. Az alábbiakban ugyanezt a frekvenciaszelektív működést fogjuk megvizsgálni, de most nem a biológiai, hanem a pszichológiai, viselkedéses jelenségek felől közelítünk a problémához.

A zajelfedés

A hallórendszer frekvenciaszelektivitását vizsgáló kísérletekben gyakran alkalmazzák a maszkolásnak (elfedésnek) nevezett módszert. Említettük már, hogy a háttérzaj elfedi a hangokat, vagyis zaj jelenlétében a hangok nehezebben detektálhatók. Kicsit szabatosabban fogalmazva, az elfedés azt jelenti, hogy a tiszta hangok észlelési küszöbe zaj jelenlétében megemelkedik. Az elfedési kísérletekben a legtöbb esetben két hangingert használnak: egy tiszta hangot, amelyet gyakranjelnek neveznek, és egy komplex hangot, amely általában egy sávszűrt zaj. A kísérletekben a résztvevők feladata általában az, hogy észrevegyék (detektálják) a zajjal együtt bemutatott jelet. A kísérletek általános eredménye az, hogy egy hangot egy olyan zajjal lehet a legjobban elfedni, amely tartalmaz a tiszta hangéhoz hasonló vagy azzal megegyező frekvenciát. Az elfedés tehát úgy jön létre, hogy a hallórendszer nem képes megkülönböztetni egymástól a jelet és az elfedő hangot. Az elfedés tehát a fül frekvenciafelbontási képességének határairól mond valamit.

Az elfedés mértékét alapvetően két tényező befolyásolja: egyrészt a zaj nagysága (minél nagyobb a zaj, annál nagyobb az elfedés), másrészt az, hogy a tiszta hanghoz képest milyen frekvenciák találhatók a zajban. Ez utóbbit érdemes egy kicsit részletesebben áttekintenünk.

Mint tudjuk, a zajra mint komplex hangra az jellemző, hogy sok különböző frekvenciát tartalmaz. Ha a zaj valamennyi hallható frekvencián tartalmaz hangenergiát, akkor széles sávú zajnak nevezzük. A 9.5. ábra szemlélteti a széles sávú zaj energiatartományát.

Az ábra vázlatosan szemlélteti az egyes frekvenciákon található energiamennyiséget, amely, mint látható, a széles sávú zaj esetében egy minden frekvenciára kiterjedő trapézalakot vesz fel. Ez lényegében egy leegyszerűsített spektrális ábrázolása a hangoknak, és arra hívja fel a figyelmet, hogy jelen esetben nem a hangok idői változása érdekel bennünket, hanem az, hogy a hangok és a zajok milyen frekvenciákon szólalnak meg.

A széles sávú zaj két paraméter mentén módosítható, a sávszélesség és a középfrekvencia mentén. A sávszélesség, vagyis a zaj frekvenciatartománya különböző szűrési eljárásokkal módosítható, és így úgynevezett sávszűrt zaj hozható létre. A sávszűrt zajból bizonyos mértékben alacsony és magas frekvenciák is hiányoznak. Az ilyen típusú zajra az jellemző, hogy más minőségű és egyben csökkent erősségű lesz. A 9.5. ábra mutat olyan sávszűrt zajokat, amelyek különböző szélességűek, de ugyanolyan középfrekvenciával rendelkeznek. A középfrekvencia a zaj középpontjára, pontosabban a zaj frekvenciaeloszlásának középpontjára vonatkozik. A 9.5. ábra illusztrálja azt, hogy hogyan változik a sávszűrt zaj, ha sávszélességét állandóan tartjuk, de a középfrekvenciát változtatjuk. Ahogy látható, a középfrekvencia változtatása lényegében azt jelenti, hogy a zajt szimbolizáló trapézt a vízszintes frekvenciatengely mentén jobbra vagy balra elmozdítjuk. Mindezek után most már megvizsgálhatjuk azt, hogy milyen hatással vannak a különböző típusú zajok a tiszta hangok detektálására.

9.5. ábra. A zaj akusztikus energiatartalmának vázlatos ábrázolása. Az egyes grafikonokon a sötét terület az energiamennyiséget jelöli

Az első elfedéssel kapcsolatos kísérleteket Fletcher (1940) végezte, aki a tiszta hangok detekciós küszöbét vizsgálta sávszűrt zajok szélességének függvényében. A zaj középfrekvenciája minden esetben megegyezett a detektálandó jel frekvenciájával, és a zaj sávszélességét változtatták. Az eredmények azt mutatták (lásd 9.6. ábra), hogy minél szélesebb tartományú volt a zaj, vagyis minél több frekvencián tartalmazott hangenergiát, annál hatásosabban fedte el a jelet, vagyis annál hangosabbnak kellett lennie a jelnek, hogy észrevehető legyen.

9.6. ábra. Egy zajelfedési kísérlet eredménye. A kísérletben egy 2000 Hz-es hangot kellett detektálni egy 2000 Hz-es középfrekvenciával rendelkezô és egyre szélesebb sávú elfedô zaj mellett. Látható, hogy az elfedő zaj sávszélességének növelése hatására a hang detektálásának küszöbe egyre magasabb lett, de kb. 75 dB felett már nem nőtt tovább (Schooneveldt–Moore 1989 nyomán)

Fletcher kísérletének egy másik fontos eredménye az volt, hogy a zaj sávszélességének változtatása csak egy bizonyos mértékig volt hatásos: egy szintet elérve hiába növelte a sávszélességet, ugyanakkora maradt a jel küszöbe. Ráadásul, ahogy az ábrán látható, ez a felső szint jóval a hangosság észlelésének felső korlátja (a 130 dB-es fájdalomküszöb) alatt volt. Vagyis ezt a platót nem az okozta, hogy ennél hangosabb hangokat már nem képes a hallórendszer feldolgozni, hanem úgy tűnik, hogy a széles sávú zajnak csupán egy korlátozott részlete járul hozzá a tiszta hang elfedéséhez. Ezt a tartományt kritikus sávnak nevezzük.

A kritikus sávok

Fletcher az elfedési kísérletek eredményeinek és a kritikus sávok létezésének magyarázatára a hallórendszer működésének új modelljét javasolta. Eszerint a hallórendszer úgy képzelhető el, mint egy a teljes hallható frekvenciatartományt lefedő és egymást átfedő sávszűröket tartalmazó készlet (lásd 9.7. ábra).

Minden egyes szűrő egy meghatározott frekvenciatartományt kódol, mégpedig a sávszűrés elve alapján. Eszerint minden szűrő csak a rá jellemző frekvenciasávot engedi át, a spektrum többi részét pedig levágja. Ezzel a viszonylag egyszerű elvvel érhető el az, hogy a teljes frekvenciatartományt összetevőire bontsuk fel, és attól függően, hogy hány és milyen sávszélességű szűrők állnak rendelkezésre, változtatható a felbontás pontossága.

Ezeket a sávszűrőket hallási szűrőknek nevezzük, a modellt pedig a hallórendszer hallásiszűrő-modelljének. Az elfedési helyzetekben Fletcher feltételezése szerint a hallási szűrők a következőképpen működnek. Amikor egy jelet szeretnénk detektálni zajos háttérben, akkor egy olyan hallási szűrőt használunk, amelynek középfrekvenciája közel esik a jelhez. Ez a szűrő úgy működik, hogy átengedi a jelet, de a zaj nagy részét – a szűrőn kívül eső tartományokat – levágja. Emiatt a jel elfedésére a zajnak csak az a része használható fel, amelyet a hallási szűrő átengedett. Ha most, mint ahogy az eredeti kísérletben láttuk, elkezdjük növelni a zaj sávszélességét, akkor egyre több zaj fog átjutni a szűrőn, és egyre több zaj képes elfedni a jelet. Abban a pillanatban azonban, ahogy a zaj sávszélessége átlépi a szűrőét, további tartományok hozzáadása már nem lesz hatással az elfedésre, és így létrejön a jellegzetes plató az elfedési görbén. a kritikus sáv nemcsak az elfedéshez szükséges frekvenciatartományt határozza meg, hanem arra is utal, hogy a hallási szűrőnek milyen a sávszélessége. Láthattuk, hogy a zaj effektív sávszélessége megegyezik a szűrő sávszélességével. Eszerint az elfedési kísérlet révén meghatározható a hallási szűrők sávszélessége, vagyis kritikus sávja is. Így tehát a kritikus sáv kétféle értelemben használható: egyrészt az elfedő zaj effektív sávszélességét, másrészt pedig a hallási szűrő sávszélességét jelezheti.

9.7. ábra. A hallórendszer hallásiszűrő-modellje. Az ábra felsô része a bejövő hangok spektrumát jelzi, ahol az egyenes vonalak az adott frekvenciájú hangokat jelőlik. Az ábra alsó része a feltételezett hallási szűrőket mutatja, amelyek haranggörbe alakúak, és a középfrekvenciától függően eltérô sávszélességgel rendelkeznek

A hallási szűrök

A kritikus sávokkal kapcsolatban Fletcher klasszikus munkája óta sok ismeret halmozódott fel. Az egyik legfontosabb adalék a kritikus sávok alakjával kapcsolatos. Eredetileg azt feltételezték, hogy létezik egy töréspont az elfedési görbén, ami a kritikus sáv határát jelöli ki. Ez az elképzelés azon alapult, hogy a hallási szűrőket téglalap alakúnak tartották, vagyis olyannak, hogy mind az oldaluk, mind a tetejük (a szűrő szélessége) egyenes. Ma már tudjuk, hogy a hallási szűrő sokkal inkább haranggörbe alakú. Hogyan lehet ezt meghatározni, és mi a jelentősége a frekvenciaszelektivitás szempontjából?

Patterson (1976) elfedési módszere a hallási szűrő alakjának meghatározására alkalmazható. Az eljárás során egy állandó frekvenciájú tiszta hangot és egy széles sávú, a tiszta hanggal megegyező középfrekvenciájú zajt alkalmaztak. A zajt speciális módon, úgynevezett lyukszűrővel szűrték, ami azt jelenti, hogy nem a felső és alsó frekvencia- sávokat vágták le, és a középső sávot hagyták meg, hanem éppen fordítva, a középső sávot vágták ki, és a két szélsőt hagyták meg. Ezt a 9.8. ábra szemlélteti. A kísérlet során a szokásos elfedési vizsgálatokhoz hasonlóan változtatták a zaj középső tartományának szélességét (azaz a „lyuk” nagyságát), és ennek függvényében mérték a jel küszöbét. Egy ilyen lyukszűrt zaj esetében minél nagyobb a lyuk, annál kevesebb zaj kerül a hallási szűrőbe, és annál kisebb az elfedés, vagyis annál jobban csökken a jel küszöbe. Az ábrán a besatírozott terület nagysága jelzi az átkerülő zaj mértékét.

9.8. ábra. Patterson elfedési módszere a hallási szűrő alakjának meghatározására

Ha ezek után fokozatosan növeljük a lyuk nagyságát, és mérjük a jel küszöbét, akkor azt kapjuk, hogy a küszöb egyre alacsonyabb lesz, ahogy a lyuk szélesedik. Vagyis, kezdetben, a lyukszűrő nélküli zajnál a hangnak nagyon hangosnak kell lennie, hogy észrevegyük, de ahogy növeljük a lyuk nagyságát a zaj frekvenciatartományának közepén, úgy hallunk meg egyre halkabb hangokat is. A küszöbnek a lyuk szélessége függvényében történő változásából különböző matematikai módszerekkel meg lehet határozni a hallási szűrő alakját, és a legtöbb vizsgálatban azt kapják, hogy a hallási szűrő legömbölyített csúccsal és meredek lejtéssel rendelkezik (lásd 9.9. ábra).

9.9. ábra. Egy tipikus hallási szűrő alakja. Az ábrán feltüntettük a hallási szűrő eredetileg feltételezett téglalapalakját

Hogyan értelmezhető a hallási szűrőnek ez a speciális alakja? Egyrészt a szűrő csúcsos és nem egyenes vonalú maximummal rendelkezik. Ezt azt jelenti, hogy nagyon érzékenyen reagál a frekvencia kismértékű megváltozására, hiszen a középfrekvenciánál csak kismértékben kisebb vagy nagyobb frekvencia már kisebb küszöbbel rendelkezik, mint a középfrekvencia. Másrészt a szűrő oldala nem hirtelen, merőlegesen, hanem bizonyos meredekséggel csökken. Ennek következménye az, hogy a szűrő válasza nem egyik frekvenciáról a másikra, hirtelen változik meg, hanem fokozatosan.

A hallási szűrő másik nagyon fontos jellemzője az alakján kívül az, hogy mekkora a sávszélessége. A Patterson-féle lyukszűrőt alkalmazó módszerrel megállapítható, hogy a hallási szűrő sávszélessége (vagyis az a frekvenciatartomány, amelyre válaszol) 50 és 2000 Hz között változik. De ami ennél is fontosabb, a sávszélesség szisztematikusan változik: alacsony frekvenciák esetében kicsi, magas frekvenciák esetén viszont nagy. Ez az összefüggés valójában már a hallási- szűrő-modell ábráján (9.7. ábra) is látható volt: a magasabb frekvenciák szűrői sokkal „szélesebbek” voltak, vagyis sokkal nagyobb frekvenciatartományt fogtak át, az alacsonyabb frekvenciák esetében viszont a szűrők „keskenyebbek”, azaz kisebb frekvenciatartományt dolgoznak fel.

Milyen hatása van ennek a hangok észlelésére? Az eltérő sávszélesség értelmezhető úgy, mint eltérő érzékenység: minél kisebb a sávszélesség, annál jobb az érzékenység, hiszen annál kevesebb egyéb frekvenciát dolgoz fel az adott szűrő. Eszerint az alacsony frekvenciájú, vagyis mély hangok esetében sokkal jobb az érzékenység, mint a magas hangok esetében, és ennek az a következménye, hogy a mély hangokat sokkal jobban meg tudjuk különböztetni, mint a magasakat. A hangmagasság észlelésekor még visszatérünk erre a problémára.

Bármilyen pontosan határozzuk is meg a hallási szűrő formáját és működését, azt nem szabad elfelejtenünk, hogy a szűrő csupán egy elméleti modell, amelynek felhasználásával megfelelően magyarázhatók a pszichoakusztikai kísérletek eredményei. Ugyanakkor a hallórendszer leegyszerűsítése különböző középfrekvenciával rendelkező szűrők csoportjára két szempontból is jelentős. Egyrészt, a számítógépes hangfeldolgozásban nagyon hasznos egy ilyen típusú modell használta (lásd a szövegdobozt az mp3 formátumról). Másrészt, a hallórendszer élettani működése párhuzamba állítható a szűrőkkel. Nézzük meg, hogy hogyan értelmezhető a belső fül frekvenciaszelektivitása a hallási szűrőelmélet fogalmainak segítségével.

A frekvenciaszelektivitás eredete – a hallóidegrostok hangolási görbéje

A 8. fejezetben bemutattuk azt, hogy az alaphártya szőrsejtjeihez kapcsolódó hallóidegrostok milyen válaszjellemzőkkel rendelkeznek. Szó volt arról, hogy az idegrostok mindegyike egy bizonyos frekvenciára, a rost jellemző frekvenciájára reagál a legérzékenyebben. Ésszerű feltételezésnek tűnhet, hogy az elfedési kísérletek eredményei valamilyen módon magyarázhatók a hallóidegrostok hangolási görbéinek figyelembevételével. Lássuk, hogyan.

Az elfedési kísérletben alkalmazott tiszta hang hatására egy olyan hallóidegrost aktiválódik, amelynek jellemző frekvenciája megegyezik a teszthangéval. Ez a rost ugyanis a legérzékenyebb a vizsgált frekvenciára, és ennek a rostnak az aktivitása vezet a küszöbintenzitású tiszta hang észleléséhez. A rostot természetesen a zaj is aktiválja, amennyiben a zaj olyan frekvenciákon is tartalmaz energiát, amelyre a rost válaszol. A zaj jelenléte megemeli a hallóideg háttértevékenységét, és a jel detektálásához ettől a háttértől kell elválasztanunk. Ehhez az kell, hogy a jel erőssége nagyobb legyen, mint a zajé. Ha növelni kezdjük a zaj sávszélességét, akkor az idegi háttértevékenység egyre nő, és a jelet egyre nehezebb elválasztani ettől. Egy bizonyos pont után azonban az egyre nagyobb sávszélesség már olyan frekvenciákat is tartalmaz, amelyek kívül esnek a rost frekvenciahangolási görbéjén, és így nem gyakorolnak további hatást annak háttéraktivitására. Ettől kezdve a küszöb nem emelkedik tovább, és az elfedés mértéke változatlan marad. Ezt az okfejtést követve azt mondhatjuk, hogy az elfedési görbe töréspontja (lásd 9.6. ábra) szabja meg a tiszta hang észrevételében szerepet játszó rostok frekvenciatartományát, vagyis kritikus sávját. Eszerint a hallóideg frekvenciaszelektív működése felfogható a hallási szűrők működéséhez hasonlóan: valójában a rostok a frekvenciatartomány egy bizonyos részére reagálnak leginkább, és ez felfogható úgy, mint az adott frekvenciára vonatkozó sávszűrés.

Érdemes megjegyeznünk, hogy a hallás esetében a kritikus frekvenciák megléte nagyon hasonlít ahhoz, amit a látás esetében a téri frekvenciák kapcsán láttunk. Ha visszagondolunk, a téri frekvenciáknál is arról van szó, hogy a vizuális információt le lehet írni több különböző frekvenciájú szinuszráccsal, és úgy tűnik, hogy a látórendszer rendelkezik olyan neuronokkal, amelyek specifikusan reagálnak az egyes téri frekvenciákra. Egy fontos különbség azonban lehet a látó- és a hallórendszer között, nevezetesen az, hogy a látórendszerben a különböző téri frekvenciákra reagáló neuronok a látási információ feldolgozásának magas szintjén találhatók, a hallórendszerben viszont nagyon alacsony szinten, lényegében a transzdukciót végző neuronok szintjén vannak.

Eddig olyan elfedési kísérletekkel foglalkoztunk, amelyekben az elfedő zaj sávszélességét változtatták. Ahogy azt fentebb láttuk (lásd 9.5. ábra), a sávszűrt zajnak egy másik paraméterét is lehet változtatni, mégpedig a középfrekvenciáját. Az eddigiek fényében nagyjából kitalálható, hogy milyen eredményeket kaptak a kutatók. Tegyük fel, hogy a kísérletet egy olyan sávszűrt zajjal kezdjük, amelynek a középfrekvenciája jóval a teszthang frekvenciája alatt van. Ekkor természetesen a zaj energiájának egyetlen részlete sem ingerli a vizsgált hangot feldolgozó idegrostot, vagyis semmilyen elfedő hatás nem jelentkezik (habár a zaj maga hallható). Ahogy fokozatosan növeljük a zaj középfrekvenciáját, az egyre inkább bekerül az idegrost kritikus sávjába, és emiatt a küszöb elkezd csökkenni. Az elfedés akkor lesz a legnagyobb, ha a teszthang és a zaj középfrekvenciája egybeesik. Ha ezután még tovább növeljük a zaj középfrekvenciáját, akkor megint csak azt tapasztaljuk, hogy az elfedés egyre csökken. a középfrekvencia és a küszöb összefüggését grafikonon ábrázolva egy fordított U alakú görbét kapunk. Az ilyen típusú ingerek alkalmazása tehát szintén a kritikus sáv elméletét támasztja alá.

összefoglalva, a kritikus sávok elmélete szerint a tiszta hangokat az egyes frekvenciákra hangolt idegi folyamatok révén észleljük. számos, az elfedési paradigmát alkalmazó vizsgálat eredménye szerint a zajnak akkor van hatékony elfedő hatása, ha a vizsgált hanghoz közeli frekvenciákat tartalmaz. Ráadásul az eredményül kapott elfedési görbék a hallóidegrostok hangolási görbéire emlékeztetnek, amiből arra lehet következtetni, hogy a kritikus sávokat megvalósító idegi mechanizmusok legalábbis részben a hallóidegrostok működésén alapulnak.

11.1. táblázat -

HOGYAN MŰKÖDNEK AZ MP3-AS FÁJLOK?

Az mp3 mozgalom a zenei ipar egyik legnagyobb hatású jelensége. Ez a mozgalom a többitől (hangkazetta, CD) eltérően nem az iparágból magából nőtt ki, hanem az Internet zeneimádó közössége indította el. Az mp3 formátum, ami nem más, mint a hangok digitalizált, számítógépen tárolható és megosztható adathordozója, óriási hatással volt és van napjainkban is arra, ahogyan az emberek a zene hallgatásához hozzáállnak.

Az mp3 fájlok lényegét természetesen maga az mp3 formátum adja. A formátum egy digitális hangkódoló és egy tömörítő eljárást tartalmaz. Ilyen értelemben nagyon hasonlít ahhoz, ahogyan a CD tárolja a hangot: nevezetesen az analóg (folyamatos) hang digitális (diszkrét) formába történő átalakításával. A hangok digitalizálása azt jelenti, hogy a hanghullámokat számokká alakítjuk át, mégpedig úgy, hogy ahelyett, hogy az egész hullámformát rögzítenénk, annak csak egyes részeit tároljuk el. Tudjuk, hogy minden hang leírható az egyes időpillanatokban mutatott légnyomásváltozás mértékével. A hanghullám digitalizálása úgy valósítható meg, hogy bizonyos időpillanatokban mintát veszünk belőle, azaz megnézzük, hogy adott pillanatban milyen hangnyomásértéket mutat. Ezt nevezzük mintavételezésnek (lásd ábra). Minél gyakoribb a mintavételezés, annál pontosabban tudjuk leképezni az adott hanghullámot. CD-k esetében a megfelelő hangzás elérése érdekében meglehetősen nagy mintavételezési frekvenciával dolgoznak, másodpercenként 44 100-szor „olvassák le” a hangnyomás értékét. Ez természetesen azt jelenti, hogy másodpercenként 44 100 szám keletkezik, amelynek a tárolása elég nagy kapacitást igényel.

Az mp3 ezen az óriási tárolási kapacitáson segít, méghozzá úgy, hogy egy meglehetősen bonyolult tömörítési eljárást (kódolást) alkalmaz. Ennek segítségével valódi minőségvesztés nélkül körülbelül tizedére csökkenhet a szükséges kapacitás. Az mp3 valódi érdekessége pszichológiai szempontból az, hogy a tömörítés során pszichoakusztikai elveket is figyelembe vesznek. Például azt, hogy a hangosabb hangok elfedik a halkabbakat, ezért a halkabbakat nem is kell kódolni. Az alábbiakban a teljesség igénye nélkül összefoglalunk néhány olyan elvet, amelyet az egyes mp3 kódolóeljárások rutinszerűen alkalmaznak.

Szürőkészlet • Az mp3 kódolás alapja az, hogy a hanghullámokat frekvencia-összetevőikre bontják, és ezeket külön-külön kezelik a kódolás során. Láthattuk, hogy a hallórendszer hallásiszürő-modellje szerint az emberi hallás is így működik.

Minimális hallási küszöb • Tudjuk, hogy a különböző frekvenciákkal rendelkező hangok hallási küszöbe nem azonos (lásd hallhatósági függvény). A kódolás során ezt úgy használják ki, hogy a nem hallható frekvenciákat nem kódolják. Ez meglehetősen „drasztikus” is lehet, mivel egyes eljárások csak a 2-5 kHz közötti frekvenciatartományt veszik figyelembe, de ezt valójában nem vesszük észre (pontosabban az „átlagos” zenehallgatónak nem tűnik fel).

Sztereo • Ahogyan azt a hanglokalizációról szóló fejezetben látni fogjuk, a különböző frekvenciájú hangok lokalizációja nem egyformán jó. Általában a nagyon mély és nagyon magas hangok esetében nem tudjuk pontosan lokalizálni a hangok forrását. Ezt a hatást a kódolásban úgy lehet felhasználni, hogy az ezekben a frekvenciatartományokban található hangokat nem két, hanem csak egy csatornán kódolják (sztereohang úgy jön létre, hogy két külön csatornát használnak a jobb és a bal fülbe szánt hangok számára, és ez természetesen duplaannyi információ kódolását teszi szükségessé). Vagyis, egy nagyon magas vagy nagyon mély hangot elég csak az egyik fül számára megszólaltatni. Mivel úgysem vagyunk képesek pontosan lokalizálni ennek forrását, nem fog feltűnni, hogy valójában csak az egyik fülünkkel hallottuk.

Az mp3 formátum kialakítása során a mérnökök arra törekedtek, hogy kompromisszumot valósítsanak meg a tömörítés és a minőség között: minél nagyobb tömörítéssel minél kisebb minőségvesztés elérése volt a cél. A hang minősége azonban szubjektív kategória, és ezért a megfelelő kódolás elérése érdekében nagyon sok pszichoakusztikai vizsgálatot végeztek, ahol a személyeknek a hangok minőségét kellett megítélniük. Gyakorlatilag tehát minden elvet, amelyet a kódolás során felhasználtak, empirikusan is ellenőrizték, és csak azokat tartották meg, amelyeknél a kísérleti személyek nagy része nem tudott különbséget tenni az eredeti és a kódolt hang között.

Összefoglalásként azt mondhatjuk, hogy az mp3 formátum kialakításában nagyon fontos szerepe volt mindannak a tudásnak, amit az emberi hallórendszer működéséről tudunk. Ezért amikor legközelebb kedvenc számunkat hallgatjuk számítógépünkön vagy mp3 lejátszónkon, jusson eszünkbe, hogy ezekbe a pici fájlokba mennyi pszichológiai ismeret van beépítve.

A hangdigitalizálás folyamata. A folyamatos vonal jelzi a hang időben változó amplitúdóját. Az oszlopok a mintavételezést mutatják, és az x tengelyen látható számok az adott idői tartományban található átlagos amplitúdóértéket jelzik. Látható, hogy a mintavételezés során bizonyos információk elvesznek, és minél nagyobb a mintavételezési frekvencia (vagyis minél szélesebbek az oszlopok), annál több információ vész el