Ugrás a tartalomhoz

Általános pszichológia 1-3. – 1. Észlelés és figyelem

Csépe Valéria, Győri Miklós, Ragó Anett

Osiris Kiadó

12. fejezet - 10. FEJEZET – A hallási objektumok észlelése – hol és mi

12. fejezet - 10. FEJEZET – A hallási objektumok észlelése – hol és mi

Az eddigiekben áttekintettük a hallási ingerek legfontosabb fizikai jellemzőinek (hangerő, frekvencia, hangszín, időtartam) szubjektív észlelését. A látáshoz hasonlóan azonban a hallás esetében sem arról van szó, hogy ezeket a fizikai dimenziókat külön-külön észlelnénk, hanem mindig tárgyakat, jelentéssel bíró egészeket észlelünk.

Ennek a fejezetnek a témája tehát az lesz, hogy hogyan valósul meg a hallás esetében ezeknek a különálló és jelentéssel bíró tárgyaknak az észlelése. Elsőre talán furcsának tűnhet hallási tárgyakról vagy hallási objektumokról beszélni, hiszen a „tárgy” szó hallatán valamilyen kézzelfogható, kiterjedéssel bíró dologra gondolunk először. Ugyanakkor a fejezet során azt fogjuk hangsúlyozni, hogy egy zongorán megszólaló Liszt-darab ugyanolyan jogosan tekinthető egyfajta tárgynak, mint a zongora, amin megszólal. Azt is látni fogjuk, hogy a hallásban nagyon is hasonló észlelési elvek működnek, mint amilyeneket a látás kapcsán már megtanultunk, egyszerűen csak a hallás esetében egy kissé nehezebb őket értelmezni (ez valószínűleg annak is köszönhető, hogy az észlelési elveket elsőként a látott világra alkalmazták, és innen származnak a példák is).

Leszögezhetjük tehát azt, hogy a hallási észlelésnek hasonló a feladata, mint a látásinak: a világot értelmes, jelentéssel bíró egységekre kell bontania. Ehhez két dolog szükséges: egyrészt meg kell határoznunk, hogy hol található a tárgy (lokalizáció), másrészt pedig meg kell határoznunk, hogy mi az (azonosítás).

Azt, hogy milyen elképesztően nehéz feladata van a hallórendszernek, amikor ezt a két funkciót megvalósítja, a következő kis metaforával lehetne illusztrálni (Bregman 1990 nyomán). Képzeljük el, hogy egy tó partján állunk. A tóban kacsák és hattyúk úszkálnak, a távolban vitorlások siklanak a vízen, és a tó felszínét szél fodrozza. Most képzeljük el azt, hogy a tó partján két keskeny csatornát ásunk. Ezek mindegyike néhány méter hosszú, néhány centiméter széles, és pár méterre vannak egymástól. Félúton mindkettőbe egy zsebkendőt helyezünk, és odaerősítjük őket a csatorna széléhez. Ahogy a tó hullámai elérik a csatornákat, megmozgatják a zsebkendőket. Ezek után kizárólag a zsebkendők mozgásából kell a tavon történő eseményekre következtetnünk: hány hajó van a tavon, hol vannak, melyik van közelebb, és merre úsznak a kacsák. Annak ellenére, hogy ez a feladat tökéletesen lehetetlennek tűnik, a hallórendszerünk mégis képes megoldani: csupán a dobhártyánkat érő hanghullámok alapján képesek vagyunk egy sor következtetést levonni és meglepően pontosan leképezni a hallott világot.

Hanglokalizáció

A hanglokalizáció az a folyamat, amelynek során a környezetből származó hangok forrásának helyét és távolságát megállapítjuk. A hanglokalizáció képessége egyértelmű evolúciós haszonnal jár, hiszen segít a hangot kiadó tárgyak vagy élőlények megközelítésében (vadászat) vagy elkerülésében (menekülés). Tudjuk ugyanakkor, hogy mindezt a vizuális rendszer is képes megvalósítani, sőt azzal az előnnyel is rendelkezik, hogy passzív, vagyis hangokat ki nem bocsátó tárgyak vagy élőlények helyét is azonosítani tudjuk a segítségével. Emiatt természetesen a legtöbb esetben a vizuális információt használjuk fel a tárgyak helyének és távolságának megállapítására, vagyis a látás viszonylagos dominanciával rendelkezik a hallás felett. A hallás eszerint elsősorban kiegészítő szerepet játszik a lokalizációban, azaz elsősorban olyan tárgyak helyének megállapítására használjuk, amelyeket nem látunk. Ezért a hallás alapján történő lokalizáció szerepe elsősorban az, hogy a hangokat kibocsátó tárgyak helyzetét nagyjából beazonosítsa, és a vizuális figyelmet odairányítsa. Ezzel a jelenséggel az észlelés integrációs kérdéseinél (modalitásközi facilitáció) és a téri figyelemmel foglalkozó 16. fejezetben részletesebben is megismerkedhetünk majd.

Természetes körülmények között a látás jól ismert dominanciája ellenére is viszonylag pontosan meg tudjuk határozni a hangforrások helyét és irányát. Ha valaki benyit a szobába, ahol éppen tanulunk, akkor habozás nélkül a nyikorgó ajtó felé irányítjuk a tekintetünket. Sőt a hallásnak kifejezett téri minősége van, azaz úgy tűnik, hogy a hangok mindig jönnek valahonnan. A hang lokalizációja teljesen automatikus és erőfeszítés nélküli, ráadásul nagyon gyorsan lejátszódik. Látszólagos egyszerűsége ellenére a hangok lokalizációja nagyon is bonyolult folyamat. Ennek elsősorban az az oka, hogy magában a hallási információban nincsenek jelen egyértelmű téri információk. Tudjuk, hogy a látás esetében a retinára vetülő kép a környezet analóg reprezentációja. Ez azt jelenti, hogy ami a valóságban jobbra van, az a retinális képen is jobbra van, ami balra van, az a képen is balra van. Ezzel szemben a fülbe érkező akusztikus információ nem tartalmaz hasonló téri viszonyokat: kizárólag a hang erősségét, frekvenciáját és időbeliségét tudjuk felhasználni ahhoz, hogy a hang forrásának helyére következtessünk belőle.

A hallási lokalizációban a kulcsszó tehát a következtetés lesz. Míg a látás esetében a tárgyak egymáshoz viszonyított helyzetének megállapítása nem kíván következtetést, hiszen mindez az információ benne van a retinán kialakuló képben, addig a hallás esetében különböző következtetési folyamatok szükségesek, amelyek segítségével rekonstruálható, hogy a tér mely pontjáról származik az adott hang. Persze azért a látás esetében sem eny- nyire egyszerű a dolog: tudjuk, hogy a háromdimenziós világ két dimenzióban reprezentálódik a retinán, és ebből kell következtetni a valódi mélységre.

Mielőtt belefognánk annak tanulmányozásába, hogy hogyan is valósul meg a hangforrás helyének meghatározása, tisztáznunk kell még két alapfogalmat. Az egyik arra vonatkozik, hogy milyen információt használunk fel a lokalizációban: csak az egyik fülbe érkezőt, vagy mindkét fülbe érkezőt. Az előbbit monaurális, az utóbbit pedig binaurális észlelésnek nevezzük. Látni fogjuk, hogy a lokalizációban elsősorban a binaurális, vagyis két- füles észlelésre támaszkodunk, de monaurális, vagyis egyfüles módon is viszonylag jól működhet a tárgyak helyének meghatározása.

A másik tisztázandó alapfogalom a hallási térrel kapcsolatos. Annak érdekében, hogy egyértelműen tudjunk beszélni a hallási térről és a különböző téri helyekről származó hangokról, érdemes bevezetnünk egy speciális koordináta-rendszert (10.1. ábra). A hallási tér koordináta-rendszerét a hallgató fejéhez viszonyítjuk, ez kerül a középpontba, és a fejhez képest három síkot határozunk meg. A horizontális síka fül hallójáratát és a szemet metszi, és lényegében ez határozza meg az elöl-hátul dimenziót. A frontális sík erre merőleges, és a fejtetőn halad keresztül, szintén metszve a hallójáratot. A frontális síkon értelmezzük a fent-lent irányokat. Végül a mediális sík mind a horizontális, mind a frontális síkokra merőleges, és a fej középvonalán halad át, vagyis mindkét fültől azonos távolságra található. A három sík metszéspontja nagyjából a fej közepében van, és ez a középpont az egész rendszer kiindulópontja, minden irányt ehhez viszonyítunk. Érdekes módon egyébként létrehozható olyan szituáció, amikor a hangokat történik, ha a hangokat fülhallgatón keresztül, valóban ide, vagyis a fejünk közepébe lokalizáljuk. Ez akkor sztereóban hallgatjuk. Erről a későbbiekben még lesz szó.

10.1. ábra. A hangok téri lokalizációjában alkalmazott koordináta-rendszer

A binaurális lokalizáció

Ahogy a bevezetőben már említettük, a hangok lokalizációja úgy működik a legjobban, ha felhasználjuk a mindkét fülünkbe érkező hallási információt. Két kérdésre kell válaszolnunk, ha meg akarjuk érteni a lokalizációt: 1. milyen információt használunk fel, és 2. hogyan tesszük ezt?

Említettük már, hogy a hallási információban nincsen semmilyen egyértelmű jelzés a hangforrás irányával kapcsolatban. Mi az, ami mégis rendelkezésre áll? Tudjuk, hogy minden hang három alapvető fizikai paraméterrel rendelkezik: hangerővel, frekvenciával és időtartammal. Ezek közül a hallórendszer a lokalizáció céljára a hangerőt és az időt használja fel, a frekvencia pedig elsősorban a hallási tárgyak azonosításában játszik fontos szerepet. A hangok terjedésének fizikai jellemzői miatt, ha egy hang valamilyen irányban eltér a mediális síktól, például közelebb van a jobb fülhöz, mint a balhoz, akkor két jellemzőben is változás történik. Egyrészt a hangforráshoz közelebbi fülbe előbb ér el a hang, másrészt ebben a fülben hangosabb lesz. A két fülbe érkező hang hangerejének eltérését interaurális hangerőkülönbségnek (IHK), azt a jelenséget pedig, hogy a hangok eltérő időpillanatban érik el a két fület, interaurális időkülönbségnek (IIK) nevezzük. Fontos leszögeznünk, hogy annak ellenére, hogy a két fülbe eltérő fizikai jellemzőkkel rendelkező hangok érkeznek, soha nem két különálló hangot hallunk, hanem mindig csak egyetlen, de meghatározott téri minőséggel rendelkező hangot. Lássuk előbb, hogy miből származik az IHK, és hogyan képes ezt a hallórendszer felhasználni a hangok lokalizációjában.

10.2. ábra. A fülek közötti hangerőkülönbség és a hangforrás irányának összefüggése

Az interaurális hangerőkülönbség

A fülek közötti (interaurális) hangerőkülönbség elsősorban a fej árnyékoló hatásának köszönhető, mivel a hangforrással ellenkező oldali fülbe érkező hangnak át kell haladnia a fejen. Az észlelőrendszer a két fülbe érkező inger hangerejének különbségéből következtet a hangforrás pozíciójára. A helyzet azonban nem ennyire egyszerű: az alacsony frekvenciájú hangokat ugyanis a koponya nem tudja leárnyékolni. Ha visszagondolunk a hangok rezgéséről tanultakra, akkor tudjuk, hogy a hanghullámot nemcsak az időegységenkénti rezgés számával tudjuk meghatározni, hanem a hullámhosszal is, amely a hullám két egymást követő csúcsa közötti távolságot fejezi ki. Az 8.4. ábra illusztrálta a frekvencia és a hullámhossz közötti összefüggést. Ha visszalapozunk az ábrához, akkor láthatjuk, hogy az alacsony frekvenciájú hangok esetében a hullámhossz egyre nagyobb lesz, 1000 Hz alatt már körülbelül 40 cm. Ez tehát azt jelenti, hogy egy 1000 Hz-es hang esetében a hanghullám két csúcsa között kb. 40 cm van, vagyis ez elég ahhoz, hogy a kb. 20 cm széles emberi koponyát mintegy „átugorja”. Azaz a fej az 1000 Hz alatti hangokat nem tudja leárnyékolni, mégpedig azért, mert nem elég nagy ahhoz, hogy a hangok útjába álljon.

Az IHK különböző módszerekkel pontosan meghatározható. Shaw (1974) például úgy mérte meg, hogy egy mesterséges emberi fejen a fülek helyére mikrofonokat szerelt, majd pedig egy hangforrást a fej horizontális síkja mentén mozgatott, és a mikrofonokkal rögzítette a hangforrás által kibocsátott hangokat. A vizsgálat eredményét a 10.2. ábra mutatja. Ezt a mérést több frekvenciával is megismételték, és valóban azt kapták, hogy kb. 500 Hz alatti hangok esetében nem volt lényeges eltérés az IHK-ban, viszont egy 6000 Hz-es hang esetében az IHK akár a 20 dB-t is elérhette. Vagyis ez a binaurális jelzőmozzanat elsősorban a magas hangok irányának meghatározását segíti, és ezek esetében nagyon hatékonyan működik.

Érdemes kiemelnünk azt a tényt, hogy Shaw kísérletében nem emberi alanyokat, hanem egy mesterséges fejet használtak. Ezt azért tehették meg, mert az IHK teljes mértékben fizikai jelenség, azaz egyszerűen a hangok terjedési sajátosságaiból fakad, nem pedig valamilyen szubjektív tapasztalat (a szubjektív tapasztalat pontosan az, hogy nem két eltérő hangerejű hangot hallunk, hanem egyetlen, a tér valamely pontjáról származót). Ami az IHK-t egy kicsit mégis humánspecifikussá teszi, az az, hogy az emberi fejkörméret és a fej hangelnyelési jellemzői befolyásolják az árnyékolás nagyságát (ezért is kellett mesterséges fejet alkalmazni a kísérletben, nem pedig egyszerűen két mikrofont). Az IHK jelentősége inkább az, hogy az észlelőrendszer specifikus feldolgozási mechanizmusokat fejlesztett ki annak érdekében, hogy ezt az eleve adott fizikai paramétert kihasználja a hangok lokalizációjában.

10.3. ábra. A tévesztési kúp

A 10.2. ábrára visszatérve, észrevehetjük, hogy több olyan téri hely is létezik, ahol a hangforrás ugyanazt a hangerőkülönbséget okozza. Például a teljesen a fej előtt és teljesen mögötte (0 és 180°) megszólaló hang egyformán kicsi (valójában 0) IHK-t okoz. Ez azt jelenti, hogy ha csak ezt az információt vesszük figyelembe, akkor nem tudjuk egyértelműen eldönteni, hogy honnan származik a hang, azaz előttünk vagy mögöttünk van-e. A különböző téri pontokhoz tartozó IHK-kat szemügyre véve a kutatók arra a megállapításra jutottak, hogy sok ilyen nem egyértelmű téri irányt nyújtó pont létezik, és hogy ezek a pontok egy geometriai alakzatba rendeződnek, mégpedig egy kúp palástján helyezkednek el (10.3. ábra). Az egyértelmű lokalizációt adni nem képes pontok halmazát ezért tévesztési kúpnak nevezzük (Woodworth 1938). Erre a témára még visszatérünk, miután az IIK-t is megvizsgáltuk.

Azt mondtuk tehát, hogy az IHK alapvetően az emberi fej és a hangok terjedési jellemzőinek interakciójából, együttes hatásából származik. Ezzel azonban még nem mondtunk semmit arról, hogy hogyan képes a hallórendszer kihasználni ezt az információt a hangok lokalizációja érdekében. A kutatók állatkísérletes és egysejt-akti- vitást vizsgáló módszerekkel próbáltak nyomára bukkanni ezeknek a mechanizmusoknak, és azt találták, hogy a hallópálya egyik kéreg alatti átkapcsolóállomásán, a colliculus inferiorban valóban találhatók olyan idegsejtek, amelyeket mindkét oldalról elér a receptorokból továbbított ingerület. Ezek az idegsejtek szelektív érzékenységet mutatnak a jobb vagy a bal fülbe nagyobb hangerővel érkező hangokra. Az ilyen típusú, mindkét fülből idegi impulzusokat kapó neuronokat binaurális idegsejteknek nevezzük. Látni fogjuk, hogy nemcsak az IHK, de az IIK feldolgozását is hasonló idegsejtek végzik.

Az interaurális időkülönbség

A hang lokalizációjának másik binaurális jelzőmozzanata az IIK. Ahogy említettük, az IIK abból az egyszerű tényből származik, hogy a hangforráshoz közelebb lévő fület a hang előbb éri el, mint az ellenoldali fület. Tudjuk, hogy a fénnyel összehasonlítva a hang viszonylag lassan terjed (340 m/s a levegőben), és ez vezet ahhoz, hogy a két fül közötti mintegy 20 cm távolság az érzékelőrendszer számára feldolgozható idői eltérést eredményez. Ennek ellenére itt olyan kicsi idői különbségekről van szó, amelyek néhány száz mikroszekundum (a másodperc egymilliomod része) nagyságrendűek.

Az IHK-hoz hasonlóan az IIK is meghatározható a már említett, mesterséges fejet alkalmazó vizsgálat segítségével (Shaw 1974). A vizsgálat eredménye (10.4. ábra) hasonló ahhoz, mint amit az IHK kapcsán már láttunk. Egyrészt, akkor a legnagyobb az idői különbség, ha a hangforrás közvetlenül a fej egyik oldalán található, és merőleges a mediális síkra. Másrészt, itt is vannak olyan pontok, amelyek nem teszik lehetővé az egyértelmű lokalizációt: az IIK esetében is megalkotható a tévesztési kúp. Fontos megjegyeznünk, hogy az IIK és az IHK esetében eltérőek a tévesztési kúpok, valamint minden egyes frekvenciaértékhez más-más tévesztési kúp tartozik. Harmadrészt, az IHK-hoz hasonlóan az IIK esetében is vannak olyan frekvenciatartományok, amelyek esetében nem működik megfelelően. Láttuk például, hogy az IHK esetében a mély hangoknál van probléma. Az IIK-nál pont fordított a helyzet, azaz ez az eltérés a magas hangok lokalizációja esetében nem nyújt megbízható információt. Ennek oka a hangok idői különbségének jellegzetességeiben keresendő.

10.4. ábra. A fülek közötti idõi különbség és a hangforrás irányának összefüggése

Az IIK-t valójában nem az okozza, hogy a hangok különböző időben érkeznek a két fülbe, hanem a hanghullámok közötti fáziskülönbség. Láttuk, hogy a fázis azt fejezi ki, hogy egy adott ponthoz képest egy teljes hanghullám-periódusnak mekkora része telt el, vagyis hogy a kezdőponthoz képest mennyit változott a hanghullám. Az IIK esetében a hallórendszer valójában a két fülbe érkező hang fázisai közötti különbséget dolgozza

fel. Az alacsony frekvenciájú hangok esetében nincs is semmi probléma, a fáziskülönbség hatékonyan jelzi a hangforrás irányát. A magas frekvenciájú hangoknál viszont a hullámhossz túl kicsi lesz, azaz kisebb, mint a fej mérete. Ha a hangok hullámhossza kisebb, mint a két fül közötti távolság (azaz kb. 20 cm), akkor a két fül között a hanghullám több periódust is leír. Több periódus esetén viszont nem egyértelmű, hogy a fáziskülönbség miből származik, mivel önmagában csak a fázis nem mondja meg, hogy hány periódus telt el. Ezért van az, hogy a magas frekvenciájú hangoknál az IIK nem nyújt egyértelmű információt a hang lokalizációjával kapcsolatban.

Természetesen az IIK-ra is igaz az, amit az IHK kapcsán megállapítottunk: az IIK is a

hangingerek fizikai jellemzőiből, és nem azok szubjektív észleléséből következik. Ezért itt is sokkal érdekesebb az a kérdés, hogy a hallórendszer hogyan képes ezt a jellemzőt felhasználni a lokalizációban. Az IIK kapcsán is találtak olyan binaurális idegsejteket, amelyek vagy a bal, vagy a jobb fülből előbb beérkező hangokra reagáltak csak. Ezek az idegsejtek elsősorban az oliva superior nevű kéreg alatti struktúrában találhatók. Az, hogy hogyan valósítható meg, hogy egy idegsejt szelektív választ adjon akkor, ha az egyik fülből érkező inger előbb éri el, mint a másik fülből érkező inger, azzal a viszonylag régi elmélettel ma is jól magyarázható, amely Jeffress (1948) nevéhez kapcsolható. Jeffress késleltetésivonal-elmélete szerint egy IIK-t detektáló binaurális idegsejt a következőképpen működne (10.5. ábra). Tudjuk azt, hogy az egyes neuronokat hosszabb-rövidebb idegrostok (axonok) kötik össze, és ezek szállítják az idegi impulzusokat az idegsejtek között. Az axon hossza befolyásolja az ingerületvezetés sebességét, vagyis azt, hogy mennyi idő alatt jut el az impulzus egyik idegsejttől a másikig. Minél rövidebb egy axon, annál rövidebb idő alatt továbbítja az impulzust. Élettani ismereteink alapján tudjuk, hogy az idegi impulzusok terjedési sebessége meglepően kicsi (idegrosttól függően a maximális sebesség kb. 100 m/s, vagyis 360 km/h), vagyis egy axon hossza jelentősen képes befolyásolni az ingerületátvitel idejét.

Mindezeket észben tartva most képzeljünk el egy olyan neuront, amelyhez különböző hosszúságú idegrostok kapcsolódnak. Az egyszerűség kedvéért tételezzünk fel egy olyan binaurális idegsejtet, amelyhez egy-egy axon kapcsolódik a két fülből. A két axon közül az egyik (pl. a jobb fülből jövő) rövidebb, a másik pedig kicsit hosz- szabb. Tegyük fel ezenkívül, hogy a binaurális idegsejt csak akkor aktiválódik, vagyis kezd el tüzelni, ha mindkét axontól egyszerre kap bemenetet (ezt nevezzük szummációnak). Milyen következményekkel jár ezek alapján a bemeneti axonok különböző hossza? Három eset lehetséges:

  1. Ha mindkét fület egyszerre éri egy hang, akkor, mivel a jobb fülből érkező axon rövidebb, onnan előbb kap impulzust a binaurális idegsejt, és így nem jön létre a szummáció, vagyis az idegsejt nem tüzel.

  2. Ha a hang jobbról jön, akkor a jobb fülből érkező axontól még előbb ér az idegsejtig az impulzus, vagyis az továbbra sem tüzel.

c) Ha a hang balról jön, akkor a jobb fülből érkező axonból később érkezik be az impulzus, mivel a jobb fülbe később jut el a hang, de mivel a jobb oldali axon rövidebb, ezért a balról érkező impulzussal együtt érheti el az idegsejt. Ezáltal létrejöhet a szummáció, és az idegsejt tüzelni kezd.

Vagyis az látható, hogy egy olyan binaurális idegsejt, amely a jobb fülből egy rövidebb axon révén kap be- menetet, a balról jövő hangokra képes preferenciálisan válaszolni. Most már érthető az is, hogy miért hívják az elméletet késleltetésivonal-elméletnek: a különböző axonhosszúságokkal különböző módokon lehet késleltetni a fülből beérkező ingerületet.

Természetesen ahhoz, hogy bármelyik oldalról érkező hangot képesek legyünk detektálni, az szükséges, hogy olyan binaurális idegsejtek is létezzenek, amelyeknél a bal fülből érkező axonok rövidebbek, és így a jobbról jövő hangokra válaszolnak inkább. Továbbá valószínűleg nagyszámú binaurális idegsejt szükséges ahhoz, hogy a tér minden lehetséges helyéről származó hangokat kódolni lehessen. A 10.5. ábra mutatja, hogy hogyan képzelhető el egy ilyen, több idegsejtből álló rendszer.

10.5. ábra. A késleltetésivonal-elmélet (Jeffress 1948) illusztrációja

Látható, hogy a fülből érkező hallóideg a binaurális idegsejtekhez érve mintegy szétválik, és az egyes idegsejtekhez azok téri elrendeződése miatt az idegrostok eltérő hosszúsággal érnek el. Hogyan dolgozódnak fel ebben a rendszerben a három fő irányból származó hangok?

  1. Ha a hang elölről jön, vagyis mindkét fület egyszerre éri el, akkor egy olyan idegsejt fog kisülni, amelyhez azonos hosszúságú axonok kapcsolódnak.

  2. Ha a hang jobbról jön, akkor egy olyan idegsejt fog kisülni, amelyhez a bal fülből hosszabb axon kapcsolódik.

  3. Ha a hang balról jön, akkor egy olyan idegsejt fog kisülni, amelyhez a jobb fülből hosszabb axon kapcsolódik.

Vagyis ugyanaz a késleltetési mechanizmus működik itt is, mint amit az előbb megnéztünk, de most már látható, hogy hogyan alkalmazható ez az összes téri irány leképezésére. A binaurális idegsejtek téri elrendeződése és az ebből következő eltérő axonhosszúság, valamint az, hogy csak akkor sülnek ki, ha a két fülből származó bemenet egyszerre éri el őket, lényegében automatikusan megvalósítja az irányszelekciót.

A binaurális sejtek tehát a hallási tér egy jól körülhatárolható területén hallható hangokra érzékenyek. Ezt a területet az idegsejt receptív mezőjének nevezzük, hiszen – hasonlóan a vizuális rendszer CGL sejtjeihez – ezek is akkor válaszolnak leginkább, ha egy hang az idegsejthez tartozó receptív mezőben szólal meg. A binaurális sejtek összessége a hallási tér térképét építi fel, amely már egy analóg reprezentációja a külvilágnak.

Látható tehát, hogy noha a hallási információ feldolgozásának kezdetén nem áll rendelkezésre egyértelmű téri információ, a hallórendszer kéreg alatti struktúráiban található binaurális idegsejtek működése révén mégis kialakul a hallási környezet téri leképeződése, és a magasabb szintű idegrendszeri folyamatok már ezen a reprezentáción dolgozhatnak tovább.

A binaurális lokalizáció duplexelmélete

A fentiekben áttekintettük azt a két binaurális jelzőmozzanatot, amelyet a hallórendszer felhasználhat a hangok lokalizációja során. A továbbiakban arra keressük a választ, hogy valójában hogyan hasznosítja a hallás ezeket: vajon mindkettőt egyszerre figyelembe vesz- szük-e, vagy vannak olyan szituációk, amikor csak az egyiket vagy a másikat?

Mind az IHK, mind az IIK rendelkezik egy olyan korláttal, amely esetében már nem nyújt hatékony információt a hangok lokalizációjával kapcsolatban. Az IHK esetében ez a mély hangoknál van így, az IIK-nál viszont a magas hangoknál. Eszerint a mély hangok esetében inkább az IIK-t tudjuk használni, a magas hangok esetében viszont az IHK-t. Úgy tűnik ugyanakkor, hogy van egy olyan frekvenciatartomány, amelyben egyik jelzőmozzanat sem működik megfelelően, vagyis a lokalizáció pontatlan. Stevens és Newman (1934) klasszikus kísérletükben empirikusan is alátámasztották ezt. A kísérleti személyeket egy 3 méter magas állványra ültették a Harvard Egyetem biológiai laboratóriumának tetején, mégpedig annak érdekében, hogy a lokalizációt ne zavarja a hangok visszaverődése a közeli falakról. A hangokat egy olyan hangszóróból játszották le, amelyet horizontális síkban egy 3,5 méter hosszú karon a kísérleti személy feje körül tudtak mozgatni. A hangok különböző frekvenciákon szólalhattak meg, és csak a jobb oldalon voltak hallhatók, összesen 13 különböző pontban. A kutatók az egyes frekvenciák esetében a lokalizációs hibákat mérték. A 10.6. ábra mutatja a kísérlet eredményét. A grafikonon jól látszik, hogy mind az alacsony, mind a magas frekvenciák esetében viszonylag jól működött a lokalizáció, ellenben a 2000-4000 Hz között frekvenciasávban megugrott a hibázások száma. Ez lenne tehát az a tartomány, ahol sem az IHK, sem az IIK nem nyújt megfelelő információt a hang téri helyzetével kapcsolatban.

10.6. ábra. A hangok lokalizációjának függvénye a frekvenciától. A hibázások száma 1000 Hz körül megnő, de 5000 Hz felett visszatér az eredeti szintre (Stevens-Newman 1934 nyomán)

Stevens és Newman szerint ezek az eredmények egy kettős mechanizmus működésére utalnak, amennyiben az alacsony frekvenciájú hangok lokalizációjában elsősorban az IIK-t, míg a magas frekvenciájú hangoknál az IHK-t használjuk fel. Erre a kettősségre természetesen csak indirekt módon tudunk következtetni abból a tényből, hogy a lokalizációs teljesítmény valahol 1000 Hz környékén elkezd romlani, de 5000 Hz-nél újból visszaáll az eredeti szintre.

Az elméletet azóta a hallási lokalizáció duplexelméletének nevezték el. Ez az elmélet mára sok és sokféle módszert alkalmazó vizsgálatban nyert megerősítést.

A hallási lokalizáció kapcsán tehát a duplexelmélet egy újabb hibalehetőséget vet fel: a 2000-4000 Hz-es hangok esetében az IHK és IIK nem teszi lehetővé a megfelelő lokalizációt. Egy másik problémával már korábban találkoztunk. Láttuk, hogy mind az IHK, mind az IIK esetében léteznek a hallási térnek olyan pontjai, amelyek nem teszik lehetővé az egyértelmű lokalizációt. Ezek együttesét neveztük tévesztési kúpnak. Hogyan lehetséges, hogy mindezek ellenére a hangok lokalizációja mégis jól működik?

Három megoldás is létezik ezzel kapcsolatban. Egyrészt a hétköznapi életben a legtöbb esetben nem tiszta, hanem komplex hangokkal találkozunk. Ez azt jelenti, hogy a hangok több frekvencia-összetevőt is tartalmaznak. Ugyanakkor Stevens és Newman vizsgálatukban tiszta hangokat használtak, és a 2000-4000 Hz-es hangoknál mutatott hibázásokat ilyen hangok esetében mutatták ki. Mivel a komplex hangok egynél több frekvenciát tartalmaznak, ezért ezek között valószínűleg van olyan, amelynél jól működik a lokalizáció.

A másik megoldás az, hogy a laboratóriumtól eltérően a hétköznapokban mozgatjuk a fejünket. A fejmozgás úgy hat a lokalizációra, hogy megváltoztatja a korábban mozdulatlan hangforrást jellemző interaurális különbségek mintázatát, és ezáltal eloszlatja a hangforrás helyével kapcsolatos bizonytalanságot. Ez azért lehet így, mert a fej minden egyes pozíciója eltérő tévesztési kúppal jár együtt, és már kisebb mozgás is elmozdítja a tévesztési kúpot, lokalizálhatóvá téve az addig a téri helyét tekintve egyértelműen nem azonosítható tárgyat.

Végül a harmadik megoldás az lehet, hogy a hangok lokalizációjában felhasználjuk az egyetlen fülből származó téri jelzőmozzanatokat, azaz a monaurális lokalizációt. Nézzük meg ezt egy kicsit részletesebben.

A monaurális lokalizáció

A monaurális lokalizáció a fülkagyló formáján alapul. A fülkagyló elsősorban a függőleges, vagyis frontális síkban való lokalizációt segíti. Eddig nem igazán foglalkoztunk a fülnek ezzel a részével, pontosabban annyit állítottunk róla, hogy a hangok hallójáratba való irányításában van fontos szerepe. Az utóbbi évek kutatásai kiderítették, hogy a lokalizációban ki tudjuk használni azt a jelenséget, hogy a fülkagyló speciális tekervényein a hang a hallójáratba való lépése előtt ide-oda verődik (10.7. ábra). Ezeknek a visszaverődéseknek a mintázata megváltozik attól függően, hogy a hang milyen irányból származik, így ennek figyelembevételével következtetni lehet a hangforrás helyére.

10.7. ábra. A hang visszaverõdése a fülkagyló tekervényeirõl

Milyen változásokat okoznak ezek a visszaverődések a fülbe érkező hangban? A fülkagyló hatása egyfajta szűrőként értelmezhető: bizonyos frekvenciák felerősödnek, mások viszont halkabbak lesznek, vagyis a hang spektrális tartalma kismértékben megváltozik. A hang spektrális tartalmának megváltozása a fülkagyló, a fej és a hang irányának komplex interakciójából származik. Ezek hatását összefoglalóan fejhez kötött átviteli függvénynek (FKÁF) nevezzük. Az FKÁF hatását a 10.8. ábra szemlélteti.

10.8. ábra. Az FKÁF frekvenciaspektrum-módosító hatása. A sötétített terület jelzi az FKÁF hatását a bejövõ hangra (az ábra illusztráció, nem valós adatokon alapul)

Az FKÁF-nek többszörös funkciója van. Egyrészt, lehetővé teszi a hangok lokalizációját. A hangok ugyanis téri irányuktól függően eltérő FKÁF-fel rendelkeznek, mivel az eltérő irányból származó hangok eltérő visz- szaverődési mintázatot hoznak létre. Másrészt, az FKÁF jelenléte utal arra, hogy a hang valóban a külvilágból érkezett. Ez utóbbit úgy bizonyították (Batteau 1967), hogy hangokat vettek fel oly módon, hogy a felvételhez használt mikrofonokat két mesterséges fülkagylóban helyezték el. Az így felvett hangokat azután fülhallgatón keresztül játszották le a kísérleti személyeknek, vagyis a személyek egyfajta „távoli külső fület” kaptak. Aki hallgatott már sztereóban rögzített zenét fülhallgatón keresztül, az tudja, hogy az így hallott hangok nem rendelkeznek realisztikus téri minőséggel, hanem mintegy a fejen belül szólalnak meg. A kísérlet során azonban a személyek arról számoltak be, hogy a mesterséges fülkagylókkal rögzített hangok kívülről szóltak, nem pedig a fejen belül. Ráadásul a kísérlet eredményei szerint a személyek lokalizációs teljesítménye is lényegesen jobb volt a hagyományos módon rögzített hangokhoz képest.

Mivel a fülkagyló és a tekervények alakja egyénenként változik, ebből következően az FKÁF is mindenkinél más, és egyfajta, az ujjlenyomat analógiájaként „füllenyomatnak” nevezett mintázattal jellemezhető. Ez a füllenyomat tekinthető úgy is, mint olyan „spektrális aláírás”, amellyel a fül minden beérkező hangot ellát. Wightman és Kistler (1989a, b) egy szellemes kísérlettel bebizonyította, hogy az FKÁF valóban egyénenként változik, és ráadásul csak a saját FKÁF-ünk segítségével tudjuk pontosan lokalizálni a hangokat. Vizsgálatukban egyénileg lemérték a kísérleti személyek FKÁF-ét, majd ezeket szintetizálták, vagyis egy számítógép segítségével mesterségesen állították elő. Ezt követően olyan hangokat játszottak le a kísérleti személyeknek fülhallgatón keresztül, amelyekre rákeverték a saját vagy mások szintetizált FKÁF-ét. Azt találták, hogy minél inkább eltért a szintetizált FKÁF a sajáttól, annál többet hibáztak a személyek a lokalizációban. Az egyik legérdekesebb eredmény az volt, hogy a mások FKÁF-én „keresztül” hangokat hallgató kísérleti személyek leggyakrabban abban hibáztak, hogy összecserélték az elöl-hátul irányt. Vagyis ha például a hang 30 fokos szögben érkezett, akkor ugyanolyan gyakran mondták azt, hogy 30 fokról származik, mint azt, hogy 120 fokról. Ez emlékeztethet bennünket a tévesztési kúpra, vagyis arra, hogy vannak olyan téri pontok, amelyek esetén a hangforrás lokalizációja nem egyértelmű. Mindebből az következik, hogy a fülkagyló szerepe pontosan az, hogy ezeknek a binaurális jelzőmozzanatoknak a segítségével megfelelően nem lokalizálható pontoknak a lokalizálását segítse, azaz egyér- telműsítse, hogy a hang elölről vagy hátulról származott-e.

A kísérlet eredménye szerint tehát a monaurális lokalizációban nemcsak hogy felhasználjuk a fülkagyló formájából és elhelyezkedéséből származó információt, hanem mindez akkor működik a legjobban, ha saját egyedi fülkagylónkat használjuk. Ez persze a mindennapi életben így van. A kísérleti eredmények arra is utalnak, hogy a hallási tárgyak helyének észlelése tanult: az évek során megtanuljuk, hogy hogyan alkalmazzuk a fülkagyló speciális spektrális aláírását a hangok lokalizációjában. Ha viszont az FKÁF lokalizációban való felhasználása tanult, akkor feltételezhetjük, hogy akár újra is tanulható. Pontosan ezt az eredményt kapták Hofman és munkatársai (1998). Vizsgálatukban négy felnőtt személy lokalizációs képességeit tanulmányozták úgy, hogy megváltoztatták a fülkagyló tekervényeit egy, az igazihoz hasonló műanyag tekervény fülbe helyezésével. Ahogyan az várható volt, ez a mesterséges tekervény lényegesen rontotta a személyek hanglokalizációját, mégpedig amiatt, mert megváltoztatta az addigi FKÁF-et. A műanyag tekervény hat héten át tartó viselése után azonban meglepő módon egyre inkább javult a lokalizáció, míg végül elérte az eredeti szintet. Vagyis hat hét alatt a kísérleti személyek megtanulták a módosított FKÁF segítségével lokalizálni a hangokat. Még ennél is meglepőbb volt az az eredmény, hogy miután levették a műanyag tekervényeket, a lokalizációs teljesítmény nem változott. Vagyis nem egyszerűen arról volt szó, hogy a személyek megtanultak egy az eredetitől eltérő FKÁF-et, és ezentúl ennek alapján végezték a lokalizációt, hanem megtartották az eredeti FKÁF alapján történő lokalizációt is. Ez az eredmény azért nagyon meglepő, mert a legtöbb hasonló perceptuális tanulási helyzetben nem ez történik: ezekben az inputot módosító eszköz eltávolítása után egy újabb tanulási szakasznak kell lezajlania ahhoz, hogy az eredeti észlelés visszaálljon. Gondoljunk például Stratton klasszikus fordított szemüvegére (erről bővebben szóltunk már az észlelés természetével foglalkozó bevezetőben). Ezekben a vizsgálatokban a retinális kép irányát prizmákkal megváltoztatták, és bár a személyek bizonyos idő után megtanultak jól látni a prizmával, azt levéve nem állt vissza rögtön az eredeti percepció, hanem újra meg kellett tanulniuk rendesen látni. Az új FKÁF megtanulása inkább olyan, mintha egy második nyelvet tanultak volna meg a kísérleti személyek: az új nyelv megtanulása miatt az eredetit nem felejtjük el, az adott szituációtól függően pedig bármelyiket, a régit és az újat is tudjuk használni.

A fentiekben áttekintettük azokat a binaurális és monaurális jelzőmozzanatokat, amelyeket a hangforrások lokalizációjában fel tudunk használni. Láthattuk, hogy elsősorban a hangok terjedési jellegzetességeit kihasználó binaurális jelzőmozzanatokon alapul a lokalizációs képességünk, de ha ezek valamilyen okból nem szolgáltatnak egyértelmű információt a hallási tárgyak helyével kapcsolatban, akkor a monaurális információt is felhasználjuk. Valójában mivel az észlelőrendszernek az a célja, hogy a külvilág minél pontosabb leírását adja, ezért minden rendelkezésére álló információt felhasznál.

A továbbiakban a hallási lokalizációnak néhány olyan specifikus jellemzőjét tekintjük át, amely a kétfüles észlelésen alapul: a látási és hallási információ integrálását, a visszhangok észlelését és egy olyan elfedési jelenséget, amely csak két füllel történő hallgatás révén valósul meg.

12.1. táblázat -

TÉRHATÁS A MOZIBAN ÉS OTTHON

A mai modern mozik szinte már elképzelhetetlenek a háromdimenziós hangzási élményt nyújtó hangtechnika nélkül. A legtöbb nagy költségvetésű mozifilm kezdetekor csak úgy sorjáznak a különböző technológiákra vonatkozó szakkifejezések, mint a Dolby Surround, DTS, SDDS stb. Ráadásul a házi- mozirendszerek elterjedésével ma már az otthonunkban is létrehozhatjuk az eddig csak mozikban tapasztalható térhatású (surround) hangzást. De mit is jelentenek ezek a technológiai kifejezések, és hogyan lehet egyáltalán térhatású hangzást létrehozni?

1.ábra. A Dolby Stereo rendszer

A hangok rögzítésének és lejátszásának több módja képzelhető el. A legegyszerűbb eljárás a mono felvétel, amikor is a hangot egyetlen hangsávon rögzítik, és egyetlen hangszóróval játsszák le (mint például a régi rádiókon). Egy kissé valósághűbb hangzási élményt nyújtanak a sztereo felvételek, amelyeket két külön mikrofonnal két hangsávra rögzítenek, és két hangszóróval játszanak le. Ma a sztereo a széles körben elfogadott formátuma a televízió- és rádió- (legalábbis az FM) adásoknak. A térhatású hangfelvétel lényegében ugyanezen a koncepción alapul: itt még több (3-7) sávra rögzítik a hangokat, és ezeket a megfelelő számú hangszóróval játsszák le. A térhatású felvételek esetében már ritkán használják azt az eljárást, hogy több különböző mikrofon segítségével rögzítik az egyes sávokat. Valójában inkább az történik, hogy a film felvétele után a hangmérnökök keverőstúdiókban állítják össze a film hangjait. Igazából itt nyeri el a film a végső hangzását, itt kerül rá a háttérzene, a párbeszédek és a hangeffektusok. Az utóbbi évek során annyira fontossá váltak ezek a hangeffektusok, hogy külön csapat – úgynevezett „foley”-művészek – foglalkoznak a minél valóságosabb hanghatások létrehozásával. A selyemruhák suhogása vagy a cipő alatt csikorgó kövek, ahogy a főhős végighalad az úton, mind-mind a foley-művészek által létrehozott mesterséges effektusok, mivel ezeket a hangokat a film forgatása során képtelenség lenne ilyen minőségben felvenni. Ezek a hanghatások azonban – bár a legtöbb esetben észrevétlenek maradnak, hiszen nem elsősorban ezekre figyelünk – nagyon sokat adnak hozzá a film realitásához és hangulatához.

Analóg rendszerek

Az első valódi térhatást keltő technika a Dolby Stereo® volt, amelyben öt hangsávot: egy jobb, egy bal, egy középső és két surround sávot használtak, és több hangszórón szólaltattak meg (1. ábra). Ezek közül az elülső csatornákon általában a párbeszédek hallhatók, a hátulsók pedig a hangeffektusok számára vannak fenntartva. Az első olyan film, amelyben a surround csatornák már igen fontos szerepet kaptak, George Lucas Csillagok háborúja című filmje volt. Ebben a hangmérnökök az elülső és hátulsó csatornák közötti hangerőátmenetekkel képesek voltak olyan hatást elérni, mintha a filmben látható űrhajók a közönség feje felett repültek volna el. A későbbiekben a rendszer fontos része lett egy speciális hangszóró, az úgynevezett mélysugárzó (subwoofer), amely kifejezetten az alacsony frekvenciájú hangokat szólaltatta meg. Ezzel lehet létrehozni azt a nagyon speciális dübörgést, amely ma már szinte minden mozifilm sajátja. A házimozirendszerekben megtalálható Dolby Surround® lényegében a Dolby Stereo®-nak a kissé leegyszerűsített változata, amelyben csak három hangsávot: jobb, bal és surround sávot használnak. Ennek oka a helytakarékosság: minél több sávot használunk, annál nagyobb tárolási kapacitásra van szükségünk.

2. ábra Az SDDS rendszer

Digitális rendszerek

Egy következő nagy ugrást jelentett a térhatású hangok előállításában a digitális tömörítés megjelenése. Egészen addig ugyanis analóg módon rögzítették a hangokat, ami óriási tárolási kapacitást igényelt. A digitális felvétel elsősorban azt tette lehetővé, hogy sokkal nagyobb mennyiségű hanganyagot tudtak a mozifilmekhez, illetve a házimozi-berendezéseken lejátszott DVD-khez kapcsolni. Az első digitális rögzítést a DTS Digital Sound® technikával végezték el, mégpedig Steven Spielberg Jurassic Park című filmjében. Ezenkívül további digitális technikák is születtek az utóbbi években, köztük a Dolby Digital® és a Sony Dynamic Digital Sound® (SDDS). A DTS és a Dolby Digital, valamint az SDDS közötti legfontosabb különbség, hogy az előbbi esetében a hangot egy külön tárolón (pl. CD) rögzítik, illetve játsszák vissza, míg az utóbbiaknál a hangot, az analóg rendszerekhez hasonlóan magára a filmszalagra rögzítik. A térhatású hangzás létrehozásában annyi különbség van ezen technikák között, hogy a DTS-ben hat, míg az SDDS-ben nyolc hangcsatornát használnak (2. ábra).

A térhatású hangzás létrehozására alkalmas házimozirendszerek elterjedését tehát a digitális hangrögzítés tette lehetővé. Ennek segítségével ma már egyetlen DVD-n elfér egy teljes mozifilm képi és hanganyaga, mégpedig általában nagyon jó minőségben. Mindez ugyanakkor a mozifilmgyártást is megváltoztatta, és ma már egy-egy nagyobb film esetében hangtechnikusok egész csoportja dolgozik azon, hogy minél élethűbb és tökéletesebb minőségű hanghatásokat hozzanak létre. Ha legközelebb moziba megyünk, vagy megnézzük kedvenc DVD-nket, érdemes végignézni a stáblistán, hogy há- nyan is dolgoztak a hangok rögzítésén és létrehozásán.


A binaurális lokalizáció speciális esetei

A hallási és látási lokalizáció interakciója

A bevezetőben említettük, hogy a tárgyak lokalizációja során elsősorban a látási információt használjuk fel, a hallásnak pedig inkább kiegészítő szerepe van ebben. Az ezzel kapcsolatos bizonyítékok elsősorban olyan szituációkból származnak, amelyekben a hallási és látási információ ellentmond egymásnak. Erre egy hétköznapi példa lehet a mozi esete. A mozikban még a mai modern hangrendszerek korában sem lehet maradéktalanul megvalósítani azt, hogy a hangok a mozivászon közepéről származzanak. Ennek ellenére a főhős beszédét mindig úgy halljuk, mintha az a szájából eredne. Kis paradoxona a háromdimenziós élményt nyújtó „surround” rendszereknek, hogy hiába halljuk a settenkedő szörny lépteit a hátunk mögött elhelyezett hangszórókból, azt soha nem a hátunk mögé, hanem a mozivászonra (vagy adott esetben a házimozink képernyőjére) fogjuk lokalizálni. Vagyis a méregdrága hangrendszer sajnos nem tudja becsapni az észlelőrendszerünket, és a látás minden esetben „felülírja” a hallást. A modern, háromdimenziós hangzásról bővebben a keretes szövegben lehet olvasni, a mozgókép és a hangforrás interakcióival pedig később (multiszenzoros integráció) ismét foglalkozunk.

A látás téri lokalizációban mutatott dominanciáját a pszeudofonnal végzett klasszikus kísérlet (Young 1928) bizonyította. A kísérletben egy olyan, pszeudofonnak (álmikrofon) nevezett eszközt alkalmaztak (10.9. ábra), amely összecseréli a két fülbe jutó hallási bemenetet. Vagyis a jobb oldalról érkező hangokat a bal fülbe, a bal oldalról érkezőket pedig a jobba vezeti. Mi történik, ha ezzel az eszközzel hallgatjuk a különböző irányból származó hangokat? Attól függően, hogy nyitva vagy csukva van a szemünk, más a cserének az észlelésben megragadható következménye. Ha csukva van a szemünk, akkor felcseréljük az irányokat, mivel a pszeudofon mindkét irányból az ellenkező oldali fülbe vezeti a hangot. Ha azonban nyitva van, és látjuk a hang forrását, akkor a hangot a megfelelő oldalra fogjuk lokalizálni. Noha ez utóbbi esetben természetesen helyesen oldjuk meg a feladatot, mivel a megfelelő irányt választjuk ki, ez valójában nagyon is meglepő, mivel a fülünk pont az ellenkezőjét hallja. Eszerint tehát a vizuális információhoz való hozzáférés esetén agyunk figyelmen kívül hagyja a hallási információt.

10.9. ábra. A pszeudofon

Mi lehet az oka a látás viszonylagos dominanciájának? A magyarázat talán a hang és a fény fizikai jellemzőiben keresendő. Azt mondhatjuk, hogy a fény sokkal megbízhatóbban szállít információt egy adott tárgyról, mint a hang. Egyrészt, a hang a fényhez képest nagyon lassan terjed, és emiatt, főként a távoli tárgyak lokalizációjakor, viszonylag nagy hibázáshoz vezet. Másrészt, a hangok nemcsak áthatolnak a tárgyakon, hanem töb- bé-kevésbé vissza is verődnek azokról, és ez lényegesen megnehezíti helyzetük meghatározását, főként azért, 10.8. ábra. Az FKÁF frekvenciaspektrum-módosító hatása. A sötétített terület jelzi az FKÁF hatását a bejövő hangra (az ábra illusztráció, nem valós adatokon alapul) mert nem igazán lehet eldönteni, hogy egy közvetlen vagy egy visszavert hang érkezett-e a fülünkbe. A vizuális rendszer eltérő sajátosságaira visszavezethető feldolgozási aszimmetriákra a multimodális integráció tárgyalásakor, a 15. fejezetben további példákkal találkozhatunk még.

Elsőbbségi hatás

Ahogy az előző fejezetben láttuk, a hangok komplex interakcióban állnak a környezettel: bizonyos tárgyak elnyelik, mások visszaverik őket. Egy természetes hallgatási környezetben, mondjuk egy nappali szobában, a hangok a hangforrásból (például kedvenc CD-lejátszónk hangszórójából) több különböző útvonalon jutnak el a fülünkbe. Némelyek közvetlenül érkeznek hozzánk, mások viszont visszaverődhetnek a szoba bútorairól vagy faláról. Ez azt jelenti, hogy a visszaverődött hangok nem egyszerre és nem is egy irányból érkeznek a fülünkbe. Ennek ellenére általában nem vagyunk tudatában ezeknek a visszaverődéseknek vagy visszhangoknak, azaz mindez a hangok lokalizációját sem befolyásolja.

A visszaverődésre nem érzékeny hallási észlelés jelenségét laboratóriumi körülmények között általában úgy vizsgálják, hogy hangpárokat mutatnak be a kísérleti személyeknek fülhallgatón keresztül. Mindkét fülbe két-két hangot adnak, és változtatják a hangpárok közötti időt, vagyis azt, hogy az első hang mikor érkezik a két fülbe (azaz az interaurális idői különbséget, 10.10. ábra).

10.10. ábra. Az elsőbbségi hatás vizsgálatához használt ingerek. Az első ingerpár a két fülbe kis idői különbséggel ért el, melyet a nyilak jeleznek. A második ingerpár a visszhangot modellezi, és ezeknél az idői különbség nagyobb. A két fülbe adott ingert egyetlen, meghatározott téri minőséggel rendelkező hangként észleljük

Az ilyen kísérlet általános, megismételhető eredménye az, hogy ha a két hang között elég rövid idő telik el (legalább 5 ms, de komplex hangok esetén nagyobb is lehet, akár 40 ms), akkor a két hang összeolvad, és egyetlen hangot hallunk két különálló helyett. Amennyiben ez az összeolvadás megtörténik, akkor az összeolvadt hang lokalizációját az első hang iránya határozza meg, függetlenül attól, hogy a második hang milyen irányból jött. Ezt a jelenséget nevezzük elsőbbségi hatásnak (Wallach et al. 1949).

Az elsőbbségi hatás azonban nem jelentkezik minden olyan esetben, amikor a két hang megfelelően kicsi idői távolságra van egymástól. A következő feltételek szükségesek a létrejöttéhez:

  1. A hangok nem folytonosak, hanem tranziensek, azaz rövid ideig tartók és átmenetiek.

  2. A két hang között legalább 1 ms különbség van; ennél kisebb különbség esetén a két hang valamilyen összesítése adja az összeolvadt hang lokalizációját.

  3. A második hang az elsőhöz hasonló hangerejű: ha sokkal hangosabb annál (legalább 10-15 dB-lel), akkor nem jön létre a hatás.

  4. A két hang minőségileg hasonló; minél kevésbé hasonlóak, annál kevésbé működik a hatás.

  5. Elég idő áll rendelkezésre a hatás felépüléséhez; az elsőbbségi hatás nem jön létre azonnal, a hangpárok néhány ismétlése szükséges hozzá.

Fontos kiemelnünk, hogy az elsőbbségi hatás nem azt jelenti, hogy a visszhangokat teljesen elnyomja az első hang, ugyanis képesek vagyunk meghallani a különbséget a visszhanggal együtt hangzó és a visszhang nélküli hangok között. Vagyis a visszhang nem azzal jár, hogy két különálló hangot hallunk, hanem egyetlen, de a visszhang nélkülitől eltérő minőségű hangot észlelünk. Úgy is értelmezhetjük mindezt, hogy a hallórendszer elnyomja a visszhangot: arra következtet, hogy a visszhang ugyanannak a hangnak a visszaverődése, és ezért nem kell figyelembe venni a visszaverődés irányát.

Akármennyire is egyszerűnek és automatikusnak tűnik az elsőbbségi hatás működése, úgy tűnik, hogy szintén tanult, és nagyon is magas szinten zajló, kognitív folyamatról van szó. Erre például abból lehet következtetni, hogy nem azonnali: láttuk, hogy kell egy kis idő a felépüléséhez. Vannak olyan eredmények is, amelyek azt mutatják, hogy a hatást a személy hallási környezetről kialakított elvárásai is befolyásolják (például hogy menynyire visszhangosnak gondolja a szobát, ahol tartózkodik).

Mivel a legtöbb hétköznapi szituációban a hangokból visszaverődések és visszhangok keletkeznek, az elsőbbségi hatás nagyon fontos szerepet játszik az észlelésben. Ez teszi lehetővé, hogy az akusztikus környezet változásai ellenére viszonylag jól tudjuk lokalizálni, értelmezni és azonosítani a hangokat.

Binaurális felfedés

A hanglokalizáció mellett egy másik szerepe is van a binaurális hallásnak: segít elkülöníteni az egyes hangokat a zajos környezet többi hangjától. A hangoknak a zajos környezettől való elkülönítését néha koktélparti-jelenségnek is szokták hívni. A jelenség a nevét annak a helyzetnek az alapján kapta, amilyen egy zajos parti. Itt általában sok ember beszél egyszerre, és nekünk ebből a háttérzajból ki kell tudnunk választani beszélgetőpartnerünk hangját ahhoz, hogy arra figyelhessünk, amit mond. A legtöbb esetben erre természetesen képesek vagyunk, annak ellenére, hogy a többiek beszélgetéséből keletkező zaj akár hangosabb is lehet, mint partnerünk hangja. A koktélparti-jelenség egyike azon témáknak a pszichológiában, amelyek nagyon sok területen megjelennek, és sok különböző lélektani működés illusztrálására használják fel őket (talán mert a tudomány művelői maguk is kedvelik az effajta szituációkat). A hallási figyelemmel foglalkozó fejezetben többet fogunk beszélni erről a jelenségről.

A koktélparti-jelenség empirikus vizsgálatára az alábbi eljárást alkalmazták, amely a binaurális felfedésnek nevezett jelenségen alapul (Durlach 1963). A kísérleti személyeknek fülhallgatón keresztül egyidejűleg hangokat és széles sávú zajt játszottak le az egyik fülükbe (pl. a jobba). A zajelfedés tárgyalásakor (280. skk.) láttuk, hogy a zaj hatására a hang észlelési küszöbe megnövekszik, és a hangot nehezebben halljuk meg. Ebben a kísérletben is ez történt, vagyis a zaj elfedte a hangot. Amikor azonban a másik (bal) fülbe is ugyanolyan zajt adtak, akkor az addig nem hallható hang ismét hallhatóvá vált (10.11. ábra). Ha pedig ezek után a zaj mellé a bal fülbe is a jobb fülbe továbbított hangot adták, akkor a hang ismét eltűnt!

Hogyan magyarázható az eredményeknek ez a furcsa mintázata? A választ valószínűleg a hanglokalizációs jelenségekben kell keresnünk. Amíg a hang és a zaj csak a jobb fülbe érkezik, addig az észlelőrendszer azonos hangforrásból származónak tekinti azokat, és a megszokott elfedési hatás érvényesül. Amikor azonban a bal fülbe zajt adunk, akkor a zaj téri konfigurációja a hanghoz képest megváltozik, mivel az most már mindkét fülben hallható. Vagyis most a hangot és a zajt eltérő forrásból származónak ítéljük. Ez viszont csak akkor működik, ha az akusztikai információ nem mond ellent a két fülbe érkező zaj azonos forrásból való származásának, vagyis a két fülbe érkező zaj ugyanolyan fázisú, hangosságú és hangmagasságú. Ha ezek után a hang is megjelenik a bal fülben, akkor megint arra következtetünk, hogy a zaj és a hang ugyanabból a forrásból származik, mivel téri konfigurációjuk megint csak hasonló lesz.

A binaurális felfedés egyfajta átmenetet képez a hallási objektumok lokalizációja és azonosítása között. Ha belegondolunk, a felfedés esetében az történik, hogy a lokalizációs mechanizmusok segítségével választjuk külön a tárgyakat (azaz a hangot és a zajt): ha azok egy forrásból származónak tűnnek, akkor egy hallási tárgynak tekintjük őket, ha viszont úgy véljük, hogy különálló forrásból származnak, akkor két tárgyat észlelünk. A továbbiakban azt tekintjük át, hogy milyen egyéb folyamatok révén valósul meg a hallási tárgyak elkülönítése és felismerése.

10.11. ábra. A binaurális felfedés kísérleti illusztrációja. a) Az elfedő zaj megnehezíti a hang detektálását (ezért a szomorú arc). b) A másik fülbe adott ugyanolyan elfedő zaj hatására a hang detektálása könnyebbé válik. c) Ha azonban a másik fülbe a zajon kívül hangot is adunk, akkor a hang detektálása nehezebb lesz