Ugrás a tartalomhoz

Általános pszichológia 1-3. – 1. Észlelés és figyelem

Csépe Valéria, Győri Miklós, Ragó Anett

Osiris Kiadó

13. fejezet - 11. FEJEZET– A beszéd észlelése

13. fejezet - 11. FEJEZET– A beszéd észlelése

A környezet valamennyi hangja közül valószínűleg a többi ember által keltett beszédhangok a legfontosabbak a számunkra. A beszéd célja a nyelvi közlések megfogalmazása: gondolataink és érzéseink kifejezése, valamint annak megértése, hogy mások hogyan válaszolnak erre. A beszédfolyamatnak két lényeges összetevője van. Az adott beszélő közösség számára feldolgozhatóan produkált nyelvi közlés, azaz a beszédprodukció, valamint a mások által produkált nyelvi közlés megértése, azaz a beszédértés. A 11.1. ábra a beszédfolyamat leegyszerűsített modelljét mutatjabe .

11.1. ábra. A beszéd folyamata

Amint az az ábrán jól látható, mind a beszédprodukció, mind a beszédmegértés több részfolyamatból áll. Ezek közül ebben a fejezetben a beszédhangok észlelésével, annak törvényszerűségeivel foglalkozunk. A beszédhangokból összeálló szavak és mondatok megértésével, valamint az azokat kialakító szabályokkal a nyelv és gondolkodás témakörében foglalkozik a pszichológia. Ezt részletesen az Általános pszichológia 3. kötete tárgyalja (Csépe-Győri-Ragó [szerk.]: Általános pszichológia. 3. Nyelv és gondolkodás).

Maga a beszédészlelési folyamat is több összetevőből áll. A mondanivalónkat mondatokba foglaljuk, amelyek szavakból épülnek fel, a szavak pedig beszédhangokra tagolhatók. A beszédészlelés kifejezéssel azt az észlelési folyamatot jelöljük, amelynek során a beszédhangok, hangkapcsolatok felismerése, vagyis azonosítása történik. A beszédhangok a beszédnek azok a legkisebb elemei, amelyek egy adott nyelvben jelentésmegkülönböztető szerepűek. A beszédhangokon kívül a szavak alkotóelemeit nevezhetjük fonémáknak is. A két kifejezés azonban nem azonos.

A beszédhang a beszéddelkapcsolatos akusztikai információ,a fonéma pedig az általános tulajdonságok alap ján azonosnak észlelt beszédhangok mentális reprezentációja, azaz ugyanannak a beszédhangnak az akusztikailag sokféle megvalósulásából létrejött absztrakció. A beszédhangok akusztikai és fonetikai elemzésének eredménye a beszédhangoknak a megfelelő fonémákkal történő azonosítása, az úgynevezett fonémadöntés. Ez azt jelenti, hogy a beszédhangokat a fonológiai (hangalak-) elemzés szintjén adott fonémakategóriához (erre később visszatérünk) rendeljük hozzá. A fonémáról hozott döntés azonban gyakran nem is olyan egyszerű, mivel a beszédhangok hangkörnyezetüknek megfelelően módosulnak, jóllehet ez a hangkörnyezet az azonosításhoz szükséges jellemző jegyeket is hordozza. A rúgta szóban például a igi zöngés mássalhangzó zöngétlenedik, azaz a többi hangtól elkülönítve (izoláltan) nem valószínű, hogy ugyanúgy /g/ hangként azonosítanánk, mint magában a szóban. A beszédhangok észlelésében tehát kontextustól független és kontextusfüggő észlelési folyamatok működnek. Ezen a szinten a fonémadöntést meghatározó kontextuális elemek: 1. a szótag szerkezete, 2. a beszédhang helye a szótagban, 3. a szomszédos beszédhang jellemzői.

A fonéma tehát absztrakt kategória, és a beszédnek arra a legkisebb, reprezentációalapú perceptuális építőelemére vonatkozik, amelynek alapján képesek vagyunk két szó között különbséget tenni. Vegyük például a kéz és a kész szavakat. Ezek csak egyetlen hangban, a szóvégi /z/ és /sz/hangban térnek el egymástól. (A továbbiakban, mint ahogy fentebb is, a i i jelet fogjuk használni a hangokra utalásnál, és a nem nyelvész olvasó dolgát megkönnyítendő, nem fogjuk használni a beszédhangok egyezményes fonetikai átírását.) Az ehhez hasonló, egyetlen fonémában különböző szavakat minimális pároknak nevezzük.

Ebben a fejezetben arra keressük a választ, hogy hogyan dolgozzuk fel ezeket a beszédhangokat, és miként tudunk különbséget tenni a kéz és kész szavak között. Annak érdekében azonban, hogy megérthessük, hogyan is észleljük a beszédhangokat, szükséges tudnunk azt is, hogy milyen jellegzetességeik vannak ezeknek, vagyis szemügyre kell vennünk a beszédhangok produkcióját és az észlelésben alapvető szerepet játszó akusztikai és fonetikai feldolgozás törvényszerűségeit.

A fejezet során tehát először is áttekintjük a beszédhangok produkciójának jellegzetességeit és fizikai jellemzőit. Látni fogjuk, hogy az emberi beszédképzés során létrejövő beszédhangok hasonló tulajdonságokkal rendelkeznek, mint a legtöbb környezeti hang: több frekvenciakomponenst tartalmaznak, vagyis komplex hangok, és periodikus ismétlődés jellemzi őket. Majd azt nézzük meg, hogy a beszédhangok mely jellegzetességeit használjuk fel ahhoz, hogy egyedi hallási objektumokat, fonémákat hozzunk létre belőlük. Végezetül bemutatunk néhány olyan pszichológiai modellt, amely az emberi beszéd megértésének magyarázatára jött létre.

A beszédhangok jellemzői

A beszédhangok képzése

Az emberi beszédképző szervek az evolúció során olyan szervekből fejlődtek ki, amelyeket eredetileg más célra használtunk, és ma is betöltenek egyéb funkciókat is. A beszédképző rendszer három nagy részre osztható: a gége alatti (tüdő), a gégei és a gége feletti (száj- és orrüreg) rendszerre (11.2. ábra).

11.2. ábra. A beszédhangképző szervek

Leegyszerűsítve azt mondhatjuk, hogy a beszédhangok produkciója két lépésből áll. A tüdőből kiáramló levegő hatására rezgésbe jönnek a gégében található hangszalagok, és ezt a rezgést a szájüreg, a nyelv, az ajkak formálják tovább. Nézzük meg ezt a folyamatot egy kicsit részletesebben.

A beszédhangok képzéséhez a tüdőből kiáramló levegőt használjuk fel. A levegő mennyisége, illetve nyomása határozza meg a hangok hangosságát, valamint azt, hogy mennyi ideig tudunk egyfolytában beszélni. A beszéd közbeni levegővétel módja jelentősen eltér a nyugalmi légzéstől, a nyugalmi légzésnél ugyanis a levegővétel és a -kifújás időtartama nagyjából azonos, míg beszéd közben egy gyors beszívást nagyon lassú és egyenletes tempójú kifújás követ. A beszéd közbeni légzés tehát nagyon precíz és egyben automatikus irányítás alatt áll. Semmilyen tudatos kontrollt nem tudunk gyakorolni a beszédprodukció során a levegő kiáramlására, noha tudjuk, hogy a légzés egyébként akaratlagosan befolyásolható.

A hangképzés tulajdonképpeni szerve a gégében található. A gége porcokból és a porcokat összekötő ízületekből és izmokból áll. A beszédképzés szempontjából legfontosabb részei a hangszalagok és az ezek által körbevett hangrés (11.3. ábra). A gége izmai teszik lehetővé a hangszalagok megfeszítését, illetve ellazítását, és ezáltal szabályozzák a hangrés nagyságát. A hangrés nagyságától függ, hogy keletkezik-e hang vagy sem. Ha teljesen nyitva van, akkor a levegő akadálytalanul áramlik át a gégén, vagyis nem jön létre hang. Ahogy természetesen akkor sem, ha a hangrés teljesen zárva van. Érdekes módon azonban a hangképzés nem akkor valósul meg, amikor a hangszalagok a nyílt és zárt állás között vannak, és a tüdőből kiáramló levegő képes rezgésbe hozni őket. Ebben a félig nyílt állapotban ugyanis nem a beszédhangok képzéséhez szükséges rezgés, az úgynevezett zönge alakul ki, hanem a /h/ hang képzéséhez szükséges surrogó hang valósul meg.

11.3. ábra. A gége felépítése

A zönge egy viszonylag bonyolult folyamat hatására jön létre, amelyet a 11.4. ábra szemléltet. Az ábrán bemutatott folyamatot a következőképpen értelmezhetjük. A hangrés zárt állapota esetén a tüdőből kiáramló levegő feltorlódik a hangszalagoknál, és ennek hatására megnő az úgynevezett szubglottális (hangrés alatti) nyomás. Egy idő után azonban a hangszalagok nem tudják fenntartani a hangrés zárát a szubglottális nyomással szemben, és emiatt a hangrés kinyílik, a levegő pedig kiáramlik. A kiáramló levegő hatására, különböző fizikai törvényszerűségek miatt, valamint a hangszalagok idegrendszeri szabályozása nyomán, a hangszalagok ezután ismét visszazáródnak. A hangrésnek ez a gyors, periodikus nyitása és zárása hozza létre lényegében a beszédhangok alapját képező zöngét. Ez az elv hasonló ahhoz, mint amit a 8. fejezetben a hangvilla hangkeltése esetében leírtunk: egy rugalmas tárgy oda-vissza mozgása hozza létre a hanghullámot.

11.4. ábra. A zöngekeltés folyamata a gégében

A hangszalagok működésére szintén az a jellemző, hogy nem állnak tudatos ellenőrzés alatt. A működésük révén létrejövő zönge a beszéd alapvető jellemzőjét, az alaphangot határozza meg. Az alaphang egyénenként eltér, és a fentiek alapján kitalálhatjuk, hogy a hangrés nyitódásának és záródásának periódusideje határozza meg (vagyis az, hogy a hangrés másodpercenként hány nyitódásra és záródásra képes). A hangrésnek, pontosabban a hangszalagoknak ezt a jellemzőjét különböző anatómiai tényezők befolyásolják. Ilyenek például a hangszalag hossza, tömege, illetve rugalmassága.

A hangszalagok működésének jellemzőit, és így az alaphangot is, elsősorban a nem és a kor befolyásolja. Tudjuk, hogy a férfiaknak mélyebb a hangjuk, mint a nőknek vagy a gyerekeknek: férfiak esetében a beszéd alaphangja 120 Hz körüli, nőknél ez az érték 250 Hz körül található, gyerekeknél pedig 400 Hz felett.

A beszédhangképző rendszer harmadik, gége feletti része az úgynevezett artikulációs csatorna. Az artikuláció az az automatikus mozgás, amely a beszédhangok létrehozására irányul. Eszerint az artikulációs csatorna a hangképzés azon rendszere, amely a beszédhangok végső formáját létrehozza. Ez a rendszer a hangréstől az ajkakig terjedő szerveket foglalja magában, és lényegében egy viszonylag hosszú, bonyolult formájú cső, amelyen a levegő végighalad. A csatorna a beszédhangokat két módon képes megformálni: egyrészt a benne található üregek különféle rezonanciákat, rezgéseket képesek kelteni a már létrejött hangon, másrészt pedig a hang különböző akadályokba (pl. nyelv, ajkak) ütközhet, vagy szűkületeken halad át, amelyek szintén módosítják.

11.5. ábra. Az artikulációs csatorna felépítése

Az artikulációs csatorna három üregből áll (11.5. ábra): garatüreg, orrüreg, szájüreg. Ezek mindegyikének alakja módosítható a nyelv vagy a lágy szájpad mozgatása révén, és ezáltal különböző típusú rezonanciák alakulhatnak ki bennük. A szájüregben találhatók azok az akadályokat képző szervek is, amelyek tovább képesek módosítani, esetleg önmagukban is képesek létrehozni egyes beszédhangokat. A szájüreg beszédszervei aktív és passzív beszédszervekre oszthatók aszerint, hogy tudjuk-e őket mozgatni vagy sem. Ezeket a 11.6. ábra mutatja be.

11.6. ábra. A szájüreg beszédhangképző szervei

Összefoglalva tehát, a beszédhangok a hangszalagok által létrehozott komplex, periodikus rezgések, amelyeknek a spektrális szerkezetét az artikulációs csatorna különböző részei módosíthatják. Láthattuk, hogy a hangképzést nagyon precíz, finoman összehangolt izommozgások szabályozzák, amelyek azonban tudatosan nem irányíthatók. Nem tudjuk akaratlagosan úgy szabályozni a tüdő, a légcső vagy a nyelv izmait, hogy például egy iói hangot hozzunk létre. Ugyanakkor azt is érdemes észrevennünk, hogy mindazok a szervek, amelyeket a beszédhangok létrehozása során használunk, nem erre a célra jöttek létre. Mindegyiknek megvan a saját egyéni funkciója (légzés, táplálkozás stb.), és mintegy „mellékesen” a beszédhangok létrehozását is megvalósítják (egyedül talán a hangszalagok jelentenek kivételt, azoknak valóban a hangadás az alapvető és egyetlen funkciójuk).

A továbbiakban azt vizsgáljuk meg, hogy az így létrejött beszédhangok milyen akusztikai tulajdonságokkal rendelkeznek, vagyis milyen jellemzőket kell feldolgoznunk ahhoz, hogy beszédhangokat észleljünk.

A beszédhangok csoportosítása

A fentiekben láttuk, hogy a beszédképző rendszer hogyan hozza létre a beszédhangokat. Bemutattuk, hogy a beszédképzés két szakaszból áll: az alaphangot adó zönge létrehozásából és az így létrejött hang további formálásából. Ez akusztikai szempontból megfogalmazva azt jelenti, hogy az egyes beszédhangokra jellemző formá- lásssal egyben az adott hangra jellemző speciális spektrális szerkezetet hozunk létre. Ez utóbbi lépést úgy képzelhetjük el, hogy az artikulációs csatorna beszédképző szervei egyfajta bonyolult szűrést alkalmaznak a hangon, és bizonyos frekvenciatartományok hangosodását és halkulását hozzák létre, vagyis megváltoztatják a kialakuló komplex hang harmonikusait. Ezt a fajta működést szemlélteti a 11.7. ábra.

11.7. ábra. A beszédképző szervek működésének modellezése. Az a) részen látható a hangszalagok keltette alaphang. A b) azt mutatja, hogy néhány magánhangzó esetében az artikulációs csatorna milyen pozíciókat vesz fel, a c) rész pedig azt, hogy ezek a pozíciók milyen változást eredményeznek a létrejövő beszédhangok spektrális szerkezetében

Az artikulációs csatorna működése révén létrejövő módosult felharmonikusokat a beszédhangok esetében formánsoknak nevezzük. A formánsokat általában F-fel jelöljük, és egy sorszámot is kapnak aszerint, hogy milyen távol vannak az alaphangtól. A 11.7. ábrán a frekvenciaspektrumban található csúcsok jelzik a formánsokat. A legtöbb esetben csak a beszédhangok első három formánsáról, vagyis az F1, F2 és F3-ról beszélünk. Három formáns ugyanis megfelelően meghatároz egy magánhangzót, a többi frekvenciakomponens valójában redundáns, a megfelelő észleléshez nincs is igazán szükség rájuk. A három formánson kívül ugyanakkor egy negyediket is meg kell említenünk, ez pedig az F0, vagyis a 0. formáns. Az eddigiek fényében kitalálható, hogy az F0 az alaphangra vonatkozik. Többféle oka is lehet annak, hogy a beszédhangok esetében miért tekintjük az alaphangot a 0. formánsnak. A beszédhang, hasonlóan más komplex hangokhoz, alaphangból és felharmonikusokból áll. Ha tehát a felharmonikusokat vagy formánsokat F1, F2 stb.-vel jelöljük, akkor logikus, hogy az ezeknél mélyebb frekvencia-összetevőt, az alaphangot 0-val jelöljük. Ugyanakkor az F0 jelölés használata arra is utal, hogy ez a komponens nem játszik szerepet a beszédhangok jellegzetességeinek meghatározásában. Láttuk, hogy bár az alaphang adja meg a beszéd és így az összetevők magasságát, magának a beszédhangnak a kialakításában igazából csak az F1, F2 stb. formánsok vesznek részt.

A beszédhangok nagyon sokfélék lehetnek, és természetesen nagyon eltérő akusztikai jellemzőkkel rendelkezhetnek. Ráadásul az egyes nyelvek között óriási eltérés van abban, hogy milyen beszédhangokat használnak, és ezeket hogyan képzik. Ezt mindenki megtapasztalhatja, amikor először próbál egy idegen nyelvet elsajátítani. Nemcsak a hangok megfelelő produkciójához szükséges rendkívül sok gyakorlás, hanem ahhoz is, hogy magukat a beszédhangokat megfelelően észleljük, a belőlük alkotott szavak hangalakját azonosítsuk, és a szavakat megértsük.

Az egyes nyelvek az emberi beszédképző szervek által létrehozható lehetséges beszédhangoknak csak egy korlátozott készletét használják. Nyelvenként eltér, hogy pontosan hány beszédhangot használnak, és ez a szám 11 és 141 között változhat (Gósy 2004). A legtöbb nyelv 20-37 hangot alkalmaz. A beszédhangokat két nagy csoportra szokták osztani: a magánhangzókra, amelyek képzése minden esetben a zöngére épül, és a mássalhangzókra, amelyek nem feltétlenül tartalmaznak zöngét, de a képzésükkor a levegő valamilyen akadályba (beszédszervek) ütközik. A továbbiakban áttekintjük, hogy miként osztályozzuk ezeket a hangokat, illetve azt, hogy az egyes csoportok milyen képzési és akusztikai jellemzőkkel írhatók le. Az áttekintés csak felsorolásszerű lesz, nem térünk ki a hangok részletes jellemzésére. A cél inkább az, hogy lehetővé tegyük a beszédhangcsoportok közötti eligazodást. Az érdeklődők Gósy Mária (2004) könyvéből további részleteket tudhatnak meg.

A magánhangzók

A magánhangzók zöngés hangok, vagyis képzésükkor a tüdőből kiáramló levegő megrezegteti a hangszalagokat. Az egyes magánhangzók formánsszerkezetükben és időtartamukban térnek el egymástól. Ezt az artikulációs csatorna különböző üregeinek eltérő alakja teszi lehetővé (11.6. ábra). Egy magánhangzó meghatározásához négy paraméter szükséges: a nyelv helyzete függőleges és vízszintes irányban, az ajakállás és az időtartam.

A nyelv függőleges állása összesen négyféle lehet: felső, középső, alsó és legalsó. Az így képzett hangok elsősorban az F1 formánsban térnek el egymástól, és a felül képzett hangok (pl. iii) magasabb F1-gyel rendelkeznek, mint az alulképzettek (pl. iai).

A nyelv vízszintes állás szerint megkülönböztetünk elöl képzett (palatális) és hátul képzett (veláris) hangokat. Az előbbire példa az iii, az utóbbira pedig az iui hang. Mindez akusztikailag elsősorban az F2 formáns változásában jelenik meg oly módon, hogy az elöl képzett magánhangzók magasabb frekvenciájú F2-vel rendelkeznek, mint a hátul képzettek.

Az ajakállás kétféle lehet: ajakkerekítéses (labiális) és ajakréses (illabiális). Az ioi hang például ajakkerekítéssel, az iéi viszont ajakréssel képződik. Az ajakállás elsősorban az F2-F3 viszonyát módosítja, vagyis viszonylag komplex hatást gyakorol a hang formánsszerkezetére.

Végül az időtartam alapján beszélhetünk rövid és hosszú magánhangzókról, amelyek főként időtartamukban térnek el egymástól (az időtartam kissé módosítja persze a formánsértékeket is). Ilyen például az ioi és iói hang. Sokan azt gondolják, hogy az iai és iái, valamint az iei és iéi hangok ugyanannak a magánhangzónak az időtartam szerint eltérő változatai. Ezt azonban az írástudók számára főleg a hosszúságjelölés konvenciója sugalmazza, az iai és iái vagy az iei és iéi hangok formánsszerkezete ugyanis minőségi eltérést mutat.

A magyar nyelvben összesen 15 magánhangzót tudunk megkülönböztetni. A 11.1. táblázat mutatja ezek csoportosítását a felsorolt kategóriák szerint. Nagyon fontos, hogy ezek a kategóriák mindig egyszerre határoznak meg egy hangot, tehát például az iái hang egy hátul képzett, legalsó nyelvállású, ajakréses és hosszú magánhangzó. A táblázat a rövid és hosszú hangokat nem jelöli külön, ha egy adott magánhangzóból mindkettő létezik, akkor ezek egymás mellett vannak feltüntetve a táblázat azonos cellájában.

13.1. táblázat - 11. 1. táblázat. A magánhangzók csoportosítása (Gósy 2004 nyomán)

Nyelv függőleges mozgása

Nyelv vízszintes mozgása

Elöl képzett

Hátul képzett

Ajakréses

Ajakkerekítéses

Ajakréses

Ajakkerekítéses

Felső nyelvállású

i, í

ü, ü

u, ú

Középső nyelvállású

é

ö, ő

o, ó

Alsó nyelvállású

e

a

Legalsó nyelvállású

á


A mássalhangzók

A beszédhangok másik nagy csoportját a mássalhangzók alkotják. A mássalhangzók szintén a kilégzés során jönnek létre, mégpedig úgy, hogy a kiáramló levegő az artikulációs csatorna szájüregi részében valamilyen aktív vagy passzív akadályba ütközik (11.6. ábra).

A magyar nyelvben összesen 32 (28 egy, 4 két képzési hely típusú) mássalhangzó különíthető el. A képzett hangok jellemzése négy paraméter mentén történik: a képzés módja, a képzés helye, a zöngésség és az időtartam. Már itt felhívjuk a figyelmet arra, hogy a mássalhangzók képzési jellegzetességeivel, illetve osztályozásával kapcsolatban a beszédhangok sajátosságainak tudományos leírásával foglalkozó fonetikusok sem mindig értenek egyet. Ez azt mutatja, hogy egyes hangok képzése nem feltétlenül egyértelmű, illetve változatlan, mivel elképzelhető, hogy ugyanazt a hangot két különböző ember kissé másképp ejti ki. Ennek ellenére bemutatunk egy általánosan elfogadott csoportosítást.

A zöngésség és az időtartam a mássalhangzóknak legegyszerűbb jellemzői. Zöngésség szerint lehetnek zöngések (pl. ibi), amikor is a hang a hangszalagok rezgése révén jön létre, és zöngétlenek (pl. ipi), amikor a hangszalagok nem rezegnek.

A mássalhangzók a zöngésség szempontjából párt alkothatnak, amikor is a zöngés és zöngétlen hangok minden egyéb jellemzőjükben megegyeznek (pl. ib-pi).

Időtartam szerint a magánhangzókhoz hasonlóan a mássalhangzók is lehetnek rövidek vagy hosszúak (pl. ili illi), vagy más néven mássalhangzó-kettőzések (gemináták). A magyar nyelvben a mássalhangzók hosszúságészlelése fontos, hiszen jelentésmegkülönböztető funkciójuk lehet, mint például a hal és hall szavak esetében.

A képzés módja arra az artikulációs működésre vonatkozik, ahogyan az adott mássalhangzót megformáljuk. A képzési mód szerint öt mássalhangzócsoportot különböztethetünk meg: zárhangok, réshangok, zár-rés hangok, pergőhangok és közelítőhangok.

A zárhangok (pl. ibi) esetében az artikulációs csatorna valamely részén egy teljes zárás alakul ki (a ibi hangnál például az ajkak zárulnak össze), és ez a zár megállítja a levegőt. A zár bizonyos ideig fennmaradhat, de azután általában gyorsan kinyílik, és ez a nyílás – vagy más néven zárfelpattanás – vezet a hang létrejöttéhez. A zöngés zárhangok esetében a hangszalagok a zárfelpattanáskor, de akár előtte is rezeghetnek.

A réshangok (pl. ifi) ezzel szemben úgy jönnek létre, hogy a levegőnek egy, a beszédszervek által létrehozott szűk nyíláson kell keresztülhaladnia. Ez a folyamat egy zajszerű hangot hoz létre, hasonlóan a fák levelein keresztül fújó szél hangjához. A zajszerű hang állhat önmagában vagy zöngés réshangoknál egy zöngével együtt (pl. a ivi esetében).

A zár-rés hangok (pl. icsi) a zár- és réshangok tulajdonságait ötvözik. Képzésük során a zárat nem felpattanás, hanem egy szűkülés követi.

Apergőhangok (az egyedüli ilyen hang a magyarban az iri) valamely beszédszerv vibrációjából, pergetésé- ből származnak. Ez a magyarban a nyelv, de például a franciában a lágy szájpad pergetésével jönnek létre a pergőhangok.

A közelítőhangokat (pl. ili) az artikulációs csatorna valamely részének nem teljes zárása hozza létre. Emiatt ezek kissé hasonlítanak a magánhangzókhoz, hiszen a magánhangzók képzés során sem jön létre zár. Természetesen azért a közelítőhangoknál egy kismértékű zárást mindenképpen találunk, de az ilyen hangok lágyságát pontosan ez a nem teljes zárás okozza.

A képzés helye, vagyis aszerint, hogy a mássalhangzót a szájüreg mely részében képezzük, hét típust különíthetünk el (zárójelben megadjuk az egyes típusok idegen nevét is, mivel a szakirodalom legtöbbször így hivatkozik ezekre). Vannak két ajakkal képzett hangok (bilabiálisok), ajak-fog hangok (labiodentálisok), fogmederhangok (alveolárisok), hátsófogmeder-hangok (posztalveolárisok), elülsőszájpadlás-hangok (palatálisok), hátul- s ó s z á j p a d l á s – h a n g o k (velárisok) és gégehangok (l a r i n g á l i s o k).

13.2. táblázat - 11.2. táblázat. A mássalhangzók csoportosítása

Képzési hely

Képzési mód

Zárhangok

Réshangok

Zár-rés hangok

Pergő-

han

gok

Közelítohan-

gok

Felpattanó

zárhangok

Nazá

lisok

Me-

diális

Late

rális

zön

gés

zön

gétlen

zön

gés

zön

gés

zön

gétlen

zön

gés

zön

gétlen

zön

gés

zön

gés

zön

gés

Bilabiális

b

p

m

Labiodentális

v

f

Alveoláris

d

t

n

z

sz

dz

c

r

l

Posztalveo-

láris

zs

s

dzs

cs

Palatális

gy

ty

ny

j

Veláris

g

k

Laringális

h


A 11.2. táblázat összefoglalja a magyar mássalhangzók különböző típusait a képzés módja, helye és a zöngésség szerint. Hasonlóan a magánhangzókhoz, itt is láthatjuk, hogy minden egyes mássalhangzót az összes jellemző mentén lehet csak meghatározni. Vagyis például a ibi hang egy bilabiális, zöngés zárhang.

A beszédhangok akusztikai jellemzői

A fentiekben tehát láthattuk, hogy az egyes beszédhangok létrehozásához a beszédképző szervek milyen hihetetlenül bonyolult vezérlése és összehangolása szükséges. Egy-egy hang kiejtése a légzés, a hangszalagok, a garat és a szájüreg, valamint a nyelv, az ajkak rendkívül pontos és finom mozgása révén valósul meg. Köny- nyen belátható, hogy az ily bonyolult módon képzett hangok nagyon összetett akusztikai mintázattal kell, hogy rendelkezzenek. Gondoljunk csak arra, hogy egy zongorán leütött billentyű milyen egyszerűen hozza létre a zongora hangját, hiszen voltaképpen egy egyszerű húr jön periodikus rezgésbe. Ehhez képest a beszédhangok – és főként a mássalhangzók – sokkal összetettebb és komplexebben változó hangok lesznek.

Ahogy már fentebb láttuk, lényegében a beszédhangok – más komplex hangokhoz hasonlóan – olyan, több frekvenciakomponensből összetevődő, periodikus hangok, amelyek a frekvencia és intenzitás időbeni változásait tartalmazzák. A továbbiakban azt fogjuk áttekinteni, hogy mi jellemző pontosan ezekre a változásokra, illetve általában a beszédhangok akusztikai megvalósulására.

A beszédhangok vizuális megjelenítésének legjobb módja a 10. fejezetben már bemutatott, spektrogramon történő ábrázolás. Mint láttuk, a spektrogram a különböző frekvenciákon található akusztikus energia mennyiségét tünteti fel az idő függvényében, és tulajdonképpen úgy ábrázolja a hangokat, ahogy azok az alaphártyán reprezentálódnak.

11.8. ábra. Egy mondat spektrogramja. A mondat angol verziója a beszéd spektrogramon történő ábrázolásának egyik leggyakrabban használt illusztrációja; eredete Franklin Cooper 1950-es évekbeli beszédszintézissel foglalkozó munkáira nyúlik vissza

A 11.8. ábra egy több szóból álló mondat spektrogramját mutatja be. Az ábrát tüzetesen megvizsgálva észre- vehetünk bizonyos szabályos változásokat. Felfedezhetünk például egy olyan frekvenciasávot, amely szinte a mondat teljes hosszában tartalmaz energiát. Ez a legmélyebb frekvenciakomponens, vagyis az alaphang vagy alapfrekvencia. Láttuk, hogy a beszédhangok esetében ezt F0-lal jelöljük. Az F0 mellett további frekvenciakomponenseket is találunk, ezeket formánsoknak neveztük. Az ábrát szemügyre véve láthatjuk, hogy a formánsok gyors változásokat mutatnak, a frekvencia hirtelen növekszik vagy csökken. Ezeket a változásokat formáns- átmeneteknek nevezzük. A formánsátmenetek a legtöbb esetben a beszédképző szervek egyik helyzetből a másikba történő mozgását jelzik. A formánsátmenet bizonyos hangok, például a zárhangok esetében a hang képzésének része, más esetekben viszont hangkapcsolatok esetében figyelhető meg, amikor is egy hang képzését követően a hangképző szerv egy másik pozícióba kell, hogy átálljon.

Az eddigiekben tehát áttekintettük a beszédhangok típusait, képzésüket és akusztikai jellemzőit. Tudjuk már, hogy a beszédhangok komplex hangok, és tudjuk, hogy különböző zöngéket, vagyis periodikus rezgéseket és zajokat, zörejeket tartalmaznak. Azt is áttekintettük, hogy az egymást követő beszédhangok (szavak) esetében az észlelőrendszer milyen formában „kapja meg” ezt az akusztikai inputot – folyamatosan változó lassú vagy hirtelen spektrális változások, hangátmenetek sorozataként. A spektrogramon történő ábrázolás ugyanis töb- bé-kevésbé megfelel annak, ahogyan a hallóideg aktivitásmintázata közvetíti a hangok akusztikai jellemzőit az agy felé. Most már csak azt kellene megnéznünk, hogy mihez kezd az agy ezzel az inputtal, vagyis hogy milyen folyamatok közvetítésével történik a beszéd észlelése. A következő részben ezzel a témával foglalkozunk.

A beszédhangok észlelése

A beszédhangok észlelésének lépései

A beszéd megértésének folyamata alapvetően két részből áll: a nyelvi kódoknak vagy perceptuális egységeknek megfelelő akusztikai információk feldolgozásából, valamint ezeknek az információknak az értelmezéséből. Az első rész a beszédhangok és hangkapcsolatok felismerését jelenti, és lényegében az adott nyelvre jellemző fonémák azonosításából áll. A második rész ennek értelmezését foglalja magában, vagyis a szavak, mondatok, illetve az egész szöveg feldolgozását és megértését. Itt most csak a beszédészlelés első részével, vagyis a nyelvi egységek percepciójával foglalkozunk.

A beszédhangok észlelési folyamata két szakaszból áll: a beszédhangoknak az akusztikai környezettől való elválasztásából és az ily módon elkülönített beszédhangok fonémaazonosításából, amelyhez referenciaként ezek mentális reprezentációja szolgál. A beszédhangoknak a többi hangtól való elkülönítésével nem foglalkozunk részletesen. Pontosabban, csak annyit állapítunk meg róla, hogy feltételezhetően ugyanazokat a mechanizmusokat használjuk a beszédhangoknak a többi hangtól való elválasztásában is, mint az összes többi hang esetében, mindenekelőtt pedig a perceptuális csoportosítás Gestalt-szabályait. A beszédhangok elválasztását segítheti, hogy a beszéd általában ritmikus, periodikus, és a frekvenciakomponensek együtt változnak. A beszéd tehát olyan jellemzőkkel rendelkezik, amelyek megkönnyítik az elkülönítését. Erre a legjobb példa a vokális zene hallgatása. Ha a hangszerek mellett ének is szól egy zeneszámban, akkor elsősorban erre fogunk figyelni, és ez lesz a leginkább kiugró, a többi hang hátterétől a leginkább elkülönülő.

Tudnunk kell azonban, hogy az emberi beszédészlelő rendszer a beszédhangkontrasztokra ugyan születéstől fogva érzékeny, a percepció természetes egységeit mégsem a beszédhangok jelentik, hanem a szavak hangalakja, illetve a szótagok. Miközben a nyelv elsajátítása során ezekre az eltérő egységekre egyformán hangolódik a beszédészlelő rendszer, a szavak hangösszetevői közül az olvasás elsajátítását megelőzően csak a szótagokhoz és a szókezdő hangokhoz van tudatos hozzáférésünk. A beszédészlelés automatikus folyamatában azonban kialakul a beszédhangkontrasztok megfelelő észlelését biztosító mentális reprezentáció.

A beszédhangok és a fonémák megfeleltetése

Szó volt már arról, hogy a beszéd legkisebb egysége a fonéma. A fonéma egy olyan absztrakt nyelvi egység, amely önmagában nem rendelkezik jelentéssel, de képes a szavak jelentését megváltoztatni. Azt mondhatjuk tehát, hogy a fonémák a nyelv építőkockái, hiszen a megfelelő fonémákként azonosított beszédhangok sorozatából előállíthatók egy adott nyelv szavai. Ezek alapján feltételezhetjük, hogy a beszédhangok feldolgozásának célja, hogy az akusztikai inputot megfeleltessük a fonémák mentális reprezentációjának.

Ez a megfeleltetés azonban sajnos nem ennyire egyszerű. Ahogy látni fogjuk, a beszédészlelés tanulmányozásának egyik központi problémája, hogy az észlelt beszédhangok és a mentális reprezentáció megfeleltetése meglehetősen összetett. Ha közelebbről megvizsgáljuk a beszéd akusztikai jellegzetességeit, akkor több olyan jelenséget is találunk, amelyek cáfolják azt a nézetet, hogy a beszédészlelés során a beszédhangok és a fonémák egy az egyben történő megfeleltetése zajlik.

Az egyik ilyen probléma a beszédhangok gyorsasága. Egyes vizsgálatok szerint 30 fonéma/másodperc beszédtempó mellett is képesek vagyunk megérteni a beszédet, ami azt jelenti, hogy az egyes beszédhangok átlagosan csak kb. 30 milliszekundum időtartamúak. Ha hasonló tempóval mutatunk be egyéb, nem beszéd jellegű hangokat, akkor ezeket a kísérleti személyek képtelenek azonosítani, és csak egy egybefolyó hangkavalkádot hallanak. Vagyis úgy tűnik, hogy a beszédészlelés során olyan gyorsan tudjuk követni a hangsorokat, amit elvileg a hallórendszer működése nem tesz lehetővé.

A másik problémába akkor ütközünk, ha megnézzük, hogy egy adott fonéma két eltérő kontextusban (például két eltérő szóban vagy szó elején és szó végén) milyen eltérő akusztikai paraméterekkel valósul meg. Li- berman és munkatársai (1954) két azonos fonémával kezdődő szótag esetében tették ezt meg. A két szótag a /di/ és /du/ volt, amelyeknek a spektrogramját a 11.9. ábra mutatja. Az ábrán egy stilizált spektrogram mutatja a szótagok két formánsát (F1 és F2). Az F1 és F2 formánsok elegendő információt nyújtanak ahhoz, hogy a szótagokat világosan eltérőnek halljuk (ennek ellenére nagyon mesterségesen, „gépszerűen” szólnak). Látható, hogy az F1 mindkét szótagnál hasonló frekvenciatartományban található, de az F2 teljesen eltérő: a /di/ esetében 2200 Hz-ről emelkedik 2600 Hz-re, míg a /du/-nál 1200 Hz-ről ereszkedik 700 Hz-re.

11.9. ábra. Formánsátmenetek a /di/ és /du/ szótag esetében (Liberman et al. 1954 nyomán)

A két szótag esetében tehát a /d/ hang teljesen eltérő akusztikai jellemzőkkel rendelkezik. Ennek ellenére a kísérleti személyek mindkét esetben határozottan /d/ hangnak hallják, és nem veszik észre a spektrogrammal nyilvánvalóvá tehető jelentős akusztikai különbségeket. Ugyanakkor, ha ezeket a változásokat, vagyis a formáns- átmeneteket izoláltan mutatjuk be (ekkor a hangok elveszítik beszédjellegüket), akkor ezek az eltérő akusztikai jellemzők egyértelműen megkülönböztethetők.

A beszédhangoknak ezt a változatosságát kontextusfüggő átszerveződésnek vagy koartikulációnak nevezzük. Az előbbi elnevezés az akusztikai paraméterek megváltozására utal, az utóbbi pedig a jelenség hátterére, vagyis arra, hogy a beszédhangok képzéséből, artikulációjából származik.

A koartikuláció definíció szerint az a jelenség, hogy egy beszédhang akusztikai jellemzői megváltozhatnak attól függően, hogy előtte vagy utána milyen hangok állnak. Például az /n/ hang némileg eltérő akusztikai paraméterekkel rendelkezik az int – ing – ina szavakban. A koartikuláció egy viszonylag egyszerű fizikai korlátozás miatt alakul ki, nevezetesen, hogy a beszédképző szerveket nem tudjuk tökéletesen átvinni egyik pozícióból a másikba. Bizonyos hangkapcsolatok esetén, vagy a következő hang ejtésére való felkészülés miatt, vagy az előzőből való nem tökéletes visszatérés miatt, az adott hang ejtése megváltozhat. A beszéd produkciója ugyanis egy dinamikus folyamat, és a beszédképző szervek folyamatosan mozognak a magánhangzók képzésétől egy mással-hangzót létrehozó akadály létrehozásáig, majd vissza. Ez azzal jár, hogy nagy különbségek lehetnek az önmagukban képzett és a folyamatos beszéd során létrehozott beszédhangok között, mivel a folyamatos beszédben a hangok mindig úgy jönnek létre, hogy a beszédképző szervek valamilyen pozícióból indulnak, és a hang képzése után valahová tartanak. Ezt úgy képzelhetjük el, mint egy táncos mozgását. A táncos mozdulatai nem önmagukban állnak, hanem mozgássorok részét képzik, és ennek az a következménye, hogy ezek végrehajtása más és más lehet attól függően, hogy milyen mozdulat szerepelt előtte és utána.

A koartikuláció okozta módosuláson kívül van még egy tényező, amely jelentősen képes módosítani egy adott beszédhang akusztikai jellemzőit, ez pedig maga a beszélő. Az egyes beszélők egészen más akusztikai paraméterekkel hozzák létre az egyes hangokat. Ezt sok minden befolyásolja: a beszélő neme, kora, illetve ugyanazon beszélő esetében a napszak, betegség vagy az aktuális érzelmi állapot.

Egy következő probléma, amely a beszédhangok és a fonémák megfeleltetését megnehezíti, az úgynevezett szegmentációs probléma. Az akusztikai input ugyanis folyamatos, a reprezentáció viszont szükségszerűen diszkrét. Az egyes hangok között nincsen határ, sőt a legtöbb esetben egybe is olvadhatnak. Ezt úgy demonstrálhatjuk, hogy megpróbálunk kivágni egy akkora részt az akusztikus inputból (mondjuk egy számítógépes hangszerkesztő segítségével), amely pontosan megfelel egy fonémának. Mi történik például akkor, ha a fent bemutatott /di/ szótagból megpróbáljuk kivágni a /d/ hangot? Ha elkezdjük a szótag végéről fokozatosan levágni a hangrezgéseket, akkor vagy a /d/-t és a magánhangzót halljuk, vagy csak valamilyen nem beszéd jellegű zörejt. A /d/ hangot tehát nem találjuk meg az inputban. Pontosabban, ott van ugyan, de valójában a formáns- átmenet határozza meg, abban pedig szükségszerűen benne van a magánhangzó is. A /d/ ugyanis egy alveoláris zárhang, vagyis képzésekor az artikulációs csatorna lezárul, és nem enged ki hangot. Emiatt a /d/ csak akkor szólal meg, ha egy másik hang is jelen van, ami követi vagy megelőzi (próbáljuk kiejteni a /d/-t önmagában - valószínűleg ez csak úgy sikerül, ha egy magánhangzót is hozzáteszünk).

Mindezek a jelenségek tehát arra utalnak, hogy nincs egy az egyben megfelelés a beszédhangok akusztikai jellemzői és azok reprezentációja között. Nem igazán tudjuk kijelölni azt a szakaszt az inputban, amelynek egy fonéma pontosan megfeleltethető lenne, ráadásul egy adott fonéma attól függően, hogy ki, mikor, milyen állapotban mondja, és hogy milyen egyéb hangok társaságában szerepel, egészen különböző megjelenési formákat ölthet. Ezt a megfeleltetési problémát Klatt (1979) akusztikai-fonetikai varianciaprob- lémának nevezte el. Másként ezt a következőképpen fogalmazhatjuk meg: mivel a fonémák vitathatatlanul rendelkeznek perceptuális realitással (hiszen meg tudjuk mondani, hogy a kéz és kész szavak miben különböznek egymástól), elvárható lenne tőlük, hogy olyan akusztikai jellemzőkkel bírjanak, amelyek lehetővé teszik a megkülönböztetésüket. Ennek ellenére mind ez idáig nem sikerült olyan állandó akusztikai észlelési kulcsokat találni, amelyek minden esetben meghatároznának egy adott fonémát.

A variancia-invariancia probléma kapcsán két kérdés is felmerülhet. Az egyik, hogy van-e egyáltalán bármilyen olyan tulajdonsága a hangoknak, amely a kontextustól függetlenül mindig állandó (azt leszámítva, hogy a percepció, vagyis a fonéma reprezentációja valóban mindig az). A /d/ esetében például azt mondhatjuk, hogy a képzése során az artikulációs csatorna nagyjából ugyanazon a helyen záródik, a nyelv a fogmederhez tapad. Ez minden /d/ hangnál így van, függetlenül attól, hogy végül a megszólalásakor milyen akusztikai jellemzőkkel fog rendelkezni. Ez egy nagyon fontos tény, és a beszédészlelés elméletei kapcsán látni fogjuk, hogy a produkció invarianciája esetleg felhasználható a percepcióban.

A másik kérdés, hogy vajon mennyire általános az invariancia? Minden fonémára igaz, vagy csak néhányra? Ezzel kapcsolatban azt mondhatjuk, hogy a mássalhangzókra szinte kivétel nélkül igaz, de a magánhangzók esetében nem feltétlenül van így. A magánhangzók, ha elég hosszúak, és nem tartalmaznak valamilyen gyors változást, akkor nem mutatnak kontextusfüggő átszerveződést. Ugyanakkor élőbeszédben a magánhangzók nagyon ritkán ilyenek, és ebben az esetben már létrejön a kontextusfüggő átszerveződés (Stevens-House 1963).

Beszédkód és beszédmód

Liberman és munkatársai (1967) szerint mindezen eredmények alapján fel kell adnunk azt az elképzelést, hogy a fonémák és a beszédhangok között egy az egyben megfeleltetés létezik. Ha viszont nincs egyértelmű megfeleltetés, akkor hogyan lesznek a beszédhangokból fonémareprezentációk?

Liberman és munkatársai (1967) szerint a beszéd olyan, mint egyfajta kód. A kódokra általában az jellemző, hogy ugyanúgy képesek szállítani az üzenetet, mint az eredeti médium, de ezt olyan formában teszik, ami nem hasonlít az eredetihez.

A telefonálás során például egy kódot használunk: az üzenetünk elektromos impulzusokká alakul át, és ezt közvetíti a telefonvonal egyik beszélőtől a másikig, ahol azután visszaalakul beszéddé. Ha azonban csak az elektromos impulzust néznénk, abból nem tudnánk megfejteni az üzenetet. Ehhez szükség van a kód lefordítására, vagyis a dekódolásra. Eszerint tehát a beszéd észlelése során is dekódolás zajlik, nem pedig megfeleltetés (Liberman et al. 1967).

Miért mondhatjuk azt egyáltalán, hogy a beszéd kódként viselkedik? Liberman és munkatársai (1967) szerint a beszéd produkciója és percepciója között egyfajta kompromisszumos megoldás született. Ahhoz ugyanis, hogy a beszédhangok hatékonyan tudják szállítani az üzeneteket, az szükséges, hogy viszonylag nagy tempóval kövessék egymást (nagyon nehéz megérteni akkor egy szöveget, ha azt nagyon lassan mondják el; próbáljuk ki, milyen nehézséget okoz a megértésben, ha csak feleolyan gyorsan kezdünk beszélni barátainkhoz!). A gyors tempó viszont azt eredményezi, hogy nem tudjuk a hangokat külön-külön diszkréten kiejteni, vagyis létrejön a koartikuláció, és ennek révén a beszédkód.

Ha a beszédészlelés során valóban dekódolás történik, akkor szükség van egy dekóderre is, vagyis egy olyan mechanizmusra, amely a kódot, azaz a beszédhangot lefordítja üzenetté, azaz fonémává. Azt mondhatjuk, hogy a beszédészlelés folyamatát olyan mechanizmusok valósítják meg, amelyek specifikusan csak a beszédhangok feldolgozását végzik, és nem foglalkoznak egyéb hangokkal. Mivel azonban a beszédészlelés során ugyanazt a hallószervet, illetve hallórendszert használjuk, mint bármilyen más hallási inger feldolgozása során, ezért ezek a speciális mechanizmusok valahol a feldolgozás magasabb szintjein helyezkednek el. Vannak bizonyítékok azzal kapcsolatban, hogy a hallási észlelésnek létezik egy speciális beszédmódja, pontosabban üzemmódja, ami akkor „kapcsol be”, ha beszédhangokkal találkozunk.

Ezek a bizonyítékok olyan vizsgálatokból származnak, amelyek az úgynevezett szinuszhullámú beszédet használták ingerként (Remez et al. 1981). A szinuszhullámú beszédet úgy hozzák létre, hogy megvizsgálják a beszédhangok első három formánsát és ezek amplitúdó- és frekvenciaváltozásait, majd ezeket szintetizálják szinuszhullámok segítségével úgy, hogy a változásokat megtartják. Ezek a hangok két fontos jellemzőben térnek el a valódi beszédhangoktól: nem tartalmazzák azok komplex harmonikusszerkezetét, és nem tartalmazzák a hangszalagok rezgése által megvalósuló zöngét. Emiatt bár beszédszerűek, meglehetősen nehezen érthetők, és nagyon természetellenesen hangzanak. A kutatók azt találták, hogy ezeket az ingereket kétféleképpen lehetett észlelni: beszédhangként vagy komplex zajként. Ami még ennél is fontosabb, az instrukciótól függött, hogy a résztvevők hogyan hallották őket. Azok, akiknek azt mondták, hogy különös elektromos zajokat fognak hallani, valóban így értelmezték azokat, és nem hallottak beszédet. Azok viszont, akiknek azt mondták, hogy beszédet fognak hallani, képesek voltak megérteni azt, még ha nehezen is. Érdekes módon, miután a résztvevők egyszer már beszédként értelmezték a hangokat, később már nem voltak képesek nem így hallani őket. Ez a jelenség hasonlít a látás kapcsán tárgyalt azon mintafelismerési jelenségekhez, amikor csak bizonyos előzetes tudás birtokában vagyunk képesek egy alulspecifikált ábrán egy tárgyat felismerni (ilyet láthatunk a tárgylátással foglalkozó fejezetben).

Eszerint tehát, ha beszédhangokat hallunk, akkor azokat kétféleképpen, beszédként vagy nem beszédként észlelhetjük. A beszédmód beindulásához az szükséges, hogy a hallgató a megfelelő, beszédszerű ingerekkel találkozzon. Ha ezek a hangok nem egyértelműek, mint a szinuszhullámú beszéd esetén, akkor az előzetes elvárások befolyásolhatják azt, hogy a hallgató beszédet vagy nem beszédet hall-e. A legtöbb esetben azonban nem kétséges, hogy amit hallunk, beszéd-e vagy sem, így ezekben az esetekben a beszédmód automatikusan beindul. Az automatikusságot bizonyítja, hogy nagyon nehezen tudjuk a beszédet nem beszédként hallani. Akárhogyan is próbáljuk, a természetes beszédet nem igazán tudjuk füttyök, zörejek és sziszegések kavalkádjának hallani, mint ahogyan ez a szinuszhullámú beszéd esetében minden probléma nélkül lehetséges.

Remez és munkatársai (1981) viselkedéses mutatókat alkalmazó kísérleteinek eredményeit nemrégiben idegtudományi módszerekkel (EKP és fMRI) is megerősítették. A kutatók (Dehaene-Lambertz et al. 2005) azt találták, hogy ugyanazt a hangingert a kísérleti személyek beszéd üzemmódban gyorsabban dolgozzák fel; azaz, ha fonémaelvárásuk van, akkor az eltéréseket előbb detektálják, mint ha komplex hangot várnak. Ezenkívül azt is sikerült kimutatni, hogy a beszédhang üzemmódban a bal félteke másodlagos hallókérgi területen az agyi aktivitás erőteljesen növekszik.

A beszédmód működését a szinuszhullámú beszéd észlelésén kívül két másik jelenségben is tetten érhetjük: a fonémák egy speciális észlelési módjában, az úgynevezett kategoriális észlelésben, valamint a beszédészlelés agyféltekei különbségében. Nézzük meg először az agyféltekei különbségeket, a kategoriális percepció jelenségét pedig majd ezután tárgyaljuk.

Agyféltekei különbségek a beszédészlelésben

A beszédhangok észlelése kapcsán nagyon sok kísérlet vizsgálta azt, hogy a feldolgozás jellegzetességeiért és eltéréseiért mely agyi területek felelősek. Bár ezen területek pontos azonosítása máig nem fejeződött be, általánosságban igaz az, hogy a beszédhangok feldolgozása inkább az agy bal oldali területein történik.

A legelső kísérleti bizonyítékok olyan vizsgálatokból származnak, amelyek a beszédhangok feldolgozásánál a jobb fülbe érkező hangok feldolgozásának fölényét mutatták ki. Ezekben a vizsgálatokban a kísérleti személyeknek dichotikusan mutatnak be különböző szavakat, mégpedig mindkét fülbe egyszerre. A dichotikus hallgatási helyzetben a feladat az, hogy a bemutatás után idézzenek fel annyi szót, amennyit csak tudnak. Az ilyen kísérletek általános eredménye az, hogy a személyek több szót idéznek fel a jobb fülbe érkező szavak közül, mint a bal fülbe érkezők közül. Ez arra utal, hogy a beszédet feldolgozó agyi központok a bal féltekében találhatók, mivel tudjuk, hogy a fülekből érkező hallóidegek átkereszteződnek, vagyis a jobb fülből érkező információ a bal féltekébe jut, a balból érkező pedig a jobba.

A jobb fül előnyét (az angolban a right ear advantage kifejezés alapján a REA rövidítést használják) kimutató kísérletek mellett közvetlenebb bizonyítékok is rendelkezésre állnak, amelyek a beszéd bal féltekei feldolgozását igazolják. Így a képalkotó eljárásokat alkalmazó vizsgálatok (fMRI, PET) általánosságban azt mutatják, hogy a beszédhangok hallgatása során az agy bal oldali részei és elsősorban a halántéklebeny egyes részei aktívak (Scott-Johnsrude 2003).

A beszédhangok kategoriális észlelése

A beszédhangok kategoriális észlelése elnevezés arra a jelenségre utal, hogy az akusztikus jel kisebb-nagyobb mértékű változásai nem okoznak változást az észleletben, míg más, akusztikai jellemzőiben hasonló mértékű változások az észlelet megváltozásához vezetnek, azaz egy másik fonéma észlelését eredményezik.

A kategoriális percepció valójában nem más, mint az anyanyelv beszédhangjainak torzított észlelése. Arról van ugyanis szó, hogy nem pontosan azt észleljük, ami valójában elhangzik, vagyis a beszédhangok fonémaazonosításának folyamatában nem képezzük le pontosan a hangok akusztikai tulajdonságait. Ez annál is furcsább, mert, mint láttuk, általában nagyon pontosan észleljük a hangok különböző akusztikai jellemzőit. Például, ha egy tiszta hang frekvenciáját változtatjuk, akkor nagyon jól különbséget tudunk tenni az egyes változások között. Ráadásul nagy különbség van a hangokban bekövetkező változás megkülönböztetése (diszkrimináció) és a megváltozott hangok azonosítása között. Általában sokkal több hangot meg tudunk különböztetni, mint ahányat azonosítani tudunk. A fonémáknál ez nem így van. Minden kísérleti adat arra utal, hogy körülbelül ugyanannyi fonémát tudunk diszkriminálni, mint amennyit azonosítani. Lényegében ez jelenti a kategoriális észlelést, azaz az egy adott fonémával azonosítható sokféle, eltérő akusztikai tulajdonságú beszédhangoknak a kategórián belüli akusztikai eltéréseit nem tudjuk diszkriminálni. Mindez arra utal, hogy a beszédhangok feldolgozása jelentősen eltér minden más hangétól, hiszen bármilyen, nem-beszéd jellegű hangoknál nem találjuk meg a kategoriális észlelést.

Akármennyire torzított észlelést takar is a kategoriális percepció, nagyon is fontos célt szolgál, nevezetesen, a beszédhangok meghatározó akusztikai jegyeinek feldolgozását követő fonémaazonosítást. Azt segíti, hogy az egyébként nagymértékben változó akusztikus jellemzőkkel rendelkező beszédhangokat a fonémakategóriákhoz rendeljük. Azt is mondhatjuk, hogy a kategoriális észlelés teszi lehetővé azt, hogy a beszédhangokat megfelelően megértsük, hiszen a beszédhangok esetében pont az lenne a rossz, ha mindig pontosan az akusztikai jellemzőik mentén dolgoznánk fel őket.

A kategoriális észlelés kísérleti vizsgálata

A kategoriális észlelés kísérleti bizonyításához kétfajta paradigmát szoktak alkalmazni: egy azonosítási és egy diszkriminációs vizsgálatot. Az azonosítási (identifikációs) vizsgálatban a kísérleti személyeknek olyan beszédhangokat mutatnak, amelyek csak egyetlen paraméter mentén térnek el egymástól (pl. csak az F2-ben). Ezt a paramétert egy kontinuum mentén, kis lépésekben változtatják, és a személyeket arra kérik, mondják meg, hogy melyik fonémát hallják. Ezzel az eljárással a fonémakategóriák határait lehet megtalálni. Liberman és munkatársai (1957) például kizárólag az F2 formáns átmenetének változtatásával mesterségesen létre tudták hozni a / bi/, /di/ és /gi/ szótagokat (11.10. ábra).

11.10. ábra. A Liberman és munkatársai (1957) által használt ingeranyag. Az F2 formáns fokozatos változtatásával elõbb a /bi/, azután a /di/, majd a /gi/ szótag jött létre

Noha ezek egyáltalán nem hangzottak természetesen, mégis jól érthetőek voltak. Ezek után az egyik szótagból kiindulva, kis lépésekben változtatni kezdték a formánsátmenetet, egészen addig, amíg meg nem kapták a második, majd a harmadik szótagot. Ezzel egyfajta kontinuumot hoztak létre. Arra voltak kíváncsiak, hogy a személyek hogyan észlelik az F2 formánsátmenet változásának azon lépéseit, amelyek nem vezetnek egy másik fonéma észleléséhez, hanem valahová a kettő közé esnek. Ha belegondolunk, két eset lehetséges: például ha a / bi/ szótagból indulunk, és kis akusztikai változtatásokkal haladunk a /di/ szótag felé, akkor vagy az történik, hogy a személyek a két szótag között valamilyen átmeneti szótagot hallanak, vagy pedig egy ideig a /bi/-t, majd pedig a /di/-t. Valójában a kísérleti személyek ez utóbbiról számoltak be. Nem hallották a kis ugrásokat, hanem az észlelt szótag egyik pillanatról a másikra változott meg. Ha megnézzük a 11.11. ábrát, azonnal látszik, hogy a kísérleti személyek egy adott kategória elemeit jó ideig teljes bizonyossággal (100%) az adott kategóriához sorolják, és soha (0%) nem a másikhoz. A két kategória határán (50%) viszont meredeken, mindenféle fokozatos átmenet nélkül vált az észlelő a másik kategóriára. Ez azért is különös, mert az akusztikai lépés nagysága a kategóriahatáron ugyanakkora, mint előtte a kategórián belül volt. Az észlelésben azonban drámai a különbség. Vagyis egyszerűbben fogalmazva: ugyanazon kategórián belül (a fonéma absztrakt reprezentációja) az eltérő akusztikai megvalósulási változatokat nem halljuk, míg két, azonos akusztikus dimenzió mentén kontinuumot alkotó fonéma határán (például a zöngésségi időben eltérő /b/ és /p/) két eltérő hangot észlelünk.

11.11. ábra. A fonémák kategoriális észlelése. A formánsátmenet változtatásával a fonémák azonosítása egyik lépésrõl a másikra, hirtelen változik meg. Az x tengelyen feltüntetett számok az elõzõ ábrán látható ingerekre vonatkoznak

A diszkriminációs vizsgálatban az a kérdés, hogy a személyek képesek-e a különböző mértékben eltérő beszédhangokat megkülönböztetni egymástól. Ez tehát egy másik oldalról vizsgálja meg a kategoriális észlelést, és ugyanakkor erősebb bizonyítékát nyújtja. A diszkrimináció esetén ugyanis nem az a feladat, hogy a személyek címkézzék a hangokat, hanem egyszerűen azt kell megmondaniuk, hallanak-e különbséget közöttük. Ez tehát egy „alacsonyabb szintű” feldolgozást igényel. A diszkrimináció vizsgálatához leggyakrabban az úgynevezett AXB paradigmát használják. Ebben három beszédhangot mutatnak be egymás után, amelyek az azonosítási feladathoz hasonlóan csak egy paraméterben térnek el egymástól, és a kontinuum különböző részeiről választják ki őket. Valójában a diszkriminációs feladatban ugyanazokat az ingereket lehet használni, mint az azonosításiban. A három inger közül az A és B alkot egy párt, amelyek vagy egy fonémakategóriából, vagy két külön kategóriából származnak. Az X hang megegyezik vagy az A-val, vagy a B-vel. A kísérleti személyek feladata, hogy az AXB sorozat meghallgatása után eldöntsék, hogy az X az A-ra vagy a B-re hasonlít-e inkább. Ha a személyek nem tudják megkülönböztetni az A és a B hangot, akkor az X hanggal kapcsolatos döntés véletlen körüli találati pontosságú lesz, vagyis 50 százalék. Ha viszont különbséget tudnak tenni a két hang között, akkor ez az arány 50 százalék feletti lesz. Ezzel az eljárással úgy tudjuk bebizonyítani a kategoriális észlelés létezését, ha azt találjuk, hogy a kísérleti személyek nem tudnak különbséget tenni A és B között akkor, ha azonos fonémakategóriából származnak (de eltérő akusztikai tulajdonságaik vannak), de jól meg tudják különböztetni őket, ha eltérő kategóriába tartoznak.

Vagyis a diszkrimináció fogalmaiban a kategoriális észlelés úgy fogalmazható meg, hogy a beszédhangok esetében a kategóriák közötti különbségre nagyon érzékenyek vagyunk, vagyis ezeket a különbségeket jól tudjuk diszkriminálni, a kategórián belüli különbségekre viszont elveszítjük az érzékenységünket, vagyis ezeket kevésbé jól tudjuk diszkriminálni.

A kategoriális észlelés újabb eredményei

A beszédhangok kategoriális percepciójának első leírása óta természetesen nagyon sok vizsgálat született, amelyek több ponton is módosították Liberman és munkatársai (1957) eredeti elképzelését.

Az egyik ilyen, azóta módosított elképzelés, hogy a kategoriális észlelés csak a mássalhangzókra vonatkozik. Liberman szerint, mivel a koartikuláció csak a mássalhangzókra vonatkozik, csak a mássalhangzóknál jelentkezik az akusztikai változatosság. Ebből következően valójában csak a mássalhangzók esetében van szükség arra, hogy az akusztikai információt átkódoljuk fonémakategóriákká, vagyis hogy ezeket kategoriális módon észleljük. Mivel tehát a magánhangzók esetében a koartikuláció nem jelentős, ezért azokat nem kategoriális módon, hanem a többi, nem beszédhanghoz hasonlóan dolgoznánk fel. Ha azonban jobban megvizsgáljuk a magánhangzók akusztikai jellemzőit, akkor azt találhatjuk, hogy valójában ezeknél is van bizonyos kontextusfüggő változás, főleg a természetes beszédhelyzetben, amikor is viszonylag gyorsan követik egymást a hangok. Ilyen „természetes” magánhangzókat vizsgálva valóban találtak bizonyítékot amellett, hogy a magánhangzók esetében is kategoriális észlelés működik (Fujisaki-Kawashima 1971, Pisoni 1975).

Egy másik módosítás arra vonatkozik, hogy a kategoriális észlelés beszédspecifikus lenne. Liberman eredeti elképzelése szerint ugyanis a kategoriális percepció kizárólag a beszédhangok észlelésére jellemző, bizonyítékát adva a speciális beszédmód működésének. Azóta azonban kiderült, hogy vannak olyan nem-beszéd jellegű akusztikus ingerek is, amelyeket szintén kategoriális módon észlelünk. Locke és Kellar (1973) például zenei akkordokat mutattak be olyan kísérleti személyeknek, akik vagy profi zenészek vagy zenével nem foglalkozó laikusok voltak. Az akkordok három, egyszerre hallható tiszta hangból álltak, és csak a középső hang frekvenciáját változtatták egy kontinuum mentén. A kontinuum két végét két létező akkord alkotta. Azt találták, hogy a zenészek valóban kategoriálisan észlelték a hangokat, vagyis azokat a hangokat is, amelyek nem feleltek meg tökéletesen az akkordnak, hajlamosak voltak ahhoz hasonlónak észlelni. Ez a hatás nem jelentkezett ilyen erősen a laikusoknál, ők sokkal inkább az akusztikai különbségeknek megfelelően észlelték a hangokat.

Végül a harmadik fontos módosítás a kategoriális percepció humánspecifikusságát érintette. Természetesen, ahogyan az egész beszédészlelést, a fonémák kategoriális percepcióját is csak az emberekre vonatkoztathatónak tartották. Ezzel szemben kiderült, hogy bizonyos körülmények között állatok is képesek a beszédhangok kategoriális észlelésére. Kuhl és Miller (1975) például csincsillákat vizsgálva azt találta, hogy ha megtanítják őket a /d/ és /t/ hang megkülönböztetésére (a csincsillák számára ismeretlen és jelentés nélküli ingerekhez jutalmat lehet társítani), akkor egy a fentiekben bemutatott klasszikus azonosítási feladatban a csincsillák „kategóriahatárai” hasonlóak lesznek az emberekéihez.

Mindezek az eredmények tehát azt mutatják, hogy a kategoriális percepció nem csak a mássalhangzókra vonatkozik, sőt valójában nem-beszéd jellegű akusztikus ingereknél is megtalálható, ráadásul nem csak az ember képes erre. Ez megkérdőjelezi azt a feltételezést, hogy a kategoriális észlelés a speciálisan csak beszédhangokat feldolgozó észlelési mechanizmus létét bizonyítja. Mivel magyarázható akkor?

A kategoriális észlelés magyarázata

A kategoriális percepció egyik leginkább elfogadott magyarázata a tanulással indokolja ennek létrejöttét. Eszerint, amikor a beszéd megértését tanuljuk, akkor megtanuljuk, hogy csak bizonyos akusztikai különbségekre figyeljünk oda, olyanokra, amelyek befolyásolják a szavak jelentését. Láttuk, hogy a fonéma koncepciója pontosan erre vonatkozik, hiszen azt mondtuk, hogy a fonémák azok a nyelvi egységek, amelyek képesek a szavak jelentését megváltoztatni. Megtanuljuk viszont azt is, hogy azokra az akusztikai különbségekre, amelyek például a koartikuláció miatt léteznek ugyan, de nem okoznak jelentésbeli változást a szavakban, nem kell odafigyelni. A nyelv elsajátítása során nagyon sokszor találkozunk ezzel a dologgal, és így fokozatosan megtanuljuk, hogy táblykilil AihságühlfangJöikc sésmtlyítéstem.

Nagyon sok tanulás után tehát lényegében átalakul az észlelésünk, és tulajdonképpen már nem is halljuk meg azokat az akusztikai változásokat, amelyek nem befolyásolják a szavak jelentését. Ha ez megtörténik, akkor lényegében létre is jött a kategoriális percepció. A tanulásnak a kategoriális percepcióban játszott szerepét két dologgal is alátámaszthatjuk. Az egyik a fentebb már említett zenei akkordok példája. Láthattuk, hogy az akkordok észlelése is kategoriálisan történt, de csak a profi zenészek esetében. Ők aktívan és minden bizonnyal hosz- szú idő át tanulták az akkordokat, és azt is megtanulhatták, hogy egy-egy akkord viszonylag eltérő akusztikai mintázatot tartalmazhat. A másik bizonyíték egy nyelvi különbségre mutat rá. A japán nyelvet beszélők számára különösen nagy problémát szokott okozni az, ha egy olyan idegen nyelvet kell megtanulniuk, amelyben az /l/ és /r/ hangok különálló fonémák, vagyis jelentésmegkülönböztető szerepük van. A japánban ugyanis nincs különbség e között a két fonéma között, ezért a japánok elveszítik érzékenységüket a két hang megkülönböztetésére. Természetesen minden más nyelv is így működik, vagyis mindazokra az akusztikai különbségekre, amelyek nem játszanak szerepet a fonémák elkülönítésében, elveszítjük az érzékenységünket.

A percepciós bázis

A nyelvi egységek észlelésének mechanizmusa tehát a beszédmegértés fejlődése során alakul ki. Ahogy láttuk, ez a mechanizmus lényegében dekódolást hajt végre: az akusztikus információt (beszédhangok) fordítja le a perceptuális egységek mentális reprezentációjára (fonémák). Ezt a mechanizmust percepciós bázisnak nevezzük. Minden nyelvnek saját percepciós bázisa van, amely tanulás révén jön létre, az anyanyelv elsajátítása során. Azt mondhatjuk, hogy a percepciós bázis egyfajta szűrőként működik, vagyis csak azokat a beszédhangokat tudjuk feldolgozni, amelyek léteznek a saját nyelvünkben is. Ennek működését egy nagyon egyszerű példával szemléltethetjük (Gósy 2005). Tegyük fel, hogy van egy gyümölcsválogató gépünk, amely képes különválogatni az almát, a barackot, a körtét és a szilvát. Az a feladata, hogy amikor beledobunk egy gyümölcsöt, akkor azt annak fizikai jellemzői alapján betegye a megfelelő rekeszbe, vagyis gyümölcskategóriába. A gép úgy van beállítva, hogy csak a gyümölcsök lényeges jellemzőit vegye figyelembe, tehát azzal például nem foglalkozik, hogy a beledobott almák pontosan milyen színűek vagy méretűek, mivel azok lehetnek pirosak, sárgák, zöldek, kicsik, nagyok stb. De mi történik akkor, ha egy narancs jelenik meg a válogatandó gyümölcsök között? Természetesen a gép ezt is bele fogja dobni valamelyik rekeszbe, annak ellenére, hogy pontosan egyik kategóriának sem felel meg. Mégpedig abba a rekeszbe fogja belerakni, amelynek a tulajdonságaihoz a leginkább hasonlít. A gépnek ez a működése teljesen automatikusan és fennakadás nélkül zajlik. Nem áll meg gondolkodni azon, hogy most akkor melyik rekeszbe is kerüljön ez az újfajta gyümölcs, és nem is lepődik meg, hogy ilyennel találkozott.

A gyümölcsválogató gépnek ez a működése megfelel annak, amit a beszédhangok percepciója során az észlelőrendszer csinál. A beszédészlelés során is vannak különböző jellemzőkkel rendelkező hangok, amelyeket meg kell feleltetnünk bizonyos véges számú fonémakategóriáknak. A hangok bizonyos akusztikai jellemzői fontosak, mások meg nem, és azt, hogy pontosan mely jellemzőkre kell figyelnünk, a nyelvelsajátítás során tanuljuk meg. Ez az analógia jól mutatja azt is, hogy mi történik akkor, ha egy olyan beszédhanggal találkozunk, amelynek nincs megfelelő kategóriája: ezt betesszük egy számunkra már létező kategóriába. Az ember azonban képes arra is, hogy ha szükséges, módosítsa a kategóriákat. A nyelvtanulás során pontosan ezt tesszük, vagyis új kategóriákat hozunk létre, és ezzel lényegében bővítjük a percepciós bázisunkat.

Minden fonémakategória esetén kialakul az adott kategóriára leginkább jellemző akusztikai mintázatokkal rendelkező elem, az úgynevezett prototípus. Ez lenne az az elem, amit a csecsemő a leggyakrabban hall, vagyis ami az adott nyelvre leginkább jellemző. Miután ez a prototípus létrejött, úgy kezd el működni, mint egy per- ceptuális mágnes (lásd a szövegdobozt). Azokat a beszédhangokat, amelyek hasonlítanak hozzá, elkezdi maga felé vonzani. Ennek az lesz az eredménye, hogy a prototípushoz hasonló, de azzal nem megegyező hangokat is elkezdjük ugyanolyannak észlelni. Következésképpen a prototípushoz közeli hangok esetében, vagyis a kategórián belül csökkennek a különbségek, a prototípushoz nem hasonlító hangok esetében viszont nő a különbség, vagyis ezek eltérő kategóriába fognak kerülni. Ez a perceptuálismágnes-hatás tehát gyakorlatilag felülírja a valódi akusztikai különbségeket, és valójában azokat a hangokat fogjuk hasonlóan hallani, amelyek azonos kategórián belül vannak, és azokat halljuk különbözőnek, amelyek két külön kategóriában vannak. Mindez gyakorlatilag független attól, hogy valójában mekkora akusztikai különbség van a hangok között, mivel ugyanakkora különbség okozhatja az azonos kategóriába tartozást és a különböző kategóriába tartozást is. A perceptuális mágnes esetében tehát egy alapvető mechanizmus a kategórián belüli perceptuális különbségek csökkentése és a kategóriák közötti perceptuális különbség növelése.

13.3. táblázat -

AZ ANYANYELVI MÁGNES

A nyelvre jellemző fonémakategóriák elsajátítása kapcsán érdemes megemlítenünk Patricia Kuhl (1991) „perceptuális mágnes” vagy „anyanyelvi mágnes” (NativeLanguageMagnet) elméletét. Eszerint a csecsemők már születésüktől képesek a beszédhangokat megkülönböztetni, de valójában az összes lehetséges fonéma között képesek különbséget tenni. Az anyanyelvvel való intenzív érintkezés hatására azonban a fonémakategóriák átalakulnak, és idomulnak az adott nyelvhez. Azok a kategóriák, amelyek az adott nyelvben nem léteznek, eltűnnek (például a japánban az l-r különbség), és a megmaradó kategóriák is megváltoznak úgy, hogy a kategóriahatárok megfeleljenek az adott nyelvben létező kategóriáknak. Ezt úgy képzelhetjük el, mintha egyfajta észlelési térben különböző mozgások és görbületek jönnének létre. A teret a lehetséges akusztikai jellemzők határozzák meg, és a fonémák ennek a térnek bizonyos pozícióit foglalják el.

Kicsit „dramatizálva” a helyzetet, úgy foglalhatjuk össze a csecsemők beszédészlelésének fejlődését, hogy minden baba „világpolgárként” születik, azzal a képességgel, hogy a világ összes nyelvében fellelhető beszédhangokat meg tudja különböztetni. De azután mire egyévesek lesznek, elveszítik ezt a képességüket, „nyelvspecialistákká” válnak, és már csak a saját anyanyelvük hangjai között tudnak különbséget tenni. Mindez azonban természetesen szükségszerű, és lehetővé teszi azt, hogy azokat a jellemzőket, amelyek a saját nyelvünkben fontosak, a lehető legjobban és leggyorsabban képesek legyünk feldolgozni.


A fonéma mint elemi perceptuális egység

Mind ez idáig a fonémáról úgy beszéltünk, mint a beszéd alapvető alkotóeleméről, és a beszédészlelés céljaként a bejövő akusztikai információ és a fonéma reprezentációja közötti megfeleltetést jelöltük ki. Láttuk azonban azt is, hogy ez a megfeleltetés akusztikai bemenet és reprezentáció között nem egyértelmű, mivel a beszédhangok meglehetősen változatos akusztikai jellemzőkkel rendelkezhetnek a kontextustól és a beszélőtől függően. Ezen akusztikai-fonetikai non-invariancia-probléma egyik megoldásaként kínálkozott az, hogy a beszédhangokat nem pontos akusztikai megjelenésüknek megfelelően észleljük, hanem kategoriális módon, mintegy elvonatkoztatva az akusztikai információtól. Láttuk azt is, hogy a kategoriális észlelés a nyelvi tapasztalat révén jön létre, és ennek megfelelően nyelvspecifikus, azaz minden nyelv esetében más.

Azonban annak ellenére, hogy tudjuk, hogy a fonémákat kategoriálisan észleljük, ez még nem feltétlenül jelenti azt, hogy valóban a fonéma az a perceptuális egység, amit a beszédészlelés során feldolgozunk. A fonéma mint elemi perceptuális egység problémája úgy fogalmazható meg, hogy a fonémák észlelése valójában két módon történhet: közvetlenül vagy következtetés révén. A közvetlen észlelés azt jelenti, hogy a beszédészlelés során az akusztikai inputot a fonémák mentén „daraboljuk fel”, és ezeknek a szekvenciáknak feleltetjük meg a fonémákat. A következtetés révén történő észlelés során viszont előbb egy nagyobb egységet észlelünk, majd pedig a későbbiekben ezt tördeljük kisebb egységekre, azaz fonémákra.

Azt természetesen senki sem vitatja, hogy a beszédészlelés központi és alapvető feladata a fonémák reprezentációjának létrehozása. Mindkét elmélet szerint igaz az, hogy a fonémák nyelvi realitással rendelkeznek, hiszen a minimális párok (kéz-kész) jelentése között egyedül a fonémák tesznek különbséget. Az viszont kérdéses, hogy vajon a beszéd észlelése során közvetlenül ezeket észleljük-e, vagy pedig csak következtetünk rájuk.

Milyen bizonyítékokat lehet hozni amellett, hogy a fonémákra valójában csak következtetünk?

A fonémarestaurációs hatás

A fonémák nem közvetlen észlelésére utaló egyik lehetséges bizonyíték a fonémarestauráció jelensége (Warren 1970). A fonémarestauráció vagy fonemikus helyreállítás arra vonatkozik, hogy amikor egy szóból kivesznek egy fonémát, és a helyét zajjal elfedik, akkor ezt általában nem vesszük észre, és nem tudjuk megmondani, hogy melyik beszédhang hiányzott. Warren a vizsgálatában mondatokat játszott le a kísérleti személyeknek; a mondatok egyik szavából egy-egy fonémát kivett, és valamilyen természetes zajjal (pl. köhögéssel) helyettesítette. Például: „A képviselők találkoztak a fővárosban összehívott *örvényhozó testületekkel”, ahol a * helyén köhögés volt hallható. Az ehhez hasonló mondatok megértése semmilyen problémát nem okozott a kísérleti személyeknek, sőt valójában sem azt nem tudták megmondani, hogy melyik hang hiányzott a mondatból, sem azt, hogy pontosan hol szerepelt az elfedő inger (a köhögés).

Hasonló jelenséggel már találkoztunk az előző fejezetben, a hallási szerveződés elveinél. A folytonosság illúziója nagyon hasonló jelenségre mutatott rá, hiszen annál arról volt szó, hogy ha egy eredetileg nem folytonos hangban a szünetek helyét zajjal kitöltjük, akkor a hangot folyamatosnak fogjuk hallani. A fonémarestauráció tulajdonképpen ugyanerre a dologra vonatkozik, hiszen itt is egy nem létező hang hallását teszi lehetővé az, hogy egy elfedő ingert mutatunk be a hang helyén.

A jelenség további vizsgálata feltárta, hogy a fonémarestauráció három feltételtől függ: az elfedő hang tulajdonságaitól, a beszéd folytonosságától és a hallgató nyelvi képességeitől. A jelenség ezek szerint csak akkor áll elő, ha az elfedő hang valóban egy maszkolásra alkalmas hang, vagyis ha csak csenddel helyettesítjük a fonémát, akkor nem jön létre a hatás. Valamint az szükséges, hogy a hallgató a beszédet valóban folytonosnak észlelje, ellenkező esetben szintén nem alakul ki a fonémarestauráció. Végül úgy tűnik, hogy a fonémarestauráció magas szintű nyelvi képességeken alapul. Amikor a kísérleti személyeknek olyan szavakat mutattak, amelyekben egy fonémát szándékosan rosszul ejtettek (pl. „kommuwikáció” – „kommuíikáció”), majd ezt a rosszul ejtett fonémát vágták ki és cserélték ki zajjal, akkor azt tapasztalták, hogy a személyek a helyes, és nem a rosszul ejtett fonémát állították vissza. Annak ellenére történt ez így, hogy a koartikuláció a /t/ és nem az /n/ hangot jelezte előre. Vagyis úgy tűnik, hogy a személyek a fonémarestauráció során felhasználják magas szintű nyelvi ismereteiket is.

A fonémarestaurációs hatás azt mutatja, hogy akkor is hallhatunk fonémákat, ha azok voltaképpen nem is szerepelnek az akusztikai inputban, ráadásul az ily módon hallott fonémák nem különböznek a valóban hallottaktól. Következésképpen az akusztikai bemenetből nem feltétlenül a fonémákat nyerjük ki elsőként, hanem inkább csak következtetünk azokra.

Kiegészítésképpen érdemes megjegyeznünk, hogy az úgynevezett kattanás- (click-) kísérletek eredményei szintén arra utalnak, hogy a percepció a fonémáknál nagyobb egységekben történik. Ezekben a vizsgálatokban a folyamatos beszédben kattanó hangokat helyeznek el, a kísérleti személyeknek pedig ezek helyét kell meghatározniuk. Az esetek többségében ez nem sikerül, sőt a legtöbben észre sem veszik a kattanást. Az ilyen, elsősorban a beszédfeldolgozás hierarchiájának feltárására végzett kísérletek következtetése is az, hogy a beszédészlelésben a fonémáknál nagyobb egységek működnek.

A fonémák azonosításának sebessége

Egyéb bizonyítékok is vannak arra vonatkozóan, hogy nem a fonéma az elsődleges perceptuális egység. A fonémamonitorozási feladatokban például azt találták, hogy a kísérleti személyek gyorsabban detektálják a szótagokat, mint a fonémákat (Savin-Bever 1970). A fonémamonitorozási feladatban a résztvevőknek az a feladatuk, hogy egy szöveget hallgassanak, és minél gyorsabban lenyomjanak egy gombot, ha a szövegben észreveszik a célingert, amely egy fonéma vagy egy szótag lehet. Az ilyen kísérletek általános eredménye az, hogy a kísérleti személyek rövidebb reakcióidővel reagálnak a célingerre, ha az egy szótag, mint ha az egy fonéma. Ez arra utal, hogy az input feldolgozása során a szótagokat előbb dolgozzuk fel, mint a fonémákat, vagyis valószínűleg ez utóbbiak már egy következtetési folyamat eredményei.

A magánhangzószekvencia-illúzió

Az egyik leginkább meggyőző bizonyíték a magánhangzószekvencia-illúzió vagy illuzórikus szótag nevű jelenségből származik. Az illúzió abban áll, hogy ha nagyon rövid magánhangzócsoportokat (pl. négy magánhangzóból álló szekvenciákat) gyors egymásutánban mutatunk be, akkor nem különálló fonémákat hallunk, hanem szótagokat. Ezekre az illuzórikus szótagokra az jellemző, hogy követik az adott beszélők nyelvi tapasztalatait, vagyis a formánsátmenetekhez hasonló akusztikai jellemzőket az észlelő az anyanyelvére jellemző és az anyanyelv fonotaktikai (a beszédhangoknak az adott nyelvben lehetséges együtt-előfordulása) szabályainak megfelelő szótagként hallja (Warren et al. 1991). Ez a különös észlelet szintén arra utal, hogy a beszéd észlelése során nem elsődlegesen a fonémákat dolgozzuk fel, hanem nagyobb, magasabb szintű nyelvi egységeket. A magánhangzószekvencia-illúzió pontosan azt mutatja, hogy ha az ingerfeltételek nem optimálisak (például mert a hangok túl gyorsan követik egymást), akkor az észlelőrendszer nem képes kivonni a fonémainformációt, de a szótagokat továbbra is felismeri. Sőt az optimális feldolgozásra alkalmatlan fonémaszekvencia kapcsán egy olyan döntést hoz, hogy azok minden bizonnyal nem önmagukban állnak, hanem mássalhangzókkal együtt, és ez utóbbiakat „mesterségesen” hozzáadva, egy szótagsorozat észleletét kapjuk meg.

Mindezek az eredmények tehát, kiegészítve a fonémaészlelés fejlődési aspektusával, melyről a Fonémaészlelés gyerekeknél című szövegdobozban lehet olvasni, megkérdőjelezik azt, hogy valóban a fonéma lenne az a perceptuális egység, amely mentén a beszédet észleljük. Természetesen felmerül a kérdés, hogy akkor melyik nyelvi egység lenne alkalmas az elemi perceptuális egység szerepére. Ahogy a fentiekben láthattuk, bizonyos esetekben a szótagok sokkal inkább alapvető perceptuális egységként viselkednek: a szótagokat gyorsabban detektáljuk a fonémamonitorozási helyzetben, a magánhangzószekvencia-illúzió esetében szótagokat hallunk különálló fonémák helyett, és a gyerekek is könnyebben tagolják a hallottakat szótagokra, mint fonémákra. A szótagokkal mint perceptuális egységekkel kapcsolatban azonban van egy komoly probléma: nevezetesen az, hogy egy adott nyelvben a lehetséges szótagok száma meglehetősen nagy. Ez azért okoz problémát, mert túl sok információt kellene elraktároznunk. A fonémák esetében ez a tárolási feladat nagyon hatékonyan működik: a fonémákból viszonylag kevés van, mégis az összes lehetséges szó felépíthető a segítségükkel. A szótagok esetében sokkal több eltárolt információra van szükség ahhoz, hogy minden lehetséges szót fel tudjunk építeni belőlük. Ez úgy oldható fel, ha azt feltételezzük, hogy a beszédészlelés automatikus azonosítási egységei a fonémák (ezek kategoriális természete születéstől fogva adott, a tapasztalat ezt módosítja), az észlelő számára hozzáférhető perceptuális egységek viszont a szótagok.

Egyelőre még nem született konszenzus az elemi perceptuális egységgel kapcsolatban, és nem lehetünk biztosak sem a fonéma, sem a szótag „nyerési esélyeiben”. Az itt bemutatott eredmények arra utalnak, hogy a fonéma reprezentációja sok esetben nem közvetlen módon, hanem valamilyen következtetés révén jön létre. Ugyanakkor vitathatatlan a fonéma nyelvi realitása, vagyis az, hogy létfontosságú szereppel bír a beszéd észlelésében. További kutatások fogják eldönteni ezt a kérdést.

13.4. táblázat -

FONEMAESZLELES GYEREKEKNÉL

A felnőttekkel végzett kísérleteken kívül két speciális csoporttal folytatott kísérletek eredményei is azt támasztják alá, hogy a beszéd észlelésében nem a fonéma a legfontosabb perceptuális egység. Gyerekekkel végzett kísérletek azt mutatják, hogy ők még nem képesek meghatározni az egyes szavakban található fonémák számát, vagyis nem képesek a szavakat fonémákra bontani. Ezzel szemben a szavak szótagjainak számát pontosan meg tudták határozni. Ez arra utal, hogy a szavak beszédhangokra bontása nem automatikus folyamat, miközben a beszédhangkontrasztok eltérésének agyi feldolgozása az (bővebben lásd Csépe 2006). Mivel azonban a gyerekek kb. öt-hat éves koruk előtt a szavakat nem képesek az összetevő fonémák szerint lebontani, azonosítani, azt is feltételezhetjük, hogy a fonémák azonosításának képessége tanult (Liberman et al. 1974).

Nem csak a gyermekek számára okoz nehézséget a szavak fonémákra tagolása. Morais (1979) azt találta, hogy az olvasni nem tudó, azaz analfabéta felnőttek számára szintén nehézséget okoz a szavakat alkotó fonémák azonosítása. Ez arra utal, hogy a szavak fonémákra bontása nem automatikus folyamat, hanem tanulás révén, mégpedig az olvasás tanulása révén jön létre. Az olvasás folyamatait a nyelv és gondolkodás témakörében szokás inkább tárgyalni (Csépe-Győri-Ragó [szerk.]: Általános pszichológia 3.), az érdeklődő olvasó ott bővebben tájékozódhat. Itt most csak annyit jegyeznénk meg, hogy az olvasási képesség elsajátításához nyilvánvalóan szükség van arra, hogy a gyerekek képesek legyenek a szavakat hangjaikra bontani és azokat a megfelelő fonémával azonosítani, hiszen azt kell megtanulniuk, hogy ezeket hogyan lehet hozzákapcsolni az írott szavakat alkotó betűkhöz.