Ugrás a tartalomhoz

Általános pszichológia 1-3. – 1. Észlelés és figyelem

Csépe Valéria, Győri Miklós, Ragó Anett

Osiris Kiadó

A beszédészlelés elméletei

A beszédészlelés elméletei

Az eddigiekben áttekintettük mindazokat a jelenségeket, amelyek a beszédhangokkal és észlelésükkel kapcsolatosak. Nem foglalkoztunk azonban azzal a kérdéssel, hogy valójában hogy is valósul meg a beszéd észlelése. A továbbiakban azt a két legfontosabb elméletet tekintjük át, amelyek a beszédészlelést próbálták magyarázni.

A motoros elmélet

A beszédészlelés motoros elmélete szerint a perceptuális invariancia annak köszönhető, hogy a beszédhangok feldolgozása során szoros kapcsolat van a beszédhangok produkciója és percepciója között, és ezt a kapcsolatot a percepció során fel is használjuk. Vagyis az, ahogyan a fonémákat produkáljuk, közvetlenül hat arra, ahogyan észleljük őket. Ennek az elképzelésnek több változata is létezik, amelyek közül a legismertebb az Alvin Liber- man nevéhez fűződő motoros elmélet (Liberman et al. 1967). Az elmélet szerint a /di/ szótag kezdetét azért halljuk hasonlónak a /du/ szótag kezdetéhez, mert ezek képzésekor ugyanolyan motoros parancsot adunk ki a beszédképző szerveknek. Vagyis a percepció során azért tűnnek egyformának az egyébként eltérő akusztikai paraméterekkel rendelkező fonémák, mert a produkció során ezeket valóban egyformának szánjuk. Az más kérdés, hogy a beszélők különbözősége, illetve a koartikuláció miatt ezek a fonémák akusztikailag nem lesznek azonosak, de szándék szerint ezeknek egyformáknak kellene lenniük. A beszédészlelés során tehát valamilyen módon erre a szándékra próbálunk következtetni, és nemcsak az akusztikai inputot vesszük figyelembe, hanem megpróbáljuk kitalálni, hogy a beszélő mit akart mondani.

A motoros elmélettel kapcsolatban meglehetősen sok kritika fogalmazható meg. Az ellenérvek közül a legfontosabbak a következők (Gósy 2005):

 1. A beszédképzés hibája nem feltétlenül vezet az észlelés károsodásához. Például attól, hogy valaki nem képes az /r/ hangot kiejteni, még a megértésnél felhasználhatja azt.

 2. Az idegen nyelvet általában könnyebb megérteni, mint beszélni. Sőt a legtöbb esetben az, hogy akcentussal beszélünk egy idegen nyelvet, még nem okozza annak megértési problémáit.

 3. Az anyanyelv elsajátítása során a gyerekek előbb értik meg a beszédet, mint hogy beszélni tudnának.

Mindezen kritikák ellenére a motoros elmélet – támogatói szerint – nagyon jól magyarázza a beszédészleléssel kapcsolatos alapvető problémát, vagyis az akusztikai-fonetikai non-invariancia-problémát. Ugyanakkor az elmélet legnagyobb hiányossága, hogy nem képes megmagyarázni, hogyan kapcsolódik össze a beszédészlelés során az akusztikai input és a produkciós szándék.

13.5. táblázat -

ALVIN MEYER LIBERMAN

Alvin Meyer Liberman 1917-ben született az egyesült államokbeli St. Josephben. Diplomáját a Missouri Egyetemen, PhD-fokozatát pedig a Yale-en szerezte. 1975 és 1986 között ő volt a Yale híres Haskins Laboratóriumának vezetője, és élete végéig ott dolgozott mint vezető kutató. Mind a Connecticut Egyetem, mind a Yale professzor emeritusává választotta. E két rangos cím jól tükrözi egész pályafutását: a Connecticut Egyetemen ugyanis a pszichológiai tudományok professzora, míg a Yale-en a nyelvészeti tudományok professzora volt. Liberman a beszédészlelés pszichológiai kutatásának meghatározó alakja volt, akinek elméletei nemcsak az elmúlt ötven év kutatásának alapjául szolgáltak, de fontos szerepet játszottak a modern számítógépes beszédszintézis kialakulásában is.

Liberman beszéddel kapcsolatos kutatásai a második világháború után kezdődtek, amikor is azt a feladatot kapta, hogy hozzon létre vakoknak szánt olyan felolvasógépet, amely képes az írott szöveg beszéddé alakítására. Az első próbálkozások arra irányultak, hogy az ábécé különálló betűihez a betűknek megfelelő hangokat rendeljék hozzá. Többévnyi erőfeszítés után sem tudtak azonban egy olyan berendezést létrehozni, amely ezen az elven működve képes lett volna akár a normál beszéd tizedrészét megközelítő gyorsasággal érthető szöveget produkálni. A sikertelen próbálkozások hatására Libermant az kezdte foglalkoztatni, hogy a beszéd miért képes olyan gyorsan és hatékonyan a nyelvi információ átvitelére? Ennek a kérdésnek a tanulmányozása lényegében egész további tudományos pályafutását meghatározta, és elvezetett a beszédhangok kategoriális észlelésének és a beszédészlelés motoros elméletének megalkotásához. A kutatások során Liberman és munkatársai feltárták a beszédhangok több fontos akusztikai jellemzőjét is, ami azután nagyban segítette a számítógépes beszédszintézis létrejöttét.

Jórészt Liberman munkásságának köszönhető, hogy a beszédészlelés tanulmányozása – ami addig elsősorban a nyelvészet érdeklődésére tartott számot – bekerült a kognitív pszichológia kutatási témái közé.


Megkülönböztető jegyek elmélete – vonásdetekció a beszédészlelésben

A megkülönböztető jegyek elmélete szerint a beszéd feldolgozásának bizonyos szintjén vannak olyan vonásdetektorok, amelyek a fonémák bizonyos jellegzetességeire (képzés helye, zöngésség stb.) szelektíven érzékenyek. Az elképzelés szerint ezek a neuronok hasonlóan működnek, mint a látás kapcsán tárgyalt vonásdetektorok, melyek a vizuális inputban található különböző jellemzőkre – mint az élek iránya vagy mozgása – voltak érzékenyek. A beszédészlelés kapcsán ezek a vonásdetektorok úgy működnének, hogy a már részben feldolgozott akusztikai inputban a nekik megfelelő jellemzőket keresnénk, és ha az jelen van, akkor tüzelnének, ha viszont nincs jelen, akkor nem tüzelnének. Például egy /d/ hang feldolgozása során azok a detektorok tüzelnének, amelyek a zöngés, az alveoláris és a zárhangokra lennének érzékenyek (lásd a 11.2. táblázatot). Ha ellenben a zöngétlen, az alveoláris és zárhangokra érzékeny neuronok tüzelnének, akkor a /t/ fonéma lenne aktív, vagyis azt észlelnénk. Fontos, hogy a detektorok működése nyelvspecifikus, vagyis egy adott nyelvre jellemző fonémakülönbségekre reagálnak. Ebből következően a vonásdetektorok válaszjellemzői a nyelvelsajátítás során alakulnak ki.

Az elmélettel kapcsolatos legfőbb bizonyítékok hasonló kísérleti elrendezést használtak, mint amit a vizuális rendszer vonásdetektorainak tanulmányozásánál már láthattunk. Vagyis a kísérletek arra törekedtek, hogy az adott jellemzőre érzékeny neuronokat „kifárasszák” azáltal, hogy egy olyan ingert ismételnek sokszor, amelyre azok szelektíven válaszolnak. Például, ha egy bizonyos irányú vonalat hosszú ideig nézünk, akkor a kissé eltérő irányú vonalakat átmenetileg valódi irányuktól eltérőnek látjuk. Ennek az az oka, hogy a neuronok érzékenysége a sokáig nézett irányra a kifáradás miatt csökken.

A beszédhangok esetében Eimas és Corbit (1973) végzett hasonló kísérleteket, amelyekben különböző mesterségesen előállított beszédhangokat mutattak be a kísérleti személyeknek. A hangok között voltak olyanok, amelyek nem egy fonémakategória prototipikus tagjai voltak, hanem két kategória között helyezkedtek el. Emiatt ezeket a kísérleti személyek hol az egyik, hol a másik kategóriába tartozónak észlelték (emlékezzünk vissza, hogy a kategoriális észlelés értelmében soha nem észlelünk „összegyúrt” kategóriákat, hanem mindig vagy egyik, vagy másik kategóriához tartozó hangokat). Ezután a személyek hosszú perceken át hallgatták az egyik tiszta kategóriát, majd ismét a bizonytalant. A kutatók azt találták, hogy az egyik kategória hosszú időn át történő hallgatásának hatására a bizonytalan fonémát sokkal inkább a másik kategóriába tartozónak észlelték a kísérleti személyek. Ez az eredmény úgy értelmezhető, hogy ugyanannak a fonémának a hosszú időn át való hallgatása kifárasztotta az arra érzékeny neuronokat, azaz a vizuális észlelőrendszerben megfigyelt adaptációs jelenségről lehet szó. A bizonytalan fonémáról feltételezhető, hogy azt mindkét neuroncsoport feldolgozza. Ha azonban az egyik csoportot kifárasztjuk, akkor csak a másik tud majd válaszolni, és emiatt a bizonytalan fonémát immár a másik kategóriába tartozónak fogjuk észlelni.

ÖSSZEFOGLALÁS

 1. A beszédészlelés során a beszédhangok és hangkapcsolatok azonosítása történik. A beszédhangok a beszédnek azok a legkisebb elemei, amelyek egy adott nyelvben jelentésmegkülönböztető szerepűek. A beszédhangok a beszéddel kapcsolatos akusztikai információk, a fonémák pedig az általános tulajdonságok alapján azonosnak észlelt beszédhangok mentális reprezentációi.

 2. A beszédhangokat a hangképző szervek hozzák létre, amelyek a gége alatti, a gégei és a gége feletti rendszerből állnak. A beszédhangok képzésekor a tüdőből kiáramló levegő megrezegteti a hangszalagokat, aminek hatására zönge keletkezik.

A beszédhangok végső formáját az artikulációs csatorna (garat-, száj-, orrüreg) hozza létre.

 1. A beszédhangok magánhangzókra és mássalhangzókra oszthatók, amelyek tovább csoportosíthatók a magánhangzók esetében a nyelv függőleges és vízszintes helyzete, az ajakállás és az időtartam, a mássalhangzók esetében pedig a képzés módja, a képzés helye, a zöngésség és az időtartam alapján.

 2. A beszédhangok több frekvenciakomponensből összetevődő, periodikus hangok, amelyek a frekvencia és intenzitás időbeni változásait tartalmazzák. A beszédhangok frekvenciakomponenseit formánsoknak nevezzük, az alapfrekvenciát pedig F0-lal jelöljük. A beszédhangok időben változó frekvenciakomponenseit a spektrogramon lehet megjeleníteni.

 3. A beszédhangok észlelési folyamata két szakaszból áll: a beszédhangoknak az akusztikai környezettől való elválasztásából, amely a perceptuális csoportosítás Gestalt-elvei alapján történik, és az ily módon elkülönített beszédhangok fonémaazonosításából. A beszéd akusztikai jellegzetességei nem teszik lehetővé a beszédhangok és a fonémák egy az egyben történő megfeleltetését (akusztikai-fonetikai varianciaprobléma).

 4. Ennek oka, hogy a) a beszédhangok túl gyorsan követik egymást; b) koartikuláció jön létre, vagyis a beszédhang akusztikai jellemzői megváltozhatnak attól függően, hogy előtte vagy utána milyen hangok állnak; c) a beszélő jellemzői (kor, nem, érzelmi állapot) befolyásolják a beszédhangok akusztikai megvalósulását; d) az akusztikai input folyamatos, a fonémareprezentáció viszont diszkrét (szegmentációs probléma).

 5. A beszéd észlelése során dekódolás zajlik, és létezik egy speciális beszédmód, amely kizárólag a beszédhangok feldolgozását valósítja meg. A beszédmód létezésére több bizonyíték van: a) a szinuszhullámú beszéd észlelése; b) agyféltekei különbségek a beszéd észlelésében; c) a beszédhangok kategoriális észlelése.

 6. A beszédhangok kategoriális észlelése azt jelenti, hogy az akusztikus jel kisebb-nagyobb mértékű változásai nem okoznak változást az észleletben, míg más, akusztikai jellemzőiben hasonló mértékű változások az észlelet megváltozásához vezetnek. A kategoriális észlelés azt segíti, hogy az egyébként nagymértékben változó akusztikus jellemzőkkel rendelkező beszédhangokat a fonémakategóriákhoz rendeljük.

 7. A kategoriális észlelés tanulás révén jön létre: azt tanuljuk meg, hogy csak bizonyos akusztikai különbségekre figyeljünk oda, olyanokra, amelyek befolyásolják a szavak jelentését. A tanulás révén átalakul az észlelésünk, és elveszítjük érzékenységünket azokra az akusztikai változásokra, amelyek nem befolyásolják a szavak jelentését. Így jön létre az adott nyelvre jellemző percepciós bázis.

 8. Vannak bizonyítékok amellett, hogy a fonémák valójában nem a beszéd alapvető perceptuális egységei, hanem következtetünk rájuk. Ezen bizonyítékok: a) a fonémarestaurációs hatás; b) a fonémák azonosítási sebessége; c) az illuzórikus szótag jelensége; d) a fonémaészlelés fejlődése kapcsán kapott eredményekből származnak.

 9. A beszédészlelést két jelentős elmélet magyarázza: a) a motoros elmélet, amely a percepció és a produkció szoros együttműködését tételezi fel, és b) a megkülönböztető jegyek elmélete, amely a fonémák akusztikus jellemzőire érzékeny vonásdetektorokat tételez fel.

KULCSFOGALMAK

akusztikai-fonetikai varianciaprobléma, artikulációs csatorna, dichotikus hallgatási helyzet, fonémák, fonéma- restaurációs hatás, formáns, kategoriális észlelés, koartikuláció, motoros elmélet, spektrogram, szegmentációs probléma

ELLENŐRZŐ KÉRDÉSEK

 1. Minimális pár-e a gal és a kai szó?

 2. Próbáljuk meg felsorolni, hogy a ma szótag képzésében mely szervek vesznek részt!

 3. Hogyan jön létre a beszédhangok komplex és periodikus jellege?

 4. Mi szükséges ahhoz, hogy mesterségesen hozzunk létre beszédhangokat?

 5. Mi a hasonlóság és a különbség az /i/ és /a/ hangok között a nyelv helyzete, az ajakállás és az időtartam tekintetében?

 6. Hasonlítsuk össze a hangok oszcillogramon, spektrumon és spektrogramon történő ábrázolását! Melyik a legalkalmasabb a beszédhangok megjelenítésére, és miért?

 7. Mit jelent az, hogy a beszéd egyfajta kód?

 8. Mi lehet az oka annak, hogy könnyű mesterségesen olyan beszédhangokat létrehozni, amelyek jól érthetők, de nehéz olyanokat, amelyek nagyon hasonlítanak az emberi beszédhez?

 9. Miért mondhatjuk azt, hogy a kategoriális észlelés valójában egy észlelési torzítás?

 10. Hogyan értelmezhető az akcentus a kategoriális észlelés fogalmaiban?

AJÁNLOTT OLVASMÁNYOK

Gósy Mária 2004. Fonetika, a beszéd tudománya. Osiris, Budapest. Gósy Mária 2005. Pszicholingvisztika. Osiris, Budapest.