Ugrás a tartalomhoz

Általános pszichológia 1-3. – 1. Észlelés és figyelem

Csépe Valéria, Győri Miklós, Ragó Anett

Osiris Kiadó

19. fejezet - 15. FEJEZET – A világ megértése: modalitások kölcsönhatása és a cselekvés

19. fejezet - 15. FEJEZET – A világ megértése: modalitások kölcsönhatása és a cselekvés

Asszociáció és integráció az észlelésben

Együttjárás és együtthatás

A környező világ észlelése az egyes modalitásokban egyszerre követi a valamennyi észlelőrendszerre általános, valamint az adott modalitásra specifikus törvényszerűségeket. Az észlelés jellemzőit a hagyományos megközelítésben, mint ahogy ez az eddigi fejezetekben is történt, modalitásonként tanulmányozza a pszichológia, azaz mindig csak egy adott érzékelési, észlelési minőséget vizsgál. Az egyes érzékleti modalitások egymástól elkülönülő tanulmányozása és az ismeretek elkülönített tárgyalása azonban nem jelenti azt, hogy az észlelés maga ne alapvetően multiszenzoros jelenség lenne. A pszichológiának semmiféle kétsége nem lehet arra vonatkozóan, hogy az észlelőrendszerek ne együtt, összehangoltan működnének annak érdekében, hogy a valamennyi modalitásra támaszkodva kivont információ biztosítsa azt, hogy a környezet ingereit, eseményeit a lehető leggyorsabban detektáljuk (észrevegyük), megbízhatóan azonosítsuk, és megfelelő választ adjunk rájuk. Még azokat az észlelt eseményeket is befolyásolhatják más szenzoros modalitásból származó információk, amelyek első benyomásra modalitásspecifikusnak tűnnek, mivel ezek a szenzoros interakciók nem tudatosak. Számos kísérleti adat azt mutatja, hogy valóban ritkán van tudomásunk arról, hogy aktuális észlelésünk multiszenzoros természetű lenne. A multiszenzoros feldolgozás észlelőrendszerünk működésében gyakran jobb, gyorsabb, máskor viszont újfajta észlelési minőséget eredményez. Az előbbiek inkább egymásra hatást jelentenek, azaz a feldolgozást könnyítő, gyorsító, serkentő folyamatokról van szó. Ezt modalitásközi jelzésnek, valamint modalitásközi facilitációnak nevezzük. Más esetekben viszont az inger-, illetve eseményjellemzők feldolgozása oly erőteljes, hogy az egyik modalitásban megjelenő ingertulajdonság befolyásolja, módosítja a másik modalitásban ugyanennek az ingernek, eseménynek a feldolgozását. Ebben az esetben beszélünk modalitásközi vagy multiszenzoros integrációról.

Modalitásközi facilitáció

Jól ismert tény, hogy a figyelemnek olyan, egy váratlan inger, esemény felé fordulása, amely nyílt orientációs választ eredményez (bővebben lásd a figyelemmel foglalkozó fejezetekben), az észlelés javulásával, úgynevezett modalitásközi előnnyel jár. Ez nemcsak azt jelenti, hogy élesebben látjuk azt a vizuális ingert, ami felé fordulunk, hanem jobban is halljuk (vagy érezzük) az adott forrásból származó hangot (tapintást) (Rorden-Driver 1999). Ez a modalitásközi figyelemeltolódás azonnal megjelenik, tehát még azelőtt, hogy szenzoros receptoraink az ingerre irányultak volna. Ez annak köszönhető, hogy normál körülmények között a nyílt és rejtett orientáció között nagyon erős kapcsolat van, mindkettőt ugyanazok az agyi struktúrák kontrollálják. A kísérleti pszichológiában régóta jól ismert, hogy egy bejósolhatatlan vizuális inger megjelenése gyors és rövid ideig tartó serkentő (facilitáló) hatással van a látómezőben az előjelző ingerrel azonos helyen megjelenő célingerre (Posner-Cohen 1984). Hasonló modalitáson belüli facilitáció megfigyelhető a hallási, valamint a tapintási jelző- és célingerek között is. Hasonló facilitáció megfigyelhető egyes modalitások között is, azaz a modalitásközi jelző hatás úgy működik, hogy az egyik modalitás elindítja a másikban történő feldolgozást. Ez akkor lehetséges, ha létezik egy a modalitások feletti, úgynevezett szupramodális figyelmi mechanizmus.

A modalitásközi facilitáció vizsgálatának egyik klasszikus feladattípusa a gyorsított ingerdetekciós feladat. Ezek a feladatok a klasszikus Posner-feladat (lásd a szövegdobozt a 472. oldalon; Posner-Cohen 1984) audiovizuális megfelelői. Az eredeti vizuális Posner-feladat lényege, hogy a kísérleti személyek az előttük lévő képernyőn előre nem jósolható téri helyen megjelenő jelzőingereket, majd ezeket követően célingereket látnak. A célingerre rövidebb az egy gomb lenyomásával mérhető válasz (RI: reakcióidő), ha nagyon rövid idő múlva (az eredeti kísérletben 0-100 ms) azonos helyen követi a jelzőingert. A modalitásközi ingerdetekciós feladat a korai kísérletekben nem hozta meg a várt eredményeket. A hallási detekció ideje érzéketlennek bizonyult a vizuális téri előjelzésre és fordítva. Ennek az egyik lehetséges oka az, hogy a korai kísérletekben olyan hangmagasság-különbségeket használtak, amelyek a tonotópiára (részletesen lásd a hallási észlelés alapjelenségeinél), és nem a téri hallásra támaszkodó gyors detekciót tettek lehetővé.

A kezdeti kudarcok ellenére a gyorsított ingerdetekciós kísérletek egyik legelterjedtebben használt paradigmája a téri diszkriminációs feladat lett. Ward ma már klasszikusnak számító kísérleteiben (Ward 1994) arra kért gombnyomásos választ, hogy a külön feladatban adott hallási és vizuális célingerek a jobb vagy a bal oldalon jelentek-e meg. A téri megjelenése szerint nem jósolható hallási, illetve vizuális jelzőingereket használt, mégpedig eltérő ingerkezdetidőket (SOA [stimulus onset asymmetry = ingerkezdet-aszimmetria]: 100, 200, 550 ms) alkalmazva. Ward meglepő módon azt találta, hogy a legrövidebb ingerkezdet-aszimmetria esetében a vizuális jelzőinger facilitálta az azonos oldali (ipszilaterális) hallási célinger detektálását, ugyanez a hallási ingerrel elő- jelzett vizuális célingernél egyetlen ingerkezdet-aszimmetria esetében sem jelentkezett. Ez a jelenség, az úgynevezett audiovizuális aszimmetria ellentmondani látszik az egyszerűbb detekciós eredményeknek. Lehetséges, hogy Ward kísérleteiben az egyik oldalon adott válaszok előfeszítik és gátolják az azt követőket, illetve az ip- szilaterális előfeszítés a két modalitás eltérő szerveződése miatt erőteljesebb a vizuális modalitásban, ezért mutat a modalitásközi facilitáció aszimmetriát. Tény, hogy valamennyi azóta végzett, a kritikus változókra (válaszoldal, a jelzések téri távolsága, jósolhatóság) kiegyenlített kísérlet azt mutatta, hogy a modalitásközi facilitáció nem azonosan működik a két modalitásban.

Modalitásközi interakció

A kísérleti adatok szerint a mozgásészlelésben erős modalitásközi integráció működik a mozgásnak a különböző észlelési modalitásokban megjelenő jelzőingerei között. A legkorábbi leírásban (Zapparoli-Reatto 1969) a stroboszkopikus mozgás észlelését különböző modalitásközi helyzetekben tanulmányozták. A beszámolók szerint a mozgás hallási és vizuális jelzőingereit a kísérleti személyek akkor is azonos mozgásirányhoz tartozónak észlelték, ha azok egyébként eltérő mozgásirányt jeleztek. A probléma csak az, hogy ezt másoknak nem sikerült megismételniük, ennek oka pedig az lehet, hogy az eredmények a résztvevők önbeszámolóin alapultak. A legtöbb olyan kísérletben, amelyben a mozgás különböző modalitású jelzőingereinek kölcsönhatását vizsgálták, a látszatmozgás-helyzetet alkalmazták (a látszatmozgásról már volt szó a Mozgásészlelés című fejezetben). A látszatmozgás tipikus alapfeltétele, hogy az események két eltérő téri helyen olyan időzítéssel jelenjenek meg, hogy a mozgás mint észlelési illúzió létrejöhessen. A modalitásközi interakciónak egyik gyakran alkalmazott esete az úgynevezett hasbeszélőhatás . A jelenséget Howard és Templeton (1966) azért nevezték el a jól ismert hasbeszélő-illúzió alapján, mert a térben egymástól távol lévő hangok és vizuális ingerek közös forráshoz rendelése hasonló ahhoz, mint amikor a hasbeszélő szájmozgás nélküli beszédét a kezében lévő, a beszéddel szinkronban mozgatott bábútól származó beszédként észleljük. Hasonló jelenséggel van dolgunk a televízió és a mozi esetében is, amikor a vizuális események középről, a hozzájuk tartozó hangok pedig oldalról vagy a téri környezetből érkeznek. A hangokat mégis a vizuálisan azonosított eseményekhez rendeljük, holott a legjobb minőséget adó házimoziknál sem lehetséges a teljes vizuális-akusztikus megfelelés. Az illúzió azonban még az egy-két hangszórót használó rendszereknél is létrejön, azaz az azonos forrásból érkező hangot a képernyőn megjelenő különböző szereplőkhöz rendeljük. Ez az észlelési illúzió azonnal szétesik, ha behunyjuk a szemünket, és így próbáljuk megállapítani a szereplő helyét.

A hasbeszélőhatás statikus formájában (statikus hasbeszélőhatás) egyes hangok téri azonosítása történik, a hanggal azonos vagy eltérő irányban megjelenő vizuális ingerek megjelenésekor. A modalitásközi illúziók dinamikus változatának (dinamikus hasbeszélőhatás) vizsgálatára látszatmozgást létrehozó vizuális ingerek és hangláncolatok használhatók. Ezekben a mozgásirány megegyezését (kongruencia) és fázisazonosságát (szinkronitás) szokták változtatni. A dinamikus helyzetben a modalitásközi interakció négyszer olyan gyakori, mint a statikus helyzetben (Soto-Faraco-Kingston 2004). A hangforráshoz kapcsolódó vizuális információkról, a mozgásészlelés dinamikus jelzőingereiről szerzett tapasztalatok a multiszenzoros integráció kialakulásához vezetnek. A látás és hallás dinamikus eseményeinek multiszenzoros integrációját nemcsak az észlelési modalitások szenzorosan vezérelt interakciója működteti, hanem a tapasztalatra épülő elvárások is.

19.1. táblázat -

POSNER ÉS MCGURK

A kísérleti pszichológiában a laboratóriumban vizsgált jelenségek gyakran szándékosan teremtenek olyan feltételeket, amelyekkel vizsgálhatóvá válnak olyan feldolgozási jellegzetességek is, amelyekkel a valódi környezetben nem találkozunk, nem találkozhatunk. Mint arról a törzsszövegben már szóltunk, a hetvenes évek végén, a nyolcvanas évek elején két olyan eljárást dolgoztak ki, amelyeket a kísérletezők gyakran használnak. Az egyiket a modalitásközi facilitáció, illetve a figyelmi jelenségek vizsgálatára, a másikat pedig a modalitásközi integráció természetének kifürkészésére használják leginkább. Az egyik a Posner-feladat, a másik pedig a McGurk-effektus vagy -illúzió.

1. ábra. A klasszikus Posner-feladat sémája

Az 1. ábrán a klasszikus Posner-feladat lépéseit mutatjuk be. A képernyőn először egy fixációs pont jelenik meg, majd attól balra az úgynevezett tesztinger (a). A kísérleti személynek két gomb áll rendelkezésére. Azt kell megnyomnia, ahol a tesztinger megjelenik (b). A feladat során a fixációs ponttól jobbra vagy balra (az ábrán balra) megjelenhet jelzőinger (c) vagy olyan inger, amely nem jelzi előre a megjelenése helyét (d). Ennek az eredetileg vizuális feladatnak a továbbfejlesztett változataival szokták a modalitásközi facilitációt vizsgálni. A feladatnak ma már sokféle változata van, az észlelési modalitások kölcsönhatásának vizsgálatán kívül a figyelemvizsgálatok egyik kedvenc alapparadigmája.

A McGurk-illúzió vizsgálata akkor vált lehetővé, amikor először megjelentek azok a technikák, amelyek lehetővé tették, hogy a szájmozgáshoz igen pontosan szinkronizálják az akusztikailag azonos, ám a szájmozgásnak való megfelelés szerint igencsak eltérő hangokat (2. ábra). McGurk és MacDonald 1976-os Nature-cikke csak sokkal később vált a beszédészlelést, illetve a modalitásközi integrációt kutató pszichológusok egyik igen kedvelt paradigmájává. Az illúzió lényege, hogy az egymáshoz szinkronizált beszédhangok, mint a /ba/ és /ga/, a /da/ észlelését eredményezik (a).

A számítógépes animáció elterjedésével megjelentek a pszichológiakísérletekben a beszélő fejek (Massaro 1998). Ezekkel a beszélő fejekkel (b, c) ugyanúgy ki lehet váltani az illúziót, mint az élő beszélőről készített filmekkel, nagy előnyük viszont, hogy a minden zavaró faktort kizárni kívánó, precíz kísérletezés feltételeinek jobban megfelelnek.

2. ábra. McGurk-illúzió. a) Az illúzió létrejöttének sematikus rajza. b) Beszélő fej /ga/ hangnak megfelelő szájmozgással és a „hozzá tartozó” /ba/ hang. c) Beszélő fejek tipikus ajakállása négy különböző mássalhangzónál (Massaro 1998 nyomán)


Multiszenzoros integráció

Mint láthattuk, az egyes modalitások kölcsönhatása különösen kifejezett az események forrásának azonosításában, a létrejövő interakciók természete pedig jól tanulmányozható az észlelési illúziók segítségével. Az eltérő modalitásokból származó szimultán ingerek serkentik, befolyásolják és módosítják a szenzoros feldolgozást, és ennek észlelési és viselkedéses következményei vannak. Ennek a kölcsönhatásnak egyik speciális esete a beszédészlelés. A beszédnek a hallási és vizuális modalitásban történő észlelése és ennek következményei a multiszenzoros integráció ideális és egyben prototipikus esetét jelenti.

A beszédészlelés multiszenzoros természetének kísérleti vizsgálatában a mérföldkövet McGurk és MacDo- nald (1976) közleménye és az abban bemutatott, a pszichológiában azóta McGurk-effektusként ismertté vált jelenség jelentette (lásd a szövegdobozt). A klasszikus kísérletben a személyek egy szótagokat kiejtő személy arcát nézik. A személy szájmozgása a /ba/ és /ga/ hangsorok ejtésének felel meg. A szájmozgáshoz szinkronizált hangok azonban egyformák, mindegyik /ba/. A létrejövő hallási illúzió abban áll, hogy a kísérleti személyek által észlelt hang a /ga/ ajakállásnál /da/. Ha elvégezzük a kísérletet, a /ba/ szájmozgás, a hozzá tartozó /ga/ beszédhang helyzetben a létrejövő észlelési illúzió gyakran igencsak furcsa, ilyen például /bga/. McGurk és McDonald megelőzték korukat, legalábbis ami a modalitásközi integrációt illeti. A hetvenes években ugyanis elképzelhetetlennek tűnt, hogy a modalitások hasonló kölcsönhatása más területeken is lehetséges. Ma már viszont az észlelésben a multiszenzoros integráció a szabály, és nem a kivétel. Erre utal a hasbeszélő-illúzió és számos más olyan észlelési jelenség, amelyben a szenzoros fúzió és a modalitásspecifikus tapasztalat együtt formálja az észlelést.

A beszédpercepció audiovizuális, azaz bimodális természetét számos kísérletben vizsgálták. A legismertebbek a Massaro-munkacsoport vizsgálatai (Massaro 2004). A beszédhangok kategoriális észlelésének vizsgálatával sikerült kimutatniuk, hogy a beszédhangok azonosítása a vizuális és hallási jellemzők alapján csaknem ugyanolyan jó, a mindkét modalitásra egyidejűleg támaszkodó bimodális észlelési teljesítmény viszont nem egyszerű addícióra, hanem egy újfajta észlelési minőséget eredményező integrációra utal. A beszédpercepcióban megjelenő integrációnak azonban, mint minden multiszenzoros integrációnak, időbeli szinkronizációs feltételei vannak. Természetes körülmények között nem fordulhat elő, hogy a beszéd hallási és vizuális jelzőingerei nincsenek szinkronban. A fény és a hang eltérő terjedése miatt ugyan már a szokásos beszélgetési távolságban is idői eltolódás van, ez azonban annyira parányi, hogy az észlelőrendszer számára nem jelent problémát. Ha például a beszélőtől körülbelül egy méterre tartózkodunk, hangja 80-90 milliszekundummal később jut el hozzánk, mint látványa, ez pedig a beszédészlelő rendszernek nem jelent problémát. A modern telekommunikáció azonban nagy távolságokat hidal át, ez pedig aszinkron audiovizuális információt biztosít. Az audiovizuális szinkron megbomlásának észlelését vizsgálva megállapítható, hogy az aszinkronitás detekciójának magasabb a küszöbe, ha a beszélő hangja késik, mint amikor korábbi, mint a beszélő látványa. Előbbi esetben 260 ms, utóbbiban viszont 130 ms körüli a még észrevétlenül maradó idői eltérés (Dixon-Spitz 1980). Feltehetően a modalitásközi integrációnak köszönhetően az észlelőrendszer nagyobb időcsúszást visel el a szájmozgáshoz képest csúszó beszédhang esetében, mint más, források szerint összetartozó, de nem integrálódó hangoknál. Ugyanebben a kísérletben a kutatók azt is kimérték, hogy a kalapács és a hozzá tartozó koppanás mennyire lehet aszinkronban. Ez az idői eltérés 190 ms körüli a látványt követő és 75 ms az azt megelőző hang esetében. A beszédészlelő rendszerben a vizuális és a hallási modalitás közötti laza idői kapcsolódás meglepőnek tűnhet, ha arra gondolunk, milyen erős a szájmozgás és a szimultán beszédhang statisztikai együttjárása a tapasztalatunkban. Valószínű, hogy az idői eltérés a beszédpercepcióban azért nem okoz gondot, mert az eltérő idői tulajdonságokkal jellemezhető vizuális és akusztikus modalitás szinkronizálása a vizuális mozgásészlelés (kinematika) és a hangképzés motoros komponensének egymáshoz rendelésével működik (Greenberg-Arai, 2001).

Integráció és szupramodális beszédpercepció

A beszédpercepciót biztosító modalitásközi integráció általánosabb elméletei a vizuális és akusztikus észlelés törvényszerűségeit nem tartják elegendőnek a megfigyelhető jelenségek magyarázatánál. Ezeknek közös eleme az a reprezentáció, amely az eltérő modalitásokban az azonos tárgyakról, eseményekről szerzett és ezeken keresztül integrált információkra épül. A beszédészlelésben érvényesülő integráció legalább három nagy elméleti keretben értelmezhető. Meltzoff és Moore (1997) aktív intermodális térképezés elméletére épülő beszédper- cepciós elképzelés szerint a nyelvi tapasztalatszerzés során a beszédnek egy modalitások feletti, szupramodális képviselete, reprezentációja alakul ki. Ez a reprezentáció mintegy túllép azokon a modalitásokon, amelyekből kivonva ő maga létrejön. A reprezentációnak az integráció szempontjából legfőbb tulajdonsága, hogy modalitások felettisége biztosítja az eltérő észlelőrendszerek segítségével szerzett információk integrációját.

A Meltzoff-Moore-hipotézis (1997) az újszülöttek azon meglepő képességének a magyarázatára született, amely az arckifejezéseknek már néhány órával a születés utáni utánzásában jelenik meg. A szerzők szerint az észlelőben (és ez a babáknál is így van) a testrészek és azok viszonyának (például a fogak között kidugott nyelv) szupramodális reprezentációja alakul ki, amely majd az integráció keretéül szolgál valamennyi modalitás számára.

A multiszenzoros integráció más magyarázatai szerint a beszédpercepcióban érvényesülő integrációt a hangképző szervek működését kísérő akciók (gesztusok) észlelése biztosítja. A beszédpercepció motoros elmélete (Liberman-Mattingly 1985) szerint a gesztusok reprezentációja a multiszenzoros agyi területek közvetítésével biztosítja a beszéd akusztikus és vizuális jellemzőinek integrációját. Az aktív intermodális térképezésnél ezt a szerepet a szupramodális reprezentáció tölti be. Mindkét elképzelés lényege, hogy az integrációt egy közös reprezentáció biztosítja. A Liberman-Mattingly-modell két lényeges elemre épít. Az egyik a beszédhangok kategoriális észlelése, azaz a reprezentációban az akusztikai eltérések nyelvi tapasztalattól függő felülírása. A folyamatos beszédben ezt a stabilitást a motoros gesztusok biztosítják, illetve az együtt hangzó beszédhangzók észlelése. Egy negyedik elképzelés azonban merőben eltér mindettől. Ebben (Massaro 1998) a hallási gesztusoknak akusztikus, a vizuálisaknak pedig elkülönülő vizuális reprezentációjuk van. Az integráció pedig ezen gesztusok együtt- járásának, azaz mentális asszociációjának a következménye.