Ugrás a tartalomhoz

Általános pszichológia 1-3. – 1. Észlelés és figyelem

Csépe Valéria, Győri Miklós, Ragó Anett

Osiris Kiadó

6. fejezet - 5. FEJEZET –Tárgyak, formák és alakok észlelése

6. fejezet - 5. FEJEZET –Tárgyak, formák és alakok észlelése

Alak- és tárgylátás

Az 5.1. ábrát nézve senkinek nem okoz gondot, hogy felismerje az ábrázolt tárgyat. Any- nyira könnyű a tárgyak észlelése, felismerése, hogy elsőre nehéz megérteni, milyen komplex is ez a folyamat. Az 5.2. ábra megpróbálja ezt a nehézséget szemléltetni. Képzeljük el, hogy egy olyan intelligens robotot szeretnénk alkotni, amely képes a képen látható székek felismerésére, és el tudja dönteni, hogy azok közül melyikre lehet leülni. Vegyünk egyelőre csak egy példát a képről: hogyan tudja robotunk eldönteni például azt, hogy az íróasztalon lévő modellre vagy a másik szobában, távol látható székre le lehet-e ülni? Számunkra a kérdés nevetségesen könnyű, de csak addig, amíg észrevesszük, hogy a két tárgy képe valójában teljesen azonos! Mi alapján döntsön tehát robotunk?

5.1. ábra. Egy komplex tárgy, melynek felismerése nem okoz gondot senkinek

5.2. ábra. Egy bonyolult szobabelső, mely demonstrálja azokat a problémákat, amelyeket egy tárgyfelismerő rendszernek meg kell oldania (Wallis–Bülthoff 1999 ábrája nyomán). Az adott tárgykategóriát felismerjük helyzetétől, megvilágításától, színétől, méretétől, illetve távolságától, nézőpontjától függetlenül, részlegesen kitakarva, részekre bontva, valamint a kategória eltérő elemeit szemlélve is

Három fontos csoportja van azoknak az érveknek, melyek azt mutatják meg, miért is nehéz probléma a tárgy- vagy alakészlelés.

  1. Egy adott tárgyat csak nagyon ritkán látunk azonos feltételek mellett, vagyis a tárgy retinára vetülő képe sokszor változik, mivel más szögből, irányból, távolságból, méretben, színben, illetve fényviszonyok mellett látjuk. Az 5.2. ábra bemutat néhányat mindazokból a képtranszformációkból, melyektől függetlenül fel tudjuk ismerni az adott tárgyat. Azt mondjuk tehát, hogy tárgyészlelésünk pozíció-, méret-, távolság- vagy színinvariáns, vagyis független a fenti tulajdonságoktól.

  2. Egy adott tárgy kategóriájának egyes tagjait kisebb eltéréseik ellenére is fel tudjuk elismerni, és ugyanúgy kezeljük őket. Az 5.2. ábra közepén, az előtérben álló két szék, bár eltérő formájú, hasonló célokat szolgál, így azonos kategóriába soroljuk őket (generalizá- ció). Ez persze nem jelenti azt, hogy ne tudnánk a különbségeket is észrevenni egy adott kategória egyes tagjai között (szelektivitás). Tárgyfelismerésünk ezen két folyamat, a ge- neralizáció és a szelektivitás nyereség-veszteség vagy vám-rév hatásán múlik.

  1. A tárgyakat egyszerre több specificitási szinten is fel tudjuk ismerni. Az 5.2. ábra tárgyaira összefoglalólag azt tudjuk mondani, hogy bútorok, székek vagy guruló iroda-székek. Hogy melyik felismerési (kategorizációs) szintet használjuk, az mindig a feladatunktól függ.

Mint látni fogjuk, ezeket a problémákat a tárgylátás egyes modelljei eltérő módon kezelik. Fejezetünkben azokat a folyamatokat foglaljuk össze, melyek az alakok, formák, a két- illetve háromdimenziós tárgyak észlelését teszik lehetővé.

A tárgy-alakzat és a háttér elkülönítése: perceptuális szegregáció

A minket körülvevő tárgyak, a környező világ legtöbb dolga jól megkülönböztethető alakú és formájú. Bár nem biztos, hogy mindenki tudatában van ennek, a tárgyakat körvonalaik alapján észleljük. (Az angolban használatos edge szó megfelelői – perem, él – helyett fejezetünkben a kifejezőbb kontúr, illetve körvonal kifejezéseket használjuk.) Például szobánk ablakán kitekintve az ablak körvonalai zárt négyszögalakot írnak le, míg a kint látható fák szabálytalan körvonalai jól láthatóak az égbolt háttere előtt. Amit „látunk”, azok mégsem a körvonalak, hanem az általuk határolt ablakok, fák, vagyis a tárgyak.

A tárgylátás egyik alapvető lépése (sokak szerint előfeltétele), hogy az adott tárgyat annak hátterétől, valamint az együtt megjelenő tárgyakat egymástól elkülönítsük. Ezt afolyamatot nevezzük perceptuális szegregációnak, illetve alakzat-háttér szegmentációnak. A kifejezések egyben arra is utalnak, hogy egy tárgy látása során a tárgy alakja az, ami elkülönül, azaz szegregálódik a hátteret alkotó mintázattól.

Vegyük példának az 5.3. ábrát, melyet Edgar Rubin dán pszichológus 1915-ben mutatott be, és nézzük meg, mi a szerepe ebben a folyamatban a körvonalaknak? Az ábra (mely úgynevezett kétértelmű ábra) jól demonstrálja az alakzat-háttér szegregáció fontosabb tulajdonságait. Ezek a következők:

  • Az alakzat a háttér előtt van.

  • A háttér olyan alaktalan anyag, amely az alakzat mögött is folytatódik.

  • A körvonal (kontúr), ami az alakzatot és a hátteret elkülöníti, az alakzathoz tartozik.

  • Az alakzat könnyebben megjegyezhető, és jobban hasonlít egy adott tárgyra, mint a háttér.

5. 3. ábra. Az úgynevezett Rubin-váza. Mi van a képen: két arcprofil vagy egy váza?

Nézzük, hogyan érvényesülnek ezek az elvek az 5.3. ábrán. Próbáljuk úgy látni az ábrát, hogy a fekete felszín az alakzat. Ilyenkor két arcprofilt látunk, melyek mögött a fehér, differenciálatlan hátteret nem lehet mint vázát érzékelni, mivel az ábra kontúrjai ebben az esetben az arcokhoz tartoznak. Próbáljuk most a fekete felszínt mint hátteret elképzelni, és vegyük számba az alakzat-háttér szegregáció fenti tulajdonságait.

Van néhány további fontos tulajdonsága is a képnek, mely meghatározza azt, hogy mit látunk háttérnek, és mit tárgynak: ezek a méret, a szimmetria, az orientáció és az ismertség. A kontúrokkal határolt kisebb területeket inkább mint alakzatokat érzékeljük, a szimmetrikus területeket úgyszintén. Ha egy terület fő tengelyiránya függőleges vagy vízsz- szintes, akkor megint csak inkább mint alakzatot érzékeljük. Végül a könnyebben értelmezhető és/vagy már ismert kontúrú területeket úgyszintén inkább mint alakzatokat ismerjük fel.

Nézzük meg, hol és hogyan történik a perceptuális szegregáció. A hatvanas években kezdődött elektrofiziológiai kísérletek paradigmaváltást hoztak a látáskutatásban. Évtizedekig tartó kísérletsorozatokban mára a kutatók leírták az emlősök látórendszerét alkotó egyes kérgi területeket és azok tulajdonságait. Az egyik első és legtöbbet vizsgált agykérgi terület a nyakszirti lebenyen elhelyezkedő primer (elsődleges) látókéreg (Broadman 17-es terület, V1) volt. Ennek neuronjairól kiderült, hogy eltérő méretű és irányú vizuális ingerekre a legérzékenyebbek. Campbell és munkatársai (Campbell-Robson 1968, Bla- kemore-Campbell 1969) voltak az elsők, akik felvetették, hogy ezek a neuronok fontos szerepet játszhatnak a körvonalak detekciójában és a perceptuális szegregációban. Elméletük szerint a látórendszer olyan neuroncsoportokból áll, melyek legjobban egy adott téri frekvenciasávra érzékenyek, vagyis téri frekvenciaszűrőkként működnek.

Amint már a látás alapfolyamatairól szóló fejezetben szó volt róla, a kisebb receptív mezejű neuronok a magasabb, míg a nagyobb receptív mezejű neuronok az alacsonyabb téri frekvenciákra reagálnak a legjobban, így mintegy többszörös, egymástól relatíve független téri frekvenciacsatornákat hoznak létre, és a látott kép Fourier-analízisét végzik el. A magasabb térbeli frekvenciákra érzékeny neuronok a finomabb részletek, az alacsonyabb térbeli frekvenciákra érzékeny neuronok a durvább mintázatok felismerésében játszanak inkább szerepet. Az elmélet legfontosabb bizonyítéka a szelektív adaptációs technikával végzett kísérletekből ered. Blakemore és Campbell (1969) több percen át mutattak a kísérleti személyeknek egy adott (7,5 ciklus/fok) térbeli frekvenciájú rácsmintázatot (adaptáció), miután azt találták, hogy az alanyok érzékenysége erre a mintázatra lecsökkent. Az érzékenységcsökkenés szelektív volt az adott térbeli frekvenciára, ami arra utalt, hogy az egyes térbeli frekvenciákra hangolt neuronok egymástól független csatornákon dolgozzák fel a látott információt.

6.1. táblázat -

AZ EML Ő SAGY VIZUÁLIS RENDSZERE

Az emlősök agykérgi vizuális rendszere a nyakszirti lebenyen elhelyezkedő elsődleges vagy primer vizuális kéregből (Broadman 17, V1) indul ki (lásd az ábrát). A V1-et rigid struktúra, szigorú retinotópia jellemzi. Neuronjainak receptív mezeje kicsi (0,5-1,5 fok), jellemző rájuk, hogy leginkább adott irányú álló vagy mozgó fénycsíkra érzékenyek. Az egyes irányokra érzékeny neuronok csoportokba rendeződve orientációs oszlopokat alkotnak. Ezek között az oszlopok között találhatók azok a fény hullámhosszára érzékeny neuronok, amelyek kortikális (kérgi) dugókat alkotnak.

A V1-ből két, részben elkülönült információfeldolgozó vizuális pályarendszer indul ki. A parie- tális (fali lebeny felé haladó) vagy más néven dorzális (az agyféltekék felső, dorzális részén haladó), illetve funkcionálisan „Hol?” vagy „Hogyan?” rendszernek nevezett pálya inkább a tárgyak mozgásáért, háromdimenziós tulajdonságaiért, a velük való manipulációért felelős (DeYoe – van Essen 1988, Mishkin et al. 1983). A temporális (halántéklebeny felé tartó), ventrális (az agyféltekék alulsó, hasi oldalán haladó), „Mi?” látórendszer pedig inkább a szín- és a tárgylátásért felelős.

A V1-et a másodlagos látókéreg (V2, Broadman 18) veszi körül. A V2 neuronjainak receptív mezeje némileg nagyobb (< 4 fok), egyszerű geometriai ábrák, mozgó felszínek ingerlik a leginkább. A V3, majd a V5 (MT – mediális temporális terület) a parietális rendszer tagjai, neuron- jaikat mintázatok mozgása ingerli a legjobban, receptív mezejük igen nagy. A tárgyfelismerésben fontos ventrális rendszer következő tagja a V4, mely a szín-, a forma- és a mintázatérzékelésben játszik szerepet. Neuronjainak receptív mezeje néhánytól néhány tíz fokig terjedő méretű, jellemző ingerei színes felszínek, textúrák, geometriai ábrák. A ventrális rendszer utolsó, tisztán vizuális állomása az inferior temporális kéreg (IT); neuronjainak receptív mezeje sokszor igen nagy méretű (akár 70 fok) is lehet. Jellemző ingerei bonyolult háromdimenziós ábrák, tárgyak, emberi vagy állati arcok képe.

A főemlősök vizuális rendszerének vázlatos ábrázolása és a tárgylátásban fontos ventrális rendszer jellemző ingerei. Az egyes területek megközelítő helyét az emberi agy jobb féltekéjén jelöltük (V1, V2, V4, V5 – elsődleges, másodlagos, negyedleges, illetve ötödleges vizuális látókéreg; MT – mediális temporális kéreg; IT – inferior temporális kéreg)


A közelmúltban az is kiderült, hogy a Vl-neuronok nem egyszerű szűrőként működnek. Lamme (1995) rhesusmajmokkal végzett kísérleteiben kimutatta, hogy ugyanarra a texturált felszínre a neuronok válasza nagyobb volt, ha azt alakzatként látták, mint ha háttérként, vagyis a V1 valószínűleg fontos szerepet játszik a körvonalak detek- ciójában és az alakzatok hátterüktől való elkülönítésében is.

Az alakzatokat alkotó körvonalak integrációja és a Gestalt-elmélet

Történetileg az első pszichofizikai modell, mely a látott kép tárgyakká szerveződését leírta, a Gestalt-elmélet volt. (A Gestalt németül egészet jelent.) A koncepciót először 1879- ben Wilhelm Wundt írta le, de csak később, a századforduló után, Max Wertheimer, Kurt Koffka és Wolfgang Köhler munkáinak köszönhetően (1923-1947 között) formálódott ki teljesen. A Gestalt-megközelítés azt hangsúlyozza, hogy a tárgy (az „egész”) több, mint a részek összessége (a tárgyakat alkotó elkülönült körvonaldarabkák összege). A Gestalt-pszi- chológusok három fő területre koncentrálták munkájukat, ezek

  • az alakzat és a háttér összefüggései,

  • a csoportosítás szabályai,

  • az alakzatok „jósága” vagy pregnanciája.

A Gestalt-elméletek ma is érvényes módon írják le azokat a fő szabályokat, amelyek alapján a háttértől már elkülönült körvonaldarabok egységes alakzatokká, tárgyakká szerveződnek.

Nézzük az alakká, tárggyá formálódás legfontosabb Gestalt-törvényeit!

  1. Egyszerűség: minden mintázatot úgy látunk, hogy a lehető legegyszerűbb struktúra szolgál domináns értelmezésként (domináns interpretáció). Az ismert olimpiai ötkarikát például tehát valóban mint öt kört észleljük, és nem mint kilenc bonyolult alakzatot (5.4. a ábra).

  2. Hasonlóság: az egymáshoz hasonló dolgokat egymással csoportosítva mint egységet észleljük. Ezért látjuk az egymástól egyenlő távolságra lévő köröket és kereszteket mint sorokat, és nem mint oszlopokat (5.4. b ábra).

  3. Jófolytatás (pregnancia): azokat a körvonalszegmenseket csoportosítjuk körvonalegésszé, melyek görbülete a legkevesebbet változik, más szavakkal: az egyenes vagy a folyamatos görbület mentén elhelyezkedő pontok tartoznak össze. Ezért látunk egy kört és egy X-et az 5.4. c) ábrán.

  4. Közelség: az egymáshoz közelebbi tárgyakat csoportosítjuk (5.4. d ábra).

  5. Közös sors: az együtt (egy irányban, azonos sebességgel) mozgó tárgyakat egységnek látjuk.

  6. Ismertség: a dolgok könnyebben alkotnak csoportokat, ha a kialakuló egész ismert, és könnyen értelmezhető.

5.4. ábra. A Gestalt-törvényekbõl néhány: a) egyszerûség, b) hasonlóság, c) jó folytatás, d) közelség

Hogyan alakulnak ki ezek a szabályok? Valószínűleg tanulás és tapasztalat útján: az egyedfejlődés alatt a környezettel való interakció során észlelt szabályszerűségek alakítják őket. A szabályszerűségeket azonban a vizuális feldolgozórendszer működési sajátosságai határozzák meg. Ezekre később visszatérünk.

Hogyan játszanak szerepet a Gestalt-törvények a körvonalak integrációjában?

A Gestalt-pszichológusok feltételezték, hogy bizonyos törvények, mint amilyen például a „jó folytatás”, már a perceptuális szerveződés korai szakaszaiban is működnek. David Hubel és Thorsten Wiesel (1968) tanulmánya óta tudjuk, hogy a V1 neuronjai erős szelektivitást mutatnak a bemutatott vizuális inger (vonaldarab) irányára (erről bővebben már szó volt a látás alapvető folyamatait ismertető 3. fejezetben). Így például az 5.4. c) ábrán látható körvonal egyes darabkáira más-más Vl-neuronok reagálnak a legjobban. Ez a tulajdonság további bizonyíték arra, hogy a V1 szerepet játszik a körvonal-szegregációban. Ugyanakkor, mivel a Vl-neuronok többségének receptívmező-mérete kicsi, csak egy (maximum néhány) vonaldarab kerül egyszerre receptív mezejükbe. Hogyan integrálódik egésszé a sok izolált vonaldarabka? A magyarázat abban rejlik, hogy az egyes vonaldarabkákat kódoló Vl-neuronok válaszát befolyásolják a mellettük lévő neuronok, illetve a klasszikus receptív mezejükön kívüli, úgynevezett kontextuális ingerek is. Egyrészt tudjuk, hogy a darabokból álló kontúrok detekciója jobb, ha az ingerek azonos tengelyre esnek, illetve ha zárt alakzatot alkotnak (Kovács-Julesz 1993). Másrészt közvetlen bizonyíték is van arra, hogy a neuronok válasza nagyobb egy adott irányú vonaldarabra, ha azzal ko-lineárisan, vagyis vele megegyező irányban, a receptív mezőn kívül egy másik vonaldarabka is elhelyezkedik (Hess et al. 2003). (A téma részletes összefoglalását lásd Kovács 1996.)

5.5. ábra. Illuzórikus vagy szubjektív kontúrok alapján kialakuló alakzat, a „Kanizsa-háromszög”

Illuzórikus kontúrok

Eddig olyan körvonalakról, kontúrokról beszéltünk, melyek úgy alakulnak ki, hogy az alakzat és környezete valamilyen fizikai paraméterében különbözik. Egy tárgyat, vagyis annak kontúrját definiálhatja az, hogy világosabb vagy sötétebb a hátterénél (fényességkontraszt), más színű (színkontraszt), más mintázatú (mintázatkontraszt), más háromdimenziós síkban helyezkedik el (diszparitás), vagy hogy alkotó pontjai más irányban mozognak, mint a háttér elemei (relatívmozgás-kontraszt). Ezekben az esetekben valódi kontúrok kialakulásáról beszélünk. Az 5.5. ábrán látható háromszöget (melyet leírójáról, a Gestalt-pszichológus Gaetano Kanizsáról Kanizsa-háromszögnek nevezünk) olyan kontúrok alkotják, melyek esetében nincs ilyen fizikai paraméterkülönbség a háromszög és annak háttere között. Mégis az élmény igen élénk, legtöbbünk éles határokkal elkülönülő háromszöget lát három fekete kör felett (nem pedig három, részben már megkezdett pizzaszeletet). Az élménynek több alkotója van: 1. a háromszöget alkotó vonalak egységes felületté integrálódnak, mely felület 2. fényesebb a hátterénél, és 3. az azt generáló három fekete felszín előtt helyezkedik el, melyeket 4. teljes körré egészítünk ki gondolatban. Számos pszichofizikai mérés mutatja azt is, hogy a valódi kontrasztok mentén kialakuló kontúrok és ehhez hasonlóan az feldolgozás kezdeti lépéseitől fogva hasonlóképpen viselkednek, és interakcióba lépnek egymással. Ennek megfelően kimutatták, hogy a V1 és a V2 neuronjai is hasonlóképpen reagálnak illuzórikus és valódi kontúrokra. Ester Peterhans és Rüdiger von der Heydt nagy hatású kísérleteikben (Peterhans – von der Heydt 1989) majmok V2-neuronjainak aktivitását regisztrálták mozgó, luminanciakontrasztú fénycsíkra és azonos irányú illuzórikus kontúrra, és azt találták, hogy a neuronok az utóbbira is reagáltak, bár ekkor receptív mezejükben nem volt semmilyen fizikai inger. Lee és Nguyen (2001) hasonló eredményekről számolt be a V1 neuronjait illetően is (bár az illuzórikus ingerekre kapott neuronális válaszok latenciája lényegesen hosszabb volt, mint a valódi kontúroké).

Az illuzórikus kontúrok esetében szembeötlik ismét mindaz, amit a Gestalt-elméleteknél már leírtunk: sokszor a kép elrendezéséből eredő legegyszerűbb interpretáció (egy háromszög három kör előtt) csak a kép egészében létezik, de annak részleteiben nem. Ezt az egyszerű és egyértelmű leírásra való törekvést nevezzük perceptuális szerveződésnek. A következőkben a tárgyak ezen szerveződésének jelenlegi modelljeit vizsgáljuk meg.

A tárgylátás modelljei

A tárgyfelismerés számos modellje közül a továbbiakban két olyan alapvetően eltérő megközelítéssel foglalkozunk, amelyek a jelenkor kognitív tudományában a legnagyobb súly- lyal szerepelnek. Ez a két megközelítés a történetileg korábban keletkezett strukturális felismerés, illetve a későbbi képalapú felismerési modellek csoportja.

Strukturális felismerési modellek

A strukturális modellek között Marr komputációs megközelítését és Biederman komponensalapú felismerés modelljét tárgyaljuk.

David Marr és kollégái a bostoni MIT-en (Massachusetts Institute of Technology) alkották meg az első olyan tárgyfelismerési modellt, mely komplex módon képes válaszolni a tárgylátás problémáira (Marr-Nishihara 1978), és amely a kognitív pszichológusok körében máig népszerű. Megközelítésükben a következő kérdéseket próbálták megválaszolni: „Mit kellene egy számítógépprogramnak tennie ahhoz, hogy egy képen a tárgyakat pontosan regisztrálják? Milyen program lenne erre képes?” A tárgyészlelés folyamatát három fő szinten tárgyalták: 1. a komputációs elmélet, 2. a reprezentáció és a végrehajtó algoritmus, valamint 3. a szükséges hardver.

Az elmélet a retinára vetülő képpel kezdődik (5.6. ábra). Az algoritmus ezután a képben lévő sötét és világos részeket analizálja. Ennek eredménye egy durva első vázlat, amelyen a képen található vonalak, körvonalak és olyan zárt alakzatok, mint egy kör, ellipszis, is megtalálhatóak már. Ebből a vázlatból azután a Gestalt-szabályok alapján egy a már általunk látott képhez is hasonló, úgynevezett két és fél dimenziós (2,5 D) vázlat keletkezik. A végső lépésben ez a vázlat alakul tovább háromdimenziós (3-D) képpé.A Marr-modell erőssége, hogy könnyen létre tud hozni egy nézőpontfüggetlen tárgyreprezentációt, ugyanakkor nem világos, hogy hogyan is jön pontosan létre ez a háromdimenziós reprezentáció: sem az elméletben nincs világosan kifejtve, sem kísérleti adatok nem támasztják alá a részleteit.

5.6. ábra. David Marr komputációs alakfelismerés-elméletének vázlata

A Los Angeles-i Irving Biederman (University of South California) által megalkotott komponensalapú felismerés modell vagy RBC-elmélet (Recognition by components) nagyon hasonló az előzőekben vázolthoz, ugyanakkor lényegesen tovább is fejleszti azt (Biederman 1987). Biederman szerint a tárgyakat határoló körvonalaik konkáv területein részekre bontjuk, és ezek a részek mint háromdimenziós elemek (henger, kocka, gömb, piramis stb. – 5.7. ábra) tárolódnak el memóriánkban. Ezek az elemek az úgyneve- zettt geometrikus ikonok, rövidített elnevezésük a geon. A geonok elkülönítése olyan, „nem véletlenszerű” tulajdonságokon alapul, amelyek pusztán véletlenül nem vagy csak nagyon ritkán fordulnak elő (ilyen tulajdonság például az, hogy egy görbe vonal csak speciális nézőpontból látszik egyenesnek, vagy hogy az egymás felé konvergáló vonalak nem látszanak párhuzamosnak). Ennek köszönhetően az egyes geonok nézőponttól függetlenül felismerhetők és megkülönböztethetők egymástól. Mivel az egyes geonok nézőpontfüggetlen módon felismerhetőek, magának a létrehozott tárgynak a felismerése is nézőpontfüggetlen lesz. Ez azt jelenti, hogy egy adott tárgynak egy vagy csak néhány nézőpontját kell a memóriánkban eltárolni. Az RBC-elmélet szerint a világ körülbelül harmincféle ilyen geonból legójátékszerűen felépíthető, ha a tárgyat alkotó geonok közötti térbeli viszonyokat meghatározzuk (a gomba törzsét alkotó henger tetején van a kalapot reprezentáló kúp).

5.7. ábra. Irving Biederman strukturális alakfelismerés elméletének néhány eleme, geonja

Az RBC-elmélet egyik legnagyobb előnye, hogy korlátozott számú elem felhasználásával képes a tárgyak nézőpontfüggetlen leírására. Ugyanakkor az elmélet nem tér ki arra, hogy számos esetben nemcsak a határoló körvonalak, hanem a tárgyak felülete is fontos a tárgyfelismerésben (gondoljunk például arra, hogy sokkal nehezebb egy piros, mint egy sárga banán felismerése). Többek között azt is nehéz az RBC-elmélet segítségével magyarázni, hogy miként történik az azonos geonokból felépülő, de egymástól részleteikben nyilvánvalóan különböző tárgyak megkülönböztetése, kategorizációja (például számos szék azonos számú és elrendezésű geonból áll, mégis megkülönböztethetőek egymástól). Vita folyik arról is, valójában mennyire nézőpontinvariáns a tárgyak felismerése, és úgy tűnik, hogy ezeket az ellentmondásokat próbálják megoldani a képalapú elméletek.

Képalapú modellek

A strukturális felismerési elméletek legelterjedtebb alternatívája a képalapú reprezentáció. A képalapú reprezentációk közös jellemzője, hogy a feldolgozás során úgy őrződnek meg a tárgyak tulajdonságai (alakjuk, színük, textúrájuk egyaránt), ahogy azok a látott képen megjelentek. Az ilyen elméletek (Bülthoff-Edelmann 1992, Tarr-Bülthoff 1995) szerint a tárgyaknak nem egy háromdimenziós reprezentációja létezik, hanem számos kétdimenziós reprezentáció írja le az adott tárgyat, mégpedig számos eltérő nézőpontból. Éppen ezért az ilyen elméleteket nézőpontfüggő elméleteknek szokás nevezni. A kísérleti adatokból valóban úgy tűnik, hogy a tárgyfelismerés számos esetben függ a tárgy nézőpontjától: ismeretlen tárgyakat előzőleg már látott nézőpontból gyorsabban és kevesebb hibával ismerünk fel, mint az addig nem látott nézőpontokból. A képalapú elméletek szerint, ha ismert nézőpontokból látjuk a tárgyat, azt már annak létező kétdimenziós reprezentációjához illesztjük. Egy előzőleg nem ismert nézőpontból látva valamit, azt először a már ismert nézőpontokhoz kell hasonlítani. Mindez időigényes folyamat, és megnövekedett válaszidőhöz (-latenciához), illetve hibázáshoz vezet. További előnye a képalapú reprezentációknak, hogy (ellentétben a strukturális elméletekkel) könnyen magyarázzák az egyes kategóriákon belüli diszkriminációt is: nemcsak a tárgyak eltérő nézetei, hanem azok eltérő vonásai is külön reprezentálódnak.

A képalapú elméletek a tárgyészlelés magyarázatában előnyös tulajdonságaik mellett súlyos problémákat is felvetnek. Először, egy adott tárgyról több reprezentációval kell rendelkeznünk, és mindez a dolgok elvileg végtelen számát tekintve, könnyen úgynevezett kombinatorikus robbanáshoz vezethet. Másodszor, nehéz magyarázni azt, hogy egy tárgy különböző nézeteiről honnan tudjuk, hogy ugyanahhoz a tárgyhoz tartoznak, és nem más, hasonló tárgyakhoz. Harmadszor, a képalapú elméletek nem mondanak semmit a tárgyakat alkotó részek egymáshoz való viszonyáról sem.

Jelenleg úgy tűnik, hogy a strukturális és a képalapú megközelítés elemei egyszerre érvényesek az emberi tárgyfelismerés folyamataiban, és egy teljességre törekvő elméletnek mindkét elméletből egyszerre kell merítenie.

Látni tanulni: tanulás az alak- és tárgyészlelésben

Bármennyire furcsán hangzik is, mint minden mást, a „látást” is meg kell tanulni. Fokozottan igaz ez a tárgylátásra. Nem minden tárgy látható egyformán jól, és egy adott tárgy láthatóságát, felismerhetőségét és értelmezését is befolyásolja számos környezeti tényező (a megvilágítás, a távolság, a környezet stb.). A ragadozó és a prédaállat számára egyaránt fontos például, hogy a másik ne vegye könnyen észre (5.8. ábra). Gyakorlással ugyanakkor a megfigyelő fejleszti azon képességét, mely lehetővé teszi számára a látott világ dolgainak felismerését, olyan vonások detektálását, melyeket a gyakorlás előtt nem vett észre. Példának gondoljunk az erdei nyomkeresőkre vagy a radiológus orvosokra, akik a hétköznapi embernél sokkalta jobban értenek a nyomolvasáshoz, illetve a daganatos elváltozások detektálásához. Számos kísérleti helyzetben tanulmányozták már a fenti tanulási folyamatokat. Mi ezek közül most csak a fejezet anyagához legszorosabban kapcsolódó két példát említünk. Az egyik esetben az alak-háttér elkülönítés nehézsége okozza a problémát, a másik esetben pedig egyszerre több, egymásnak ellentmondó lehetséges értelmezése létezik ugyanazon képnek.

5.8. ábra. Nehezen felismerhető és kétérelmű ábrák. a) Ha a háttér és a tárgy színében, mintázatában is hasonló, akkor nehéz észrevenni. Ezt használja ki számos állat rejtőszíne és mintázata. b)–c) Mi van a képen? Fordítsuk el 180 fokkal a könyvet, hogy könnyebb legyen megfejteni őket. További segítséget a szöveg tartalmaz. d)–h) Példák kétértelmű képekre. d) Freud anyósa és felesége. Látjuk az idôs hölgy arcát és a fiatal nő elfordított profilját is? e) A Necker-kocka. Milyen irányba dől a kocka? f) Ragadozó madár vagy egy liba? Melyik irányba repül? g) Nyúl vagy kacsa? h) A Mach-könyv. A szöveges rész vagy a borító néz felénk?

A környezeti elemek hatása a tárgy felismerésére

Mint láttuk, minden tárgy felismerésének alapfeltétele, hogy hátterétől el tudjuk különíteni (perceptuális szegregáció). A szegregáció alapjául szolgálhat az, hogy a tárgy hátterénél világosabb vagy sötétebb (pl. 5.3. ábra). Egyértelmű, hogy a tárgy-háttér szegregációjánál a két felület találkozásánál kialakuló világosság- vagy luminanciakontraszt az, ami lehetővé teszi a perceptuális szegregációt. Kontraszt kialakulhat azonban két azonos fényességű, de eltérő színű, mintázatú, mozgású vagy egy másik, a harmadik dimenzió síkjában elhelyezkedő felület között is. Azt a fizikai paramétert, amely a látható kontrasztot létrehozza, vizuális kulcsnak (visual cue) nevezzük. A vizuális kulcs az általánosságban észlelési kulcsnak nevezett paraméterek egyike. (Mint később látni fogjuk, a hallási tárgyak észlelésekor is működnek észlelési kulcsok.) Bizonyos körülmények között, amikor a tárgyat meghatározó kontraszt alacsony, az nem válik el élesen a hátterétől. Ilyenkor a tárgy perceptuális szegregációja, vagyis az alakzat háttértől való elkülönítése és ezáltal a tárgy detektálása nehéz. Az 5.8. a) ábra egy ilyen helyzetet mutat be, amikor is az ábrán látható gepárd környezetéhez alkalmazkodó rejtőszínt és mintázatot (kamuflázs) vesz fel. Azt a mozdulatlan tárgyat (állatot), melynek színe megegyezik a háttér színével, és felületének mintázata is ahhoz hasonló, igen nehéz észrevenni. Hosszú, sokszor hetekig, nemritkán hónapokig tartó, rendszeres gyakorlással azonban az ilyen tárgyak detektálása is javítható. Ilyenkor perceptuális tanulásról beszélünk, melynek részleteiről a későbbi kötetekben lesz majd szó.

A nehezen felismerhető tárgyak két érdekes példája látható az 5.8. b) és az 5.8. c) ábrán. Mit látunk a képeken? Ha még nem találkoztunk velük, akkor csak fekete és fehér foltok értelmetlen összevisszaságát látjuk. (Segítségként fordítsuk el 180 fokkal a könyvet, és próbáljuk most megfejteni a képeket. További segítségként az 5.8. b ábrán egy kutya, míg az 5.8. c ábrán egy emberi arc képe látható.) Az ilyen, csak teljesen fekete és teljesen fehér árnyalatokból álló képeket úgy hozzák létre, hogy igen erős megvilágítás mellett megnövelik a kép kontrasztját, ami a fényes részeket „beégeti”, míg a sötét területeket részletek nélkül, feketén hagyja. (Arcok esetében leírójukról Mooney-arcoknak nevezik ezeket a képeket.) Mivel ilyenkor a háttér elemei is véletlenszerűen lesznek fehérek, illetve feketék, azok megzavarják a tárgyak kialakulását lehetővé tévő Gestalt-szabályokat (elsősorban a zártság, a közelség, a jó folytatás szabályait), és a képet érthetetlenné teszik. A zavar abban rejlik, hogy ezeken a Mooney-képeken a tárgy nem alkot zárt egészet, és egyes darabjai hasonlóbbak és közelebb vannak a háttér elemeihez, valamint görbületük is jobban egybeesik a háttér elemeinek görbületével, mint a tárgy más részeiével. Ellentétben az előző pontban leírtakkal, az ilyen képek esetében a tanulás hirtelen, gyorsan zajlik le, és nagyon sokáig fennmarad. Az egyik percben még értelmetlen képből egyszer csak kiemelkedik egy dalmát eb vagy éppen egy színes bőrű békeharcos képe, amit azután he- tekkel-hónapokkal később is könnyű lesz felismerni. Sokszor segít az ilyen tanulásban a „felülről lefelé” jövő információ, vagyis, ha megtudjuk, hogy egy kutyát vagy arcot kell keresni a képen, illetve, ha figyelmünket valaki a kép egy adott részére irányítja (a kutya a kép jobb felső negyedében található), vagy ha bemutatják a megfigyelőnek a kép nem manipulált, eredeti változatát is. A folyamat részleteit szintén a perceptuális tanulás fejezeteiben fogjuk a későbbiekben tárgyalni.

Kétértelmű képek

Bár agyunk számítási kapacitása csodálatra méltó, egymásnak ellentmondó adatok alaposan zavarba ejthetik. Az 5.8. d)-h) ábrán olyan képek láthatók, melyek hátterüktől jól elkülöníthetőek, mégis „furcsák”, mivel egyszerre többféle, ellentmondó értelmezésük létezik. Az 5.8. e) ábrán például a legtöbb olvasó hol egy jobbra lefelé, hol pedig egy balra felfelé fordított kockát lát majd. A két kép váltakozása spontán, ritmikus és folyamatos. Az ilyen, egymással rivalizáló, kétértelmű képek esetében is segíti az egyik vagy másik értelmezést a „felülről lefelé” történő információáramlás. Az 5.8. d) képen például az idős hölgy profilja mellett nem mindenki fogja elsőre észrevenni, hogy egy fiatal hölgy elfordított arca is látható. Segít azonban, ha eláruljuk, hogy az idős nő orra egyben a fiatal nő elfordított bal arca is. Az ilyen képek érdekessége abban rejlik, hogy a vizuális bemenet (vagyis a kép maga) változatlan, agyunk mégis hol az egyik, hol a másik „értelmezés mellett dönt”. A folyamat idegrendszeri korrelátumairól a tudatról szóló tanulmányok során esik szó. Egyelőre annyit jegyezzünk meg velük kapcsolatban, hogy egy adott kép értelmezése nemcsak passzívan az „alulról felfelé” áramló információtól (vagyis a képtől) függ, hanem a megfigyelő azt aktívan tudja figyelme irányításával, tanulással is befolyásolni.