Ugrás a tartalomhoz

A magyar nyelv

Kiefer Ferenc, Bakró-Nagy Marianne, Bartha Csilla, Bánréti Zoltán, Borbély Anna, Cser András, Dömötör Adrienne, É. Kiss Katalin, Gerstner Károly, Gósy Mária, Gyuris Beáta, Haader Lea, Hattyár Helga, Holló Dorottya, Horváth László, Kassai Ilona, Kenesei István, Kiefer Ferenc, Kiss Jenő, Kontra Miklós, Korompay Klára, Kurtán Zsuzsa, Laczkó Krisztina, Nádasdy Ádám, Németh T. Enikő, Olaszy Gábor, Pléh Csaba, Prószéky Gábor, Sándor Klára, Sipőcz Katalin, Siptár Péter, Szabó Mária Helga, Tolcsvai Nagy Gábor, Váradi Tamás (2006)

Akadémiai Kiadó Zrt.

Szupraszegmentális hangjelenségek: a beszéd „zenei” elemei

Szupraszegmentális hangjelenségek: a beszéd „zenei” elemei

Bármely nyelv, így a magyar nyelv „zenei” (szupraszegmentális/prozódiai) elemei is jórészt a gégefőben elhelyezkedő hangszalagok rezgése nyomán keletkező zöngehang rezgésszámából, erejéből és időtartamából nőnek ki, tehát eredetüket tekintve egyetemesek. Zeneinek azért nevezzük őket, mert úgy hatnak fülünkre, mint a zene, és mert a zene is e tulajdonságaikban változó hangokból épül fel. A jelzőt a címben közrefogó idézőjel azonban egyszersmind a különbségüket is kifejezi, hogy tudniillik az emberi hang, a zönge nem teljesen periodikus (lásd a „A beszéd mint fizikai jelenség”. pontot). Mint már utaltunk rá (lásd a „A beszéd észlelése”. pontot), a zönge fizikai tulajdonságainak az észleletben az általuk keltett szubjektív benyomás felel meg. Így a frekvenciának a hangmagasság, a hangerőnek a hangosság, a rezgés felépülésétől a lecsengéséig eltelő időnek a szubjektív tartam a megfelelője. Amíg azonban a hangingert jellemző fizikai tulajdonságok egymástól független változók, a hangérzetet meghatározó szubjektív tulajdonságok egymással szorosan összefonódnak. Ezért a megítélésük egymás nélkül nem hiteles; például nem jutunk érvényes megállapításokra a hangmagassággal kapcsolatban, ha ugyanakkor nem ismerjük a hangosság és az időtartam aktuális mutatóit is.

A „zenei” elemek között kell számon tartanunk egy, az előzőekkel ellentétes természetű, de viselkedésében és funkcióiban rokon jelenséget, a szünetet.

A diszkrét beszédhangokhoz képest az ezek sorozatában kialakuló és működő szupraszegmentális elemek analóg jel természetűek, szignifikáns jelkülönbségeiket fokozataikkal képezik, a fokozatok maguk rendezett hierarchia elemei. Ebből az is következik, hogy észlelésük állandó viszonyítást igényel, és értelmezésük egymáshoz képest következik be.

Vegyük sorra az egyes prozódiai elemeket fizikai alkatuk, észlelésbeli viselkedésük és nyelvbeli megjelenésük szempontjából!

Rezgésszám, hangmagasság, hanglejtés

A hangmagasság a hangrezgés frekvenciájának (egysége a hertz = Hz) a megfelelője az észlelés síkján, tehát nem a fizikai hangingernek, hanem az élettani hangérzetnek a tulajdonsága. Érzékelése elsősorban a rezgés alapfrekvenciájától függ, de kisebb mértékben a másik két hangösszetevő, a hangerő és az időtartam is módosítja az észlelt hangmagasságot.

A hangmagasságot a beszédben többféleképpen is hasznosítjuk. A beszélő legalacsonyabb és legmagasabb alapfrekvencia értékének a különbségében kifejeződő hangterjedelmen belül figyelembe vesszük a hangmagasság relatív szintjét, másfelől a hangmagasság-változásirányát, a hangmenetet. Az előbbi adja a hangfekvést, az utóbbi a hanglejtést vagy beszéddallamot, idegen szóval intonációt (lásd a „A hanglejtés”. pontot). A fonetikai kutatásban általában három hangfekvést különböztetnek meg, alacsony, közepes és magas fekvést. A közepes fekvés megegyezik a beszélő leggyakrabban használt hangmagasságával. A magyar nőknél a vizsgálatok 184 Hz-es átlagot regisztráltak, a magyar férfiak megfelelő átlaga 103 Hz-nek adódott. Az említettek mellett lehetőség van egy nagyon alacsony és egy nagyon magas fekvés beiktatására az érzelmileg színezett közlések jellemzésére. A hangmagasság-változás három lehetséges iránya, az ereszkedés, a szinttartás és az emelkedés, illetőleg ezek gyorsabb időbeli lefutású változata, a szökés és az esés, valamint ezek kombinációi különböző dallamsémákat hoznak létre, amelyek lehetnek elöl esők, hátul esők, emelkedő-esők, lebegők, szökok stb. A sémák szélső értékei közötti frekvenciakülönbség a hangköz, amely lehetővé teszi a dallamok elemzését az észlelés felől, ugyanis a beszéd magassági különbségeit a zenében használatos oktávskála hangközeivel szokás kifejezni. A fonetikus azért folyamodik a zenei skálához a beszédben tapasztalható magassági különbségek értékelésekor, mert segítségével értelmezhetővé válnak a dallamgörbe két pontja között méréssel megállapított objektív rezgésszám-különbségek. Ezek igen nagyok lehetnek abszolút értelemben, a benyomás azonban, amelyet keltenek, az észlelés logaritmikus léptékének a következményeként azonos.

A hangmagasságélmény kialakításában a fizikai paraméterek kölcsönhatása rendkívül bonyolult. A mértéket, amellyel részt vesznek a hangélmény módosításában, éppen szoros egybefonódottságuk miatt nehéz megállapítani. A muszeres elemzés és az auditív elemzés eredményeinek az összevetésével azonban közelebb jutunk annak kiderítéséhez, hogy az időtartam és az intenzitás mennyiben befolyásolja a méréssel feltárt frekveciakülönbségeknek az észlelését, illetőleg milyen más tényezők hatásával kell számolnunk. Ezen a módon megragadhatók a magyar nyelvben használatos különféle mondattípusok statisztikusan érvényes prozódiai jellemzői. Így például a hangmagasságcsúccsal induló dallamformák kiegészítendő kérdések, kijelentő mondatok, felszólító és óhajtó mondatok egyaránt lehetnek, a különbség közöttük mennyiségi. Ez úgy értendő, hogy ha a csúcs és az ezt követő szótag közötti frekvenciacsökkenés 50–80 Hz körül van, illetőleg tercnyi, kijelentést hallunk, ha azonban 130–180 Hz körül, azaz kvint, akkor kiegészítendő kérdés mellett döntünk. A felszólító mondatot a dallamesés (lelépés) mellett, amelynek a mértéke nagyjából megegyezik a kiegészítendő kérdést jellemzővel, a kezdő- és a végpont közötti intenzitáscsökkenés mértéke különíti el az előző két típustól. Az első szótagi dallamcsúcs óhajtó mondatot indít, ha a csúcstól kezdve fokozatos a frekvenciacsökkenés és időben elhúzódó, ami rendkívül csekély dallammozgást jelent az észlelés szintjén. A szekvencia utolsó szakaszában megjelenő dallamcsúcs egyértelmű hordozója a kérdőszó nélküli eldöntendő kérdésnek, különösen akkor, ha a megnyilatkozás végén a dallam alacsonyabb értékre ereszkedik, mint amilyen értékről a kérdés indult. Ha érzelem is vegyül a megnyilatkozásba, az iménti konfigurációk a hangtartomány magasabb régiói felé tolódnak el, azaz az érzelem mintegy rátelepszik a semleges kifejezésre szemléltetéséül annak, hogy a kétféle kifejezés között csupán fokozati különbségek vannak.

Hangerő, hangosság, hangsúly

Bármely hangjelenség fizikai ereje (intenzitása) felületegységre eső hangteljesítmény, mértékegysége a W/cm2. Az emberi fül által észlelhető legkisebb hangerő 10-16 W/cm2. Két hang erejének az összehasonlítására a két intenzitás hányadosának tízes alapú logaritmusa, illetőleg ennek az értéknek a tizedrésze használatos, a neve decibel (dB). A decibel-skála 0 pontja a hangintenzitás alapszintje, amelynek a fül észlelési küszöbéhez tartozó, már említett 10-16 W/cm2 intenzitás felel meg 1000 Hz frekvencián.

A hang fizikai ereje hangosságként jelenik meg az észleletben. A kialakuló hangosságélményt azonban, annak ellenére, hogy alapvetően a hangerőtől függ, egyéb tényezők is befolyásolják. Mindenekelőtt a kérdéses hangjelenség frekvenciája: egységnyi hangerőt eltérő frekvenciákon különböző hangosságúnak hallunk. Kisebb mértékű az összefüggés az időtartammal: túl hosszú (1000 ms-ot meghaladó időtartamú) hang esetén a fül kifáradása miatt, a fül beállási idejénél (200 ms) rövidebb hangjelenség esetében pedig az elégtelenül rövid idő miatt nem megfelelő a hangosságról alkotott szubjektív ítéletünk. A hangosság megváltozásának az érzékelése szintén frekvenciafüggő: egységnyi hangosságváltozás érzékeléséhez az alacsonyabb frekvenciákon jóval kisebb hangerőkülönbség szükséges, mint a magasabb frekvenciákon.

A beszélő leggyengébb és legerősebb hangja által képviselt dinamikai tartományon belül tekintetbe vesszük a hangerő relatív szintjét (erős, közepes, gyenge) és a hangerőváltozásirányát (gyengülő, szinttartó, erősödő), valamint ezek kombinációit (gyengülő-erősödő, szinttartó-gyengülő, erősödő-gyengülő stb.). A változás időbeli lefolyása szerint beszélünk hirtelen és enyhe változásról, a mértéket a dB/s (decibel/másodperc) hányados fejezi ki. Adott szekvencia vonatkozásában meghatározhatjuk a minimális (Imin) és maximális (Imax) által adott intenzitásközt vagy intenzitásszint-különbséget, amely például a kijelentő és felszólító modalitások tekintetében elkülönítő szerepű lehet (lásd a „Rezgésszám, hangmagasság, hanglejtés”. pontot).

Mármost, amikor a közlés valamely szótagját vagy szótagjait a többihez képest kiemelő hangsúlynak, ennek a nyelvi tényezőnek (lásd a „A hangsúly”. pontot) a fizikai megfelelőjét keressük, még nehezebb a dolgunk, mint amikor a hanglejtés fizikai hátterét igyekeztünk tisztázni, mivel a hangsúly előidézésében az intenzitás még annyira sem tekinthető alapvetően meghatározónak, mint az intonáció létrejöttében az alapfrekvencia változása. Elvileg a hangsúly, mivel lényege szerint kiemelkedés (prominencia), lehet akár az intenzitás, akár az időtartam, akár a frekvencia kiemelkedő értéke. Lényege tehát észlelési tesztek nélkül nem tárható fel maradéktalanul.

Adataim tanúsága szerint ahhoz, hogy csak egy hangsúlyt észleljünk a megnyilatkozásban, a szótagok között 10 dB feletti hangerőkülönbségnek és kis tercet meghaladó hangközkülönbségnek kell lennie. Minél kisebbek az intenzitás- és rezgésszám-különbségek a szótagok között, annál valószínűbb, hogy mindegyik szótag hangsúlyosnak vagy egyneműen hangsúlytalannak minősül az észleletben. A legnagyobb eséllyel az a szótag kelt hangsúlyélményt a hallgatóban, amelyik mind frekvenciájával, mind intenzitásával kiemelkedik. A két paraméter közül azonban a frekvencia az alapvetőbb, mert ha valamely szótag magasabb hangfekvésű vagy emelkedő dallamú, még abban az esetben is hangsúlyélményt kelt, ha intenzitása jóval alacsonyabb, mint a környezetében lévő többi szótagé. Bizonyított például, hogy az eldöntendő kérdésekben nehéz a hangsúlyról dönteni. A jelenséget az magyarázza, hogy a hallgató figyelme megoszlik a szekvencia végén kialakuló, modalitást jelző dallamcsúcs és az előrébb lokalizálható intenzitáscsúcs között, és mivel mindkét csúcs képes hangsúlyélményt kelteni, a hallgató elbizonytalanodik. Kiemelkedő intenzitású szótag, ha mély hangfekvéssel vagy ereszkedő dallammal párosul, a magyarban nem kelt hangsúlyélményt. Általánosan fogalmazva: a szekvencia adott pontján a magasabb hangfekvés vagy az emelkedő dallam hangsúlyélményt kelt, bármilyenek az intenzitásviszonyok.

Fizikai idő, szubjektív tartam, beszédsebesség

A mérhető időtartammal van összefüggésben a beszédtempó, amely nem más, mint az időegységre jutó beszédegységek (hang, szótag, szó, szakasz) mennyisége, és egy nyelvközösségen belül viszonylag állandó jellemző. A magyar beszéd tempóját szokásosan hang/másodpercben vagy szótag/másodpercben adjuk meg. A tempószámítás két lehetséges módja a beszédhangok képzésére fordított idő, ez adja az artikuláció sebességét, másfelől a tulajdonképpeni közlésiram számítása, amely a közléstartamba beleérti a szünetet, a habozást (hezitációt), tehát minden, nem a beszédképzésre fordított időjelenséget. Az átlagos köznapi beszéd tempóindexe a mai magyar köznyelvben 14 hang/mp.

Az észlelés oldaláról a beszédtempónak általában három fokozatát különböztetjük meg, a lassú, a közepes és a gyors tempót. A tempó időbeli változása tekintetében gyorsuló és lassuló tempóról beszélünk. A beszéd sebességének érzete azonban nemcsak a hangképzés időzítésétől függ, hanem egyéb tényezőktől is, így elsőként a hangfolyamatot megszakító szünetek számától és időtartamától. Egy példa: az egyenletes tempójú hírolvasásban a szünetek és az artikulációs idő aránya, az előbbit 1-nek véve, 1:2,4, a gyorsnak minősülő sportközvetítésekben azonban a szünetidőnek nyolcszorosa az artikulációs idő, tehát a magyar riporter elsősorban a szünettartás csökkentésével éri el a beszédtempó gyorsításának hatását. Befolyásolja a tempóészlelést saját beszédünk tempója is. Az összefüggés olyan, hogy minél gyorsabb a saját beszéd tempója, annál lassúbbnak észleljük mások tempóját és fordítva. Az említettek mellett a beszédtempó észlelésében járulékos tényezőként számon kell tartanunk az átlagos hangerőt és hangmagasságot, a hangsorszerkezetet és a hangsúlyt.

A funkció felől tekintve a beszédtempó jelzi a közlemény műfaját (vers, prédikáció, mese, sportközvetítés, tudományos előadás stb.), bármilyen műfajú közleményen belül pedig a lassítások és gyorsítások révén hozzájárul a közlemény aktuális tagolásához, azaz az új és az ismert információ jelzéséhez. Jelentős mértékben függ tőle a közlés értelmezésének sikere: ha túl gyors a tempó, fontos részek sikkadnak el, ha meg túl lassú, a hallgató érdeklődését veszti, és nem figyel a közleményre. Köznapi tapasztalat, hogy az idegen nyelvű beszédet ugyanolyan tempóindex mellett gyorsabbnak halljuk, mint az anyanyelvi beszédet. Ennek a szubjektív élménynek az az objektív oka, hogy lassabban dolgozzuk fel az információt, mint anyanyelvünkben, ezáltal aszinkronba kerülünk a beszélőhöz képest. Beszédének átlagos és aktuális sebessége a beszélőről is közöl információkat. Az átlagos sebesség kifejezi az egyén vérmérsékletét, amely minél hevesebb, annál magasabb tempóindexszel jellemezhető és fordítva. A beszédében tapasztalható tempóváltások pedig aktuális érzelmi állapotára engednek következtetni: az öröm és a zaklatott lelkiállapot pl. egyaránt gyorsabb tempóban jut kifejezésre, míg a szomorúság, a bú, a csalódottság lassúbb folyást enged magának.

A szünet és a szünethordozók

A szünet – a közlemény szerkezeti és értelmi-logikai tagolásának elsőrendűen fontos eszköze – alapvetően biológiai funkcióhoz kapcsolódik, a belégzéshez, amellyel a szervezet oxigénellátását biztosítjuk. De jelentősen függetlenedik is tőle, és vagy önmagában, vagy a hangsúllyal és a hanglejtéssel kooperálva ellátja a rábízott kommunikációs feladatokat. A szünetnek lényegi jegye, hogy két elem viszonyában létezik, tehát a közlés indítását és befejezését nem szünet, hanem csend előzi meg, illetőleg követi.

A szünetek akusztikai és percepciós szempontú vizsgálata, azaz a mért és észlelt szünetek összevetése megerősíti azt az intuitív tapasztalatot, hogy a hallgató által észlelt szünetek objektív alapja nem minden esetben nyelvi és akusztikai jelkimaradás. Akkor hát mit tart a hallgató szünetnek, azaz mi a szünet percepciós realitása? A kérdésre a választ ennek a prozódiai elemnek az esetében is az objektív és a szubjektív oldal együttes elemzése adja meg. Ennek alapján a hallgatók által jelzett szünetek képviseletében a magyar nyelvben az alábbi jelenségek fordulhatnak elő:

  • akusztikai jelkimaradás,

  • a beszédláncra jellemző hasonulások elmaradása,

  • szókezdő vagy szóvégi beszédhangok megnyújtása,

  • gégezárhang (glottális zár) a szókezdő magánhangzó elején (kemény hangindítás),

  • erős nyomatékú hangsúly,

  • a hangmagasság hirtelen változása (felszökése vagy leesése),

  • a tempó lefékezése,

  • hiperartikuláció.

Ezek a jelenségek gyakran egymással kombinálódva testesítik meg a szünetet a beszédfolyamatban (pl. a magánhangzó glottális zárral indul + megnyúlik). A leggyakoribb szünethordozó a jelkimaradás, tehát az artikuláció hiánya, ezt követi a beszédhang nyúlásában megjelenő „szünet”, majd a glottális zár és az alkalmazkodások elmaradása. A többi tényező fellépése nem számottevő. Az észlelés biztonsága egyenes arányban van az időtartammal: minél hosszabb időtartamú a jelkimaradás, annál biztosabb az észlelése. 50–200 ms között alacsony a felismerési ráta, ha semmi egyébre nem támaszkodhat a hallgató az észlelésben. Ha azonban a rövid időtartamú jelkimaradás kiegészül pl. hangzónyúlással, glottális zárral, erős hangsúllyal vagy szintaktikai határral, javul az észlelési arány.

A hallgató megkülönböztet, közepes és hosszú szünetet. Az egyes szünet-fokozatoknak mint kategóriáknak az időtartammal való megfelelése azonban csupán tendencia jellegű, hiszen gyakoriak a kategóriák közötti átfedések. Pl. 1235 ms, 480 ms és 205 ms egyaránt képviselhet hosszúnak észlelt szünetet. Ez pontosan azáltal lehetséges, hogy a szünetfokozat megítélésében nem mindig és nem feltétlenül az időtartam az elsődleges tényező, hanem a szünetet létrehozó elemegyüttes valamely más eleme. Például a hangos szakaszt (hezitatív töltelékelemet) is tartalmazó ún. hangos szünet könnyen kelti a hosszú szünet érzetét, noha esetleg nagyon is rövid időtartammal valósul meg. Jellemzője a szünet észlelésének az is, hogy minél avatatlanabb a hallgató, annál kevésbé regisztrálja a nem jelkimaradásban jelentkező szüneteket. Még kevésbé észleli a nem-grammatikus, tehát a szóhatárokon belüli és a téves kezdést követő, újrakezdést megelőző szüneteket, bármilyen fonetikai formában jelenjenek is meg. Ezzel szemben számtalanszor észlel szünetet olyan helyen, ahol szemantikai vagy grammatikai kritériumok alapján várható volna, de ténylegesen semmilyen formában nem jelenik meg. A laikus fül tehát „virtuális szünetekre” van beállítva.

Az ismertetett variabilitás miatt talán a szünet példázza leginkább a beszéd hangbeli arculatának és a mögötte meghúzódó elvont nyelvrendszernek bonyolult, sokszoros áttételek révén megnyilatkozó kapcsolatát.

[1] [2] [3] [4] [5] [6] [7] [8] [9] [10][1] 1 A Neander-völgyi ember, amely az emberi fajfejlődésnek egy oldalágát képviseli, még nem volt birtokában ennek a megváltozott szervrendszernek.

[2] 2 A szervezet levegőcseréjének biztosítása a belégzés (inspiráció) és a kilégzés (exspiráció) váltakoz–tatása révén. A be- és kiáramló levegő mennyisége átlagosan 500 cm3, de a tüdő teljes kapacitása ennek mintegy a tízszerese; a vitális kapacitás, azaz a felhasználható levegőmennyiség ennél kevesebb, 3500 cm3 körül van. Úgy oszlik meg, hogy az 500 cm3 áramlási levegőn túl tartalmaz 1500 cm3 kiegészítő, ún. komplementer levegőt, amelyet erőltetett légzéskor használhatunk fel, továbbá egészen mély légzéskor rendelkezésre áll még 1500 cm3 tartalék, ún. rezerv levegő. A teljes kapacitáshoz szükséges 1500–2000 cm3 az ún. reziduális levegő, amelyhez azonban nem lehet hozzányúlni.

[3] 3 Statisztikai átlagot tekintve a férfiak zöngéjének az alaprezgése 80 és 140 Hz között, a nőké 160 és 260 Hz között alakul, tehát közel 2 oktáv terjedelmű. Kisgyerekek alaphangja 500 Hz-ig is elmehet. Ezek természetesen átlagértékek, hiszen van olyan nő, akinek az alaphangja beleesik a férfiakra meghatározott tartományba, és van olyan férfi, akinek nőies a hangja.

[4] 4 A sajátrezgésszám az a frekvencia, amellyel nyugalmi helyzetéből kimozdulva bármilyen rugalmas közeg (szilárd test, cseppfolyós vagy légnemű anyag) szabad rezgést végez.

[5] 5 Ebben a fejezetben a beszédhangokat a Nemzetközi Fonetikai Ábécé (IPA) szerint jelöljük. A [:] a hosszúság jele (tehát pl. [a :] = á); további főbb eltérések a magyar ábécé betűinek hangértékétől: [ɔ] = a, [ε] = e, [ø] = ö, [y] = ü; [s] = sz, [ʃ] = s, [ʒ] = zs, [ts] = c, [tʃ] = cs, [dʃ] = dzs, [c] / [] = ty, / = gy, [ɲ] = ny.

[6] 6 Ezt a fiktív helyzetet illusztrálja sematikusan az 5. ábra, mégpedig abban a fázisban, amikor az alaphártya éppen kileng egy közepes frekvenciájú szinuszrezgés hatására.

[7] 7 Az akusztikai adatokból kikerekedő, árnyaltabb ábrázolás igazolja a puszta füllel végzett elemzések alapvetően helyes voltát, hiszen a háromszög elrendezés a német Hellwag nyomán vált ismertté a 18. században, amikor gépi elemzésre még gondolni sem lehetett.

[8] 8 Fiziológiai szükségszerűségből az apikális képzés nem társulhat, mondjuk, a veláris területtel.

[9] 9 A beszélő/hallgató által annak tartott.

[10] 10 A Ranschburg Pál pszichológus által a 20. század elején felfedezett idegműködésbeli törvényszerűség azt fejezi ki, hogy az egymáshoz nagyon hasonló elemek feladják saját minőségüket, és mennyiségileg egybeolvadnak.