Ugrás a tartalomhoz

A magyar nyelv

Kiefer Ferenc, Bakró-Nagy Marianne, Bartha Csilla, Bánréti Zoltán, Borbély Anna, Cser András, Dömötör Adrienne, É. Kiss Katalin, Gerstner Károly, Gósy Mária, Gyuris Beáta, Haader Lea, Hattyár Helga, Holló Dorottya, Horváth László, Kassai Ilona, Kenesei István, Kiefer Ferenc, Kiss Jenő, Kontra Miklós, Korompay Klára, Kurtán Zsuzsa, Laczkó Krisztina, Nádasdy Ádám, Németh T. Enikő, Olaszy Gábor, Pléh Csaba, Prószéky Gábor, Sándor Klára, Sipőcz Katalin, Siptár Péter, Szabó Mária Helga, Tolcsvai Nagy Gábor, Váradi Tamás (2006)

Akadémiai Kiadó Zrt.

A magyar nyelvtechnológia eredményei a fordítástámogatásban

A magyar nyelvtechnológia eredményei a fordítástámogatásban

A globalizációnak elkerülhetetlen kísérőjelensége, hogy egyre több embernek van szüksége idegen nyelvű szövegek megértésére vagy lefordítására. Mivel sokan devalválták a „gépi fordítás” kifejezést az elmúlt időszakban, fontos elmondani, hogy az általános célú valódi gépi fordítás még mindig várat magára, de a fordítástámogató rendszerek szép sikereket érnek el. A számítógépes fordítástámogatás azt jelenti, hogy a fordítást igazából a fordító végzi, de szükség esetén hatékony segítséget kap az erre a célra kifejlesztett nyelvtechnológiai eszköztől. A legfontosabb ilyen eszköz természetesen az intelligens számítógépes szótár, amelynek alapvető funkciója, hogy a szövegekben előforduló tetszőleges toldalékolt szóalak tövének megfelelő címszót megtalálja, akár többszavas kifejezések részeként is. Az igazán hatékony gépi szótárrendszerek egyszerre korlátlan számú szótár kezelésére képesek. Számítógépes szótárak ma már ezerszám kaphatók a piacon, ám ezek közül csak kevés érdemli meg az „intelligens” jelzőt. Ilyen gépi szótárrendszer volt a kilencvenes években a MoBiDic; melynek a széles felhasználóréteg számára készült ingyenes változata a MoBiWeb elérhető a http://www.mobidictionary.com internetcímen.

Nagyon sok számítógépes szótár meglevő nyomtatott szótár adaptációja; a számítógép képernyőjén a szócikkek pontosan abban a formában jelennek meg, ahogy a könyvben. A szótárakhoz tartozó programok általában a multimédia eszközeivel egészítik ki a szótárt (pl. a kiejtéssel). A nagy szótárkiadók által kiadott elektronikus szótárak hangsúlyozzák is a szótár könyv jellegét: a több szótárat is kezelő programok nagy része például az ún. könyvespolc segítségével – azaz polcról alternatívan levehető könyvek halmazaként – jeleníti meg az elérhető szótárakat. Ilyen jellegű az Akadémiai Kiadó korábban megjelent szótárait működtető SPT-GIB rendszer is. Ugyanakkor az a többszótáras program használható igazán jól, amely lehetővé teszi, hogy felhasználója egyszerre több szótárt „tartson nyitva”, magyarul amelyben a könyvespolcról egyszerre több szótár is „leemelhető”. Ez azt is jelenti, hogy a keresett szót a fordítónak csak egyszer kell megadnia; a szótárprogram külön kérés nélkül elvégzi a keresést minden nyitott szótárban, és a különböző szótárakból származó találatokat egyszerre megjeleníti. Így működött a MoBiDic program is: egyetlen felületen mintegy 50 különféle alap- és szakszótár (http://www.morphologic.hu/h_szotarak) készült el ebben a formában, beleértve az Akadémiai Kiadó felújított nagyszótársorozatának tagjait is.

A MorphoLogic az Európai Unió egy, sok tízezer oldalnyi jogszabály-anyagát lefordító – több mint 100 fordítóból álló – konzorcium számára elkészítette a MoBiDic H-Plus (Prószéky 2002) terminológiakezelő szótárrendszert, amely a MoBiDic különböző változataiban alkalmazott technológia továbbfejlesztésével készült. A rendszer segítségével lehetővé vált a tematikus terminológiai adatbázisok elektronikus építése és korrektúrája. A projektum során számos további elektronikus segédeszközt is alkalmaztak fordítások ellenőrzésére és glosszáriumok automatikus, illetve félautomatikus építésére. Az Igazságügyi Minisztérium által koordinált jogharmonizációs fordítási munkálatok kapcsán feltétlenül meg kell említeni azt a négynyelvű Európai Uniós terminológiagyűjteményt, melyet egyfajta fordítási melléktermékként hozott létre a fenti fordítói közösség.

Terminológiai munkálatok folynak a MorphoLogic részvételével 2005-től egy eContent-projektumban is: az EuroTermBank célja több újonnan csatlakozott ország (a Balti államok, Lengyelőrszág és Magyarország) Európai Uniós terminológiájának összehangolása, a jelenlegi terminológiai erőforrások fejlesztése. Szintén uniós téma, hogy a MorphoLogic az MTA Nyelvtudományi Intézetével közösen kifejlesztett egy olyan rendszert, amely automatikusan képes dokumentumok az Európai Bizottság és az Európai Parlament által használt Eurovoc-osztályozás szerinti tematikus besorolására. Szintén terminológiakezeléssel kapcsolatos a Digitális Terminológus elnevezésű IKTA-pályázat is. Ennek célja egy hálózati szolgáltatással kombinált programtermék prototípusának kifejlesztése, amely új forrásszövegekben automatikusan megkeresi a terminológia körébe eső szavakat, kifejezéseket, és ezekre esetleg fordítást is javasol (utóbbi attól függ, hogy a rendszer rendelkezésére álló autentikus terminológiai adatbázisokban megtalálja-e). A hálózati szolgáltatás lényege, hogy a hatékony kereséshez a rendszer téma- és nyelvfüggő korpuszstatisztikát, lokális nyelvtani szabályokat és esetleg szószedeteket igényel.

Egy-egy szó vagy kifejezés másik nyelvi megfelelőjét a leggyakrabban szövegek olvasása közben keressük. Amennyiben ez a szöveg a számítógép képernyőjén található, a keresendő szavak teljes környezetükkel együtt vannak jelen. Az ilyen szavak esetleges egyértelműsítése, illetve nagyobb kifejezésben való előfordulásuk felfedezése éppen a szövegkörnyezet alapján történhet meg. A nem számítógépes szótárakban nem volt ilyen lehetőség – hiszen gondoljuk csak el, honnan vehetnénk a környezetre vonatkozó információt, hacsak nem a szótárhasználó „fejéből”. Ez pedig nem teszi lehetővé, hogy a hagyományosan megfogalmazott szócikkek méretét bármi módon is csökkentsük az aktuális környezet igénye szerint — éppen ellenkezőleg: az összes lehetséges környezetre fel kell készíteni az ilyen szótárat. Ugyanakkor az új típusú, dinamikus elektronikus szótáraknak mindig csak annyi információt kell adniuk, amennyi az adott szövegkörnyezet megértéséhez szükséges. Az egyetlen követelmény, hogy a szótárazandó szó beolvasásakor rendelkezésre álljon annak eredeti környezete, akár dokumentumfájlról, akár egy weboldalról, akár más elektronikus dokumentumról van szó. Ennek a technikája is létrejött az utóbbi időben (Clark 2000), így az utolsó olyan akadály is elgördült az új szótártípus létrehozása elől, amely értelmetlenné tehette volna a pusztán elméletileg létező szótárkonstrukció kidolgozását. A gépi szótárhoz csatlakoztatott morfológiai komponens kiegészül egy szövegkörnyezet-elemző modullal, és a kívánt szóval alkotott összes több szavas vagy igekötős szótárbeli kifejezést ezzel a szövegkörnyezettel veti össze a program (Prószéky–Kis 2002). Ha a modul egy szótári kifejezés minden szavát (illetve ennek tövét) megtalálja a kívánt szó környezetében, ezeket is a dinamikusan összeálló virtuális szócikk részévé teszi. A megjelenítendő szócikk tehát sohasem tartalmaz olyan elemeket, melyek elvileg létrejöhetnek a kérdéses szó közreműködésével, de nincsenek benne az aktuális szövegkörnyezetben.

Ugyanakkor, ha a felhasználó a neki címzett vagy a világhálón talált szövegek elolvasásához, megértéséhez keres segítséget (például böngészés közben), olyan „megértés-támogató” programot igényel, amelynek segítségével azonnal megtekintheti egy-egy idegen szó jelentését anélkül, hogy el kellene hagynia azt a szövegszerkesztő vagy böngészoprogramőt, amellyel éppen dolgozik. Erre készült a MorphoLogic cég MoBiMouse programja, amely 1999-ben az Európai Unió információtechnológiai díját, az IST-Prize-t is elnyerte. A programnak egyedülálló érdekessége, hogy három technológiát egyesít: speciális karakterfelismerő technikával – külön program elindítása nélkül – elolvassa a képernyőre írt szavakat, majd nyelvi elemzést végez (előállítja az elolvasott szó szótári alakját, elemzi a szó környezetét és kiválasztja az ott legmegfelelőbb jelentéseket), végül végrehajtja a szótári keresést, és megjeleníti az eredményt. A MoBiMouse tehát az intelligens szótárrendszer olyan változata, amely megjeleníti a képernyon látható tetszőleges szöveg szavainak lefordítását egyetlen kattintás nélkül, az egér megfelelő helyre mozgatásának hatására.

A MoBiMouse Plus rendszer a MoBiMouse és a MoBiDic technológiák összeházasítása. Ez azt jelenti, hogy lehetőség van akár az egérmutató fölött felugró buborékban, akár a szokásos szótárprogram-felületen megnézni az egérmutató segítségével kiválasztott szót, illetve annak jelentéseit. Ez utóbbiba mind közvetlenül beírva, mind a MoBiMouse esetén megszokott rámutatásos technikával lehet indítani a szótári keresést. Az új technológia mellett a rendszerben megjelentek az angol és német Akadémiai Nagyszótárak, nyelvpáronként több mint 400 000 szó és kifejezés másik nyelvi megfelelőivel, majd több szakszótár (többek közt gazdasági, informatikai, üzleti szótárak, valamint az EU hivatalos kifejezéstára, melyet a jogharmonizáció-fordítás gépi támogatásáról szóló részben már említettünk. A MoBiMouse Plus rendszer több szótár egyidejű kezelését is megvalósítja, így a felhasználók számára a technológia a legnagyobb szótárazási hatékonyságot és kényelmet biztosítja.