Ugrás a tartalomhoz

A magyar nyelv

Kiefer Ferenc, Bakró-Nagy Marianne, Bartha Csilla, Bánréti Zoltán, Borbély Anna, Cser András, Dömötör Adrienne, É. Kiss Katalin, Gerstner Károly, Gósy Mária, Gyuris Beáta, Haader Lea, Hattyár Helga, Holló Dorottya, Horváth László, Kassai Ilona, Kenesei István, Kiefer Ferenc, Kiss Jenő, Kontra Miklós, Korompay Klára, Kurtán Zsuzsa, Laczkó Krisztina, Nádasdy Ádám, Németh T. Enikő, Olaszy Gábor, Pléh Csaba, Prószéky Gábor, Sándor Klára, Sipőcz Katalin, Siptár Péter, Szabó Mária Helga, Tolcsvai Nagy Gábor, Váradi Tamás (2006)

Akadémiai Kiadó Zrt.

A magyar nyelvtechnológia eredményei a korpusznyelvészetben

A magyar nyelvtechnológia eredményei a korpusznyelvészetben

Mivel a számítógépek kapacitása az elmúlt másfél évtized alatt több nagyságrendet nőtt, a mai gépi nyelvészeti lehetőségek alapvetően különböznek a korábbi idők nyelvészetének kutatási paradigmáitól. E területen is a legjelentősebb a korpusznyelvészet előretörése, melynek segítségével a nyelvhasználat rejtett dimenziója kerül felszínre pontosan adatolt formában.

A Történeti Korpusz

Mint említettük, a korpusznyelvészet magyarországi története az 1980-as évek elejére, az Akadémiai Nagyszótár munkálatainak újraindításához vezethető vissza. Eredetileg 10 millió szövegszó összeállítása szerepelt a tervekben, amelyeket századonként egy-egy, főleg filológusokból álló szakértőbizottság állított össze 16–20. századbeli szövegekből. A terveket sikerült jócskán túlteljesíteni: az úgynevezett Történeti Korpusz ma már mintegy 23 millió szövegszót tartalmaz 1772 és 2000 között keletkezett szépirodalmi, tudományos ismeretterjesztő és publicisztikai művekből, műrészletekből (főbb jellemzőiről l. Pajzs–Váradi 1997). A korpusz minden szava morfológiailag elemzett alakban szerepel. A szövegek feldolgozásánál különleges problémát jelentett a régies helyesírás, illetve az archaikus alakváltozatok kezelése. A ma már nem élő helyesírási alakok kódolására az ún. Prószéky-kódkészlet kiterjesztett változatát használják, amely az alapbetű mellé tett szám segítségével kódolja az illető hang variánsait. A kihalt alakváltozatok kezelésére külön heurisztikus eljárást kellett kidolgozni (Kiss et al. 2001). A korpusz jelenleg már napi használatban szolgálja az Akadémiai Nagyszótáron dolgozó lexikográfusokat. Nyilvános változata a http://www.nytud.hu/hhc weboldalon érhető el.

A Magyar Nemzeti Szövegtár

A Történeti Korpusz munkálatai befejeztével felmerült az igény, hogy a diakrón korpusz mellett szükség lenne egy nagyméretű, az aktuális nyelvhasználatot tükröző szinkrón korpusz összeállítására is. E nagyméretű vállalkozás hívta létre 1997-ben az MTA Nyelvtudományi Intézetén belül a Korpusznyelvészeti osztályt, melynek központi feladata a ma már Magyar Nemzeti Szövegtár néven ismert korpusz megalkotása lett.

Az eredeti cél 100 millió szó összeállítását irányozta elő, amely a legújabb írásos nyelvhasználatot volt hivatott tükrözni. A korpuszépítés alapkérdése természetesen a szerkezetük meghatározása. Érthetően minden korpusz arra törekszik, hogy reprezentatív mintája legyen az adott nyelvnek, de be kell látni, hogy maga a megcélzott totalitás, azaz a nyelvhasználat egésze annyira összetett jelenség, hogy ennek szigorú értelemben vett mintáját elkészíteni elvileg is lehetetlen feladat (Váradi 2000). A Magyar Nemzeti Szövegtár öt markánsan elkülönülő nyelvhasználat köré szerveződött: sajtó, szépirodalom, (tudományos) értekező próza, hivatali nyelvhasználat és személyes közlés. Az MNSZ moduláris felépítésű, ami azt jelenti, hogy ez az öt nyelvhasználati kör egy-egy részkorpuszt alkot. A korpusz lekérdezésekor az egyes részkorpuszokat együttesen vagy tetszőlegesen bármilyen kombinációban is bevonhatjuk a vizsgálatba. Az 1. táblázat tartalmazza az MNSZ szerkezetét és méretarányait.

1. táblázat. táblázat - A Magyar Nemzeti Szövegtár összetétele

Nyelvi változat

M. szó

Forrás

Sajtó

75

online kiadások

Szépirodalom

15

Digitális Irodalmi Akadémia

Tudományos próza

20

Magyar Elektronikus Könyvtár

Hivatali nyelv

20

minisztérium, önkormányzat

személyes közlés

20

Index.hu – Törzsasztal

Összesen:

150

 

Gyakorlati korlátok miatt az MNSZ-be csak már elektronikus alakban létező szövegek kerülhettek, melyek fő forrása az internet. A munkálatok indulása idején ez nagyon kockázatos döntésnek tűnt, de az idő haladtával olyan rohamos mértékben növekedett az interneten közzétett magyar nyelvű szövegek köre, hogy ma már ez a szempont szinte semmi korlátozást nem jelent a szövegek válogatásában. Ha pedig netán felmerülne az az aggály a forrással kapcsolatban, hogy az internethasználók Magyarországon egyelőre a beszélők körére korlátozódik, akkor emlékeztetnünk kell arra a tényre, hogy a nyomtatásban megjelenő szövegeket valójában egy még ennél is szűkebb réteg állítja elő. Vagyis a helyzet épp fordított: az internet sokkal demokratikusabb publikálási forma, és ezáltal sokkal szélesebb körű mintavételt tesz lehetővé, mint a hagyományos nyomtatott médium.

  • A sajtóanyag volt a legkorábban elérhető az interneten, és azóta is ez a forrás ontja a legnagyobb tömegben a szövegeket. Az MNSZ válogatásában szerepelnek az országos napilapok mellett regionális kiadványok, és jelen van a határon túli magyarság sajtójának egy-egy képviselője. Természetesen a címke „sajtónyelv” a szövegváltozatok széles skáláját takarja, hiszen az itt található szövegek között éppúgy van novella, esszé és vezércikk mint tozsdehírek, receptek és moziműsor.

  • A szépirodalmi alkorpusz külön igen értékes részét képezi az MNSZ-nek, mivel ez teljes egészében tartalmazza a Digitális Irodalmi Akadémia anyagát. Ez azt jelenti, hogy az élő magyar klasszikus írók teljes életműve vizsgálható lesz a korpusznyelvészet módszereivel. A közzététel nem jelent egyszerű duplikációt, hiszen, amint látni fogjuk, az MNSZ nyelvileg elemzett korpusz, és ez lényegesen pontosabb lekérdezést tud lehetővé tenni, mint a szöveg felszíni alakjára irányuló keresés.

  • Az értekező próza a Magyar Elektronikus Könyvtár társadalom- és természettudományos részéből került ki. A cikkeket, monográfiát tartalmazó válogatás mellett szerepel a Természet Világa folyóirat anyaga is.

  • A hivatali nyelv kategória igen vegyes anyagot tartalmaz. Ide tartoznak például különböző jogszabályok, rendeletek, közlemények, melyeket minisztériumok, önkormányzatok, különböző hivatalos szervek tettek közzé. Egy jelentős részét e kategóriának az Országgyulési Jegyzőkönyvek anyaga teszi ki.

  • Az ún. személyes közlés alatt az Index.hu internetes újság Törzsasztal fórumának anyagát foglalja össze a kezdetektől 1999-ig. A Törzsasztal az Index.hu legnépszerűbb, leglátogatottabb fóruma, ahol a témák rendkívül színes kavalkádja került napirendre, melyek az olvasók egész széles körét késztették hozzászólásra. Ez az alkorpusz azért kapta a személyes közlés elnevezést, mert véleményünk szerint ezek a szerkesztetlen, névtelen hozzászólások közelítik meg a legjobban a spontán vita közben megnyilvánuló természetes nyelvhasználatot. Szociolingvisztikai szempontból is figyelemre méltó e vadonatúj műfaj sajátosságainak vizsgálata.

Az MNSZ nem csupán egységes keretbe foglalja a szöveget, hanem fel is dolgozza őket. Ez a munka egyrészt a szövegek bibliográfiai adatainak jelölését jelenti, amelyet a szövegek elé helyezett bevezetőben találhatunk. A szöveg fő szerkezeti és tartalmi egységeit is jelöljük. Ezenfelül minden egyes szövegszó morfológiailag elemzett alakban szerepel. A morfológiai elemzés a MorphoLogic Humor morfológiai elemzőjével (lásd a „Számítógépes morfológiai és szintaktikai rendszerek”. pontot) készült. A szavak közel egyharmada azonban többféleképpen elemezhető (gondoljunk például az igeként és részeshatározó ragos főnévként egyaránt értelmezhető várnak szóalakra). Egyedülálló teljesítménye az MNSZ-nek, hogy a korpusz teljes állományában sikerült a szavakat 97,4%-os pontossággal egyértelműsítenünk. Ezt az eredményt egy erre a célra kidolgozott statisztikai alapú eljárással sikerült elérni (Oravecz–Dienes 2002). A Szegedi Egyetem által kidolgozott automatikus egyértelműsítő eljárás (lásd a „Számítógépes morfológiai és szintaktikai rendszerek”. pontot) a gépi tanulás módszerét alkalmazta az MNSZ-ével összevethető minőségben (Alexin et al. 2001). Mindez a sok mögöttes információ az SGML jelölonyelv használatával a nyelvi korpuszokra kidolgozott CES szabvány szerint (Ide 1999) van a szövegbe beültetve. A korpuszt az IMS Workbench korpuszkezelő szoftver (Christ 1994) segítségével tettük lekérdezhetővé. A teljes MNSZ anyaga elérhető a hálózaton át a http://corpus.nytud.hu/mnsz címen.

2003 óta folyik Kárpát-medencei Magyar Korpusz néven az az NKFP-projektum, amely az MNSZ kiegészítését tűzte ki célul a határon túli nyelvváltozatokból az MNSZ elvei és módszerei szerint gyűjtött anyaggal. A munkálatokban az MTA Kisebbségkutató Intézet, illetve a Nyelvtudományi Intézet koordinálásával 4 határon túli kutatóállomás vesz részt: a dunaszerdahelyi Gramma Nyelvi Iroda, a szabadkai Magyarságkutató Társaság, a Kárpátaljai Nyelvi Iroda és a kolozsvári Szabó T. Attila Nyelvi Intézet. A korpusz az MNSZ-hez hasonló módon morfológiailag elemzett és egyértelműsített formában az MNSZ részeként a fent említett hálózati felületen keresztül lesz hozzáférhető és kereshető. A lekérdezés folyamán tetszőleges metszetben (nyelvváltozat/alkorpusz) kérhetőek az adatok. A korpusznak az MNSZ-től eltérően része lesz egy szabványos XML alapú kódolással lejegyzett beszélt nyelvi rész is, melynek köszönhetően a Kárpát-medencei Magyar Korpusz a határon túli nyelvváltozatok egyedülállóan értékes nyelvi erőforrásaként fog szolgálni. A projektumról részletes információ a http://corpus.nytud.hu/kmmk oldalon érhető el.

A Szeged Korpusz

Mivel a szóalaktani szint magában hordozza a többértelműséget, a szófaj egyértelmű megállapításához további modulok kifejlesztése vált szükségessé. Ezek megvalósításához a SZTE Informatikai Tanszékcsoport és a MorphoLogic együttműködésével alakult konzorcium egy IKTA-projekt keretében 2000 és 2002 között Szeged Korpusz néven elkészített egy magyar természetes nyelvi szövegadatbázist, valamint egy, a szófaji egyértelműsítést támogató szoftverrendszert. A korpusz a szövegeket strukturáltan tárolja (cikk, bekezdések, mondatok). A szöveg minden egyes szava mellett szerepel a Humor morfológiai elemző kimenete, amely a lehetséges szófaji kódokat és szótöveket tartalmazza, valamint a kézi egyértelműsítéssel kiválasztott, az adott szövegkörnyezetnek megfelelő helyes kódolás és szótő. A szavak szófaji kódolása az európai nyelvekre azzal az MSD-kódrendszerrel történt, amelyet az MTA Nyelvtudományi Intézet és a MorphoLogic alakított ki a MULTEXT-EAST nevű Copernicus-pályázatban. Az öt kisebb témakörből származó – szépirodalmi, publicisztikai, számítástechnikai, jogi szövegekből, valamint tizenévesek rövid írásaiból álló –, összességében egymillió szövegszót tartalmazó magyar korpusz a TEI nemzetközi szövegkódolási ajánlásnak megfelelő XML-formátumban készült (http://www.tei-c.org/). A korpusz 1.0 változatát egy 200 ezer szóból álló üzleti szövegeket tartalmazó részkorpusszal egészítette ki a NewsPro rendszert (1. lejjebb) megvalósító – és a Nyelvtudományi Intézetet is magába foglaló – konzorcium. Ezzel létrejött a korpusz: 1,2 millió szövegszavas és 225 ezer írásjel méretű 2.0 verziója. Összesen 250 ezer legfelső szintű főnévi csoport (NP) szerepel a korpuszban, a legmélyebb szerkezet 9 NP mélységű, míg a szerkezetek többsége 1–3 NP mélységű. Az annotálást követően a konzorcium kutatói megvizsgálták a gépi tanulási algoritmusok alkalmazhatóságát a lapos szintaktikai elemzés problémájára. Az algoritmusok hatékony működtetéséhez főnévicsoport-felismerő szabályokat vontak ki a korpuszból, majd ezeket szakértők által definiált szabályokkal kombinálták. A korpuszfájlok XML formátumban érhetők el, belső struktúrájuk a TEI DTD P4 leírást követi.

Angol–magyar párhuzamos korpusz

Az egynyelvű korpuszok mellett az utóbbi időben egyre több figyelem irányul az ún. párhuzamos korpuszok kutatására. Párhuzamos korpusznak olyan két-, esetleg többnyelvű korpuszt nevezünk, ahol az egyik nyelvű korpusz szövegei a másik fordításai. Az ilyen korpuszok kutatásának célja az, hogy kiaknázza és újrafelhasználja a fordításokban megtestesülő emberi tudást. Ez különféle számítógépes alkalmazások, jelesül a gépi fordítás vagy a számítógéppel támogatott fordítás számára rendkívül értékes, de a fordítástudomány is egyre inkább támaszkodik az ilyen korpuszokra.

A Nyelvtudományi Intézet Korpusznyelvészeti osztályán az EU által támogatott MULTEXT-EAST projektum keretében (Dimitrova et al. 1998) készült el az első angol–magyar párhuzamos korpusz, amely George Orwell „1984” című regényének angol eredetijét és annak magyar fordítását tartalmazza. A korpusz értékét növeli, hogy akárcsak az MNSZ, ez is gondosan van nyelvileg annotálva: minden szövegszó morfológiailag elemezve és egyértelműsítve van. A párhuzamos korpuszok vizsgálatának egyik eszköze a párhuzamos konkordancia, amely egymás mellett bemutatja azt a forrásnyelvi mondatot, amelyben a keresett szó szerepel, valamint annak fordítását. Ilyen konkordancia segítségével vizsgálható az Orwellkorpusz a http://corpus.nytud.hu/orwell webcímen.

A BME Médiaoktató és Kutató Központ (MOKK) és az MTA Nyelvtudományi Intézete 2005-ben elkészített egy nemzetközi mércével is kiemelkedő méretű általános angol–magyar referenciakorpuszt. A több mint ötvenmillió szót tartalmazó HUNGLISH korpusz a nyelvi változatok széles skáláját tartalmazza a jogi szövegektől a szépirodalomig. A http://hunglish.hu címen található korpusz olyan angol–magyar szótárként is használható, amelyben az egyes megfelelésekre teljes mondatokat tartalmazó gazdag élőnyelvi példatárat találunk.

Az INTEX/NooJ nyelvelemző keretrendszer magyar verziója

Az INTEX rendszer egy olyan átfogó szövegelemző rendszer, amely egyaránt használható korpuszlekérdező eszköznek, komplex elektronikus szótár és grammatika építésére, valamint nyelvészetet oktató eszköznek. A rendszert, melynek legújabb, gyökeresen átdolgozott változata a NooJ nevet kapta, Max Silberztein fejlesztette ki a Párizsi VII Egyetem (azóta már megszűnt) LADL laboratóriumában, és azóta a francia mellett többek között az angol, az olasz, a portugál és a szerb nyelvre is kidolgozták (http://www.nyu.edu/pages/linguistics/intex). Magyarországon maga a fejlesztő ismertette a COMPLEX’99 konferencián, de érdemi fejlesztő munkálatok a magyarra csak 2003 óta folynak.

A rendszer meghonosítását nemcsak a robusztus és gyors véges állapotú technológia indokolja, hanem a fejlesztőknek az a kifejezett szándékuk, hogy egy viszonylag könnyen használható oktatási eszközt is adjanak a nem informatikus nyelvészek számára.

Első megközelítésben az INTEX egy gyors korpuszkezelő eszköznek tunik, amely amint betöltöttünk egy sima formázatlan szöveget, máris készen áll arra, hogy lekérdezhessük reguláris kifejezések segítségével. A reguláris kifejezések azonban nemcsak a szavak alakjára, hanem nyelvi (morfoszintaktikai vagy akár szemantikai) jegyeikre is utalhatnak. Ezek az információk a szótári komponensből származnak, amely a rendszer központi részét képezi. A szótár egy-, illetve többtagú kifejezések tára, melyekben szóalakok találhatók, a lemmával és tetszőleges társított nyelvi információval, mindez igen hatékony véges állapotú belső reprezentációban. A rendszer egyedi sajátossága, hogy a szótár, a szöveg, valamint a szövegre alkalmazott grammatika mind egyaránt véges állapotú technológiával van megvalósítva. Ami a rendszert széles körben is különösen használhatóvá teszi, az a grafikai felület, amelyen viszonylag egyszerűen szerkeszthetjük és kezelhetjük a lexikai elemek vagy szintaktikai szerkezetek leírására szolgáló véges állapotú grammatikákat. Az INTEX/NooJ rendszer szótári modulja azonnal előállítja a szöveg morfológiai elemzését is. Ezt a franciában és a többi nyelvben is úgy oldották meg, hogy az egy-egy szótőhöz tartozó összes képzett és ragozott alakot tételesen felsorolják a szótárban, ami a magyar morfológia gazdagsága és produktivitása miatt nem járható út az Értelmező Kéziszótárban szereplő összes szó valamennyi lehetséges toldalékolt alakjára.

A magyar változat előállításához tehát meg kellett oldani a morfológiai elemzés kérdését. Az INTEX bizonyos kötöttségei miatt ezt csak a Magyar Nemzeti Szövegtár teljes szóalakanyagának INTEX szótárrá alakításával volt lehetséges, ami azt jelenti, hogy a rendszer az MNSZ-ben előforduló összes alakot képes kezelni, de csak azokat. A rendszer új változatában, a NooJ-ban viszont már sikerült két különböző eljárást is kifejleszteni az ÉKSz szókincséből előállítható valamennyi érvényes alak kezelésére (Vajda–Nagy–Dancsecs 2004). Az INTEX rendszer magyar változata kutatási célra mindenki által szabadon elérhető a http://corpus.nytud.hu/INTEX címen. A NooJ rendszer és a magyar nyelvi modul a http://www.nooj4nlp.net címen található.