Ugrás a tartalomhoz

A magyar nyelv

Kiefer Ferenc, Bakró-Nagy Marianne, Bartha Csilla, Bánréti Zoltán, Borbély Anna, Cser András, Dömötör Adrienne, É. Kiss Katalin, Gerstner Károly, Gósy Mária, Gyuris Beáta, Haader Lea, Hattyár Helga, Holló Dorottya, Horváth László, Kassai Ilona, Kenesei István, Kiefer Ferenc, Kiss Jenő, Kontra Miklós, Korompay Klára, Kurtán Zsuzsa, Laczkó Krisztina, Nádasdy Ádám, Németh T. Enikő, Olaszy Gábor, Pléh Csaba, Prószéky Gábor, Sándor Klára, Sipőcz Katalin, Siptár Péter, Szabó Mária Helga, Tolcsvai Nagy Gábor, Váradi Tamás (2006)

Akadémiai Kiadó Zrt.

34. fejezet - Nyelvtechnológia

34. fejezet - Nyelvtechnológia

Gábor, Prószéky

Gábor, Olaszy

Tamás, Váradi

Tartalom

34.1. Mi a nyelvtechnológia?
34.2. A magyar számítógépes morfoszintaxis és alkalmazásai
34.2.1. Számítógépes morfológiai és szintaktikai rendszerek
34.2.2. Helyesek: helyesírás- és nyelvhelyesség-ellenőrzés, elválasztás, szinonimák
34.2.3. Kereséstámogatás
34.3. A magyar nyelvtechnológia eredményei a lexikográfiában
34.3.1. A Magyar Nyelv Történeti Nagyszótára
34.3.2. Az Értelmező Kéziszótár
34.3.3. A Magyar Ragozási Szótár
34.3.4. Vonzatszótár
34.3.5. Magyar ontológiai adatbázis
34.3.6. A MorphoLogic elektronikusszótár-koncepciója
34.4. A magyar nyelvtechnológia eredményei a fordítástámogatásban
34.5. A magyar nyelvtechnológia eredményei a gépi fordításban
34.6. A magyar nyelvtechnológia eredményei a korpusznyelvészetben
34.6.1. A Történeti Korpusz
34.6.2. A Magyar Nemzeti Szövegtár
34.6.3. A Szeged Korpusz
34.6.4. Angol–magyar párhuzamos korpusz
34.6.5. Az INTEX/NooJ nyelvelemző keretrendszer magyar verziója
34.7. A magyar nyelvtechnológia eredményei a beszéd kezelésében
34.7.1. Gépi beszéd-előállítás
34.7.2. Szövegtisztítás
34.7.3. Nyelvazonosítás
34.7.4. Ékezetesítés
34.7.5. A normál szöveg egyértelműsítése
34.7.6. Név- és címfelolvasás
34.7.7. Az írott szöveg elemzése alapvető prozódiai struktúrák meghatározására, jelzésére
34.7.8. A hangzó beszéd megvalósítása
34.7.9. Gépi beszédfelismerés
34.7.10. Adatbázisok tervezése beszédfelismeréshez
34.7.11. Fonetikai ismeretek a beszédfelismerésben
34.7.12. Szövegértelmezési technikák
34.8. Összegzés
Irodalom

Mi a nyelvtechnológia?

A nyelvtechnológia a nyelvleírás és a szoftvertechnológiai eszközök találkozása. Jóllehet a magyar nyelvleírás hagyományai nem tették automatikusan lehetővé a számítógép számára készítendő nyelvleírást (Prószéky 1999), a számítógépes feldolgozás számára formalizált szóalaktani, sőt mára már mondattani modellek is elkészültek. Az így készült leírásokat megfelelően működtető szoftvereszközök napjaink legkorszerűbb számítógépes nyelvészeti programjai közé tartoznak.

Annak ellenére, hogy az angol az utóbbi évtizedekben egyeduralkodó világnyelvvé lett, a nemzeti nyelvek és kultúrák szerepe egyértelműen felértékelődött az informatikában. Ez a tény a – globális és az elektronikus – kereskedelemnek köszönhető: a világszerte megnyíló különböző helyi piacokon úgy lehet csak számottevő bevételt elérni, ha az adott piacon terjesztett termék megfelel a helyi nyelv, a helyi kultúra és a helyi szokások sajátosságainak. A szövegeket is tartalmazó termékek – számítógép-programok, könyvek és minden olyan produktum, amelyhez használati utasítás tartozik – esetén ez kézenfekvű: a terméknek a helyi nyelven kell „megszólalnia” ahhoz, hogy eladható legyen. A globalizáció ezért a legtöbb esetben lokalizációt jelent. A különböző termékek gyártói – kezdetben, a kilencvenes évek elején főleg a szoftvergyártók – jelentős összeget áldoznak arra, hogy termékeik a legtöbb országban az ottani nyelven, az ottani szokásoknak megfelelően jelenjenek meg. A fenti folyamatot erősíti az is, hogy a weben – amely kezdetben kizárólag angol nyelvű dokumentumokat tartalmazott – a növekedést elsősorban a nem angol nyelvű weboldalak megjelenése jelenti. A jelenlegi mintegy 200 millió weblapból egy-két év múlva egymilliárd lesz, de azok közül már csak 300 millió lesz angol nyelvű – vagyis az angol nyelv még többségi pozícióját is elveszíti. A web azonban globális marad akkor is, ha dokumentumai egy helyett néhány száz nyelv valamelyikén íródnak. A magyar nyelvű dokumentumok tehát – a hálózat természetéből adódóan – elérhetők Amerikában, Kínában, Dél-Afrikában is, mint ahogy mi is el tudjuk érni az orosz, a japán vagy éppen az izlandi nyelvű webhelyeket. Ahhoz azonban, hogy a nyelvek sokfélesége ne váljon bábeli zűrzavarrá, átjárást kell biztosítani köztük. Mit tehet az, aki csak magyarul és angolul tud, ám a létfontosságú információ csak spanyolul áll rendelkezésre a hálózatban? A nyelvtechnológiának tehát nemcsak a keresésben, hanem a szövegek megértésében és megértetésében – vagyis lefordításában – is segíteniük kell.

Hazánkban a magyar nyelvi szoftvereszközöket többszázezren használják naponta, és hatásuk a magyar nyelvhasználókra – ennek következtében a magyar nyelv jövűjére – lényegesen nagyobb, mint azt elsőre gondolnánk. Az alábbiakban a magyar nyelv gép számára történő leírásának, azaz a magyar nyelvtechnológiának az eredményeit és perspektíváit járjuk körül.

Irodalom

[CH34-B01] AlexinZoltánLeipoldPéterCsirikJánosBibokKárolyGyimóthyTibor2001. A rule-based tagger develőpment framework. In: LubosPopelínskyMiloslavNepil (szerk.) Proceedings of the 3rd Workshop on Learning Language in Logic. Strasbourg, France, 1–10.

[CH34-B02] Christ,Oliver 1994. A modular and flexible architecture for an integrated corpus query system. In: Papers in Computational Lexicography (COMPLEX-94). Budapest, HAS Linguistics Institute, 23–32.

[CH34-B03] Clark,Bob 2000. MoBiMouse, the world’s first „no-click” dictionary program. International Journal of Language and Documentation3: 26–27.

[CH34-B04] Dimitrova,LudmilaTomazErjavecNancyIdeHeiki-JanKaalepVladimirPetkevicDanTufis1998. Multext-East: Parallel and comparable corpora and lexicons for six Central and Eastern European languages. In: Proceedings of the COLING-ACL 98. Montreal, Canada, 315–319.

[CH34-B05] ElekfiLászló 1994. Magyar ragozási szótár. Budapest, MTA Nyelvtudományi Intézet.

[CH34-B06] Erjavec,TomazAnnLawsonLaurentRomary1998. East meets West: Producing multilingual resources in a European context. In: Proceedings of LREC’98. Granada, Spain.

[CH34-B07] FegyóTiborMihajlikPéterSzarvasMátéTataiPéterTataiGábor2003a. Voxenter – Intelligent voice enabled call center for Hungarian. In: Proceedings of Eurospeech 2003, 8th European Conference on Speech Communication and Technology. Geneva, 1905–1908.

[CH34-B08] FegyóTiborMihajlikPéterTataiPéter2003b. Comparative study on Hungarian acoustic model sets and training methods. In: Proceedings of Eurospeech 2003, 8th European Conference on Speech Communication and Technology. Geneva, 829–832.

[CH34-B09] FékMárkNémethGézaOlaszyGábor2004. Megértést segítő részletező gépi névfelolvasás magyar nyelvre. II. Magyar Számítógépes Nyelvészeti Konferencia. Szeged, 301–306.

[CH34-B10] GlatzFerenc 1999. Tézisek a magyar nyelvről. In: GlatzFerenc (szerk.) A magyar nyelv az informatika korában. Budapest, MTA, 13–15.

[CH34-B11] GordosGézaTakácsGyörgy1983. Digitális beszédfeldolgozás. Budapest, Műszaki Kiadó.

[CH34-B12] GósyMária 2004. Fonetika, a beszéd tudománya. Budapest, Osiris Kiadó.

[CH34-B13] GósyMáriaNikléczyPéter1999. A beszélő felismerése: elméleti megalapozás, módszertani közelítések. In: GósyMária (szerk.) Beszédkutatás ’99. Budapest, MTA Nyelvtudományi Intézet, 1–19.

[CH34-B14] Ide,Nancy 1999. Parallel translations as sense discriminators. In: Proceedings of the SIGLEX99 Workshop: Standardizing Lexical Resources. College Park, Maryland, 52–61.

[CH34-B15] KaracsKristófPrószékyGáborRoskaTamás2003. Intimate integration of shape codes and linguistic framework. In: Proceedings of ECCTD’03 Conference. Cracow, Poland, Vol. I, 409–412.

[CH34-B16] KieferFerenc 1999. Néhány gondolat a nyelvi technológiákról. In: GlatzFerenc (szerk.) A magyar nyelv az informatika korában. MTA, Budapest, 128–132.

[CH34-B17] KissGabriellaKissMargitPajzsJúlia2001. Normalisation of Hungarian archaic texts. In: Papers in Computational Lexicography (COMPLEX-01). University of Birmingham, Birmingham.

[CH34-B18] KoutnyIlonaOlaszyGáborOlasziPéter2000. Prosody prediction from text in Hungarian and its realisation in TTS conversion. International Journal of Speech Technology3/4: 187–200.

[CH34-B19] KovácsMagdolnaOlaszyGáborNikléczyPéterGósyMária2002. Magyar nyelvi beszédtechnológiai alapismeretek CD-ROM. Budapest, Nikol Kiadó. http://fonetika.nytud.hu

[CH34-B20] LászlóJános 2005. A történetek tudománya. Budapest, Új Mandátum Kiadó.

[CH34-B21] MihajlikPéterRévészTiborTataiPéter2002. Phonetic transcription in automatic speech transcription. Acta Linguistica Hungarica49: 407–425.

[CH34-B22] MikolásZoltán (szerk.) 2001. MetaMorpho – a MorphoLogic tíz éve. Budapest, MorphoLogic.

[CH34-B23] Miller,George A.RichardBeckwithChristianeFellbaumDerekGrossKatherine J.Miller1990. Introduction to WordNet: an on-line lexical database. International Journal of Lexicography3: 235–244,.

[CH34-B24] NaszódiMátyás 1997. Nyelvhelyesség-ellenőrzés számítógéppel (parciális szintaxis). In: Hetedik Alkalmazott Nyelvészeti Konferencia. Budapest, Külkereskedelmi Főiskola, 256–260.

[CH34-B25] NémethGézaZainkóCsabaFeketeLászlóOlaszyGáborOlasziPéterKissGézaKissPéter2000. The design, implementation, and operation of a Hungarian e-mail reader. International Journal of Speech Technology3/4: 217–236.

[CH34-B26] NémethGézaZainkóCsabaKissGézaOlaszyGáborGordosGéza2003. Language processing for name and address reading in Hungarian. Proceedings of the International Conference on Natural Language Processing and Knowledge Engineering, Beijing, China, 238–243.

[CH34-B27] NémethGézaZainkóCsabaOlaszyGábor2002. Név- és címfelolvasás magyar nyelven. In: GósyMária (szerk.) Beszédkutatás 2002. Budapest, MTA Nyelvtudományi Intézet.

[CH34-B28] NovákAttila 2004. Az első nganaszan szóalaktani elemző. A 2. MSZNY konferencia anyagai. Szeged.

[CH34-B29] OlasziPéter 2000. Analysis of written and spoken form of Hungarian numbers for TTS application. International Journal of Speech Technology3/4: 177–186.

[CH34-B30] OlaszyGábor 1999. Beszédadatbázisok készítése gépi beszéd-előállításhoz. In: GósyMária (szerk.) Beszédkutatás ’99. Budapest, MTA Nyelvtudományi Intézet, 68–89.

[CH34-B31] OlaszyGábor 2002a. The most important prosody patterns of Hungarian. Acta Linguistica Hungarica49: 277–306.

[CH34-B32] OlaszyGábor 2002b. Model to predict Hungarian sound durations for continuous speech. Acta Linguistica Hungarica49: 321–345.

[CH34-B33] OlaszyGáborAbariKálmán2005. Adatbázisok és számítógépprogramok a magyar beszéd időszerkezeti vizsgálatához. Alkalmazott NyelvtudományV/1–2: 41–62.

[CH34-B34] OlaszyGáborNémethGézaOlasziPéterKissGézaZainkóCsabaGordosGéza2000. Profivox: A Hungarian text-to-speech system for telecommunication applications. International Journal of Speech Technology3/4: 201–215.

[CH34-B35] OraveczCsabaDienesPéter2002. Efficient stochastic part-of-speech tagging for Hungarian. In: Proceedings of the Third International Conference on Language Resources and Evaluation, LREC2002, Las Palmas, Spain, 710–717.

[CH34-B36] PajzsJúlia 1990. Számítógép és lexikográfia. Budapest, MTA Nyelvtudományi Intézet.

[CH34-B37] PajzsJúliaVáradiTamás1997. A magyar irodalmi és köznyelv nagyszótárának korpusza a HUNGARNET közösség számára. Networkshop–97 konferencia. Budapest, NIIF.

[CH34-B38] PrószékyGábor 1989. Számítógépes nyelvészet [Természetes nyelvek használata számítógépes rendszerekben]. Budapest, SZÁMALK.

[CH34-B39] PrószékyGábor 1995. Humor – A morphological system for corpus analysis. In: H.RettigPajzsJúliaKissGéza (szerk.) Language resources for language technology (Proceedings of the 1st TELRI Seminar). Tihany, 149–158.

[CH34-B40] PrószékyGábor 1996. Syntax as meta-morphology. In: Proceedings of COLING–96, Copenhagen, Denmark, Vol. 2: 1123–1126.

[CH34-B41] PrószékyGábor 1999. Természetes nyelvek. In: FutóIván (szerk.) Mesterséges intelligencia. Budapest, Aula, 756–814.

[CH34-B42] PrószékyGábor 2000a. A magyar morfológia számítógépes kezelése. In: KieferFerenc (szerk.) Strukturális magyar nyelvtan 3. Morfológia. Budapest, Akadémiai Kiadó, 1024–1065.

[CH34-B43] PrószékyGábor 2000b. A nyelvtechnológiai alapkutatások hiányáról és szükségességérol. In: T. MolnárIstvánKlaudyKinga (szerk.) Papp Ferenc akadémikus 70. születésnapjára. Debrecen, Kossuth Egyetemi Kiadó, 157–165.

[CH34-B44] PrószékyGábor 2001. A nyelvtechnológia és a modern nyelvészet viszonyáról. In: AndorJózsefSzűtsTiborTertsIstván (szerk.) Színes eszmék nem alszanak... (Szépe György 70. születésnapjára). Pécs, Lingua Franca, 991–998.

[CH34-B45] PrószékyGábor 2003. Automatikus információszerzés gazdasági rövidhírekből. In: PatkósAnna (szerk.) Információs és kommunikációs technológiák. Budapest, Oktatási Minisztérium Kutatás-fejlesztési Helyettes Államtitkárság, 28–38.

[CH34-B46] PrószékyGáborKisBalázs1999. Számítógéppel emberi nyelven. Természetes nyelvifeladatok megoldása számítógéppel. Bicske, SZAK Kiadó.

[CH34-B47] PrószékyGáborKisBalázs2002. Develőpment of context-sensitive dictionaries. In: Proceedings of COLING-2002. Taipei, Taiwan.

[CH34-B48] PrószékyGáborMiháltzMárton2002. Automatism and user interaction: Building a Hungarian WordNet. In: Proceedings of the 3rd International Conference on Language Resources and Evaluation, Las Palmas, spain, Vol. III. 957 – 961.

[CH34-B49] PrószékyGáborNaszódiMátyásKisBalázs2002. Recognition assistance. In: Proceedings of COLING-2002. Taipei, Taiwan.

[CH34-B50] PrószékyGáborNovákAttila2005. Computational morphologies for small Uralic languages. In: AnttiArppe et al. (szerk.) Inquiries into words, constraints and contexts. Stanford, CSLI, 121–130.

[CH34-B51] PrószékyGáborTihanyiLászló1993. Helyette – Inflectional thesaurus for agglutinative languages. Proceedings of the 6th Conference of the European Chapter of the Association for Computational Linguistics. Utrecht, The Netherlands, 473.

[CH34-B52] PrószékyGáborTihanyiLászló2002. MetaMorpho – A pattern based machine translation system. Proceedings of the 24th ASLIB Conference. London.

[CH34-B53] PrószékyGáborTihanyiLászlóUgrayGábor2004. Moose: a robust high-performance parser and generator. Proceedings of the 9th EAMT Conference. La Valletta, Malta, Foundation for International Studies. 138–142.

[CH34-B54] Senellart,JeanDienesPéterVáradiTamás2001. New generation Systran translation system. In: Proceedings of the Eighth MT Summit. Santiago de Compostela, Spain.

[CH34-B55] Tamm,AnneOlaszyGábor2005. Kísérlet automatizált szövegelemzési módszerek kialakítására a szóhangsúlyok meghatározásához. In: AlexinZoltánCsendesDóra (szerk.) III. Magyar Számítógépes Nyelvészeti Konferencia. Szeged, Szegedi Tudományegyetem Informatikai Tanszékcsoport, 383–393.

[CH34-B56] VajdaPéterNagyViktorDancsecsErzsébet2004. A ragozási szótártól a NooJ morfológiai moduljáig. In: II. Magyar Számítógépes Nyelvészeti Konferencia. Szeged, Szegedi Tudományegyetem Informatikai Tanszékcsoport, 183–190.

[CH34-B57] VáradiTamás 1999. On develőping the Hungarian National Corpus. In: S.Vintar (szerk.) Proceedings of the Workshop Language Technologies – Multilingual Aspects. 32th Annual Meeting of the Societas Linguistica Europea. Ljubljana, Slovenia, 57–63.

[CH34-B58] VáradiTamás 2001. A nyelvhasználat empirikus vizsgálatáról. In: AndorJózsefSzűtsTiborTertsIstván (szerk.) Színes eszmék nem alszanak... (Szépe György 70. születésnapjára). Pécs, Lingua Franca, 1285–1291.

[CH34-B59] VáradiTamásOraveczCsaba1999. Morpho-syntactic ambiguity and tagset design for Hungarian. In: Proceedings of the EACL LINC Workshop on Annotated Corpora. Bergen, Norway.

[CH34-B60] VargaLászló 2002. Intonation and Stress: Evidence from Hungarian. Palgrave, Macmillan.

[CH34-B61] VicsiKlára 2001. Beszédadatbázisok a gépi beszédfelismerés segítésére. Híradástechnika2001/1: 5–13.

[CH34-B62] VicsiKláraKocsorAndrásTelekiCsabaTóthLászló2004. Beszédadatbázis irodai számítógépfelhasználói környezetben. II. Magyar Számítógépes Nyelvészeti Konferencia. Szeged, 307–311.

[CH34-B63] VicsiKláraTóthLászlóKocsorAndrásGordosGézaCsirikJános2002. MTBA – Magyar nyelvű telefonbeszéd adatbázis. Hiradástechnika2002/8: 35–39.

[CH34-B64] VicsiKláraVigAndrás1998. Az első magyar nyelvű beszédadatbázis. In: GósyMária (szerk.) Beszédkutatás ’98. Tanulmányok az elméleti és alkalmazott fonetika köréből. Budapest, MTA Nyelvtudományi Intézet, 163–178.