Kiefer Ferenc, Bakró-Nagy Marianne, Bartha Csilla, Bánréti Zoltán, Borbély Anna, Cser András, Dömötör Adrienne, É. Kiss Katalin, Gerstner Károly, Gósy Mária, Gyuris Beáta, Haader Lea, Hattyár Helga, Holló Dorottya, Horváth László, Kassai Ilona, Kenesei István, Kiefer Ferenc, Kiss Jenő, Kontra Miklós, Korompay Klára, Kurtán Zsuzsa, Laczkó Krisztina, Nádasdy Ádám, Németh T. Enikő, Olaszy Gábor, Pléh Csaba, Prószéky Gábor, Sándor Klára, Sipőcz Katalin, Siptár Péter, Szabó Mária Helga, Tolcsvai Nagy Gábor, Váradi Tamás (2006)
Akadémiai Kiadó Zrt.
Tartalom
A nyelvtechnológia a nyelvleírás és a szoftvertechnológiai eszközök találkozása. Jóllehet a magyar nyelvleírás hagyományai nem tették automatikusan lehetővé a számítógép számára készítendő nyelvleírást (Prószéky 1999), a számítógépes feldolgozás számára formalizált szóalaktani, sőt mára már mondattani modellek is elkészültek. Az így készült leírásokat megfelelően működtető szoftvereszközök napjaink legkorszerűbb számítógépes nyelvészeti programjai közé tartoznak.
Annak ellenére, hogy az angol az utóbbi évtizedekben egyeduralkodó világnyelvvé lett, a nemzeti nyelvek és kultúrák szerepe egyértelműen felértékelődött az informatikában. Ez a tény a – globális és az elektronikus – kereskedelemnek köszönhető: a világszerte megnyíló különböző helyi piacokon úgy lehet csak számottevő bevételt elérni, ha az adott piacon terjesztett termék megfelel a helyi nyelv, a helyi kultúra és a helyi szokások sajátosságainak. A szövegeket is tartalmazó termékek – számítógép-programok, könyvek és minden olyan produktum, amelyhez használati utasítás tartozik – esetén ez kézenfekvű: a terméknek a helyi nyelven kell „megszólalnia” ahhoz, hogy eladható legyen. A globalizáció ezért a legtöbb esetben lokalizációt jelent. A különböző termékek gyártói – kezdetben, a kilencvenes évek elején főleg a szoftvergyártók – jelentős összeget áldoznak arra, hogy termékeik a legtöbb országban az ottani nyelven, az ottani szokásoknak megfelelően jelenjenek meg. A fenti folyamatot erősíti az is, hogy a weben – amely kezdetben kizárólag angol nyelvű dokumentumokat tartalmazott – a növekedést elsősorban a nem angol nyelvű weboldalak megjelenése jelenti. A jelenlegi mintegy 200 millió weblapból egy-két év múlva egymilliárd lesz, de azok közül már csak 300 millió lesz angol nyelvű – vagyis az angol nyelv még többségi pozícióját is elveszíti. A web azonban globális marad akkor is, ha dokumentumai egy helyett néhány száz nyelv valamelyikén íródnak. A magyar nyelvű dokumentumok tehát – a hálózat természetéből adódóan – elérhetők Amerikában, Kínában, Dél-Afrikában is, mint ahogy mi is el tudjuk érni az orosz, a japán vagy éppen az izlandi nyelvű webhelyeket. Ahhoz azonban, hogy a nyelvek sokfélesége ne váljon bábeli zűrzavarrá, átjárást kell biztosítani köztük. Mit tehet az, aki csak magyarul és angolul tud, ám a létfontosságú információ csak spanyolul áll rendelkezésre a hálózatban? A nyelvtechnológiának tehát nemcsak a keresésben, hanem a szövegek megértésében és megértetésében – vagyis lefordításában – is segíteniük kell.
Hazánkban a magyar nyelvi szoftvereszközöket többszázezren használják naponta, és hatásuk a magyar nyelvhasználókra – ennek következtében a magyar nyelv jövűjére – lényegesen nagyobb, mint azt elsőre gondolnánk. Az alábbiakban a magyar nyelv gép számára történő leírásának, azaz a magyar nyelvtechnológiának az eredményeit és perspektíváit járjuk körül.
[CH34-B01] 2001. A rule-based tagger develőpment framework. In: LubosPopelínsky – MiloslavNepil (szerk.) Proceedings of the 3rd Workshop on Learning Language in Logic. Strasbourg, France, 1–10.
– – – –[CH34-B02] 1994. A modular and flexible architecture for an integrated corpus query system. In: Papers in Computational Lexicography (COMPLEX-94). Budapest, HAS Linguistics Institute, 23–32.
[CH34-B03] 2000. MoBiMouse, the world’s first „no-click” dictionary program. International Journal of Language and Documentation : 26–27.
[CH34-B04] 1998. Multext-East: Parallel and comparable corpora and lexicons for six Central and Eastern European languages. In: Proceedings of the COLING-ACL 98. Montreal, Canada, 315–319.
– – – – –[CH34-B06] 1998. East meets West: Producing multilingual resources in a European context. In: Proceedings of LREC’98. Granada, Spain.
– –[CH34-B07] 2003a. Voxenter – Intelligent voice enabled call center for Hungarian. In: Proceedings of Eurospeech 2003, 8th European Conference on Speech Communication and Technology. Geneva, 1905–1908.
– – – –[CH34-B08] 2003b. Comparative study on Hungarian acoustic model sets and training methods. In: Proceedings of Eurospeech 2003, 8th European Conference on Speech Communication and Technology. Geneva, 829–832.
– –[CH34-B09] 2004. Megértést segítő részletező gépi névfelolvasás magyar nyelvre. II. Magyar Számítógépes Nyelvészeti Konferencia. Szeged, 301–306.
– –[CH34-B10] 1999. Tézisek a magyar nyelvről. In: GlatzFerenc (szerk.) A magyar nyelv az informatika korában. Budapest, MTA, 13–15.
[CH34-B13] 1999. A beszélő felismerése: elméleti megalapozás, módszertani közelítések. In: GósyMária (szerk.) Beszédkutatás ’99. Budapest, MTA Nyelvtudományi Intézet, 1–19.
–[CH34-B14] 1999. Parallel translations as sense discriminators. In: Proceedings of the SIGLEX99 Workshop: Standardizing Lexical Resources. College Park, Maryland, 52–61.
[CH34-B15] 2003. Intimate integration of shape codes and linguistic framework. In: Proceedings of ECCTD’03 Conference. Cracow, Poland, Vol. , 409–412.
– –[CH34-B16] 1999. Néhány gondolat a nyelvi technológiákról. In: GlatzFerenc (szerk.) A magyar nyelv az informatika korában. MTA, Budapest, 128–132.
[CH34-B17] 2001. Normalisation of Hungarian archaic texts. In: Papers in Computational Lexicography (COMPLEX-01). University of Birmingham, Birmingham.
– –[CH34-B18] 2000. Prosody prediction from text in Hungarian and its realisation in TTS conversion. International Journal of Speech Technology : 187–200.
– –[CH34-B19] 2002. Magyar nyelvi beszédtechnológiai alapismeretek CD-ROM. Budapest, Nikol Kiadó. http://fonetika.nytud.hu
– – –[CH34-B21] 2002. Phonetic transcription in automatic speech transcription. Acta Linguistica Hungarica : 407–425.
– –[CH34-B23] 1990. Introduction to WordNet: an on-line lexical database. International Journal of Lexicography : 235–244,.
– – – –[CH34-B24] 1997. Nyelvhelyesség-ellenőrzés számítógéppel (parciális szintaxis). In: Hetedik Alkalmazott Nyelvészeti Konferencia. Budapest, Külkereskedelmi Főiskola, 256–260.
[CH34-B25] 2000. The design, implementation, and operation of a Hungarian e-mail reader. International Journal of Speech Technology : 217–236.
– – – – – –[CH34-B26] 2003. Language processing for name and address reading in Hungarian. Proceedings of the International Conference on Natural Language Processing and Knowledge Engineering, Beijing, China, 238–243.
– – – –[CH34-B27] 2002. Név- és címfelolvasás magyar nyelven. In: GósyMária (szerk.) Beszédkutatás 2002. Budapest, MTA Nyelvtudományi Intézet.
– –[CH34-B29] 2000. Analysis of written and spoken form of Hungarian numbers for TTS application. International Journal of Speech Technology : 177–186.
[CH34-B30] 1999. Beszédadatbázisok készítése gépi beszéd-előállításhoz. In: GósyMária (szerk.) Beszédkutatás ’99. Budapest, MTA Nyelvtudományi Intézet, 68–89.
[CH34-B31] 2002a. The most important prosody patterns of Hungarian. Acta Linguistica Hungarica : 277–306.
[CH34-B32] 2002b. Model to predict Hungarian sound durations for continuous speech. Acta Linguistica Hungarica : 321–345.
[CH34-B33] 2005. Adatbázisok és számítógépprogramok a magyar beszéd időszerkezeti vizsgálatához. Alkalmazott Nyelvtudomány : 41–62.
–[CH34-B34] 2000. Profivox: A Hungarian text-to-speech system for telecommunication applications. International Journal of Speech Technology : 201–215.
– – – – –[CH34-B35] 2002. Efficient stochastic part-of-speech tagging for Hungarian. In: Proceedings of the Third International Conference on Language Resources and Evaluation, LREC2002, Las Palmas, Spain, 710–717.
–[CH34-B37] 1997. A magyar irodalmi és köznyelv nagyszótárának korpusza a HUNGARNET közösség számára. Networkshop–97 konferencia. Budapest, NIIF.
–[CH34-B38] 1989. Számítógépes nyelvészet [Természetes nyelvek használata számítógépes rendszerekben]. Budapest, SZÁMALK.
[CH34-B39] 1995. Humor – A morphological system for corpus analysis. In: H.Rettig – PajzsJúlia – KissGéza (szerk.) Language resources for language technology (Proceedings of the 1st TELRI Seminar). Tihany, 149–158.
[CH34-B40] 1996. Syntax as meta-morphology. In: Proceedings of COLING–96, Copenhagen, Denmark, Vol. : 1123–1126.
[CH34-B41] 1999. Természetes nyelvek. In: FutóIván (szerk.) Mesterséges intelligencia. Budapest, Aula, 756–814.
[CH34-B42] 2000a. A magyar morfológia számítógépes kezelése. In: KieferFerenc (szerk.) Strukturális magyar nyelvtan 3. Morfológia. Budapest, Akadémiai Kiadó, 1024–1065.
[CH34-B43] 2000b. A nyelvtechnológiai alapkutatások hiányáról és szükségességérol. In: T. MolnárIstván – KlaudyKinga (szerk.) Papp Ferenc akadémikus 70. születésnapjára. Debrecen, Kossuth Egyetemi Kiadó, 157–165.
[CH34-B44] 2001. A nyelvtechnológia és a modern nyelvészet viszonyáról. In: AndorJózsef – SzűtsTibor – TertsIstván (szerk.) Színes eszmék nem alszanak... (Szépe György 70. születésnapjára). Pécs, Lingua Franca, 991–998.
[CH34-B45] 2003. Automatikus információszerzés gazdasági rövidhírekből. In: PatkósAnna (szerk.) Információs és kommunikációs technológiák. Budapest, Oktatási Minisztérium Kutatás-fejlesztési Helyettes Államtitkárság, 28–38.
[CH34-B46] 1999. Számítógéppel emberi nyelven. Természetes nyelvifeladatok megoldása számítógéppel. Bicske, SZAK Kiadó.
–[CH34-B47] 2002. Develőpment of context-sensitive dictionaries. In: Proceedings of COLING-2002. Taipei, Taiwan.
–[CH34-B48] 2002. Automatism and user interaction: Building a Hungarian WordNet. In: Proceedings of the 3rd International Conference on Language Resources and Evaluation, Las Palmas, spain, Vol. . 957 – 961.
–[CH34-B50] 2005. Computational morphologies for small Uralic languages. In: AnttiArppe et al. (szerk.) Inquiries into words, constraints and contexts. Stanford, CSLI, 121–130.
–[CH34-B51] 1993. Helyette – Inflectional thesaurus for agglutinative languages. Proceedings of the 6th Conference of the European Chapter of the Association for Computational Linguistics. Utrecht, The Netherlands, 473.
–[CH34-B52] 2002. MetaMorpho – A pattern based machine translation system. Proceedings of the 24th ASLIB Conference. London.
–[CH34-B53] 2004. Moose: a robust high-performance parser and generator. Proceedings of the 9th EAMT Conference. La Valletta, Malta, Foundation for International Studies. 138–142.
– –[CH34-B54] 2001. New generation Systran translation system. In: Proceedings of the Eighth MT Summit. Santiago de Compostela, Spain.
– –[CH34-B55] 2005. Kísérlet automatizált szövegelemzési módszerek kialakítására a szóhangsúlyok meghatározásához. In: AlexinZoltán – CsendesDóra (szerk.) III. Magyar Számítógépes Nyelvészeti Konferencia. Szeged, Szegedi Tudományegyetem Informatikai Tanszékcsoport, 383–393.
–[CH34-B56] 2004. A ragozási szótártól a NooJ morfológiai moduljáig. In: II. Magyar Számítógépes Nyelvészeti Konferencia. Szeged, Szegedi Tudományegyetem Informatikai Tanszékcsoport, 183–190.
– –[CH34-B57] 1999. On develőping the Hungarian National Corpus. In: S.Vintar (szerk.) Proceedings of the Workshop Language Technologies – Multilingual Aspects. 32th Annual Meeting of the Societas Linguistica Europea. Ljubljana, Slovenia, 57–63.
[CH34-B58] 2001. A nyelvhasználat empirikus vizsgálatáról. In: AndorJózsef – SzűtsTibor – TertsIstván (szerk.) Színes eszmék nem alszanak... (Szépe György 70. születésnapjára). Pécs, Lingua Franca, 1285–1291.
[CH34-B59] 1999. Morpho-syntactic ambiguity and tagset design for Hungarian. In: Proceedings of the EACL LINC Workshop on Annotated Corpora. Bergen, Norway.
–[CH34-B62] 2004. Beszédadatbázis irodai számítógépfelhasználói környezetben. II. Magyar Számítógépes Nyelvészeti Konferencia. Szeged, 307–311.
– – –