Ugrás a tartalomhoz

Alkalmazott Mesterséges Intelligencia

Dudás László (2011)

Kempelen Farkas Hallgatói Információs Központ

4. fejezet - Verbális robotkommunikáció

4. fejezet - Verbális robotkommunikáció

A fejezet célja a robotok, elsősorban humanoid robotok és ember közötti szavakkal történő kommunikáció, társalgás kezelésére, megvalósítására szolgáló módszerek bemutatása. A tárgyalt témák a következők:

Hangfeldolgozás: Az audio hangjel szöveges alakúvá való transzformálásának alkalmazott módszerei.

A természetes nyelvek feldolgozása: A szöveg alakban adott konverzió értelmezésének alapvető lehetőségei. Lingvisztikai és statisztikai alapú technika.

Statisztikai elvű NLP: Napjaink egyre jobban fejlődő irányzata a természetes nyelv által hordozott jelentés megragadására.

Morfológia: A szöveg különböző szintű egységeinek beazonosítása, ábrázolás véges állapotú automatával. Öntanuló morfológia.

Beszédértés: A jelentés megragadásának szintjei. Szintaktika, szemantika, pragmatika és intenció. A jelentés ábrázolása. A háttértudás fontossága.

NLP a gyakorlatban: Beszélgető ágens, chat robotok.

Beszédgenerálás: A közlendő formába öntése. Hanggenerálás.

Hangfeldolgozás

A hangfeldolgozás témakörét a témánkhoz illően szűkítően értelmezzük itt, mivel csak az emberi beszéd hangjainak feldolgozására koncentrálunk, pl. a zenei hangokra nem.

A hangfeldolgozás célja az analóg akusztikai jel szöveggé, karakterfolyammá való alakítása.

Az emberi beszéd hangfeldolgozásának nehézségéről képet alkothatunk (Szappanos, 2005) írása alapján: A nyelv fonológiai rendszere tartalmazza egyrészt a hangok hálózatát, másrészt a prozódiai jegyeket, azaz a hangok alapvető akusztikai sajátosságait, nevezetesen azok magasságát, erősségét, sebességét, ritmusát, továbbá olyan paralingvisztikai jellegzetességeket, melyek a hangképző szervek artikulációs lehetőségeinek köszönhetően különböző hangszíneket, hangminőséget (pitch) hoznak létre. Annak érdekében, hogy a gyermek – robot, (a szerző beszúrása) - megszerezzen bizonyos fokú fonológiai kompetenciát, először is meg kell tudnia különböztetni azon szegmentális variációkat, melyek kisebbek és árnyaltabbak, mint a szavak differenciálása esetében. Annak ellenére, hogy a beszédet különálló szavak sorozatának halljuk, valójában az egyik szó folyamatosan megy át a másikba, így a határokat csupán aszerint konstruáljuk, hogy anyanyelvünk fonotaktikai szabályai a fonémák milyen sorba rendeződését engedik meg (Gósy, 2004), illetve, hogy mely beszédegységek esnek egybe mentális lexikonunk elemeivel (Pinker, 1999).

Már ez az idézet is mutatja, hogy az emberi beszéd hangfeldolgozása igen összetett feladat. A legutolsó almondatban szereplő mentális lexikon fontosságát nem lehet eléggé hangsúlyozni az emberi hangfeldolgozásban. A hangfeldolgozás és a beszédértés egymást támogató, párhuzamos folyamatok. Szappanos szerint: A beszéd észlelésének folyamata egy hierarchikus szemléletű modellben az elsődleges hallási elemzéssel indul, amikor az inger különböző fizikai paraméterek mentén való kiértékelésén túl döntés születik arról, mi a hang forrása, beszédet vagy muzsikát hallunk-e, magasan vagy mélyen, és ehhez egyidejűleg társítunk szubjektív érzeteket. Ezután egy akusztikai elemzés következik, melynek eredményeképpen a hangsornak, mint hullámformának az akusztikai tulajdonságait azonosítjuk. Ennek kimeneteli adataira épül a fonetikai osztályozás, azaz az adott fonéma realizációjának meghatározása időben. A nyelvre jellemző beszédhangokra való szegmentálást követő utolsó lépcsőfok a fonémadöntés, amikor az ingert a megfelelő fonémakategóriába soroljuk.

A hangok beazonosítását, a fonémák egyértelműsítését segíthetik a humanoid robot - ember társalgásban a robot által leolvasott emberi szájmozgásból kinyerhető hangképzési információkkal (Czap, 2000)

A hangfeldolgozással, azon belül kiemelten a magyar beszéd speciális problémáival foglalkozik kimerítően a Németh és Olaszy (2010) szerkesztésében megjelent könyv.

Felhasznált és ajánlott irodalom

1. Szappanos A. (2005) A nyelvspecifikus hangfeldolgozás fejlődése: innátizmus és modularitás, 2005. http://www.kfteam.hu/iromanyok/nyelvspecifikus-hangfeldolgozas-fejlodes.pdf, Elérve: 2011.03. 28.

2. Gósy, M. (2004) Fonetika, a beszéd tudománya. Osiris Kiadó, Bp., 2004.

3. Pinker, S. (1999), A nyelvi ösztön. Hogyan hozza létre az elme a nyelvet? Typotex Kiadó, Bp., 1999.

4. Prószéky G. - Kis B. (1999) Számítógéppel emberi nyelven, SZAK Kiadó, 1999.

5. Czap, L. (2000) Lip representation by Image Ellipse. 6th International Conference on Spoken Language Processing Proceedings Bejging, China, Proceedings Vol. IV. pp93-96.

6. Dudás, L. (2003) A Semantic-Distance Based Sentence Searching System and a Few Possible Applications MicroCAD’2003 International Scientific Conference 6-7 March 2003, Miskolc, Section N. pp.23-28.

7. Hornyánszky S. (2005) Ragozott szavak kezelésére alkalmas, Magyar nyelvű beszélgető robotprogram kidolgozása Szakdolgozat, Miskolci Egyetem, 2005.

8. Bodon Ferenc (2006) Ragelemző szoftver - Suffix analyser http://www.cs.bme.hu/~bodon/magyar/program/c++/rag/ragelemzes.htm#nevezetes Elérve: 2006. 01.27.

9. C. O’ Riordan – H. Sorensen (2006) Information Filtering and Retrieval: An Overview http://citeseer.nj.nec.com/483228.html Elérve 2006.01.29.

10. L. Kovacs (2002) A Fast Algorithm for Building Concept Set MicroCAD 2002, International Scientific Conference 7-8 March 2002, Miskolc Section H, p.113-118.

11. R. White (2006) Theories of Meaning http://www.philosophy.leeds.ac.uk/Ugradinfo/Philosophy/Level2/2070_theories_of_mean.html, Elérve 2006.01.30.

12. * (2006) http://www.cs.duke.edu/~cig/cps170/notes/feb1/FEB1.htm, Elérve 2006.01.30.

13. **(2006) http://www.ohiou.edu/~linguist/soemarmo/l270/Notes/sentmean.htm, Elérve 2006.01.30.

14. J. P. H. van Santen, R. W. Sproat, J. P. Olive, és J. Hirschberg (1997) Progress in Speech Synthesis. Springer: 1997. ISBN 0-387-94701-9

15. J. P. H. van Santen (1994) Assignment of segmental duration in text-to-speech synthesis. Computer Speech and Language, 8:95-128, 1994.

16. Németh, G., Olaszy, G. (2010) A magyar beszéd. Beszédkutatás, beszédtechnológia, beszédinformációs rendszerek, Akadémiai Kiadó, Budapest, 2010.