Dudás László (2011)
Kempelen Farkas Hallgatói Információs Központ
Amint az eddigiekből is kitűnt, a természetes nyelvek megértése a kisgyerekek által mindennap alkalmazott tapasztalati alapon, mindenféle előzetes nyelvészeti elemzés nélkül is elérhető. Az újabb statisztikai elvű irányzat azt vallja, hogy a nyelv megértéséhez szükséges ismeretek benne vannak a beszélt nyelvben és statisztikai módszerekkel kinyerhetők. Ehhez annyi kiegészítés kívánkozik, hogy az ember számára a dolgok, fogalmak jelentésének megtanulásához nem csak verbális információk állnak rendelkezésre. Közelebb jutunk a megértés lényegéhez, ha tisztázzuk a szó jelentését: a szó jelentése mindazon szituációk agyunkban hagyott emléknyomainak összessége, amelyben a szót használtuk, a szó elhangzott, szerepelt. Azaz a szó jelentése egy hatalmas, nem egyenszilárdságú asszociált érzéklet- és gondolathalmaz. Ezt kitágítva hasonlókat fogalmazhatunk meg a mondat jelentésére is. Ezt a kérdést a 4.6 pontban még tovább elemezzük és egy mintaalkalmazáson keresztül ismertetjük.
A statisztikai nyelvfeldolgozás előtérbe kerülését az is okozta, hogy a nyelvészeti alapokon álló természetes nyelvfeldolgozás nem érte el a jelentés megragadásában azt a szintet, amely összemérhető az emberi megértéssel. A statisztikai elvű feldolgozás nagyobb rugalmasságának köszönhetően precízebb jelentésmegragadást eredményezhet. A valószínűségi alapokon való megközelítésből eredően jobban kezeli a beszédben meglévő hibákat, hiányosságokat.
A statisztikai nyelvfeldolgozás nevéhez hűen komoly matematikai statisztikai apparátussal dolgozik és nyeri ki a hatalmas szövegekben rejlő nyelvi törvényszerűségeket. Az alkalmazott módszerek a valószínűségelmélet és az információelmélet területéről származnak.
A valószínűségelmélet alkalmazott fogalmai:
Valószínűségi terek
Feltételes valószínűség és függetlenség
Bayes-tétel
Véletlen változók
Várható érték és variancia
Szabványos eloszlások.
Az információelmélet alkalmazott fogalmai:
Entrópia
Együttes entrópia és feltételes entrópia
Kölcsönös információ
A zajos csatorna modell
Relativ entrópia vagy Kullback-Leibler divergencia
A nyelvhez való viszony: Kereszt entrópia
A nyelv entrópiája
Zavar.
Mi a statisztikai módszerek alkalmazásának előnye?
Egyértelműség érhető el sztohasztikus kontextfüggetlen nyelvtanoknál
Lehetővé teszi nyelvtani fokozatok alkalmazását
Természetes
Strukturális előválasztást segíti két módon is olvasható mondatoknál
Hibatűrő.
A sztochasztikus nyelvtanoknál a nyelvi kategóriák, pl. jelző, főnév, határozó, stb., illetve konkrét szavak egymásutániságának valószínűségét ismerjük, így egy megfelelő mondat összeállítása ezen előrejelző valószínűségek segítségével megvalósulhat.
A hagyományos nyelvészeti megközelítések nem ismernek közbenső értéket a nyelvtanban, egy mondat vagy jó, vagy rossz. Néhány esetben a mondat elfogadhatósága függhet a szerkezetétől, vagy a környezetétől.
Az emberi nyelvmegértés fontos jellemzője a hibatűrés. Sok olyan mondatot, amelyet a hagyományos nyelvtani felbontás, parsing nem szabályos mondatnak értékel, statisztikai nyelvfeldolgozással megérthetünk.