Ugrás a tartalomhoz

Alkalmazott Mesterséges Intelligencia

Dudás László (2011)

Kempelen Farkas Hallgatói Információs Központ

Statisztikai elvű NLP

Statisztikai elvű NLP

Amint az eddigiekből is kitűnt, a természetes nyelvek megértése a kisgyerekek által mindennap alkalmazott tapasztalati alapon, mindenféle előzetes nyelvészeti elemzés nélkül is elérhető. Az újabb statisztikai elvű irányzat azt vallja, hogy a nyelv megértéséhez szükséges ismeretek benne vannak a beszélt nyelvben és statisztikai módszerekkel kinyerhetők. Ehhez annyi kiegészítés kívánkozik, hogy az ember számára a dolgok, fogalmak jelentésének megtanulásához nem csak verbális információk állnak rendelkezésre. Közelebb jutunk a megértés lényegéhez, ha tisztázzuk a szó jelentését: a szó jelentése mindazon szituációk agyunkban hagyott emléknyomainak összessége, amelyben a szót használtuk, a szó elhangzott, szerepelt. Azaz a szó jelentése egy hatalmas, nem egyenszilárdságú asszociált érzéklet- és gondolathalmaz. Ezt kitágítva hasonlókat fogalmazhatunk meg a mondat jelentésére is. Ezt a kérdést a 4.6 pontban még tovább elemezzük és egy mintaalkalmazáson keresztül ismertetjük.

A statisztikai nyelvfeldolgozás előtérbe kerülését az is okozta, hogy a nyelvészeti alapokon álló természetes nyelvfeldolgozás nem érte el a jelentés megragadásában azt a szintet, amely összemérhető az emberi megértéssel. A statisztikai elvű feldolgozás nagyobb rugalmasságának köszönhetően precízebb jelentésmegragadást eredményezhet. A valószínűségi alapokon való megközelítésből eredően jobban kezeli a beszédben meglévő hibákat, hiányosságokat.

A statisztikai nyelvfeldolgozás nevéhez hűen komoly matematikai statisztikai apparátussal dolgozik és nyeri ki a hatalmas szövegekben rejlő nyelvi törvényszerűségeket. Az alkalmazott módszerek a valószínűségelmélet és az információelmélet területéről származnak.

A valószínűségelmélet alkalmazott fogalmai:

  • Valószínűségi terek

  • Feltételes valószínűség és függetlenség

  • Bayes-tétel

  • Véletlen változók

  • Várható érték és variancia

  • Szabványos eloszlások.

Az információelmélet alkalmazott fogalmai:

  • Entrópia

  • Együttes entrópia és feltételes entrópia

  • Kölcsönös információ

  • A zajos csatorna modell

  • Relativ entrópia vagy Kullback-Leibler divergencia

  • A nyelvhez való viszony: Kereszt entrópia

  • A nyelv entrópiája

  • Zavar.

Mi a statisztikai módszerek alkalmazásának előnye?

  • Egyértelműség érhető el sztohasztikus kontextfüggetlen nyelvtanoknál

  • Lehetővé teszi nyelvtani fokozatok alkalmazását

  • Természetes

  • Strukturális előválasztást segíti két módon is olvasható mondatoknál

  • Hibatűrő.

A sztochasztikus nyelvtanoknál a nyelvi kategóriák, pl. jelző, főnév, határozó, stb., illetve konkrét szavak egymásutániságának valószínűségét ismerjük, így egy megfelelő mondat összeállítása ezen előrejelző valószínűségek segítségével megvalósulhat.

A hagyományos nyelvészeti megközelítések nem ismernek közbenső értéket a nyelvtanban, egy mondat vagy jó, vagy rossz. Néhány esetben a mondat elfogadhatósága függhet a szerkezetétől, vagy a környezetétől.

Az emberi nyelvmegértés fontos jellemzője a hibatűrés. Sok olyan mondatot, amelyet a hagyományos nyelvtani felbontás, parsing nem szabályos mondatnak értékel, statisztikai nyelvfeldolgozással megérthetünk.