Szövegtípusok számítógépes nyelvészeti megközelítésben


vincze-veronikaVincze Veronika


A természetes nyelvek rétegzettsége jól ismert jelenség az elméleti nyelvészet körében: a különböző szaknyelvi rétegek mellett például az internetről, főként a közösségi médiából származó szövegek nyelvezete is több kutatás tárgyát képezi. A nyelvi rétegzettség azonban a számítógépes nyelvészetben viszonylag kevéssé kutatott terület, noha a nyelvfeldolgozó eszközök számára az eltérő nyelvi rétegek automatikus elemzése kihívást jelent. Előadásomban bemutatom, hogy különböző nyelvi rétegekből (elsődlegesen újsághírekből, jogi szövegekből és internetről) származó angol és magyar nyelvű szövegek mennyiben mutatnak (statisztikailag szignifikáns) eltéréseket egymástól, és ezek az eltérések hogyan befolyásolják az automatikus számítógépes nyelvészeti elemzések hatékonyságát.