Szövegtípusok számítógépes nyelvészeti megközelítésben


vincze-veronikaVincze Veronika


A természetes nyelvek rétegzettsége jól ismert jelenség az elméleti nyelvészet körében: a különböző szaknyelvi rétegek mellett például az internetről, főként a közösségi médiából származó szövegek nyelvezete is több kutatás tárgyát képezi. A nyelvi rétegzettség azonban a számítógépes nyelvészetben viszonylag kevéssé kutatott terület, noha a nyelvfeldolgozó eszközök számára az eltérő nyelvi rétegek automatikus elemzése kihívást jelent. Előadásomban bemutatom, hogy különböző nyelvi rétegekből (elsődlegesen újsághírekből, jogi szövegekből és internetről) származó angol és magyar nyelvű szövegek mennyiben mutatnak (statisztikailag szignifikáns) eltéréseket egymástól, és ezek az eltérések hogyan befolyásolják az automatikus számítógépes nyelvészeti elemzések hatékonyságát.

Friss Hírek

Friss Hírek RSS

Boritokep_36

Hetvenhét kutató, köztük az SZTE Bölcsészet- és Társadalomtudományi kar öt munkatársa vette át 2024 áprilisában az MTA doktora címért járó oklevelet. Az Országos Széchényi Könyvtárban szervezett ünnepélyes átadón várták azon kutatókat, akik kiemelkedő tudományos munkásságukat egy doktori műben összegezték, eredményeik egy kiemelt részét pedig sikeresen megvédték.