Testu-corpusen informazio morfosintaktikoaren etiketatze automatikoa hizkuntz ezagutzan oinarriutz: zenbait arazo, hainbat erronka

Maila morfosintaktikoan etiketatutako euskarazko corpusen desanbiguatze-lanetan urtetan aritu ondoren, bide horretan topatutako hainbat zailtasunen berri emango dugu artikulu honetan eta, horrekin batera, hainbat irizpide birplanteatzeko beharra ere azalduko dugu. Testuingurua hizkuntzalaritza konputazionala izanik, guk erabilitako metodologia erregeletan oinarritutako gramatikena da, hau da, informazio linguistikoa baliatuz aurrera eramaten dena. Zehazki, kategoria gramatikalaren eta azpikategoriaren etiketatzeari begira, hurbilpen linguistiko batetik desanbiguazio-emaitzak ulertzeko, analisi horien iturriak azalduko ditugu; nola erdiesten ditugun analisi horiek, zer zailtasun dituzten desanbiguatzeko, erregelak diseinatzerakoan kontuan hartu beharreko zenbait ezaugarri linguistiko eta etorkizunerako lanak.
Egileak: 
Itziar Aduriz, Jose Mari Arriola
Urtea: 
2020
Artikuluaren erreferentzia: 
Fontes Linguae Vasconum 50 urte: ekarpen berriak euskararen ikerketari/ Nuevas aportaciones al estudio de la lengua vasca. (argitaratze-bidean)
Tesi zuzendariak: 
Ekaitz Santazilia Salvador

Argitalpen mota fina (argitalpen_sailkapen_ohia):