Euskara ikasleen testuak kalifikatzeko sistema estatistikoa

Deskribapena: 
Ikasleen euskarazko testuak eta laburpen-testuak kalifikatzeko sistema estatistikoa egitea. Hasteko, sistema estatistiko hori Wikipediako testuak ebaluatzeko ORESen oinarrituta egon daiteke: https://www.mediawiki.org/wiki/ORES edota CTAP sisteman: http://samos.sfs.uni-tuebingen.de:8080/ctapweb/#signin

Tresna hori euskarazko testu ezberdinak (HABEko probetakoak eta eskolako ikasleen testu-laburpenak) nola mailakatu aztertu beharko litzateke. Sistema horren ezaugarri batzuk hauek izan daitezke: erabilitako hitzen maiztasuna, hitz horiek ea arruntak diren/birformulatutakoak, esaldien luzera, testuaren luzera, Xuxenek zenbat hitz baztertzen dituen... hizkuntza ereduaren arabera neurketaren bat. Horrez gain, IXA Taldean lantzenari diren beste sistema batzuek ematen duten informazio baliagarri datekeen aztertu beharko litzateke.

Ikasleak datu-multzoa prest izango luke (baita ezaugarriak etiketatuta ere), benetako ikasleek sortua eta anonimizatua, esperimentazioa egin ahal izateko.
Non: 
Donostiako Informatika Fakultatea
Tutorea: 
Mikel Iruskieta eta Olatz Ansa