LUTEST: LANGUAGE UNDERSTANDING TEST SETS

El éxito reciente en la aplicación del aprendizaje profundo en aplicaciones de Procesamiento del Lenguaje Natural ha tenido un gran
impacto en el campo. La traducción automática, la respuesta a preguntas, la generación de texto y el análisis de sentimientos son las
áreas en las que el avance ha sido más espectacular, pero a costa de requerir grandes cantidades de datos para cada tarea. Se ha
demostrado que los métodos de aprendizaje profundo muestran una severa degradación del rendimiento cuando se entrenan con
conjuntos de datos pequeños, incluyendo los sistemas de transformadores más recientes como el BERT que fue entrenado con un corpus
de 3.300 millones de palabras. Se ha cuestionado si los métodos de aprendizaje profundo son capaces de `comprender' el lenguaje, si
son capaces de generalizar, es decir, capturar las características comunes invariables y hacer caso omiso de la variación no significativa,
de modo que dos oraciones con forma diferente, pero con el mismo significado, obtengan la misma respuesta del sistema.
El objetivo de LUTEST es la creación de conjuntos de prueba, así como de una metodología de evaluación que proporcione evidencias
sobre las capacidades de generalización lingüística de los métodos de aprendizaje profundo aplicados al procesamiento del lenguaje
natural. Durante los últimos años, ha habido diferentes trabajos en la construcción de conjuntos de pruebas y métodos de evaluación con
el fin de evaluar las capacidades de comprensión del lenguaje de los modelos neurales profundos y qué información seleccionan y
codifican. Sin embargo, aún queda mucho trabajo por hacer, en particular desde una perspectiva lingüísticamente motivada. LUTEST se
propone la evaluación de las capacidades de generalización del modelo de lenguaje profundo basándose en la hipótesis lingüística de
que, si realmente generalizan, cualquier diferencia en las representaciones de dos significados iguales, pero de oraciones con diferente
estructura, esta diferencia se mostrará igual en un número significativo de pares de oraciones que exhiben el mismo fenómeno, a pesar
de cualquier variación léxica.
No obstante, es muy difícil observar qué información abstracta inducen las redes neuronales profundas. La información se representa
como matrices numéricas sin que haya una relación interpretable con el input. La interpretación del comportamiento de las redes neurales
profundas requiere conjuntos de pruebas especiales y métodos de evaluación distintos al de la precisión con respecto a una tarea
finalista, como el análisis de sentimientos, la respuesta a preguntas o la inferencia en lenguaje natural. Así, la disponibilidad de conjuntos
de pruebas y métodos de evaluación que puedan ayudar a distinguir el comportamiento inteligente real de la detección de correlaciones
estadísticas superficiales y espurias va a ser crucial, primero, para evaluar el progreso real en la comprensión automática del lenguaje;
segundo, para obtener pruebas sobre la consistencia de sus resultados y ganar la confianza de la sociedad en estas tecnologías que
pretenden ser aplicadas en áreas muy sensibles como la salud o el derecho y, en tercer lugar, para aprender sobre las capacidades de
generalización de los métodos más novedosos y, por tanto, desarrollar métodos que aprendan a partir de conjuntos de datos pequeños,
asegurando así su aplicabilidad a lenguas con menos recursos que el inglés, impidiendo así la extinción digital de la mayoría de ellas.

Kode ofiziala: 
PID2019-104512GB-I00
Ikertzaile nagusia: 
Nuria Bel
Erakundea: 
UPF
Hasiera data: 
2020/06/01
Bukaera data: 
2023/05/31
Ixakideak: 
Kontratua: 
Ez
Webgunea: 

http://