Proyecto

En los últimos años, la traducción automática no supervisada ha demostrado que es posible desarrollar sistemas de traducción automática incluso en contextos en los que no se dispone de información bilingüe (ni diccionarios bilingües ni corpus paralelos). Pero en la práctica siempre hay alguna información bilingüe accesible. Enfoques recientes como [Conneau, 2020] han empezado a combinar datos monolingües y paralelos con buenos resultados. Dentro del presente proyecto, planeamos explorar métodos novedosos sobre técnicas de aprendizaje de transferencia multilingüe y combinar técnicas supervisadas y no supervisadas, respetando las restricciones de eficiencia y modularidad, para que la traducción de idiomas con muy pocos recursos pueda beneficiarse de estas técnicas. Nuestra hipótesis es que las técnicas desarrolladas para la traducción automática no supervisada pueden adaptarse de forma eficiente para incorporar la información bilingüe presente para un par de lenguas determinado y obtener así sistemas de traducción utilizables incluso cuando se dispone de pocos recursos paralelos, y también en el caso de la traducción multimodal que implica una lengua de signos, como el LSE. Aunque ya se han empezado a combinar con éxito datos paralelos y monolingües, esta hipótesis no se ha puesto a prueba en el caso de lenguas con muy pocos recursos paralelos como las lenguas objetivo del proyecto y, lo que es aún más difícil, en el caso de lenguas no verbales que no suelen expresarse en forma codificada escrita, por lo que hay un número extremadamente bajo de corpus paralelos y muy pequeños. Para comprobar la hipótesis planteada, el proyecto desarrollará sistemas de traducción entre el español y lenguas específicas con escasos recursos que abarcan lenguas de migrantes (amazigh, pastún y wolof) y de minorías étnicas (romaní), así como la lengua de signos española. Contribuiremos de este modo a la inclusión de estos grupos vulnerables (migrantes, refugiados y personas sordas o con problemas de audición).

Los tres subproyectos que colaborarán en esta misión se centran en distintos aspectos de la la MT semisupervisada. El subproyecto coordinador (UPV/EHU), dada su experiencia en MT no supervisada, centrará su I+D en la adaptación de estas técnicas a escenarios reales en los que existen recursos paralelos, aunque en cantidades muy limitadas, pudiendo aprovecharlos junto con con las técnicas no supervisadas. También se encargará de la adaptación de estas mismas técnicas a la traducción de lengua de signos. El grupo de la UPV/EHU que lidera este subproyecto también participa en el proyecto SignOn de H2020, cuyo objetivo es desarrollar soluciones de traducción de lengua de signos (SLT) paneuropeas (para las lenguas de signos británica, flamenca, neerlandesa, irlandesa y española y las lenguas habladas inglesa, holandesa, irlandesa y española). El subproyecto de UVIGO, dada su experiencia en el reconocimiento de lengua de signos (SLR) de su anterior proyecto MICINN, se centra en el desarrollo de técnicas de recopilación, y validación de diversos recursos con la ayuda de expertos de la LSE y de las asociaciones de sordos, y en ampliar sus conocimientos actuales sobre ISLR a CSLR y SLT, colaborando con la UPV/EHU en la investigación de enfoques SLT de uno y dos pasos. El subproyecto del BSC, que ha sido socio de la UPV/EHU en MT4All, un proyecto europeo que explota técnicas de MT no supervisada, se centra en la investigación de técnicas de aprendizaje multilingüe, incluido el uso de modelos multilingües y monolingües y la modularidad, así como la atención a los prejuicios y estereotipos de género. La investigación desarrollada por este subproyecto, combinada con técnicas semisupervisadas de la UPV/EHU se aplicarán para desarrollar sistemas de MT de calidad aceptable para lenguas con muy pocos recursos, como el romaní, lengua de los gitanos en España, y tres lenguas de emigrantes (pastún, wolof y amazigh), al tiempo que se espera generar ideas útiles para otras lenguas con recursos igualmente insuficientes.

Como se puede observar en las inter-relaciones que se muestran en la siguiente imagen, cada subproyecto los tres subproyecto se necesitas entre ellos para poder contrastar la hipotesis inicial.

 

 

 

HITZ_logo BSC Uvigo

Financiado por MCIN/AEI/10.13039/501100011033/ y “FEDER Una manera de hacer Europa”: