TRAIN: EXTREMELY LOW-RESOURCED MACHINE TRANSLATION

Deskribapen motza, derrigorrezkoa proiektuak logorik ez badu (eu):

TRAIN (PID2021-123988OB-C31) MCIN/AEI/10.13039/501100011033 eta FEDER Una manera de hacer Europa-k finantzatuta

Azken urteotan, gainbegiratu gabeko itzulpen automatikoak itzulpen automatikoko sistemak garatzea posible dela, baita informazio elebidunik (hiztegi elebidunak eta corpus paraleloak) ez dagoen testuinguruetan ere. Baina praktikan beti dago informazio elebidunen bat eskuragarri. [Conneau, 2020] bezalako azken lanak datu elebakarrak eta paraleloak emaitza onekin konbinatzen hasi dira. Proiektu honetan, transferentzia eleaniztuneko ikasketa-teknikei buruzko metodo berritzaileak aztertu nahi ditugu, eta gainbegiratutako eta gainbegiratu gabeko teknikak konbinatu, teknika horien oso baliabide gutxiko hizkuntzen itzulpenean onura izan ditzaten. Gure hipotesia da gainbegiratu gabeko itzulpen automatikorako garatutako teknikak modu eraginkorrean egokitu daitezkeela hizkuntza pare baterako dagoen informazio elebiduna txertatzeko eta, hala, itzulpen-sistema erabilgarriak lortzeko, baita baliabide paralelo gutxi daudenean ere, eta baita zeinu-hizkuntzen itzulpen multimodalaren kasuan ere. Datu paraleloak eta elebakarrak arrakastaz konbinatzen hasi diren arren, hipotesi hori ez da frogatu proiektuko xede diren hizkuntzetan. Hau da, oso baliabide paralelo gutxi dituzten hizkuntzak, eta idatzizko kodifikazio bidez adierazi ohi ez diren zeinu-hizkuntzen kasuan. Planteatutako hipotesia egiaztatzeko, proiektuak gaztelaniaren eta baliabide gutxi dituzten hizkuntza espezifikoen arteko itzulpen-sistemak garatuko ditu: migratzaileen hizkuntzak (amazigh, pastún eta wolof), gutxiengo etnikoenak (romaní) eta espainiar zeinu-hizkuntza ere. Horrela, talde zaurgarri horiek (migratzaileak, errefuxiatuak eta pertsona gorrak edo entzumen-arazoak dituztenak) integratzen lagunduko dugu.

Deskribapen motza, derrigorrezkoa proiektuak logorik ez badu (en):

TRAIN (PID2021-123988OB-C31) project funded by MCIN/AEI/ 10.13039/501100011033 and by “ERDF A way of making Europe”

Deskribapena (en):

In recent years, unsupervised machine translation has shown that it is possible to develop machine translation systems even in contexts where no bilingual information is available (neither bilingual dictionaries nor parallel corpora). But in practice there is always some bilingual information accessible. Recent approaches such as [Conneau, 2020] have started to combine monolingual and parallel data with good results. Within the present project, we plan to explore novel methods about multilingual transfer learning techniques and combine supervised and unsupervised techniques, while respecting efficiency and modularity constraints, so that language translation with very few resources can benefit from these techniques. Our hypothesis is that techniques developed for unsupervised machine translation can be efficiently adapted to incorporate the bilingual information present for a given language pair and thus obtain usable translation systems even when few parallel resources are available, also in the case of multimodal translation involving a sign language, such as LSE. Although a successful start has already been made to combine parallel and monolingual data, this hypothesis has not been tested in the case of languages with very few parallel resources such as the languages targeted by this project and, what is even more difficult, in the case of nonverbal languages that are not usually expressed in written coded form, so that there is an extremely low number of very small parallel corpora. To test our hypothesis, the project will explore a diversity of semi-supervised learning techniques and develop translation systems between Spanish and certain low-resource languages covering migrant (Amazigh, Pashto and Wolof) and ethnic minority (Romani) languages, as well as from Spanish sign language into Spanish. Thus contributing to the inclusion of these vulnerable groups, including migrants, refugees and deaf and hard of hearing people.

Deskribapen motza, derrigorrezkoa proiektuak logorik ez badu (es):

TRAIN (PID2021-123988OB-C31) financiado por MCIN/ AEI /10.13039/501100011033 y por FEDER Una manera de hacer Europa

Deskribapena (es):

En los últimos años, la traducción automática no supervisada ha demostrado que es posible desarrollar sistemas de traducción automática incluso en contextos en los que no se dispone de información bilingüe (ni diccionarios bilingües ni corpus paralelos). Pero en la práctica siempre hay alguna información bilingüe accesible. Enfoques recientes como [Conneau, 2020] han empezado a combinar datos monolingües y paralelos con buenos resultados. Dentro del presente proyecto, planeamos explorar métodos novedosos sobre técnicas de aprendizaje de transferencia multilingüe y combinar técnicas supervisadas y no supervisadas, respetando las restricciones de eficiencia y modularidad, para que la traducción de idiomas con muy pocos recursos pueda beneficiarse de estas técnicas. Nuestra hipótesis es que las técnicas desarrolladas para la traducción automática no supervisada pueden adaptarse de forma eficiente para incorporar la información bilingüe presente para un par de lenguas determinado y obtener así sistemas de traducción utilizables incluso cuando se dispone de pocos recursos paralelos, y también en el caso de la traducción multimodal que implica una lengua de signos, como el LSE. Aunque ya se han empezado a combinar con éxito datos paralelos y monolingües, esta hipótesis no se ha puesto a prueba en el caso de lenguas con muy pocos recursos paralelos como las lenguas objetivo del proyecto y, lo que es aún más difícil, en el caso de lenguas no verbales que no suelen expresarse en forma codificada escrita, por lo que hay un número extremadamente bajo de corpus paralelos y muy pequeños. Para comprobar la hipótesis planteada, el proyecto desarrollará sistemas de traducción entre el español y lenguas específicas con escasos recursos que abarcan lenguas de migrantes (amazigh, pastún y wolof) y de minorías étnicas (romaní), así como la lengua de signos española. Contribuiremos de este modo a la inclusión de estos grupos vulnerables (migrantes, refugiados y personas sordas o con problemas de audición).

Kode ofiziala:

PID2021-123988OB-C31

Ikertzaile nagusia:

Gorka Labaka eta Eneko Agirre

Erakundea:

Ministerio de Ciencia e Innovación

Saila:

LSI

Hasiera data:

2022/09/01

Bukaera data:

2025/08/31