Modelos de Lenguaje Visuales para la Inclusión - MOLVI (parte del proyecto coodinado AI4I)

Azpiproiektuaren helburu nagusia zeinu-hizkuntzaren ulermena eta itzulpena hobetzea da, Ikusmen-Hizkuntza Ereduak (Vision-Language Models, VLM) garatuz. Ahalegin hau diziplinarteko lankidetza baten barruan kokatzen da, datu bisualen eta testualen integrazioan gaur egun dauden mugak gainditzea helburu duena, hala nola ikusmen-ainguratzea, konposiziozko adierazgarritasuna eta modalitateen arteko ezagutza-transferentzia hobetuz. Proiektuak VLMen garapenean eta zeinu-hizkuntzaren itzulpen automatikoan dauden arazo kritikoak jorratzen ditu. Azken hori bereziki zaila da, datu anotatuen eskasia eta seinale multimodalen berezko konplexutasuna direla eta. Erronka horiei aurre egiteko, ikusmen-kodetzaile aurreratuak garatuko dira eta entrenamendu-metodoak hobetu egingo dira. Horri esker, MOLVIk eredu sendoagoak, zehatzagoak eta hainbat zeinu-hizkuntzatara egokitzeko gai direnak eraikitzea espero du, hala nola Espainiako Zeinu Hizkuntzara (LSE). Proiektuaren eragina zabala da. Alde batetik, emaitzek komunitate gorren gizarteratzea sustatuko dutela espero da, osasun-arreta, hezkuntza eta zerbitzu publikoak bezalako funtsezko arloetan komunikazioa erraztuz. Bestetik, MOLVIk oinarri zientifiko berriak ezarriko ditu, datu bisualak eta testualak ikaskuntza sakoneko ereduetan modu eraginkorrean nola integratu aztertuz. Ikuspegi honek lehendik dauden ereduen gaitasunak hobetzeaz gain, baliabide mugatuak dituzten beste hizkuntza batzuetan aplikazio berriak garatzeko aukera ere ematen du. MOLVIn garatutako teknologien ezarpenak estrategia praktikoak ere barne hartzen ditu, hala nola hizkuntza medikoaren itzulpena edo zeinu-hizkuntzaren ikaskuntzaren ebaluazioa. Lankidetzan eta erabiltzailean oinarritutako ikuspegia hartuta, azpiproiektuak bermatzen du garapen teknologikoak kulturalki sentikorrak izatea eta komunitate gorren benetako beharrei erantzutea, irisgarritasuna sustatuz eta desberdintasunak murriztuz. Laburbilduz, MOLVI teknologia baliatuz komunitate gorrak ahalduntzeko ahalegin integral eta aitzindaria da, hizkuntza eta komunikazio-sistema desberdinetako erabiltzaileen arteko elkarreraginerako eta elkar ulertzeko aukera berriak irekiz.

Deskribapena (en):

The primary goal of the subproject is to enhance the understanding and translation of sign language through the development of Vision-Language Models (VLMs). This initiative is part of an interdisciplinary collaboration aimed at overcoming current limitations in integrating visual and textual data, improving key aspects such as visual grounding, compositional representation, and knowledge transfer across modalities. The project addresses critical challenges in the development of VLMs and their application to automatic sign language translation, an area of particular difficulty due to the scarcity of annotated datasets and the inherent complexity of multimodal signals. To tackle these challenges, advanced visual encoders will be developed, and training methodologies will be improved. Thanks to this, MOLVI aims to build more robust and accurate models capable of adapting to multiple sign languages, such as Spanish Sign Language (LSE). The project's impact is extensive. On one hand, the results are expected to contribute to the social inclusion of deaf communities by facilitating communication in key sectors such as healthcare, education, and public services. On the other hand, MOLVI will establish new scientific foundations by exploring how to effectively integrate visual and textual data into deep learning models. This approach not only enhances the capabilities of existing models but also enables new applications for other low-resource languages. The implementation of the technologies developed in MOLVI also includes practical strategies, such as medical language translation and the evaluation of sign language learning. By adopting a user-centered and collaborative approach, the subproject ensures that technological developments are culturally sensitive and responsive to the real needs of deaf communities, promoting accessibility and reducing inequalities. In summary, MOLVI is a comprehensive and pioneering effort to empower deaf communities through technology, opening new possibilities for interaction and understanding between users of different languages and communication systems.

Deskribapena (es):

El subproyecto tiene como meta principal mejorar la comprensión y traducción de la lengua de signos mediante el desarrollo de Modelos Visio-Lingüísticos (VLM, por sus siglas en inglés). Este esfuerzo se enmarca en una colaboración interdisciplinar que busca superar las limitaciones actuales en la integración de datos visuales y textuales, mejorando aspectos como el anclaje visual, la representatividad composicional y la transferencia de conocimientos entre modalidades. El proyecto aborda problemas críticos en el desarrollo de VLMs y su aplicación en traducción automática de la lengua de signos, área de especial dificultad debido a la escasez de datos anotados y la complejidad inherente de las señales multimodales. Para solucionar estos retos se desarrollarán codificadores visuales avanzados y se mejorarán los métodos de entrenamiento. Gracias a esto, MOLVI espera construir modelos más robustos, precisos y capaces de adaptarse a múltiples lenguajes de signos, como la Lengua de Signos Española (LSE). El impacto del proyecto es amplio. Por un lado, se espera que los resultados contribuyan a la inclusión social de las comunidades sordas al facilitar la comunicación en sectores clave como la atención médica, la educación y los servicios públicos. Por otro lado, MOLVI establecerá nuevas bases científicas al explorar cómo integrar de manera efectiva los datos visuales y textuales en modelos de aprendizaje profundo. Este enfoque no solo mejora las capacidades de los modelos existentes, sino que también permite nuevas aplicaciones en otros idiomas con recursos limitados. La implementación de las tecnologías desarrolladas en MOLVI también incluye estrategias prácticas, como la traducción de lenguaje médico o la evaluación del aprendizaje de la lengua de signos. Al adoptar un enfoque colaborativo y centrado en el usuario, el subproyecto asegura que los desarrollos tecnológicos sean culturalmente sensibles y respondan a las necesidades reales de las comunidades sordas, promoviendo la accesibilidad y reduciendo las desigualdades. En resumen, MOLVI es un esfuerzo integral y pionero para empoderar a las comunidades sordas a través de la tecnología, abriendo nuevas posibilidades para la interacción y el entendimiento entre usuarios de diferentes lenguajes y sistemas de comunicación.

Kode ofiziala:

PID2024-157855OB-C32

Ikertzaile nagusia:

Gorka Labaka

Erakundea:

Ministerio de Ciencia, Innovación y Universidades (MCIU)

Saila:

Lengoaia eta Sistema Informatikoak

Hasiera data:

2025/09/01

Bukaera data:

2028/08/31