Redes de Investigación 2024: RutaMdL, Asesoria sobre la construcción, evaluación y uso de Modelos de Lenguaje

Deskribapen motza, derrigorrezkoa proiektuak logorik ez badu (eu): 
Asesoria sobre la construcción, evaluación y uso de Modelos de Lenguaje
Deskribapen motza, derrigorrezkoa proiektuak logorik ez badu (en): 
Asesoria sobre la construcción, evaluación y uso de Modelos de Lenguaje
Deskribapena (en): 
Natural language is the most common and efficient tool for humans to convey information. People use language, our natural means of communication, to encode, store, transmit, share and manipulate information. Natural Language Processing (NLP), therefore, is one of the most important and disruptive functional application areas of Artificial Intelligence in the current digital transformation. Language Technology is currently undergoing a paradigm shift due to deep learning techniques and pre-trained models, also called Language Models (LMs) or Fundational models. These models have emerged as transversal tools that dominate this area of AI. LMs are being trained by large technology corporations, which means that they do not meet the needs or specifications of speakers, institutions or companies of a language. In this sense, it is essential to advance local research to build LM, and this is how the Ministry for Digital Transformation and the Civil Service understands it by launching the PERTE for the new language technology, which has been followed by the ALIA initiative (Axis 1 of the SEDIA Artificial Intelligence Strategy 2024) and the autonomous plans Nos, GAITU and AINA that cover Galician, Basque and Catalan. These initiatives have a clearly finalistic objective, the construction of LM for the official languages. On the other hand, the technological mastery of LM comes from the hand of a few research and development centers in the world, both public and private, with a critical mass of researchers and experts of excellence, who are those who researched a few years ago in the techniques that have later led to the advances in LM. The centers that make up this proposal are involved in the above-mentioned government initiatives, and are regular interlocutors of the relevant positions of the Ministry of Digital Transformation and the Civil Service. The ultimate goal of the RutaMdL network is to articulate a coordinated basic research strategy so that the country's centers can compete with researchers in the area and focus on advancing the frontier of knowledge in LM. The network is therefore complementary to the aforementioned government initiatives, as it will focus on analyzing which areas of research in the LM are the priority and most promising and will draw up a roadmap of strategic interest that will allow it to advise political authorities and thus achieve scientific leadership in these areas, as well as study strategies to increase the impact of the research results obtained in these projects. This network will also promote collaboration, coordination and the creation of synergies and complementarity between the most relevant research groups in the LM area, all of them funded in previous calls for proposals from the State Plan for R&D&I and involved in the aforementioned government initiatives. The IP is also responsible for the Chair of Artificial Intelligence and Language Technology funded by SEDIA, unique in its area, and IP of the project proposal HumanAIze: Humanizing AI with language technology in the call for research plans in cooperation in artificial intelligence of the Ministry of Universities. Note: Pag 21 instrucciones publicidad https://www.aei.gob.es/ayudas-concedidas/comunicacion-publicidad-ayudas-...
Deskribapen motza, derrigorrezkoa proiektuak logorik ez badu (es): 
Asesoria sobre la construcción, evaluación y uso de Modelos de Lenguaje
Deskribapena (es): 
l lenguaje natural es la herramienta más común y eficiente para que los humanos transmitan información. Usamos el lenguaje, nuestro medio natural de comunicación, para codificar, almacenar, transmitir, compartir y manipular información. El Procesamiento del Lenguaje Natural (PLN), por tanto, una de las áreas de aplicación funcional de la Inteligencia Artificial más importantes y disruptoras de la transformación digital actual. La Tecnología del Lenguaje se encuentra inmerso actualmente en un cambio de paradigma debido a las técnicas de aprendizaje profundo y los modelos preentrenados, también llamados Modelos de Lenguaje (MdL) o Modelos Fundacionales. Dichos modelos han surgido como herramientas transversales que dominan este área de la IA. Los MdL están siendo entrenados por grandes corporaciones tecnológicas, lo que significa que no atienden a las necesidades o especificaciones de los hablantes, instituciones o empresas de una lengua. En ese sentido es primordial avanzar en la investigación local para construir MdL, y así lo entiende el Ministerio para la Transformación Digital y de la Función Pública al lanzar el PERTE de la nueva tecnología del lenguaje, que ha sido seguida de la iniciativa ALIA (Eje 1 de la Estrategia de Inteligencia Artificial 2024 de la SEDIA) y los planes autonómicos Nos, GAITU y AINA que abarcan el gallego, euskera y catalán. Dichas iniciativas tienen un objetivo claramente finalista, la construcción de MdL propios para los idiomas oficiales. Por otro lado, el dominio tecnológico de MdL viene de la mano de unos pocos centros de investigación y desarrollo del mundo, tanto públicos como privados, con una masa crítica de investigadores y expertos de excelencia, que son los que investigaron hace unos pocos años en las técnicas que luego han dado lugar a los avances en MdL. Los centros que componen esta propuesta están involucrados en la iniciativas gubernamentales arriba citada, y son interlocutores habituales de los cargos relevantes del Ministerio de Transformación Digital y la Función Pública. La red RutaMdL tiene como objetivo final articular una estrategia coordinada de investigación básica para que los centros del país puedan competir con los investigadores del entorno y centrarse en avanzar la frontera del conocimiento en MdL. La red es por tanto complementaria a las iniciativas gubernamentales antes mencionadas, ya que se centrará en analizar qué áreas de investigación de los MdL son las prioritarias y más prometedoras y elaborará una hoja de ruta de interés estratégico que permita asesorar a las autoridades políticas y así conseguir el liderazgo científico en esas áreas, así como estudiar estrategias para incrementar el impacto de los resultados de investigación obtenidos en dichos proyectos. Esta red fomentará asimismo la colaboración, coordinación y creación de sinergias y complementariedad entre los grupos de investigación más relevantes del área de MdL, todos ellos financiados en convocatorias anteriores del Plan Estatal de I+D+I e involucrados en las iniciativas gubernamentales mencionadas anteriormente. El IP es también responsable de la Cátedra Inteligencia Artificial y Tecnología del Lenguaje financiada por la SEDIA, única en su área, e IP de la propuesta del proyecto HumanAIze: Humanizing AI with language technology en la convocatoria de planes de investigación en cooperación en inteligencia artificial del Ministerio de Universidades Note: Pag 21 instrucciones publicidad https://www.aei.gob.es/ayudas-concedidas/comunicacion-publicidad-ayudas-...
Kode ofiziala: 
RED2024-154067-E
Ikertzaile nagusia: 
Eneko Agirre
Erakundea: 
Ministerio de Ciencia, Innovación y Universidades (MCIU)
Saila: 
HiTZ
Hasiera data: 
2025/05/01
Bukaera data: 
2027/04/30
Taldeko ikertzaile nagusia: 
Eneko Agirre
Ixakideak: 
Kontratua: 
No
Webgunea: 
http://