DeepThought: Reasoning and Alignment of Large Language Models for Multilingual and Low Resource Scenarios

Deskribapen motza, derrigorrezkoa proiektuak logorik ez badu (eu): 
Grant DeepThought (PID2024-159202OB-C21) funded by MICIU/AEI /10.13039/501100011033 and by ERDF, EU
DeepThought-ek eskala handiko hurbilketa bat aurkezten du hizkuntza gutxituetarako Hizkuntza Eredu Handiak egokitzeko, prestakuntza eta lerrokadura estrategia berritzaile baten bidez. Proiektuak enpirikoki balioztatutako metodologiak garatuko ditu Llama-3+ eta Qwen+ bezalako kode irekiko ereduak euskara eta gaztelaniara zabaltzeko, lehendik dauden LLMen eta Hizkuntza Arrazonamendu Ereduen datu-multzo sintetikoak eta arrazonamendu-berbalizazioak aprobetxatuz. Helburu nagusiak hauek dira: zero-shot eta few-shot errendimendua hobetzea RAG tekniken bidez, inferentzia-denboran konputazioa eta arrazonamendu-gaitasunak indartzea, egiatasunean eta segurtasunean zentratutako ebaluazio-benchmark berriak sortzea, LLM-as-a-Judge metrikak garatzea eta eLearning eta eOsasun bezalako domeinuetan aplikazio multimodalak eraikitzea. Hasiera batean gaztelania eta euskaran zentratuta egon arren, proiektuak LLM teknologia demokratizatu nahi du Europako baliabide gutxiko hizkuntzetarako, komunitate hauek IAren aurrerapenak osoki partekatu eta onura atera dezaten bermatuz.
Deskribapen motza, derrigorrezkoa proiektuak logorik ez badu (en): 
Grant DeepThought (PID2024-159202OB-C21) funded by MICIU/AEI /10.13039/501100011033 and by ERDF, EU
Deskribapena (en): 
DeepThought introduces a scalable approach for adapting Large Language Models to low-resource languages through an innovative joint pretraining and alignment strategy. The project will develop empirically validated methodologies for extending open-source models like Llama-3+ and Qwen+ to languages such as Basque and Spanish, leveraging synthetic datasets and reasoning verbalizations from existing LLMs and Language Reasoning Models. Key objectives include improving zero-shot and few-shot performance through RAG techniques, enhancing test-time computation and reasoning capabilities, creating new evaluation benchmarks focusing on truthfulness and safety, developing LLM-as-a-Judge metrics, and building multimodal applications across domains like eLearning and eHealth. While initially focused on Spanish and Basque, the project aims to democratize LLM technology for Europe's low-resource languages, ensuring these communities can fully participate in AI advances.
Deskribapen motza, derrigorrezkoa proiektuak logorik ez badu (es): 
Grant DeepThought (PID2024-159202OB-C21) funded by MICIU/AEI /10.13039/501100011033 and by ERDF, EU
Deskribapena (es): 
DeepThought introduce un enfoque escalable para adaptar Modelos de Lenguaje de Gran Tamaño a idiomas de bajos recursos mediante una estrategia innovadora de preentrenamiento y alineación conjunta. El proyecto desarrollará metodologías empíricamente validadas para extender modelos de código abierto como Llama-3+ y Qwen+ a idiomas como el euskera y el español, aprovechando conjuntos de datos sintéticos y verbalizaciones de razonamiento de LLMs y Modelos de Razonamiento Lingüístico existentes. Los objetivos clave incluyen mejorar el rendimiento zero-shot y few-shot mediante técnicas RAG, potenciar la computación en tiempo de inferencia y las capacidades de razonamiento, crear nuevos benchmarks de evaluación centrados en la veracidad y la seguridad, desarrollar métricas LLM-as-a-Judge y construir aplicaciones multimodales en dominios como eLearning y eSalud. Aunque inicialmente enfocado en español y euskera, el proyecto busca democratizar la tecnología LLM para los idiomas europeos de bajos recursos, asegurando que estas comunidades puedan participar plenamente en los avances de la IA.
Kode ofiziala: 
PID2024-159202OB-C21
Ikertzaile nagusia: 
Rodrigo Agerri, German Rigau
Erakundea: 
Ministerio de Ciencia, Innovación y Universidades (MCIU)
Saila: 
LSI
Hasiera data: 
2025/09/01
Bukaera data: 
2028/08/31
Taldea: 
Ixa
Taldeko ikertzaile nagusia: 
Rodrigo Agerri
German Rigau
Besteak: 
Jon Ander Elorriaga, Mikel Larrañaga, Xabier Saralegi, Muitze Zulaika
Kontratua: 
Ez
Deialdiaren izena eta urtea: 
MCIU-Proyectos de Generación del Conocimiento 2024