Más de 200.000 descargas de los modelos de lenguaje para construir el ‘ChatGPT’ en las lenguas cooficiales

El proyecto para construir un chatbot de inteligencia artificial similar a ChatGPT en las lenguas cooficiales de España sigue creciendo. Las familias de modelos de lenguaje creada por la red de centros ILENIA, en la que está integrada el Centro de Inteligencia Digital de la Provincia de Alicante (CENID), han registrado 200.000 descargas hasta este mes de junio.

Equipo de la Red ILENIA en un encuentro celebrado el 8 y 9 de mayo en la Universidad de Alicante.

Gran parte de los modelos cuentan con versiones instruidas y cuantizadas, que facilitan su adopción. Además, parte de estos modelos de texto han servido como base para el desarrollo de modelos de traducción. Concretamente, en el marco del proyecto ILENIA se han construido cuatro modelos de texto, creados por el Centro de Supercomputación de Barcelona, el centro vasco HiTZ, el centro gallego CiTIUS y la Universidad de Santiago de Compostela, y el CENID.

Modelos de lenguaje para construir el ‘ChatGPT’ en las lenguas cooficiales

Desde el CENID se ha trabajado en el desarrollo del gran modelo de lenguaje Aitana de 6.3B de parámetros, entrenado a partir de un preentrenamiento continuo, basado en FLOR-6.3B, con énfasis en los datos en lengua valenciana. El modelo Aitana ha alcanzado un total de 17.656 descargas en Hugging Face, y está también disponible para su descarga desde la web ILENIA.

El Centro de Supercomputación de Barcelona ha creado el modelo que más descarga lleva hasta la fecha, según los datos de la red ILENIA. Ha sido descargado 130.747 veces y consta de un conjunto de modelos en 35 lenguas europeas, entre ellas, el catalán. En total, se compone de hasta siete billones de parámetros.

Del modelo en euskera se encarga el centro vasco HiTZ y fue lanzado a inicios de 2024 con el nombre Laxa. Actualmente están disponibles distintas versiones de los modelos 7B, 8B instruct, 13B y 70B instruct, de la familia de modelos Latxa, con un total de 33.142 descargas en Hugging Face.

Un número similar de descargas lleva la familia de modelos en gallego Carballo, desarrollada por el centro gallego CiTIUS y el Universidad de Santiago de Compostela. En la web están disponibles los modelos Carballo Bloom 1.3B y Llama 3.1 Carballo, ambos para el gallego, los cuales suman un total de 32.326 descargas.

Con que elementos se construyen los modelos de lenguaje de la red ILENIA

Para el desarrollo de recursos lingüísticos, los investigadores de la red ILENIA trabajan con datos textuales y de voz que reciben a través de distintas voces. Los modelos de lengua son claves para el desarrollo de nuevas aplicaciones, de modo que trabajamos en la generación y actualización de estos modelos, sean mono o multilingües o multimodales.

ILENIA colabora en la implementación e inclusión de módulos y librerías para el catalán, el euskera, el valenciano y el gallego, en entornos y plataformas de referencia.

La generación de los modelos conocidos como Large Language Model (LLM) es un proceso progresivo que permite evolucionar exponencialmente en la creación de nuevos modelos, reduciendo el coste y los recursos para entrenarlos.