El CSIC usará la IA para recuperar y fomentar la ciencia en español

La iniciativa, coordinada por el CSIC con la participación de varias instituciones, ha sido dotada con 1,4 millones de euros.

Compartir

El CSIC coordina el proyecto de terminología en español TeresIA, que generará un metabuscador de acceso a terminologías en español de alcance panhispánico y desarrollará una metodología innovadora para la generación de terminología en español, basándose en inteligencia artificial pero también en las mejores capacidades humanas y en el conocimiento experto. 

Mapa de hispanohablantes en el mundo. Fuente: wikipedia.

La iniciativa, denominada TeresIA: Portal de acceso a terminologías en español y servicios de Inteligencia Artificial, ha sido dotada con 1.450.000 de euros por la Secretaría de Estado de Digitalización e Inteligencia Artificial (SEDIA), del Ministerio de Transformación Digital. Esta concesión económica forma parte de la Estrategia Nacional de Inteligencia Artificial (ENIA), componente 16 del Plan de Recuperación, Transformación y Resiliencia.

TeresIA creará un corpus de literatura científica en español; diseñará una metodología de extracción de información aplicando técnicas de inteligencia artificial (IA) y Procesamiento del Lenguaje Natural (PLN) para extraer términos, mostrarlos en su contexto, validarlos, sancionarlos, transformarlos a formatos de la web de datos y hacerlos visibles y recuperables en distintos entornos, incluido el metabuscador.

“Todo ello generará un enorme conjunto de datos terminológicos abiertos, siguiendo principios FAIR; y favorecerá la interacción con comunidades de expertos a los que se implicará en los procesos de validación”, indica Elea Giménez. “Desarrollar terminología en español en el marco de la ciencia abierta representa un avance para el multilingüismo”, señala la investigadora que dirige el proyecto.

“Al trabajar con estándares tecnológicos, las palabras de la ciencia en español se conectarán con las palabras de la ciencia en otros idiomas. De este modo, se multiplican las posibilidades de recuperar y descubrir contenidos científicos en distintos idiomas. Además, se preserva la riqueza terminológica de cada lengua, se favorecen las traducciones especializadas (tanto la humanas como las automáticas), se entrenan algoritmos, y se mejora la enseñanza del español de especialidades, entre otras aplicaciones”, detalla Giménez Toledo.

El proyecto se presentó el pasado 11 de diciembre en la Delegación institucional del CSIC en Bruselas, con la asistencia de la Comisionada Especial para el PERTE Nueva Economía de la Lengua, Cristina Gallach, y la investigadora que dirige el proyecto, Elea Giménez Toledo, científica titular del Grupo de Investigación sobre el Libro Académico del Instituto de Filosofía del CSIC y coordinadora de la plataforma ES CIENCIA. El acto, que se enmarca en la Presidencia española del Consejo de la UE, contará con la presencia de representantes de la Dirección General del Español en el Mundo.

TeresIA se enmarca en el Proyecto Estratégico para la Recuperación y Transformación Económica (PERTE) de la Nueva Economía de la Lengua, cuya Comisionada ha apoyado esta iniciativa, sensible a la relevancia del trabajo en terminología y multilingüismo en el contexto de la ciencia abierta y que, además, es de especial interés para el trabajo de traducción en instituciones multilaterales que trabajan en ámbitos multilingües. 

El proyecto se desarrollará conjuntamente por un consorcio conformado por seis instituciones: la Plataforma Temática Interdisciplinar (PTI) ES CIENCIA, del CSIC, el Instituto Cervantes, el Centro Nacional de Supercomputación (BSC), el Grupo de Ingeniería Ontológica de la Universidad Politécnica de Madrid, la Asociación Española de Terminología (AETER) y la Real Academia de Ingeniería (RAI), que contarán con el apoyo del Departamento de Lengua Española de la Dirección General de Traducción de la Comisión Europea.