El reconocimiento de entidades nombradas (NER) y la extracción de relaciones (RE) son dos de las tareas más estudiadas en el procesamiento biomédico del lenguaje natural (PLN). La primera busca encontrar dentro de un texto biomédico determinados conceptos que denominamos entidades, y la segunda tarea se centra en encontrar las relaciones entre este tipo de conceptos previamente encontrados. La detección de términos y entidades específicos y las relaciones entre ellos son aspectos clave para el desarrollo de sistemas automáticos más complejos en el campo biomédico.
Andrés Duque, Juan Martínez-Romo y Lourdes Araujo, del Departamento de Lenguajes y Sistemas Informáticos de la UNED, junto a Hermenegildo Fabregat, colaborador externo que realizó su tesis doctoral en la UNED, publican en Journal of Biomedical Informatics una investigación, donde se exploran técnicas de aprendizaje de transferencia para incorporar información sobre negación en sistemas que realizan NER y RE. Su objetivo principal es analizar en qué medida la detección exitosa de entidades negadas en tareas separadas ayuda en la detección de entidades biomédicas y sus relaciones.
Este estudio se ha centrado en la detección de discapacidades y su relación con diferentes enfermedades raras. Este tipo de entidades no están muy estudiadas, y sin embargo son muy importantes en el dominio biomédico: se estima que un 15% de la población mundial presenta alguna discapacidad, y que entre 300 y 400 millones de personas en el mundo sufre alguna enfermedad rara. Dentro de este contexto, en este trabajo se trata de determinar si una correcta detección previa en los textos biomédicos de un fenómeno lingüístico como es la negación es capaz de mejorar aquellos sistemas que se dedican a un posterior reconocimiento de entidades nombradas y a una extracción de relaciones. Además, esta investigación se ha realizado con colecciones de documentos en dos idiomas, español e inglés, ya que el inglés es el idioma que más se usa en las investigaciones.
La principal hipótesis del trabajo supone que una detección correcta del fenómeno lingüístico de la negación es capaz de aportar un conocimiento útil a un sistema que, a posteriori, pretenda realizar reconocimiento de entidades nombradas y extracción de relaciones sobre textos biomédicos. Para probar esta hipótesis, se entrenó un sistema de aprendizaje profundo basado en redes neuronales para detectar tanto los disparadores (triggers) relacionados con la negación como el ámbito (scope) de dicha negación. Por ejemplo, en la frase ‘casi no tiene accesos de tos, ni presenta fiebre’, un disparador de negación sería ‘casi no’ y el ámbito de esa negación sería ‘casi no tiene accesos de tos’. Un segundo disparador sería ‘ni’, y un segundo ámbito sería ‘ni presenta fiebre’.
Una vez que se ha entrenado este sistema, los investigadores aplicaron una técnica denominada transfer learning para transferir el conocimiento obtenido por la red neuronal (que se representa en última instancia como una matriz numérica de pesos) a un segundo sistema de aprendizaje profundo, orientado ya a las tareas de reconocimiento de entidades nombradas y extracción de relaciones. De esta forma, se puede comparar si este sistema final obtiene mejores resultados cuando se le inyecta el conocimiento derivado del detector de negación. Los resultados obtenidos nos indican que este entrenamiento previo sobre la negación es capaz de mejorar el reconocimiento de entidades nombradas en un 3.5% en inglés y en un 7% en español, mientras que la tarea de extracción de relaciones se ve mejorada en aproximadamente un 2%.
Entre las aportaciones de esta investigación destaca la aplicación de sistemas previos de detección de la negación en textos biomédicos, para la mejora posterior de otros sistemas que se dediquen al reconocimiento de entidades nombradas y la extracción de relaciones. Esto podría repercutir en mejorar el descubrimiento y la extracción de información contenida en textos biomédicos. En la actualidad, la gran cantidad de información dentro del dominio biomédico derivada de la existencia de múltiples fuentes de información e idiomas distintos provoca que un análisis manual de dicha información sea imposible. Por ello, el desarrollo de sistemas automáticos que realicen diversos procesos sobre grandes cantidades de textos del dominio es muy necesario. En concreto, este trabajo está dirigido a la mejora de sistemas que reconozcan nuevas relaciones entre conceptos como pueden ser las discapacidades asociadas a enfermedades raras, que no estén directamente recogidas en la literatura médica actual. Por otro lado, el hecho de presentar una investigación en documentos escritos tanto en inglés como en español supone un importante avance en lo que se refiere al multilingüismo en este dominio, en el que las principales investigaciones se desarrollan, principalmente en inglés.
La presente investigación es una oportunidad de aplicar los conocimientos en el área del PLN a un campo como la medicina, en el cual los avances en la investigación se pueden transformar rápidamente en herramientas extremadamente útiles para la sociedad en su conjunto.