El grupo de investigación de Sistemas de Acceso Inteligente a la Información (SINAI) de la Universidad de Jaén trabaja en el desarrollo de un sistema de procesamiento del lenguaje natural con el que se podrá combatir las fake news y profundizar en las relaciones semánticas entre máquinas diferentes.
¿Cuántas maneras de negar existen? Seguramente en un breve repaso mental surjan decenas y, en un buen número de ellas, ni tan siquiera aparezca palabra “no”. El lenguaje humano puede considerarse como una de las formas de expresión más complejas, con una capacidad de expresión prácticamente infinita, a partir tan solo de menos de una treintena de letras y una serie de reglas para combinarlas. Una estructura que domina, sin muchos problemas, un niño de tres años, pero que para los ordenadores todavía sigue siendo un reto.
El procesamiento del lenguaje natural por parte de máquinas es uno de los campos más apasionantes de la inteligencia artificial, porque supone dotar a las computadoras de una capacidad que las acerca mucho a los seres humanos.
Casi la mitad de la investigación en inteligencia artificial es sobre el procesamiento del lenguaje natural
El interés por alcanzar un modelo de comunicación efectivo es enorme, y buena muestra de ello es que cerca de la mitad de la investigación mundial en el área de inteligencia artificial corresponde a procesamiento de lenguaje natural. Pero aún así, se está lejos de poder mantener una conversación fluida con un ordenador, fuera de un contexto muy determinado y delimitado, como podría ser el de los asistentes virtuales de servicios públicos o los dispositivos como Siri, que equipan algunos teléfonos móviles, o los asistentes virtuales de las grandes tecnológicas.
Se necesita avanzar en la investigación para que las máquinas entiendan a las personas y, no solamente eso, sino que sean capaces de dar una respuesta coherente y en el tono adecuado.
Uno de los más punteros en procesamiento del lenguaje
Este campo de trabajo tiene mucho que decir el grupo de investigación de Sistemas de Acceso Inteligente a la Información (SINAI) de la Universidad de Jaén, que se ha convertido en uno de los más punteros del país y cuyas investigaciones están sirviendo para mejorar la comunicación entre seres humanos y máquinas.
Actualmente, el grupo SINAI coordina el proyecto Tecnologías del lenguaje humano para entidades digitales vivas (Living-Lang), en el que también participa un equipo de gran nivel de la Universidad de Alicante, y que cuenta con un presupuesto cercano a los 300.000 euros, procedentes de fondos ministeriales.
Living-Lang está sirviendo para que estos investigadores profundicen en la relación directa entre el uso del lenguaje por parte de un individuo y su comportamiento en medios digitales, para desarrollar técnicas, recursos y herramientas de procesamiento de lenguaje humano, “dirigidas a modelar entidades digitales, sus relaciones en las redes sociales y su evolución en el tiempo”.
Modelos de lenguaje humano para máquinas
En el marco de este proyecto se están desarrollando herramientas para modelos de lenguaje humano empleados por las entidades digitales; se están descubriendo las relaciones semánticas entre las entidades digitales. El conocimiento generado va a permitir determinar la coherencia, calidad y contraste de las relaciones semánticas extraídas. Y, como cuarto bloque de todo el proyecto, se pretende predecir el comportamiento futuro de las entidades digitales, gracias al descubrimiento de posibles relaciones semánticas entre ellas.
En definitiva, se trata de un proyecto en el que se sientan las bases para el reconocimiento de fake news, detección de racismo, xenofobia y misoginia en las redes o el reconocimiento de las emociones, entre otros muchos objetivos.
Tecnología de procesamiento de la lengua
La tecnología de procesamiento del lenguaje natural surge en los años 50 y 60, en el mismo momento en el que se plantea automatizar distintas tareas. Y se puede decir que es ahora cuando se están alcanzando las mayores cuotas de éxito, impulsado, qué duda cabe, por la proliferación de dispositivos que interactúan con las personas.
El director de este proyecto es el investigador de la Universidad de Jaén, Alfonso Ureña, que también está al frene del grupo SINAI y preside la Sociedad Española para el Procesamiento del Lenguaje Natural. Ureña aclara que para que un ordenador entienda a una persona, debe ser sometido a un proceso de entrenamiento, a un aprendizaje profundo, que permite que la máquina sea capaz de inferir usos del lenguaje.
Y es aquí cuando se entra de lleno en el campo de la inteligencia artificial, con sistemas de aprendizaje automático.
Las máquinas actuales cuentan con capacidad para aprender. Son capaces de sacar conclusiones propias e inferir las reglas del lenguaje que les permiten establecer una comunicación relativamente fluida. Ese aprendizaje se realiza mediante textos, corpus textuales, que la propia máquina analiza, y de los que aprende expresiones, fórmulas lingüísticas, usos de las palabras, incluso, en los sistemas más avanzados, es capaz de comprender algún doble sentido. Todo depende del entrenamiento que se le haya ofrecido.
Entrenamiento en contextos muy determinados
Por ejemplo, si se trata de un dispositivo para la atención de personas en el campo de la salud, habrá sido sometido a un proceso de aprendizaje en el que habrá tenido que analizar cientos o miles de textos del campo en cuestión. Algo parecido si se trata del descubrimiento de noticias falsas, para lo que al ordenador se le facilitan un conjunto de noticias falsas y otras verdaderas, con el fin de que las analice y saque sus propias conclusiones que le permitan distinguir unas de otras.
Se trata, de atomizar, de abordar contextos y dominios lingüísticos muy concretos y cerrados, para los que se prepara un material con las expresiones, frases, giros de la lengua habituales en esas situaciones.
Textos e información sobre su uso
Sin embargo, el texto en sí no es suficiente para que el ordenador aprenda, necesita la intervención del ser humano, que se encarga de realizar una serie de anotaciones a los textos, en los que aporta una información adicional que resulta clave para que la comunicación se realice con éxito.
Por ejemplo, en esas anotaciones puede determinar el significado de una palabra en un contexto determinado, las fórmulas de negación que suelen darse en esas situaciones, o incluso el grado de negatividad o positividad en el caso de que se trate de una aplicación para analizar los sentimientos que provocados por un producto o una idea en las redes sociales.
Con la tecnología del procesamiento del lenguaje de las personas “pretendemos procesar el lenguaje humano en todos sus ámbitos, tanto escrito como hablado; tanto la parte de generación como la de comprensión del lenguaje”, afirma el director del grupo SINAI.
Comprensión y generación del lenguaje
El reto de estos investigadores reside en “la comprensión y generación del lenguaje”. Se trata de dos áreas muy complejas, “porque nos enfrentamos con todas las dificultades que presenta el lenguaje humano”. De ahí que estos investigadores estén convencidos de que todavía falta mucho para poder resolver al cien por cien la comunicación fluida entre las personas y las máquinas.
Tienen que sortear la ironía, la metáfora, el sarcasmo, los dobles sentidos de las palabras… todos esos elementos que aportan riqueza al lenguaje, pero que lo complican demasiado para las máquinas, para que se establezca una comunicación abierta entre las personas y las máquinas.
Por el momento, el diálogo es todavía en contextos muy determinados, pero funciona bastante bien. De hecho, algunas teleoperadoras que atienden a los usuarios de compañías de seguros son máquinas, algo que pasa inadvertido la mayoría de las veces.
Esta rama de la inteligencia artificial está suponiendo grandes avances, algunos comparados al salto que supuso pasar del MS-DOS a Windows, en la medida en que facilitará el acceso a la tecnología, tal y como lo hizo el sistema de ventanas.