En el 2008, Iron Man le mostró a los espectadores cómo sería la vida con un asistente personal con inteligencia propia, una realidad que en la última década han desarrollado grandes compañías tecnológicas: asistentes de voz virtuales, interfaces basadas en Inteligencia Artificial (IA), que este año formarán parte de los autos y aparatos electrónicos como los televisores.
“La tendencia de la IA en la actualidad es utilizar comandos de voz para realizar diversas actividades -que de por sí ya se hacían- con mayor eficiencia, debido a los mejores sistemas de cómputo, lo cual tendrá un impacto muy fuerte en la vida cotidiana de las personas”, afirmó David Pinto Avendaño, profesor investigador de la Facultad de Ciencias de la Computación (FCC) de la BUAP.
Uno de los elementos más importantes es el tamaño de los dispositivos de tratamiento de información; es decir, sistemas de cómputo muy reducidos y con capacidad de procesamiento de datos muy grande, lo cual ha tenido un efecto en diferentes vertientes como la trascripción y síntesis de voz, explicó.
En su opinión, tener a la mano dispositivos a los que se les pueda hablar, entiendan lo que se les dice y pasen esta información a texto, con una eficiencia y calidad muy altas, representa un salto tecnológico muy alto en la ejecución de procesos y tareas.
Un ejemplo de esto es el dispositivo Echo Dot, desarrollado por Amazon, que tiene integrado a “Alexa”, su asistente de voz. A este tipo de sistemas es posible decirle comandos sencillos de modo que entiende, responde y realiza las acciones.
“La domótica será beneficiada totalmente de este tipo de sistemas de integración, a los cuales se les podrá ordenar cosas, como contratar un taxi, pedir una pizza, reproducir una canción, prender el automóvil, cerrar la compuerta, encender las luces de las 8:00 a las 10:00 de la noche, en caso de que una persona se encuentre fuera: incluso, avisar si hay un intruso en casa, activar la alarma y llamar a la policía, entre otras situaciones que serán posibles con la ayuda de un asistente que, además de interpretar, tiene el poder de cómputo en la nube para procesar las señales y dar una respuesta”, detalló.
El también doctor en Informática por la Universidad Politécnica de Valencia, en España, dio a conocer que otras de las tendencias en tecnología son los dispositivos que nos permiten integrar aspectos virtuales dentro de nuestra visión del mundo real, además de integrar comandos de voz, como gafas capaces de decirle a un usuario si la persona que tiene enfrente es hombre o mujer, la edad que tiene, y en caso de conocer su identidad, su nombre y a qué se dedica, entre otros datos.
“De igual forma, los manuales escritos vendrán en realidad virtual, en vez de papel, y las gafas detectarán a los objetos mediante cámaras, e indicarán cómo armarlos en el momento. Estos aspectos de integración cambiarán radicalmente la manera en la que vemos a nuestro mundo”, aseveró.
Con el objetivo de insertarse en estas tendencias y hacer contribuciones, en del Laboratorio de Ingeniería y Lenguaje del Conocimiento, cuyo responsable es el doctor Pinto Avendaño, se cuenta con este tipo de dispositivos y otros de domótica, como focos binarios con conexión inalámbrica y conectores de corriente con control por medio de voz, con los que se está trabajando.
“Tenemos dos gafas de realidad aumentada con las que estamos haciendo pruebas para desarrollar nuestras propias aplicaciones específicas, utilizando modelos computacionales y matemáticos que desarrollamos dentro del laboratorio”, mencionó.
Una de estas aplicaciones consiste en la identificación de personas para la clasificación de grupos de acuerdo con intereses o áreas de adscripción. Además, en este laboratorio se encuentran los humanoides que fueron adquiridos por la BUAP, con los cuales se hacen pruebas.
El humanoide más grande ya cuenta con un sistema de voz en español. Hoy los investigadores trabajan en modelos de representación del conocimiento para que pueda establecer una conversación basada en la interpretación, debido a que los modelos que tiene están fundamentados en un diálogo pre-escrito, de tal manera que sólo tiene ciertas opciones para responder, sin que exista una variabilidad.
“Por ello, comenzamos con un trabajo doctoral, que tendrá una duración de cuatro años, basado en procesos que permitan que los diálogos estén generados de forma espontánea, es decir que no hayan respuestas programadas, lo cual representa un reto sumamente importante”, aseveró.
Otro de los proyectos que se desarrollan tiene que ver con la generación de modelos de síntesis de voz emocional, que no existen en la actualidad, que proporcionen respuestas o comentarios enfáticos (de alegría, sorpresa, duda, etcétera), los cuales podrían integrarse a robots, asistentes personales y automóviles, entre otros dispositivos.
Este trabajo, que se realiza en colaboración con la UNAM, busca hacer más amena y natural una charla con este tipo de sistemas, al generar respuestas asociadas a sentimientos, como lo hacemos los humanos, en vez de tener un tono de voz que suene muy “robótico”, lo cual tendrá un impacto muy importante.
Deep Learning
Actualmente, la IA es una de las áreas que más desarrollo ha tenido. Gracias al uso de esta tecnología, grandes marcas de coches trabajan en sistemas de pilotos automáticos. Uno de los algoritmos de la IA que más éxito ha tenido es el Deep Learning (conocido como aprendizaje profundo, o redes neuronales profundas).
Este tipo de pruebas para autos están basadas en un sistema hardware con una variedad de sensores, los cuales proporcionan información a la computadora de lo que hay en el entorno, como una persona que se encuentra a tres metros, un bache, las líneas del camino, un árbol, etcétera.
“La red neuronal aprende de estos datos y de los propios comportamientos de los usuarios, por ejemplo cuando un conductor está al volante, hasta el punto en el que la computadora es capaz de tomar decisiones y conducir por su cuenta, e incluso superar a un humano en tiempos de reacción y toma de decisiones para evitar accidentes”, señaló Roberto Olmos Pimentel, encargado de Investigación en Minería de Datos y Deep Learning del Laboratorio Nacional de Supercómputo del Sureste de México (LNS) de la BUAP.
De igual forma, algunos modelos de celulares ya cuentan con tecnologías de redes neuronales, cuyos algoritmos diferencian el contenido de las fotos que son subidas a la nube, y esta información es re-enviada a los teléfonos, ya clasificada.
El experto, quien es Maestro en Ciencia de Datos y estudiante del Doctorado en Inteligencia Artificial, en la Universidad de Granada, España, comentó que otro avance del Deep Learning son los asistentes de voz a los que es posible ordenarles; por ejemplo, que muestren fotos de un determinado objeto y lo hacen en segundos. Estos sistemas también están diseñados para aprender de la información que les proporcionan las personas, como hábitos, horarios, actividades y gustos, entre otros, de modo que se vuelven cada vez más ágiles y pueden proporcionar sugerencias con base en la experiencia adquirida.
Una de las áreas en las que el Deep Learning también se está utilizando es en la traducción de idiomas. “La red neuronal recibe la frase en la lengua proporcionada, por ejemplo español, y traduce esa información a un idioma computacional que la misma red desarrolla, para después volver a traducirlo al idioma deseado, como el inglés”. Esta función permite a la IA traducir de una forma rápida y que esa misma frase original se pase a otra lengua.
A mediados del 2017, dos bots de Facebook dotados con IA desarrollaron su propio lenguaje, en una prueba que tenía como objetivo generar un software de negociación. El proyecto fue detenido debido a que la idea era que los bots se comunicasen en una lengua comprensible para los humanos. Esto es un ejemplo de los alcances de esta tecnología.
Por otro lado, con respecto al desarrollo de proyectos tecnológicos, en el LNS de la BUAP recientemente se comenzó una investigación basada en el aprendizaje autónomo de robots.
“La idea es que a un robot se le de información básica del funcionamiento de sus motores y sensores, pero no se le indique cómo combinar estos elementos, de modo que con los datos que tiene y la experiencia que genere, debe aprender a moverse de la mejor forma, independientemente de la configuración que tiene al inicio, es ahí donde se ponen a prueba las funciones de Deep Learning”, subrayó Olmos Pimentel.