En palabras de Jeff Dean (colaborador principal en Google Research): «El aprendizaje profundo es realmente una poderosa metáfora para aprender sobre el mundo». ¿Qué diferencia un cerebro humano de una máquina?, ¿qué hace que nuestra materia gris sea tan especial? Independientemente de si el abordaje es biológico, psicológico o filosófico, destacan características como percepción, acción, lenguaje articulado y cognición. En ediciones anteriores de nuestros Miércoles de CTI, te hablamos sobre la inteligencia artificial (IA) y los agentes autónomos: el inalcanzable sueño de emular el cerebro humano y la polémica creación de «máquinas pensantes». Como te comentábamos anteriormente, la imperante tendencia tecnológica que hoy por hoy es clave dentro del campo de la IA es el aprendizaje profundo (deep learning): la IA «finalmente se está poniendo inteligente»; se plantea que los nuevos agentes autónomos sean capaces de entender el lenguaje humano y hacer tanto inferencias como tomar decisiones por sí mismos. Expertos en investigación y consultoría tecnológica señalan que el aprendizaje profundo comenzará a tener un gran impacto en la mayoría de las industrias durante los próximos años. Ahora bien, si te preguntas por qué esto te atañe, te invitamos a continuar leyendo nuestra nota, donde expondremos algunos planteamientos teóricos básicos y unas cuantas aplicaciones de este conjunto de técnicas para extraer, transformar, clasificar y analizar información.
Las redes neuronales cerebrales humanas como inspiración
El trabajo que inició en la década de los sesentas del siglo XX como algo conceptualmente atractivo pero difícil de probar, comenzó a tener un amplio rango de usos comerciales a inicios de los noventas del mismo siglo. De acuerdo con la estadounidense Asociación de Ingenieros Informáticos (Association for Computing Machinery, ACM), los sistemas neuronales artificiales (redes neuronales) siguen los patrones de las neuronas cerebrales, así como las conexiones o sinapsis entre las neuronas. Así, las redes neuronales artificiales son sistemas altamente conectados, elementos de procesamiento simples cuyo comportamiento cambia según los «pesos» asignados a cada conexión; contrario a los programas computacionales tradicionales, el aprendizaje profundo requiere entrenamiento: entre mayor sea la cantidad de información de entrada, mejores serán los resultados. Durante muchos años la mayoría de las redes neuronales contenían una sola capa de «detectores de características» y eran principalmente entrenados con datos clasificados a través de un proceso llamado entrenamiento «supervisado»; posteriormente aparecerían los tipos multicapa e híbrido.
Ya para la década de los ochentas apareció un tipo de aprendizaje profundo más poderoso, que empleaba múltiples capas. En los años de irreales robots futurísticos propios de películas como El cazador implacable (Blade Runner, 1982), El exterminador (The Terminator, 1984) y Aliens: el regreso (Aliens, 1986), en la esfera científica, las computadoras no eran suficientemente veloces para lidiar con los procesos de aprendizaje de múltiples capas de características al mismo tiempo pues implicaban una enorme cantidad de cálculos o cómputos, además no había suficientes datos catalogados y los desarrolladores no contaban con una forma eficiente de iniciar los «pesos». El pionero en aprendizaje automático Geoffrey Hinton (Universidad de Toronto) asegura: «El enfoque básico de entonces era que tú manualmente hacías un montón de características, y luego aprendías qué peso ponerles para tomar una decisión. Por ejemplo: si es rojo, es más probable que sea un carro que un refrigerador».
Lo más nuevo en IA: capas y capas de razonamiento artificial
Li Deng y Dong Yu de Microsoft Research, en su artículo «Aprendizaje profundo: métodos y aplicaciones» («Deep Learning: Methods and Applications», 2014), sitúan estas técnicas en la intersección de las áreas de investigación de redes neuronales, IA, modelado gráfico, optimización, reconocimiento de patrones y procesamiento de señales. Aseguran que desde 2006 el aprendizaje estructurado de manera profunda, más comúnmente conocido como aprendizaje profundo o aprendizaje jerárquico, ha surgido como una nueva área de investigación dentro del aprendizaje automático. La esencia del aprendizaje profundo es automatizar el proceso de descubrimiento de características o representaciones efectivas para cualquier tarea de aprendizaje automático, incluida la transferencia automática simultánea de conocimiento de una tarea a otra.
Los investigadores de Microsoft Research destacan tres importantes razones para la actual popularidad de esta vertiente: 1) las habilidades de procesamiento drásticamente incrementadas de los chips, 2) el significativamente aumentado tamaño de los datos usados para entrenamiento, 3) los recientes avances de investigaciones sobre aprendizaje automático y procesamiento de señales/información; en adición, por su parte, la ACM además señala las mejoras en arquitecturas de algoritmos y aplicaciones. En conjunto, todo esto posibilita un mayor incremento en el poder de los sistemas de aprendizaje automático; en particular, las redes neuronales artificiales multicapa están produciendo sorprendentes avances en materia de precisión dentro de campos como visión computacional y reconocimiento de voz.
Escuchar, hablar, observar y aprender «como un ser humano»
Deng y Yu hacen hincapié en el hecho de que existen numerosas investigaciones activas en el área, llevadas a cabo por instituciones de educación superior como la Universidad de Toronto, la Universidad de Nueva York, la Universidad de Montreal, la Universidad de Stanford y el Instituto Tecnológico de Massachusetts, así como empresas de la talla de Microsoft, Google, IBM, Baidu y Facebook. Dichas investigaciones, aseguran, han demostrado éxito empírico del aprendizaje profundo en diversas aplicaciones de: visión computacional, reconocimiento fonético, búsqueda por voz, reconocimiento de discurso oral, codificación de funciones de voz e imagen, clasificación de expresiones semánticas, comprensión del lenguaje natural, reconocimiento de escritura a mano, filtro de correros electrónicos basura, detección de fraudes, procesamiento de audio, recuperación de información, robótica, e incluso en el análisis de moléculas que tal vez lleven al descubrimiento de nuevos medicamentos.
A continuación te exponemos algunas de las aplicaciones del aprendizaje profundo más novedosas y un fructífero equipo de investigación cuyos productos seguramente usas más de una vez al día.
- IBM PowerAI (IBM y NVIDIA, 2016). Un kit de herramientas de software para empresas que «ayudará a entrenar a los sistemas a pensar y aprender en una forma más humana, a un ritmo más rápido».
- DeepText (Facebook, 2016). Herramienta que puede comprender el contenido textual de varias miles de publicaciones por segundo con precisión casi humana, abarcando casi veinte idiomas diferentes.
- Deep Voice (Baidu, 2017). Sistema que sintetiza de texto a voz en tiempo real con calidad de producción, enteramente construido a partir de redes neuronales profundas.
- DeepCoder (Microsoft y Universidad de Cambridge, 2017). Este software permitirá que las personas que no conocen ni un solo lenguaje de programación también puedan codificar, crear nuevos programas tomando «prestados» otros códigos de programación.
- Brain Team (Google, 2011 a la fecha). Este equipo de investigación es el responsable de los sistemas de reconocimiento de voz de los sistemas operativos Android, la búsqueda por fotos de Google y las recomendaciones de video de YouTube.
- Motor de interpretación genética (Universidad de Toronto y NVIDIA, en curso). Accionado por una unidad de procesamiento gráfico, este método estará dedicado a identificar mutaciones causantes de cáncer.
¿Estamos realmente cada vez más cerca de crear «máquinas pensantes»?
Hace alrededor de tres años, el antes mencionado dúo investigativo de Microsoft Research aventuró que la «meseta de productividad» del aprendizaje profundo sería mucho mayor al proyectado por la metodología del ciclo de sobreexpectación (representación gráfica de la madurez y la adopción de tecnologías y aplicaciones) de la consultora Gartner; no obstante, tal empresa de investigación de las tecnologías de la información no incluye el aprendizaje profundo en su ciclo de sobreexpectación para tecnologías emergentes de 2016, aunque asegura que durante la próxima década las máquinas inteligentes constituirán la más disruptiva clase de tecnologías, y en parte será por los «avances sin precedentes en redes neuronales profundas que proveerán a las organizaciones tecnologías de máquinas inteligentes para aprovechar datos a fin de adaptarse a nuevas situaciones y resolver problemas que previamente nadie ha encontrado».
Dado que tanto las que ya están en funcionamiento como las que actualmente están siendo desarrolladas son tecnologías ampliamente aplicables en numerosos y diversos nichos de mercado, seguramente continuarás escuchando cada vez más sobre el aprendizaje profundo. Así y todo, destaca Mark Skilton (experimentado consultor y profesor de la Escuela de Negocios de Warwick), la victoria de la supercomputadora Watson de IBM frente a jugadores humanos en Jeopardy (2011), la derrota del campeón de Go Lee Sedol ante el AlphaGo de Google (2016) o la proeza de armar un cubo de Rubick en 0.637 segundos realizada por un robot de Infineon «son ejemplos de lo que se conoce como inteligencia especializada, pero son partes extremadamente estrechas de la inteligencia general». Al final: «En un campo que intenta algo tan profundo como modelar el cerebro humano, es inevitable que una técnica no resuelva todos los retos. Pero, por ahora, es la única guiando el camino en inteligencia artificial» (Robert D. Hof, editor colaborador del MIT Technology Review). Bueno, quizá sea demasiado pronto para preguntarnos qué sigue después del aprendizaje profundo, mas, sin duda, pareciera que nos acercamos al sueño de construir «máquinas pensantes»… O al menos estamos menos lejos de él, ¿cierto?
Belem Ruiz (Edicion y Comunicación, PIT-UAS)