Elaborado por Materia para OpenMind Recomendado por Materia
4
Inicio GAN, la imaginación de las máquinas al poder
16 septiembre 2022

GAN, la imaginación de las máquinas al poder

Tiempo estimado de lectura Tiempo 4 de lectura

Si hay un tópico que prevalece en la mayoría de los retratos de la Inteligencia Artificial (IA) en la ficción, es que las máquinas carecen por completo de imaginación. Esta es una cualidad reservada al cerebro humano e inalcanzable para los de silicio, por casi ilimitada que sea su capacidad de procesamiento. ¿O no? Si hay algo que nos está demostrando el progreso de la tecnología es que es nuestra imaginación la que se queda corta a la hora de predecir el futuro: precisamente esta cualidad, la imaginación, ya está al alcance de las máquinas gracias a un novedoso tipo de algoritmo llamado Red Generativa Antagónica (GAN, por sus siglas en inglés).

Era una noche de 2014 cuando el científico computacional Ian Goodfellow, por entonces estudiante de doctorado en el campo del aprendizaje automático en la Universidad de Montreal (Canadá), se reunió con algunos de sus compañeros en un bar para celebrar una graduación. Durante la velada surgió una discusión sobre cómo enseñar a las máquinas a inventar representaciones de objetos reales, sin copiar otras ya existentes y de modo que el resultado parezca una verdadera fotografía.

Los sistemas de IA son expertos en manejar inmensos volúmenes de datos de cara a la resolución de problemas, e incluso pueden aprender sin supervisión humana. Pero algo tan sencillo en apariencia como crear por sí mismos una imagen plausible de, por ejemplo, un rostro humano, les resulta una tarea imposiblemente complicada.

Algunos neurocientíficos apuntan que la excelencia del cerebro humano radica en nuestra insuperable capacidad de procesar patrones: desde muy niños podemos identificar imágenes de un rostro por muy diferentes que sean entre sí, porque conocemos qué hace que un rostro sea un rostro. En los últimos años, los algoritmos de aprendizaje profundo empleados en las redes neuronales –sistemas de computación inspirados en el cerebro humano– han dotado a las máquinas de una asombrosa habilidad para reconocer patrones, ya sean palabras en una conversación o el entorno por el que circula un vehículo autónomo.

Una red con un oponente

Sin embargo, a la hora de crear a partir de lo aprendido, las máquinas fallan; las imágenes que producen son a menudo defectuosas y no alcanzan un realismo convincente. ¿Cómo enseñar a un ordenador a inventar un rostro que no existe en la realidad? Durante la discusión en aquel bar de Montreal, se lanzó la sugerencia de elaborar un tratamiento estadístico de multitud de detalles esenciales en la representación de un objeto. Pero este método multiplicaría los datos de tal modo que cada nueva aplicación concreta requeriría un trabajo monumental. Goodfellow tenía una idea mejor: ¿por qué no poner dos redes neuronales a competir entre sí para que aprendan de sus errores?

Ejemplo de un algoritmo que rellena huecos en las imágenes basándose en el contexto. Crédito: UC Berkeley

Aquella noche, Goodfellow comenzó a escribir el código que daría origen a las GAN: una de las redes, la generadora, aprende a crear imágenes; la otra, la discriminadora, las evalúa para decidir si son reales o no. La red generadora va mejorando sus creaciones para tratar de engañar a la discriminadora, que a su vez perfecciona su capacidad de distinguir entre lo real y lo artificial. A diferencia de las redes generadoras sin un oponente, las GAN pueden entrenarse con solo unos pocos cientos de imágenes.

Pero si el concepto de las GAN recuerda lejanamente al test de Turing, en el que una máquina trata de engañar a un evaluador humano haciéndole creer que es una persona, es porque en realidad la idea del entrenamiento antagonista ha ido gestándose desde décadas atrás. A comienzos de los años 90 Jürgen Schmidhuber, hoy director científico del laboratorio suizo de IA IDSIA, publicó un sistema compuesto por “dos redes que luchan entre sí, una maximizando el error minimizado por la otra”, resume Schmidhuber a OpenMind.

Celebrities que nunca han existido

En 2013 Roderich Gross, profesor de la Universidad de Sheffield (Reino Unido) y científico visitante en el Instituto Tecnológico de Massachusetts (EEUU), dirigió un trabajo que anticipó también la idea de las GAN en un sistema que permite a una máquina aprender la conducta de un animal. Gross ha acuñado el concepto de Aprendizaje de Turing, una generalización de las GAN que no necesariamente utiliza redes neuronales y que sirve para “inferir el comportamiento de humanos u otros animales”, apunta a OpenMind. Esta aplicación permitiría, prosigue Gross, “entender el comportamiento, que puede ser tanto en el mundo virtual, por ejemplo comprar en Amazon, como en el físico”.

Seis celebrities imaginarias creadas por una GAN. Crédito: Nvidia

Pero desde 2014, cuando saltaron a la popularidad a través del trabajo de Goodfellow (posteriormente investigador en Google Brain y en Apple, hoy en DeepMind de Google), las GAN se han empleado sobre todo para crear representaciones visuales realistas, con resultados asombrosos. En 2017, la compañía de microprocesadores gráficos Nvidia entrenó una GAN con fotografías de celebrities para producir sus propias imágenes ultrarrealistas de personajes famosos que jamás han existido en el mundo real. Las GAN han servido para crear vídeos que simulan el futuro de una escena, cambiar día por noche o verano por invierno en vídeos de paisajes,  o envejecer rostros, entre otras muchas espectaculares demostraciones.

Rizando el rizo, científicos de la Universidad de Helsinki registraron las ondas cerebrales de un grupo de voluntarios mientras miraban una serie de rostros con el fin de identificar aquellos que les resultaban atractivos, utilizando después una GAN para crear nuevas caras adaptadas a los gustos de cada uno. Pero además de estas aplicaciones más o menos recreativas, las GAN están prestando también servicios a la ciencia y a la medicina; por ejemplo, mejorando las imágenes astronómicas o modelizando la distribución de la materia oscura en el universo, o ayudando al diagnóstico por imagen. Todas estas aplicaciones se apoyan en la gran virtud de las GAN, el argumento que otorgó a estas redes un puesto entre las 10 tecnologías revolucionarias de 2018 para la revista MIT Technology Review; en palabras de Schmidhuber, “el concepto de las redes duelistas es una manera de dar a las máquinas el poder de la imaginación”. Parece evidente que es hora de derribar el tópico: según Schmidhuber, ya vivimos en un tiempo en que la creatividad y la curiosidad artificial “pueden guiar a los científicos y artistas artificiales”.

Sin embargo, incluso estas sorprendentes herramientas tienen sus limitaciones. En 2021 un estudio de la Universidad Estatal de Nueva York reveló que las GAN suelen ignorar algo que hasta un niño sabe: que las pupilas humanas son redondas. Esos rostros ficticios aparentemente perfectos creados por las GAN a menudo tienen las pupilas irregulares, porque la máquina aún no ha captado un concepto tan básico de la anatomía humana. Un equipo de Google encontró que otros sistemas de IA superan a las GAN en tareas como definir una imagen pixelada o una ampliación de la misma, al estilo del aparato que utilizaba el personaje de Deckard en Blade Runner. En esta carrera de los sistemas de IA, son muchas las tecnologías que compiten por romper los límites de la imaginación artificial.

Javier Yanes

@yanes68

Nota del editor: artículo actualizado el 16 de septiembre por Javier Yanes

Comentarios sobre esta publicación

El nombre no debe estar vacío
Escribe un comentario aquí…* (Máximo de 500 palabras)
El comentario no puede estar vacío
*Tu comentario será revisado antes de ser publicado
La comprobación captcha debe estar aprobada