Elaborado por Materia para OpenMind Recomendado por Materia
4
Inicio La tecnología que inventa una realidad falsa
24 abril 2018

La tecnología que inventa una realidad falsa

Tiempo estimado de lectura Tiempo 4 de lectura

Hoy, cualquier niño puede jugar con un teléfono móvil o una tablet que le muestran en tiempo real su propio rostro deformado o trastocado en el de un dibujo animado, pero que sigue con una precisión asombrosa las expresiones de su rostro y el movimiento de sus labios. En internet han proliferado las apps como Face Swap, que intercambian las caras de los usuarios, o FaceApp, que las retocan, rejuvenecen o envejecen al instante. Y las grandes producciones de Hollywood nos muestran cómo regresan a la vida actores o actrices ya fallecidos, como Carrie Fisher en la saga Star Wars.

FaceApp puede rejuvenecer, envejecer, retocar o cambiar de género. Crédito: TudorTulok

Todo ello forma parte de la nueva generación de herramientas de edición audiovisual, que aprovechan los avances en Inteligencia Artificial (IA) y alcanzan increíbles cotas de realismo en la manipulación digital. Pero más allá del uso recreativo, estas tecnologías están llevando la preocupación por las noticias falsas —o fake news— a un nuevo nivel, el de la credibilidad que tradicionalmente se concede a un documento audiovisual. En diciembre de 2017, la web Motherboard contaba que un usuario de Reddit, con el alias Deepfakes, había insertado en vídeos pornográficos los rostros de actrices como Gal Gadot o Scarlett Johansson.

El autor de estas pesadas bromas se basó en fuentes de código abierto de aprendizaje profundo (deep learning) como TensorFlow de Google. Pero el lanzamiento este año de la aplicación FakeApp ha puesto la creación de estos deepfakes al alcance de cualquiera con un equipo doméstico. Aunque, pese a sus asombrosos resultados, estos trabajos caseros aún no alcanzan la perfección en el movimiento de la cara o la naturalidad de las expresiones.

Dirigir el rostro de Trump

Otra situación distinta es la de los algoritmos que están viendo la luz en los laboratorios de ciencia computacional. En este caso, los resultados engañan al ojo más riguroso. En 2016 un equipo dirigido por Matthias Niessner, de la Universidad Técnica de Múnich (Alemania), publicó los resultados de su herramienta Face2Face, que captura en directo las expresiones faciales de un modelo para trasplantarlas en tiempo real al rostro de otra persona en un vídeo grabado. Los investigadores conseguían dirigir con sus propios rostros las expresiones de George W. Bush, Vladimir Putin o Donald Trump, como si se tratara de títeres digitales y con un realismo impresionante. “Nuestro resultado del modelo sintetizado es tan parecido al original que es difícil distinguirlo de la cara real”, señala Niessner a OpenMind.

Face2Face captura las expresiones faciales para trasplantarlas al rostro de otra persona. Crédito: Matthias Niessner

Igualmente espectaculares son los resultados logrados en 2017 por un equipo de la Paul G. Allen School of Computer Science & Engineering de la Universidad de Washington. La red neuronal que desarrollaron analiza horas de vídeo de una persona para aprender sus gestos de vocalización. Después, el sistema parte de un clip de audio para generar un vídeo en el que la persona aparece sincronizando el movimiento de sus labios con las palabras. En el vídeo de muestra es prácticamente imposible adivinar que la imagen de Barack Obama pronunciando un discurso es una creación digital.

Según el coautor del estudio Steve Seitz, el sistema podría servir para generar vídeos realistas que eviten el gran consumo de ancho de banda en las videoconferencias actuales. La coautora Ira Kemelmacher-Shlizerman añade otro posible uso más recreativo: “poder mantener una conversación con una figura histórica en realidad virtual creando el vídeo a partir de un audio”. Sin embargo, Seitz aclara que su propósito no ha sido falsear la realidad: “muy conscientemente decidimos rechazar la opción de poner las palabras de una persona en la boca de otra”.

Recrear voces digitalmente

Pero si alguien deseara hacer este uso malicioso, lo cierto es que podría encontrar ya las herramientas necesarias. En 2016 la compañía Adobe presentó VoCo, una plataforma de edición de sonido –aún no lanzada al mercado– que con 20 minutos de escucha aprende a simular la voz de cualquier persona, de modo que es posible poner en su voz cualquier frase simplemente tecleándola. Desde entonces han aparecido otras herramientas similares y cada vez más potentes, como la canadiense Lyrebird, que aprende con solo un minuto de audio y con la que cualquier usuario de internet puede recrear digitalmente su voz. Recientemente, investigadores del buscador chino Baidu han publicado los resultados de una red neuronal que clona la voz de una persona a partir de solo unos segundos de material.

Lyrebird creó una copia digital de la voz de Barack Obama. Crédito: Lyrebird

Desde que Adobe lanzó la primera versión de Photoshop en 1990, el retoque de fotos con fines malintencionados o fraudulentos se ha convertido en una preocupación. Hoy los nuevos sistemas basados en IA están logrando, con una velocidad meteórica de perfeccionamiento, que cada vez vaya a ser más difícil distinguir lo auténtico de lo falso también en documentos de audio y vídeo.

Frente a esta inquietud, la respuesta de los creadores es variada. Lyrebird, por ejemplo, resume su mensaje en que sus intenciones son honestas y que el acceso público a su producto prevendrá el mal uso: “ponemos esta tecnología a disposición de todos y la introducimos de forma incremental para que la sociedad pueda adaptarse a ella, aprovechar sus aspectos positivos para el buen uso y a un tiempo prevenir las aplicaciones potencialmente negativas”, afirman en su web. Por su parte, en la presentación de VoCo, un responsable de Adobe aseguró que la compañía trabajaba en un sistema al estilo de las marcas de agua para garantizar que los clips de audio fraudulentos sean detectables.

Detección de vídeos falsos

Lo cierto es que el progreso en la tecnología de falsificación audiovisual, al mismo tiempo, da pie al desarrollo de mejores técnicas para desvelar fraudes. Seitz y sus colaboradores apuntaban que su sistema podría adaptarse también a la detección de vídeos falsos. Por su parte, Niessner explica que parte de su trabajo consiste en fabricar el antídoto al mismo tiempo que el veneno: “nuestro esfuerzo incluye la detección de ediciones en metrajes de vídeo para verificar la autenticidad de un clip”.

El análisis de las expresiones faciales permite comparar un vídeo sospechoso con otro auténtico. Crédito: Marlon Barrios Solano

El investigador detalla que las expresiones faciales y sus transiciones son tan únicas en cada persona como su caligrafía, y que el análisis de estos rasgos que realiza su sistema permite comparar un vídeo sospechoso con otro auténtico de la misma persona para detectar posibles inconsistencias que delaten una manipulación. Al fin y al cabo, como sugiere Niessner, la recreación audiovisual por ordenador lleva décadas con nosotros, y la posible perversión de sus fines no debería empañar la promesa de estas tecnologías. “Esperamos transmitir un mensaje positivo”, concluye.

Javier Yanes
@yanes68

Comentarios sobre esta publicación

El nombre no debe estar vacío
Escribe un comentario aquí…* (Máximo de 500 palabras)
El comentario no puede estar vacío
*Tu comentario será revisado antes de ser publicado
La comprobación captcha debe estar aprobada