BLOGS
Ciencias mixtas Ciencias mixtas

Los secretos de las ciencias para
los que también son de letras

Entradas etiquetadas como ‘redes neuronales’

Pronto no podremos distinguir la realidad virtual de la real

Observen estas fotos de caras. ¿Notan algo raro en ellas?

Imagen de NVIDIA.

Imagen de NVIDIA.

Parecen rostros de gente guapa, celebrities en la alfombra roja o en un photocall de alguna gala. Pero no lograrán reconocer a ni uno solo de ellos. Porque estas personas jamás han existido: son caras virtuales generadas por un sistema de Inteligencia Artificial (IA) desarrollado por NVIDIA, la compañía que tal vez haya fabricado la tarjeta gráfica del ordenador en el que estén leyendo este artículo.

Imagino que son perfectamente conscientes de cómo han evolucionado los gráficos por ordenador en unas pocas décadas. Pero no puedo resistir la tentación de ilustrarlo con este ejemplo. Así era Indiana Jones hace 35 años en el videojuego de la consola Atari Raiders of the Lost Ark, con el cual este que suscribe disfrutaba jugando en su infancia, y mucho:

Indiana Jones en el videojuego Raiders of the Lost Ark de Atari (1982). Imagen de Atari.

Indiana Jones en el videojuego Raiders of the Lost Ark de Atari (1982). Imagen de Atari.

Los autores del trabajo han empleado un tipo de algoritmo de IA creado en 2014 llamado Red Generativa Antagónica (GAN por las siglas de su nombre en inglés, Generative Adversarial Network), que emplea dos redes neuronales trabajando en equipo: una genera las caras, mientras que la otra las evalúa.

Las evaluaciones de la red discriminadora ayudan a la red generadora a ir aprendiendo a crear caras cada vez más realistas, mientras que el perfeccionamiento del trabajo de la red generadora ayuda a la red discriminadora a mejorar su capacidad de identificar los errores. Así, la GAN aprende de forma no supervisada, a partir de sus propias observaciones. En este caso, los investigadores de NVIDIA le suministraron a la GAN una base de datos de fotos de celebrities, y el sistema aprendió a crear las suyas propias.

Sistemas como esta GAN de NVIDIA están comenzando a saltar la barrera del llamado Uncanny Valley o Valle Inquietante, una expresión acuñada para la robótica y que describe el efecto de aquellas creaciones humanoides que se aproximan bastante a la realidad, pero sin llegar a confundirse con ella. En este caso, casi cuesta creer que los rostros creados por la GAN no correspondan a personas reales.

Pero el actual perfeccionamiento en la imitación de lo humano va más allá de unos rostros estáticos. WaveNet, una red neuronal creada por la compañía DeepMind, propiedad de Google, consigue la que según los expertos es hasta ahora la voz sintética más parecida a la humana. Juzguen ustedes (en este vídeo, WaveNet se compara con otros sistemas existentes):

Dicen que en la voz aún se nota un cierto tinte artificial. Tal vez sea cierto, pero personalmente creo que si escucháramos estas voces fuera de un contexto en el que se nos pida juzgar su autenticidad, nunca sospecharíamos que detrás de ellas no hay una laringe y una boca humanas.

También espectacular es el sistema desarrollado por la compañía canadiense Lyrebird. A partir de un solo minuto de grabación de audio, es capaz de recrear digitalmente la voz de cualquier persona. Como ejemplo, Lyrebird presenta la voz recreada de Donald Trump, pero cualquier usuario puede registrarse en su web y recrear digitalmente su propia voz.

En este camino de la virtualidad hacia el perfeccionamiento en la imitación de la realidad, la guinda la pone el sistema creado por un equipo de la Universidad de Washington (EEUU): a partir de un clip de audio con un discurso cualquiera, y otro fragmento de vídeo de alguien hablando, logra que el movimiento de los labios de la persona se sincronice con las frases grabadas. Es decir, construye un vídeo de alguien diciendo algo. Los investigadores utilizaron como ejemplo un discurso de Barack Obama:

El coautor del trabajo Steven Seitz aclaraba que su red neuronal no puede conseguir que una persona aparezca diciendo algo que nunca dijo, ya que debe utilizar como material de partida un clip de audio real con la voz de la persona en cuestión. “Simplemente tomamos palabras reales que alguien dijo y las transformamos en un vídeo realista de ese individuo”.

Claro que para eso está el sistema de Lyrebird, que sí puede lograr que cualquiera diga algo que jamás dijo. El sistema de la Universidad de Washington podría entonces transformar ese clip de audio ficticio en un vídeo tan falso como realista.

Todos estos desarrollos nos conducen hacia un escenario en el que pronto la realidad real y la realidad virtual solo estarán separadas por una barrera: una pantalla. Es decir, dado que los robots antropomórficos realistas aún distan mucho tiempo en el futuro, todavía podremos estar seguros de que lo tangible, todo aquello que podemos tocar, es real. Pero con respecto a cualquier cosa que se nos muestre a través de una pantalla, en unos pocos años será difícil distinguir si todo, todo, es real o no. Y en la era de la postverdad, la superación del Valle Inquietante nos lleva hacia un lugar aún más inquietante.