Entradas etiquetadas como ‘redes neuronales’

¿Qué le falta a esta música generada por Inteligencia Artificial?

No, no es una adivinanza, ni una pregunta retórica. Realmente me pregunto qué es lo que le falta a la música generada por Inteligencia Artificial (IA) para igualar a la compuesta por humanos. Sé que ante esta cuestión es fácil desenvainar argumentos tecnoescépticos, una máquina no puede crear belleza, nunca igualará a la sensibilidad artística humana, etcétera, etcétera.

Pero en realidad todo esto no es cierto: las máquinas pintan, escriben, componen, y los algoritmos GAN (Generative Adversarial Network, o Red Antagónica Generativa) ya las están dotando de algo muy parecido a la imaginación. Además, y dado que las mismas máquinas también pueden analizar nuestros gustos y saber qué es lo que los humanos adoran, no tienen que dar palos de ciego como los editores o productores humanos: en breve serán capaces de escribir best sellers, componer hits y guionizar blockbusters.

El salto probablemente llegará cuando los consumidores de estos productos no sepamos (no “no notemos”, sino “no sepamos”) que esa canción, ese libro o esa película o serie en realidad han sido creados por un algoritmo y no por una persona. De hecho, la frontera es cada vez más difusa. Desde hace décadas la música y el cine emplean tanta tecnología digital que hoy serían inconcebibles sin ella. Y aunque siempre habrá humanos detrás de cualquier producción, la parcela de terreno que se cede a las máquinas es cada vez mayor.

Pero en concreto, en lo que se refiere a la música, algo aún falla cuando uno escucha esas obras creadas por IA. El último ejemplo viene de Relentless Doppelganger. Así se llama un streaming de música que funciona en YouTube 24 horas al día desde el pasado 24 de marzo (el vídeo, al pie de esta página), generando música technical death metal inspirada en el estilo de la banda canadiense Archspire, y en concreto en su último álbum Relentless Mutation (Doppelganger hace referencia a un “doble”).

Este inacabable streaming es obra de Dadabots, el nombre bajo el que se ocultan CJ Carr y Zack Zukowski, que han empleado un tipo de red neural llamado SampleRNN –originalmente concebida para convertir textos en voz– para generar hasta ahora diez álbumes de géneros metal y punk inspirados en materiales de grupos reales, incluyendo el diseño de las portadas y los títulos de los temas. Por ejemplo, uno de ellos, titulado Bot Prownies, está inspirado en Punk in Drublic, uno de los álbumes más míticos de la historia del punk, de los californianos NOFX.

Imagen de Dadabots.

Imagen de Dadabots.

Y, desde luego, cuando uno lo escucha, el sonido recuerda poderosamente a la banda original. En el estudio en el que Carr y Zukowski explicaban su sistema, publicado a finales del año pasado en la web de prepublicaciones arXiv, ambos autores explicaban que su propósito era inédito en la generación de música por IA: tratar de captar y reproducir las “distinciones estilísticas sutiles” propias de subgéneros muy concretos como el death metal, el math rock o el skate punk, que “pueden ser difíciles de describir para oyentes humanos no entrenados y están mal representadas por las transcripciones tradicionales de música”.

En otras palabras: cuando escuchamos death metal o skate punk, sabemos que estamos escuchando death metal o skate punk. Pero ¿qué hace que lo sean para nuestros oídos? El reto para los investigadores de Dadabots consistía en que la red neural aprendiera a discernir estos rasgos propios de dichos subgéneros y a aplicarlos para generar música. Carr y Zukowski descubrieron que tanto el carácter caótico y distorsionado como los ritmos rápidos de estos géneros se adaptan especialmente bien a las capacidades de la red neural, lo que no sucede para otros estilos musicales.

Y sin duda, en este sentido el resultado es impresionante (obviamente, para oídos que comprenden y disfrutan de este tipo de música; a otros les parecerá simple ruido como el de las bandas originales). Pero insisto, aparte del hecho anecdótico de que las letras son simples concatenaciones de sílabas sin sentido, ya que no se ha entrenado a la red en el lenguaje natural, la música de Dadabots deja la sensación de que aún hay un paso crucial que avanzar. ¿Cuál es?

No lo sé. Pero tengo una impresión personal. Carr y Zukowski cuentan en su estudio que la red neural crea a partir de lo ya creado, lo cual es fundamental en toda composición musical: “Dado lo que ha ocurrido previamente en una secuencia, ¿qué ocurrirá después?”, escriben Carr y Zukowski. “La música puede modelizarse como una secuencia de eventos a lo largo del tiempo. Así, la música puede generarse prediciendo ¿y entonces qué ocurre? una y otra vez”.

Pero esto ocurre solo un sampleado tras otro, mientras que un tema escrito por un compositor humano tiene un sentido general, un propósito que abarca toda la composición desde el primer segundo hasta el último. Toda canción de cualquier género tiene una tensión interna que va mucho más allá de, por ejemplo, la resolución de los acordes menores en acordes mayores. Es algo más, difícil de explicar; pero al escuchar cualquier tema uno percibe un propósito general de que la música se dirige hacia un lugar concreto. Y da la sensación de que esto aún le falta a la música automática, dado que la máquina solo se interesa por un “después” a corto plazo, y no por lo que habrá más allá. Se echa de menos algo así como una tensión creciente que conduzca hacia un destino final.

Sin embargo, creo que ya pueden quedar pocas dudas de que la música generada por IA terminará también superando estos obstáculos. Ya tenemos muchos ejemplos y muy variados de composiciones cien por cien digitales. Y si hasta ahora ninguna de ellas ha conseguido instalarse como un hit, ya sea entre el público mayoritario o entre los aficionados a estilos musicales más marginales, se da la circunstancia de que tampoco ninguna de ellas ha cruzado la barrera de lo etiquetado como “diferente” porque su autor no es de carne y hueso. Probablemente llegará el momento en que un tema se convierta en un éxito o en un clásico sin que el público sepa que el nombre que figura en sus créditos no es el de la persona que lo compuso, sino el de quien programó el sistema para crearla.

Pronto no podremos distinguir la realidad virtual de la real

Observen estas fotos de caras. ¿Notan algo raro en ellas?

Imagen de NVIDIA.

Imagen de NVIDIA.

Parecen rostros de gente guapa, celebrities en la alfombra roja o en un photocall de alguna gala. Pero no lograrán reconocer a ni uno solo de ellos. Porque estas personas jamás han existido: son caras virtuales generadas por un sistema de Inteligencia Artificial (IA) desarrollado por NVIDIA, la compañía que tal vez haya fabricado la tarjeta gráfica del ordenador en el que estén leyendo este artículo.

Imagino que son perfectamente conscientes de cómo han evolucionado los gráficos por ordenador en unas pocas décadas. Pero no puedo resistir la tentación de ilustrarlo con este ejemplo. Así era Indiana Jones hace 35 años en el videojuego de la consola Atari Raiders of the Lost Ark, con el cual este que suscribe disfrutaba jugando en su infancia, y mucho:

Indiana Jones en el videojuego Raiders of the Lost Ark de Atari (1982). Imagen de Atari.

Indiana Jones en el videojuego Raiders of the Lost Ark de Atari (1982). Imagen de Atari.

Los autores del trabajo han empleado un tipo de algoritmo de IA creado en 2014 llamado Red Generativa Antagónica (GAN por las siglas de su nombre en inglés, Generative Adversarial Network), que emplea dos redes neuronales trabajando en equipo: una genera las caras, mientras que la otra las evalúa.

Las evaluaciones de la red discriminadora ayudan a la red generadora a ir aprendiendo a crear caras cada vez más realistas, mientras que el perfeccionamiento del trabajo de la red generadora ayuda a la red discriminadora a mejorar su capacidad de identificar los errores. Así, la GAN aprende de forma no supervisada, a partir de sus propias observaciones. En este caso, los investigadores de NVIDIA le suministraron a la GAN una base de datos de fotos de celebrities, y el sistema aprendió a crear las suyas propias.

Sistemas como esta GAN de NVIDIA están comenzando a saltar la barrera del llamado Uncanny Valley o Valle Inquietante, una expresión acuñada para la robótica y que describe el efecto de aquellas creaciones humanoides que se aproximan bastante a la realidad, pero sin llegar a confundirse con ella. En este caso, casi cuesta creer que los rostros creados por la GAN no correspondan a personas reales.

Pero el actual perfeccionamiento en la imitación de lo humano va más allá de unos rostros estáticos. WaveNet, una red neuronal creada por la compañía DeepMind, propiedad de Google, consigue la que según los expertos es hasta ahora la voz sintética más parecida a la humana. Juzguen ustedes (en este vídeo, WaveNet se compara con otros sistemas existentes):

Dicen que en la voz aún se nota un cierto tinte artificial. Tal vez sea cierto, pero personalmente creo que si escucháramos estas voces fuera de un contexto en el que se nos pida juzgar su autenticidad, nunca sospecharíamos que detrás de ellas no hay una laringe y una boca humanas.

También espectacular es el sistema desarrollado por la compañía canadiense Lyrebird. A partir de un solo minuto de grabación de audio, es capaz de recrear digitalmente la voz de cualquier persona. Como ejemplo, Lyrebird presenta la voz recreada de Donald Trump, pero cualquier usuario puede registrarse en su web y recrear digitalmente su propia voz.

En este camino de la virtualidad hacia el perfeccionamiento en la imitación de la realidad, la guinda la pone el sistema creado por un equipo de la Universidad de Washington (EEUU): a partir de un clip de audio con un discurso cualquiera, y otro fragmento de vídeo de alguien hablando, logra que el movimiento de los labios de la persona se sincronice con las frases grabadas. Es decir, construye un vídeo de alguien diciendo algo. Los investigadores utilizaron como ejemplo un discurso de Barack Obama:

El coautor del trabajo Steven Seitz aclaraba que su red neuronal no puede conseguir que una persona aparezca diciendo algo que nunca dijo, ya que debe utilizar como material de partida un clip de audio real con la voz de la persona en cuestión. “Simplemente tomamos palabras reales que alguien dijo y las transformamos en un vídeo realista de ese individuo”.

Claro que para eso está el sistema de Lyrebird, que sí puede lograr que cualquiera diga algo que jamás dijo. El sistema de la Universidad de Washington podría entonces transformar ese clip de audio ficticio en un vídeo tan falso como realista.

Todos estos desarrollos nos conducen hacia un escenario en el que pronto la realidad real y la realidad virtual solo estarán separadas por una barrera: una pantalla. Es decir, dado que los robots antropomórficos realistas aún distan mucho tiempo en el futuro, todavía podremos estar seguros de que lo tangible, todo aquello que podemos tocar, es real. Pero con respecto a cualquier cosa que se nos muestre a través de una pantalla, en unos pocos años será difícil distinguir si todo, todo, es real o no. Y en la era de la postverdad, la superación del Valle Inquietante nos lleva hacia un lugar aún más inquietante.