Entradas etiquetadas como ‘criptografía’

Drácula, Poe, el Kama Sutra y OK Go sobrevivirán al fin del mundo

No es que la música de OK Go sea de mi más especial predilección (como ya he manifestado aquí, mis preferencias suelen ir por otros sonidos), pero admiro lo que hacen estos cuatro tipos de Chicago. Adoro a la gente que camina en sentido contrario a los demás, a quienes se toman demasiadas molestias para algo que realmente no lo requiere, y a los que se enfrascan en algo anteponiendo la pasión al plan de negocio. Es decir, a quienes violan las tres leyes fundamentales del universo: la ley de la inercia, la ley del mínimo esfuerzo y la ley de la conservación de lo que sea.

Captura del vídeo de OK Go. Imagen de YouTube.

Captura del vídeo de OK Go. Imagen de YouTube.

Para quien aún no los conozca, explico que lo más distintivo de OK Go son sus vídeos. Entre tanta saturación de efectos digitales y realidad virtual, ellos se diferencian por organizar unas complejísimas coreografías reales, increíblemente sincronizadas, que a menudo se ruedan en un solo plano secuencia y que además en muchos casos juegan con la ciencia aplicada. Si les interesa descubrirlos, basta una simple búsqueda en YouTube. Pero hay un motivo para que hoy traiga aquí uno de sus clips, el de This Too Shall Pass.

Para este tema, organizaron un montaje al estilo de lo que en EEUU llaman una máquina de Rube Goldberg. Los que pasamos de los 40 tenemos aquí un equivalente cultural propio, los Grandes Inventos del TBO, cuyo principal artífice fue el dibujante catalán Ramón Sabatés.

Tanto Goldberg como Sabatés presentaban a un ficticio profesor (Lucifer Gorgonzola Butts en la versión americana, Franz de Copenhague en la española) que diseñaba unas complicadísimas máquinas cuyo resultado era una tarea muy tonta, fácilmente accesible por medios infinitamente más simples; por ejemplo, limpiar la boca con la servilleta. En el caso del vídeo de OK Go, el resultado final de su máquina es disparar un chorro de pintura a cada uno de los integrantes de la banda.

El motivo por el que hoy lo traigo aquí es que este clip de OK Go es el primer vídeo jamás codificado en forma de ADN. Ya he explicado aquí y en otros medios en qué consiste la codificación de archivos digitales en material genético: se diseña un sistema de conversión del código binario (unos y ceros) a las cuatro bases del ADN (A, T, G y C), se traduce el archivo deseado y se sintetiza una cadena de ADN con esa secuencia.

Y también he explicado por qué esta línea de investigación es interesante: los soportes digitales caducan rápidamente, bien porque se estropean, o bien porque aparecen otros formatos y soportes nuevos que dejan obsoletos a los antiguos. En cuanto a su conservación física, el ADN puede durar cientos de años, miles de años, incluso millones de años, según el sistema de almacenamiento elegido. Y en cuanto a su vigencia tecnológica, si de algo no cabe absolutamente ninguna duda es de que siempre vamos a seguir necesitando dispositivos de lectura de ADN. Las máquinas cambiarán, pero el ADN continuará siendo el mismo por los siglos de los siglos.

Entre los grupos de investigación que trabajan en esta línea se encuentra un equipo de Microsoft Research y la Universidad de Washington (EEUU). El pasado abril, los investigadores presentaron en un congreso la codificación de cuatro imágenes en forma de ADN. Ahora han anunciado un nuevo hito: la conversión a material genético de la Declaración Universal de los Derechos Humanos en más de 100 idiomas, los 100 libros de dominio público más descargados del Proyecto Gutenberg, la base de datos de semillas del proyecto Crop Trust y, claro está, el vídeo de OK Go en alta definición. En total, 200 MB; una ridiculez para los tamaños digitales, un gran salto para el almacenamiento en ADN.

Según Karin Strauss, la investigadora principal del proyecto en Microsoft, eligieron este vídeo de OK Go porque guarda paralelismo con el trabajo que ellos llevan a cabo. “Son muy innovadores y están reuniendo en su campo cosas diferentes de distintas áreas, y sentimos que estamos haciendo algo muy similar”.

Naturalmente, la codificación en ADN tiene sus inconvenientes, y siempre los tendrá. Tanto escribir como leer una secuencia genética es mucho más lento que escribir o leer un archivo binario, y más costoso. En general el sistema no se contempla como para un uso inmediato de los datos en dispositivos móviles, sino para crear repositorios a largo plazo. Pero a cambio, la densidad de información que puede alcanzar el ADN es 100 millones de veces mayor que las cintas magnéticas empleadas hoy en los grandes centros de datos: según los investigadores de Washington, los datos que llenarían todo el volumen de un hipermercado en formato electrónico caben en un terrón de azúcar si se traducen a ADN.

Pero sobre todo, su enorme ventaja es la durabilidad. Si algún día llegara ese fin del mundo que tantas veces hemos contemplado desde la butaca y del que tanto llevan advirtiéndonos, difícilmente se salvarían los datos digitales. Suelen decirnos que en el mundo existen muchas copias de toda la información que volcamos en la red, como estas palabras que estoy escribiendo. Pero ¿cuántas son “muchas”? ¿Decenas? ¿Centenas? ¿Millares, como mucho? Cada una de esas copias está escrita en un sofisticado y frágil soporte electrónico. ¿Cuántos de ellos se salvarían en caso de una catástrofe planetaria?

Como ha demostrado el investigador del Instituto Federal Suizo de Tecnología en Zúrich (ETH) Robert Grass, el ADN puede encapsularse en fósiles artificiales capaces de proteger la información que guardan durante miles o tal vez millones de años. El método consiste en encapsular la molécula en minúsculas bolitas de sílice de 0,15 milésimas de milímetro; es decir, granos de arena muy fina.

Hagamos una pequeña cuenta recreativa: según las compañías EMC Corporation e International Data Corporation, en 2020 el universo digital ocupará un total de 44 zettabytes (ZB), o 44.000 millones de terabytes (TB), o 44 billones de gigabytes (GB). La compañía Cisco calculó que un ZB ocuparía el mismo volumen que la Gran Muralla China. Tomando una cifra publicada para el volumen de la muralla de 34.423.725.600 pies cúbicos, o 974.771.357 metros cúbicos, tenemos que en 2020 el volumen total de datos digitales del planeta será de 42.889.939.708 metros cúbicos.

En forma de ADN, la densidad de almacenamiento es 100 millones de veces mayor, lo que nos daría un volumen de unos 429 metros cúbicos. La raíz cúbica de 429 es aproximadamente 7,5. Es decir, que en un cubo de arena de siete metros y medio de lado cabría, en forma de ADN, toda la información digital jamás producida desde el origen de la humanidad hasta 2020.

Y cuando se sintetiza ADN, no se fabrica una sola copia, sino millones. Playas y playas de nanocápsulas de sílice que conservarían todo lo que fuimos, durante millones de años. Por supuesto que, en caso de apocalipsis, deberíamos esperar a que los supervivientes reinventaran de nuevo la tecnología necesaria para leerlo. O a que otros lo hicieran por nosotros y así llegaran a saber quiénes fuimos.

Por si se lo están preguntando, en ese puñado de libros ya codificados para la eternidad solo hay uno de un autor español, y no es necesario que les aclare de cuál se trata. Pero lamento comunicarles que esta versión comienza así:

In a village of La Mancha, the name of which I have no desire to call to mind, there lived not long since one of those gentlemen that keep a lance in the lance-rack, an old buckler, a lean hack, and a greyhound for coursing. An olla of rather more beef than mutton, a salad on most nights, scraps on Saturdays, lentils on Fridays, and a pigeon or so extra on Sundays, made away with three-quarters of his income.

Antes de que nadie se lleve las manos a la cabeza, insisto en lo que he mencionado más arriba: son los 100 libros más descargados. El Proyecto Gutenberg también dispone de la versión original en castellano. Pero si el Quixote acumula más del doble de descargas que el Quijote, la culpa no es del Proyecto Gutenberg.

Y sí, están el Drácula de Stoker, La metamorfosis y El proceso de Kafka y (solo) dos de los cinco volúmes de las obras completas de Poe. Y Wells. Y Anna Karenina. Y Moby Dick. Y El corazón de las Tinieblas. Y El retrato de Dorian Gray. Y Madame Bovary. Ah, y el Kama Sutra, para que no se nos olvide nada. Personalmente, y si pudiera elegir, añadiría a Proust, La vida es sueño, algunas cosas de Hemingway, Fitzgerald, Steinbeck… Lovecraft… ¡Dinesen, claro!… Y los rusos… algo más de Verne… Y claro, todo el romanticismo español. Pero también Zola. Y Víctor Hugo. Qué difícil es elegir. Pero por razones que no vienen al caso, me gustaría poder volver a escuchar al menos la obertura de la Cavalleria Rusticana de Mascagni, el Moonriver cantado por Audrey Hepburn, November Rain de Guns N’ Roses, el Ecstasy of Gold/Call of Ktulu/Master of Puppets de Metallica, Janie Jones de los Clash y Ceremony de Joy Division. Y el Script of the Bridge completo de los Chameleons. Habría muchísimos más. Pero con esto creo que bastaría para entretenerme mientras espero el fin.

ADN, el disco duro del futuro (II)… que durará dos millones de años

Esta es la gran paradoja de la información en la era digital: es imposible borrar nuestro rastro en internet, por mucho que nos empeñemos en lograrlo. Y sin embargo, podemos perder fácilmente nuestros archivos para siempre a causa de un error o una avería. Es más: ningún soporte físico digital está concebido para durar más de medio siglo. Ni discos duros, ni CD, ni DVD, ni memoria flash. Ninguno.

En cambio, conservamos códices medievales que han perdurado cientos de años, y que perdurarán cientos de años más. Tenemos manuscritos que han sobrevivido durante milenios. ¿De qué sirve digitalizar las pinturas de Altamira, si la versión digital deberá cambiarse de soporte sucesivamente para que no desaparezca, mientras el original pervivirá sin que nadie lo toque (especialmente si nadie lo toca)? ¿Acaso creemos que al digitalizar una obra antigua la estamos perpetuando?

De todo lo anterior podríamos llegar a deducir que el soporte del futuro no es otro que el papel. ¿Sorpresa? ¿Absurdo?

Pero el papel puede mojarse, quemarse o ser pasto de los bichos. Una pequeña trampa en el argumento anterior es que, en realidad, se supone que solo conservamos una pequeña parte de todo el papel que jamás se ha escrito o impreso. La inmensa mayoría se ha perdido.

Lo cierto es que, para descubrir mejores soportes de información que el papel y la electrónica, nada mejor que echar una mirada a nuestro entorno natural. La tecnología actual nos permite acceder a información que la naturaleza ha preservado durante cientos de miles de años, en forma de ADN en huesos fósiles. El investigador del Instituto Federal Suizo de Tecnología en Zúrich (ETH) Robert Grass lo explica así a Ciencias Mixtas: “Los libros más antiguos que conocemos tienen más de 1.000 años, y los jeroglíficos se han almacenado en la piedra durante varios miles de años. Este es un plazo largo, pero todavía corto si lo comparamos con los datos que podemos construir a partir del ADN de huesos arqueológicos, que llega hasta los 700.000 años de antigüedad”. Grass se refiere al logro de un equipo de investigadores de la Universidad de Copenhague (Dinamarca), que en julio de 2013 publicó en Nature la secuenciación del genoma de un caballo del Pleistoceno a partir de un hueso conservado en el permafrost de Canadá durante más de medio millón de años.

Ilustración artística del uso de ADN fósil. Imagen de Philipp Stoussel / ETH Zurich.

Ilustración artística del uso de ADN fósil. Imagen de Philipp Stoussel / ETH Zurich.

Grass se planteó el reto de conseguir lo mismo por una técnica artificial; fabricar un fósil capaz de conservar ADN intacto durante tanto tiempo que los procedimientos actuales de almacenamiento de información a largo plazo quedaran ampliamente sobrepasados. La respuesta fue el cristal: encapsular el ADN en esferas de sílice de unos 150 nanómetros, 0,15 milésimas de milímetro. Una vez construidos estos fósiles, y para analizar su durabilidad, Grass y sus colaboradores incubaron las partículas durante un mes a 60 o 70 ºC, lo que simula la degradación química que sufrirían a lo largo de cientos de años. Una vez terminado el tratamiento, los investigadores extrajeron el ADN de su caparazón de arena empleando soluciones de fluoruro como las que se utilizan en el grabado químico, para finalmente leer las secuencias y comprobar su integridad.

A partir de sus resultados, y comparándolos con la dinámica de degradación del ADN en el hueso, los investigadores han estimado cuánto tiempo podrían sobrevivir las muestras siendo aún legibles. Según exponen en su estudio, publicado en la revista Angewandte Chemie, a las temperaturas de Zúrich el ADN se conservaría durante 2.000 años, que aumentarían hasta 100.000 en el lugar más frío de Suiza. Pero si las esferas de sílice se almacenaran en el Banco Mundial de Semillas de Svalbard, una instalación subterránea en Noruega que se mantiene a -18 ºC, el ADN podría durar “más de dos millones de años”, escriben los científicos.

Claro que todo esto no tendría sentido si no fuera para conservar información que podamos codificar a voluntad en el ADN. En mi anterior post expliqué la aproximación más rudimentaria al uso del ADN como lenguaje, traducir la secuencia a proteína y utilizar los aminoácidos como alfabeto de 20 letras. Pero este método solo permite codificar textos; para ampliar sus aplicaciones a cualquier tipo de información, es esencial emplear código binario, el idioma en el que se escriben los archivos digitales. Como conté anteriormente, un grupo de jóvenes investigadores chinos presentó un sistema en 2010, pero no es el único. Ya en 1996 se publicó un método ideado por un interesante personaje llamado Joe Davis, conocido como el “científico loco” del Instituto Tecnológico de Massachusetts (MIT).

Davis ha desarrollado su carrera a caballo entre el arte y la ciencia, siempre en la frontera de la originalidad y la innovación. En la década de 1980, tuvo la idea de introducir en una bacteria una obra de arte digitalizada. Para ello creó Microvenus, un símbolo rúnico que es también una representación simplicada de los genitales femeninos. Lo que Davis hizo fue inspirarse en el sistema empleado por Carl Sagan y Frank Drake en el mensaje de Arecibo, una señal de radio lanzada al espacio en 1974: convertir el gráfico en un panel de ceros y unos, y luego encadenar las líneas para transformarlo en un código lineal. Para ello, era necesario que las dimensiones del gráfico original fueran el producto de dos números primos, con el fin de que su reconstrucción en 2D fuera unívoca. A continuación, Davis tradujo el código binario en bases de ADN empleando una equivalencia con un sistema de compresión y añadiendo la clave al comienzo del mensaje.

El icono Microvenus y su codificación en ADN. Nótese que su traducción gráfica a código binario se realiza en un panel de 5x7, ambos números primos. Imagen de Joe Davis / JSTOR Art Journal.

El icono Microvenus y su codificación en ADN. Nótese que su traducción gráfica a código binario se realiza en un panel de 5×7, ambos números primos. Imagen de Joe Davis / JSTOR Art Journal.

La segunda gran aportación del estudio de Grass es un nuevo sistema de codificación que extiende y mejora la idea de Davis. El investigador del ETH y sus colaboradores han creado un método que toma los caracteres de un texto de dos en dos, pero tratándolos como si cada uno fuera un byte (ocho bits), lo que permite aplicarlo a cualquier tipo de archivo digital. El siguiente paso es transformar el conjunto de dos bytes en base 256 (256²=65.536) en un triplete en base 47 (47³=103.823). ¿Y por qué en base 47? Muy sencillo: es necesario asignar a cada triplete de ADN (ver mi post anterior) un número distintivo para hacer la conversión. Como secuenciar y leer cadenas de ADN con muchas bases repetidas (como GGGGGGGGGG o TTTTTTTTTTT) aumenta las posibilidades de error, los científicos se quedaron solo con los tripletes en los que la segunda y la tercera base son distintas; así, AAC es válido, pero CAA no. De este modo, reducen las repeticiones a un máximo de tres: AAC CCG. Con esto, de los 64 tripletes posibles (variaciones con repetición de cuatro elementos tomados de tres en tres), se quedan solo con 48. Pero como el campo bidimensional de valores debe basarse en un número primo, eligieron el más próximo, 47.

Así, cada par de caracteres o bytes queda transformado en un trío de números del 0 al 46, los cuales a su vez se corresponden con tripletes de ADN. Pero para corregir los errores debidos a la degradación del ADN, la síntesis o la lectura, los investigadores introdujeron redundancias de datos mediante códigos de Reed-Solomon, herramientas muy utilizadas, por ejemplo, en comunicaciones espaciales y en la grabación de soportes digitales como discos duros y CD. Para entender cómo funcionan estos códigos, podemos pensar en los bits de paridad empleados antiguamente para transmitir código ASCII; un carácter ASCII se codifica en siete bits binarios (0/1), pero solía introducirse un octavo bit, llamado de paridad, que tomaba el valor de 0 o 1 según la suma del resto de bits iguales a 1 fuera par o impar. De este modo, se incorporaba un valor de comprobación para detectar errores en la transmisión. Otro ejemplo es el dígito de control de los números de las cuentas bancarias. Los códigos Reed-Solomon son más complejos, pero se inspiran en un principio similar.

Empleando este sistema, los científicos codificaron dos textos, la versión en latín del Pacto Federal de 1291 que daba forma a la primera confederación suiza, y la traducción inglesa de El Método de los teoremas mecánicos perteneciente al Palimpsesto de Arquímedes. Tras la síntesis del ADN codificado, su encapsulación en sílice y el tratamiento térmico, los investigadores encontraron cierto grado de degradación del ADN, pero los códigos Reed-Solomon funcionaron a la perfección para corregir los errores. “Por primera vez, mostramos en experimentos reales que formando fósiles artificiales alrededor de nuestra muestra de ADN, y añadiendo esquemas de corrección de errores a la información almacenada en el ADN, este almacenamiento a largo plazo es posible en la práctica”, concluye Grass.

Los científicos están pensando ya en aplicar su sistema a gran escala. “Estamos concibiendo la creación de una biblioteca de información digital para almacenamiento a largo plazo, pero por el momento es todavía un sueño, y requerirá dinero”, apunta Grass. Sin embargo, otras utilidades no resultan tan lejanas: los investigadores han ensayado el sistema para añadir cápsulas magnéticas fósiles de ADN a modo de marcas de agua genéticas o etiquetas de autenticidad en productos como gasolina, aceites cosméticos o aceite de oliva. Las partículas, que son inalterables y solo pueden retirarse mediante imanes en instalaciones especializadas, introducen un sistema de código de barras genético que sirve para evitar falsificaciones y perseguir el contrabando.