Entradas etiquetadas como ‘correlación vs causalidad’

Cierres perimetrales por zonas y descenso de los contagios: ¿causalidad o simple correlación?

Como ya he mencionado aquí antes, la lucha contra la pandemia de COVID-19 se ha convertido en el mayor experimento epidemiológico de la historia: cientos de países sufriendo oleadas sucesivas de contagios y aplicando medidas dispares con distinta temporalidad; todo ello va a dar a la ciencia infinidad de datos para mejorar la respuesta contra la próxima pandemia. Es evidente que a la actual el mundo llegó con poco conocimiento: las medidas más básicas, como las mascarillas, los cierres y las cuarentenas ya se aplicaban en la gripe de 1918. No había más armas. No se sabía qué hacer. Se reaccionó improvisando, porque ningún país occidental estaba preparado contra una pandemia.

Curiosamente, en estos días en que ha aparecido la conocida como ley de nueva normalidad, toda la preocupación parece haberse centrado en si habrá que llevar mascarilla en la playa, lo cual revela un extraño orden de prioridades. Por ejemplo, habrá quienes piensen que esto es una enorme trivialidad cuando también se ha puesto en juego un derecho tan básico como es la inviolabilidad del domicilio. Estos mismos quizá piensen que solo en las peores distopías de la ficción las autoridades se arrogan el privilegio/abuso de prohibir a un ciudadano hacer en su propia casa algo que no solamente no es un delito, sino que además está permitido en otros lugares también interiores, pero de propiedad ajena y donde hay que pagar. Y por ello quizá también estos mismos piensen que el deber de las autoridades es tomar todas las medidas que sean necesarias en el ámbito público antes de cometer la osadía de meter la mano en algo tan sagrado como es la intimidad del hogar de las personas.

Pero en fin, esto son opiniones. En el fondo, el problema sigue siendo el mismo: ¿qué medidas funcionan mejor? ¿Cuáles son simplemente teatralidad con poca o nula efectividad práctica? Aquí he contado anteriormente en varias ocasiones cuál es la respuesta a la que apuntan la mayoría de los estudios: en general, cualquier medida que suponga una restricción de la movilidad o de la interacción parece correlacionarse con un descenso de los contagios. En concreto, las que más puntos acumulan en los estudios son las ya mencionadas aquí mil veces: cierre de establecimientos no esenciales, cierre de centros laborales y educativos, y cancelación de grandes reuniones y eventos públicos. Sobre el confinamiento domiciliario, hay serias dudas. La desinfección de superficies es entre inútil y perjudicial. En cuanto a los toques de queda, aún faltan datos. Y respecto al cierre de fronteras, los estudios apuntan a más teatro que efectividad.

Pero, en el fondo, todo esto no deja de ser aún un trazo demasiado grueso, sobre todo porque se trata en general de medidas con las cuales el remedio puede ser tan malo como la enfermedad, en términos de impacto económico y social. Además hay otro gran problema, y es el verbo destacado en el párrafo anterior: «correlacionarse». Dado que en el mundo real es muy complicado eliminar todos los factores de confusión y establecer los controles adecuados, ¿realmente esas medidas son la causa que provoca un efecto en el descenso de contagios? ¿O es simplemente una correlación entre ambas cosas sin una causalidad directa?

Una calle de Madrid en octubre de 2020. Imagen de Efe / 20Minutos.es.

Una calle de Madrid en octubre de 2020. Imagen de Efe / 20Minutos.es.

Hace unos días, un editorial en la revista The Lancet Infectious Diseases hacía una llamativa observación: comentando la situación de la pandemia en Europa y las esperanzas depositadas en la vacunación, el artículo decía esto: «Inevitablemente, el resultado de las distintas estrategias es que la UE ha visto 27 experimentos diferentes en el control de la COVID-19. El hecho de que diferentes niveles de restricciones hayan conducido a situaciones epidemiológicas similares se ha añadido al debate sobre qué medidas son necesarias, llevando a una creciente presión pública para relajar las medidas de control«.

Es importante pararse y repetir esta idea: a pesar de todas las idas y venidas, picos y valles, olas y resacas y bailes de cifras, uno de los sellos editoriales más prestigiosos del mundo en medicina como es The Lancet, y más concretamente su sección especializada en enfermedades infecciosas, concluye que los distintos tipos e intensidades de medidas restrictivas adoptadas en los distintos países de la UE han conducido a «situaciones epidemiológicas similares». ¿Tira esto por tierra todo lo que creemos saber sobre las medidas que funcionan?

Quizá no sea para tanto. Pero sí deberíamos tener en cuenta que el paso siguiente en los niveles de la evidencia científica, pasar de la correlación a la causalidad, es muy complicado de superar. Un ejemplo: los cierres perimetrales por zonas, supuestamente las de mayor incidencia, en la práctica no necesariamente. En ciertos lugares esta medida se ha tomado y presentado como el agua bendita contra la COVID-19, porque después de aplicar estos cierres, los contagios bajan. Pero ¿hay relación causa-efecto entre una cosa y otra?

Un estudio aún sin publicar (con todas las precauciones que esto conlleva) concluye que no. Un grupo de médicos madrileños ha estudiado la evolución de los contagios en la Comunidad de Madrid a partir de septiembre de 2020, cuando comenzaron a aplicarse los cierres perimetrales por zonas, comparando además las zonas cerradas con otras abiertas. La conclusión: «el descenso en la curva epidémica comenzó antes de que pudiera reflejarse el impacto de los confinamientos perimetrales». Es más, los autores encuentran que «los confinamientos perimetrales no aumentaron la velocidad de descenso de los casos«.

En resumen, los contagios bajaron en todo Madrid, en zonas confinadas y en zonas no confinadas, y sin que en las primeras descendieran de forma más rápida. Pero el descenso general en los contagios no se debió al confinamiento de algunas zonas, dado que comenzó antes de la aplicación de las medidas. O sea, simple correlación, no causalidad.

Surgen dos preguntas: primera, por qué los confinamientos perimetrales por zonas no funcionan. Segunda, por qué la curva de contagios puede descender antes de aplicar las medidas.

Con respecto a la primera, los autores explican lo ya evidente: los presuntos confinamientos perimetrales no tienen prácticamente ninguna aplicación real, dado que en sociedades tan interconectadas poca gente vive, trabaja y lleva a los niños al colegio dentro de su misma área, mucho menos en particiones tan ignotas para el público como son las Zonas Básicas de Salud. Pero ni siquiera en los pueblos periféricos, como sabemos quienes vivimos en ellos. En concreto, dicen los autores, «la movilidad se permitía para actividades esenciales como trabajar, lo que representa la mayoría de la movilidad de los residentes de las zonas afectadas«. Además, los confinamientos perimetrales tampoco impiden las situaciones de alto riesgo, como las actividades en interiores. Los investigadores citan otro ejemplo de cómo en Chile los contagios en zonas confinadas se extendieron rápidamente a las zonas vecinas no confinadas.

En cuanto a la segunda pregunta, cómo es posible que los contagios puedan descender antes de la aplicación de las medidas, hay dos respuestas, una corta y sencilla, otra larga y mucho más complicada. La primera es la de los propios autores: según apuntan, «el descenso observado puede estar asociado a otras medidas aplicadas en las semanas previas, como la limitación de las reuniones sociales, el cierre de los locales nocturnos o la limitación de la capacidad de los restaurantes«.

Podríamos dejarlo aquí, y serviría. Pero merece la pena explicar la segunda respuesta, mucho más complicada. Y para ello recurrimos a otro estudio. Hace varias semanas, la Universitat Rovira i Virgili de Tarragona colgó un estudio en internet (una vez más, aún no publicado, con todas las cautelas que esto conlleva) que modelizaba el primer pico de la pandemia en España. En los medios se comentó bastante la conclusión más de trazo grueso de este estudio: que si las medidas drásticas de la primavera de 2020 se hubieran aplicado una semana antes, en ese primer pico podrían haberse salvado 23.000 vidas.

(Nota: lo de «trazo grueso» es por un motivo evidente, y es que el estudio solo modelizaba el primer pico; dado que las sucesivas oleadas están determinadas por la heterogeneidad de susceptibilidad de la población, de modo que en cada una se va reduciendo el reservorio de población más susceptible y expuesta, lo más probable es que la porción del sector más susceptible que no redujera su exposición después del primer pico acabara afectada en posteriores oleadas, de modo que el número de muertes podría haber sido mayor que el observado en esas olas sucesivas y por lo tanto la reducción total de la mortalidad habría sido menor, salvando el hecho de que las medidas iniciales sí compraban tiempo para mejorar y no saturar la respuesta sanitaria).

Pero, en cambio, hay una observación de este estudio que en ningún medio se ha mencionado, a pesar de lo brutalmente llamativa. Y es que los contagios en España comenzaron a bajar antes del confinamiento, antes de la aplicación de ninguna medida: «El número de reproducción empieza a descender entre el 5 y el 6 de marzo. El descenso temprano precede a la introducción de cualquier medida de contención, también a nivel regional«, escriben los autores, añadiendo que la reducción de la movilidad, según datos de Google, no comenzó hasta el 9-10 de marzo, cuando se aplicaron las primeras medidas previas al confinamiento general.

Una vez más, es importante pararse y repetir esta idea: al menos de acuerdo a este estudio, el descenso del pico de contagios de la primera ola comenzó antes de que comenzaran a implantarse las primeras restricciones. Cuando se decretó el confinamiento general el 15 de marzo, ya se había superado el pico de contagios y la tendencia era descendente (sobra decirlo, o no, que en todos estos estudios se habla de cuándo se producen los contagios, no de cuándo se reportan y contabilizan, ya que hay un retraso de hasta unas dos o tres semanas entre ambas fechas).

Hay posibles explicaciones que los autores apuntan: sensibilización de la población ante las informaciones cada vez más presentes en los medios, o incluso que la proporción de casos detectados a casos reales comenzó a caer en picado cuando la demanda de test aumentó drásticamente, saturando la oferta. Estas explicaciones son razonables.

Pero ¿podría haber algo más? No aporta mucho caer en especulaciones infundadas. Pero tampoco hace daño, siempre que se comprenda que son eso, simples especulaciones. Y es que llama la atención ver cómo se parecen estos dos gráficos. El primero es el de la evolución de los casos de COVID-19 en España desde la primera ola hasta hoy. El segundo es el de la evolución de la gripe de 1918 (en este caso solo se reflejan las muertes, y en un lugar concreto, el estado de Michigan).

Evolución de la incidencia acumulada de COVID-19 en España desde la primera ola hasta el 5 de abril. Imagen de Carlos Gámez / 20Minutos.es.

Evolución de la incidencia acumulada de COVID-19 en España desde la primera ola hasta el 5 de abril. Imagen de Carlos Gámez / 20Minutos.es.

Muertes atribuidas a la gripe de 1918 en el estado de Michigan entre 1918 y 1920. Imagen de The Conversation.

Muertes atribuidas a la gripe de 1918 en el estado de Michigan entre 1918 y 1920. Imagen de The Conversation.

Es por lo menos curioso ver cómo se parecen las dinámicas del primer año de pandemia de una enfermedad de hace un siglo y otra actual, teniendo en cuenta la gran diferencia entre la severidad de las medidas aplicadas entonces y ahora, y dado que ahora todos damos por hecho que son las escaladas y desescaladas de dichas medidas, o sus incumplimientos, las que están marcando el curso de la pandemia. Pero ¿es realmente así? ¿O las medidas pueden afectar a las cifras absolutas (más o menos casos y muertes), pero no tanto a la evolución general (volvemos a The Lancet)? ¿Hay más correlación que causalidad en los efectos de las medidas sobre esas curvas? ¿Será que la estacionalidad está jugando un papel mucho más relevante que el que hasta ahora se le ha atribuido a la COVID-19? ¿Habrá otros factores todavía desconocidos que impongan una dinámica intrínseca de olas y resacas?

Especulaciones y nada más. Por el momento, quedémonos con la conclusión de que los datos, aunque preliminares, no apoyan el funcionamiento de los cierres perimetrales. Y en cambio, lo que sí está bien establecido es que los cierres en general perjudican en mayor medida a la población más pobre; el último estudio de muchos coincidentes se ha publicado ahora en PNAS, donde investigadores de la Universidad de Nueva York descubren que los cierres reducen el riesgo de contagio de la población con mayores ingresos –por relocalización a segundas residencias y teletrabajo– y en cambio aumentan el de los sectores medios y bajos, que trabajan fuera de casa y aumentan su actividad local debido a los cierres. Como titulaba el diario The New York Times cuando comenzaron los cierres perimetrales, «En Madrid, la resurgencia de COVID-19 divide a ricos y pobres — Las nuevas medidas de confinamiento afectan desproporcionadamente a las personas económicamente más vulnerables en la región capital«.

Correlación no implica causalidad: el principio de Wang o «teoría estúpida»

En la genial Un cadáver a los postres (Murder by Death) de Neil Simon, esa surrealista parodia del género de detectives dirigida por Robert Moore en 1976 –sí, la de Benson Señora–, hay un momento en el que Dick Charleston (David Niven) explica la muerte del anfitrión de la velada, el millonario Lionel Twain (Truman Capote en su única aparición en el cine), proponiendo que en realidad fue un suicidio: Twain inventó una máquina para que le apuñalara 11 o 12 veces por la espalda. A lo que su colega Sidney Wang (Peter Sellers), con su torpe manejo del idioma, replica:

— Un momento, por favor. Muy interesante teoría, señor Charleston, pero olvidado punto muy importante.

¿Cuál es? –indaga Charleston.

— Estúpida. Teoría más estúpida jamás oída.

Sidney Wang (Peter Sellers) en 'Un cadáver a los postres' (1976). Imagen de Columbia Pictures.

Sidney Wang (Peter Sellers) en ‘Un cadáver a los postres’ (1976). Imagen de Columbia Pictures.

Hay ocasiones en que ciertos estudios científicos me devuelven a la mente aquel pasaje de la película. Se trata de los estudios que establecen una correlación entre una condición y una observación, pero donde no solamente no se demuestra ningún vínculo de causa y efecto entre ambas, sino que además la posible existencia de ese vínculo resulta algo contrario al sentido común y a cualquier atisbo de plausibilidad. Como que alguien fabrique una máquina destinada a apuñalarle 11 o 12 veces por la espalda para que parezca un homicidio. No es que sea imposible; es que se trata de una hipótesis tan descabellada que necesita más pruebas para cruzar el umbral de la credibilidad que otra mucho más plausible. Como decía Carl Sagan, y otros antes que él, afirmaciones extraordinarias requieren pruebas extraordinarias.

Imagino que quienes menos sentido encontrarán a estos estudios son los físicos. Para un físico, la naturaleza debe describirse mediante ecuaciones, incluso cuando hay incertidumbres (como en la cuántica). Pero no es necesario tirar dos veces una manzana al aire para comprobar si continúa cayendo: las ecuaciones describen perfectamente lo que hará la manzana.

La biología, mi campo, introduce sistemas más sucios (desde el punto de vista de las variables) que en la mayoría de los casos no pueden reducirse a matemática. En algunos sí se hacen aproximaciones válidas; por ejemplo, el impulso nervioso en las neuronas se describió aplicando las mismas ecuaciones que explican el comportamiento de la electricidad en los circuitos de cables.

Pero la biología es inmensamente diversa y abarca un espectro muy amplio de certidumbres, desde los modelos en los que bastan unas pocas repeticiones del experimento para tener la seguridad de que el resultado es legítimo, hasta aquellos en los que es necesario recurrir a meta-análisis, o estudios que reúnen múltiples estudios, porque ni siquiera un estudio completo es suficiente para asegurar que existe un efecto. Y a medida que nos desplazamos hacia la banda de ciencias aún más blandas, como la psicología, la necesidad de los metaestudios es aún mayor.

Lo que ocurre con los metaestudios es que el umbral de la credibilidad no es una propiedad de la naturaleza en sí, sino algo que definimos los humanos de forma más o menos arbitraria en función de algún parámetro estadístico. Me explico con un ejemplo: todos sabemos que el tabaco causa cáncer de pulmón. Pero ¿qué significa exactamente esto?

Dado que el humo se inhala, la relación entre el tabaco y el cáncer de pulmón parece plausible, lo que justifica su investigación. Tan plausible parecía la relación que ya se sospechaba a comienzos del siglo XX, cuando solo se habían descrito un centenar largo de casos de cáncer de pulmón en las revistas médicas. Los primeros estudios epidemiológicos se hicieron en Alemania en los años 20 y 30, lo que motivó la primera campaña antitabaco de la historia, la del régimen nazi. Desde entonces, decenas de miles de estudios de correlación y sus correspondientes metaestudios han apoyado este vínculo. Pero además, la relación de causa y efecto también ha sido validada por ensayos experimentales en los que se han explicado los mecanismos biológicos por los cuales ciertos compuestos del humo del tabaco provocan cambios en las células que conducen al cáncer.

Pues bien, incluso en un caso tan claro como este, y teniendo en cuenta que las cifras varían debido a la implicación de muchas variables (como el historial del paciente, su perfil genético, la edad de inicio del consumo de tabaco, la frecuencia, etc.), el cáncer afecta a alrededor de un 20% de las personas que fuman. Es decir, que la gran mayoría de las personas que fuman no sufren cáncer de pulmón.

Vayamos ahora al extremo contrario. Hace tres años, los medios montaron todo un circo con la afirmación de que el consumo de carne, sobre todo procesada, provoca cáncer. Como ya me ocupé detalladamente de intentar explicar muy claro para quien quisiera leerlo (aquí y aquí), así dicho, esto es sencillamente una barbaridad; si bien vino propiciada por una nota de prensa muy poco afortunada de la Organización Mundial de la Salud (OMS), la misma OMS que a continuación se quejaba de que los medios se habían quedado «solo con el titular».

Imagen de Pixabay.

Imagen de Pixabay.

Pero es que solo en la letra pequeña de la nota de prensa –y los medios no se caracterizan precisamente por fijarse en la letra pequeña– uno de los expertos de la OMS responsables del anuncio aclaraba que «para un individuo, el riesgo de desarrollar cáncer colorrectal por su consumo de carne procesada sigue siendo pequeño». La conclusión, el verdadero mensaje, era que el consumo de carne aumenta el riesgo de cáncer colorrectal sobre un nivel de base que es diminuto, de modo que el nivel de riesgo resultante de este aumento continúa siendo diminuto.

Pongámoslo en números para que se entienda mejor; números que publicaron varias entidades de lucha contra el cáncer y que transmitían un mensaje infinitamente más claro que la inmensamente torpe nota de prensa de la OMS: según la Sociedad contra el Cáncer de EEUU, el riesgo de una persona cualquiera de sufrir cáncer de colon es del 5%; si come carne, el riesgo aumenta a menos del 6%. Por su parte, la Unión Internacional de Control del Cáncer comparó las cifras con las del tabaco: fumar multiplica el riesgo de cáncer por 20, o lo aumenta en un 1.900%; comer carne multiplica el riesgo de cáncer por 1,18, o lo aumenta en un 18%. Creo que estas cifras dan una idea bastante clara de la magnitud del problemón que supone comer carne.

Resumiendo, para demostrar que X produce Y hacen falta dos cosas:

1. Una correlación estadística suficientemente significativa.

Insisto, el límite de lo que es significativo y lo que no lo definimos los humanos de forma arbitraria. Suelen utilizarse parámetros como el llamado valor p, del que ya he hablado aquí varias veces (como aquí y aquí). El valor p nos da una perfecta medición de cuál es el estatus probabilístico de que esa correlación signifique algo real, pero en qué punto de corte nos creemos que es real no es más que un convencionalismo; de hecho, este punto de corte es un intenso motivo de discusión entre los científicos.

También es importante aclarar que los parámetros como el valor p, o lo que consideramos estadísticamente significativo, no tienen nada que ver con el tamaño del efecto. El tabaco y la carne sirven de ejemplo: el primero tiene un efecto muy grande, mientras que el de la segunda es diminuto, y sin embargo ambos pueden tener la misma significación estadística. Basarse en esto último para decir que el riesgo de cáncer es el mismo en los dos casos es no haber entendido nada de nada.

2. Un mecanismo plausible que sea comprobable por otras vías.

Sin un mecanismo plausible de causa y efecto, una correlación no deja de ser una casualidad curiosa, como que choquen dos coches con matrículas consecutivas. O, como decía Wang, una «teoría estúpida», como que los coches con matrículas parecidas tiendan a atraerse. Establecer correlaciones es muy fácil, teniendo una serie de datos en distintas condiciones experimentales y un software básico. Yo mismo presenté aquí correlaciones entre la evolución del número de casos de trastornos autistas y el del número de ancianas centenarias británicas, o las importaciones de petróleo en China, o la facturación de la industria turística.

Número de casos de autismo (en azul) frente a número de mujeres centenarias en Reino Unido (en rojo), de 1995 a 2010. Gráfico de elaboración propia.

Número de casos de autismo (en azul) frente a número de mujeres centenarias en Reino Unido (en rojo), de 1995 a 2010. Gráfico de elaboración propia.

Para convertir una casualidad en causalidad es preciso proponer un mecanismo plausible que pueda estudiarse por otros métodos. En el caso de la biología, se trata de llevar esa hipótesis al laboratorio; por ejemplo, ensayar in vitro e in vivo el efecto cancerígeno de los compuestos del tabaco. Pero cuando se aventura que los huracanes causan más muertes si se les pone nombre de mujer, como afirmaba un estudio hace unos años, los investigadores tendrán que buscar la manera de proponer un mecanismo y testarlo; uno que no requiera la premisa de que la población es rematadamente imbécil de solemnidad, como cuando dijeron que «la gente atribuye a los huracanes con nombre femenino ciertas cualidades asociadas a las mujeres, como la calidez, y cualidades como la agresividad a los huracanes con nombres masculinos».

Una última cosa que no debería ser necesario aclarar, pero que parece serlo, es que un mecanismo plausible no puede sustituirse por una corazonada, una intuición o el deseo muy fuerte de que algo sea cierto. Por ejemplo, cuando se publicó lo de la carne y el cáncer hubo ciertas personas del veganismo proselitista, el que pretende imponer su credo al resto de la humanidad, que ya lo sabían, y que seleccionaron los pedacitos de información más sensacionalista publicados por los medios peor informados para defender su visión.

Lo preocupante es que estos prejuicios, ideas preconcebidas y sesgos cognitivos no solo afectan al público no científico, sino también a los propios investigadores cuando emprenden un estudio tratando por todos los medios de demostrar lo que previamente ya saben. En ciertos casos ocurre que los estudios nacen ya contaminados por prejuicios éticos, culturales, sociales o de otro tipo, todo eso que los investigadores deberían dejar en la puerta junto con el paraguas antes de entrar en el laboratorio. Un ejemplo que he comentado aquí varias veces son los estudios que han tratado de probar los efectos negativos que produce escuchar música heavy metal, y en el que han llegado a darse casos de estudios que lo afirmaban incluso cuando sus datos no apoyaban tal afirmación.

Mientras no haya un mecanismo plausible, debe aplicarse el principio de Wang: «teoría estúpida». Mañana les contaré otro ejemplo muy sabroso de ello.

Científicos chinos dicen que el heavy metal daña el cerebro (pero sus datos no)

Géneros musicales como el punk y el metal arrastran tradicionalmente un sambenito de asociación con la violencia y con vidas, digamos, deconstruidas. En nuestras sociedades occidentales de hoy ya no suele estigmatizarse a nadie por este motivo (y quien piense que sí, probablemente no conoció la España de los 80). Pero esta asociación persiste en forma de sesgo.

Metalheads. Imagen de Flickr / Staffan Vilcans / CC.

Metalheads. Imagen de Flickr / Staffan Vilcans / CC.

Este es un ejemplo que una vez me contó un psicólogo (no he sido capaz de encontrar la fuente original, si es que existe): «¿te cuento un chiste?», le decimos a alguien. «El gobierno va a encarcelar a todos los homosexuales, los negros y los fisioterapeutas». Es muy probable que la respuesta de quien escucha sea: «¿y por qué a los fisioterapeutas?».

Esto no implica en absoluto que la persona que responde así sea racista u homófoba, ni que sea favorable al encarcelamiento de nadie por su condición; es posible que una persona de color o gay también respondan de la misma manera. Simplemente, quien responde esto espera que la gracia del falso chiste-trampa esté en explicar qué tienen en común los fisioterapeutas con los otros dos grupos. Inconscientemente, la mente establece una división en dos categorías, las personas que pueden ser estigmatizables, negros y homosexuales, y quienes no, fisioterapeutas.

No es difícil encontrar ejemplos de este tipo en la prensa cuando se trata de sucesos violentos; hay datos sobre sus protagonistas que tienden a aparecer, y no así otros, porque se considera que los primeros pueden tener relación con las causas del suceso:

«¡AJÁ, ASÍ QUE LE GUSTABA EL HEAVY METAL!»

O bien:

«¡AJÁ, ASÍ QUE LE GUSTABA EL PUNK!»

Por el contrario, esto no ocurre:

«¡AJÁ, ASÍ QUE LE GUSTABA PINTAR SOLDADITOS DE PLOMO!»

Ni, ciñéndonos a la música, esto:

«¡AJÁ, ASÍ QUE LE GUSTABA JUSTIN BIEBER!»

Imagen de Wikipedia / Robin Krahl.

Imagen de Wikipedia / Robin Krahl.

Sesgo es precisamente lo que he encontrado en un estudio publicado en septiembre en la revista NeuroReport por investigadores de la Universidad Normal de Liaoning, en China. El título viene a decir lo siguiente: «Conectividad funcional alterada en estado de reposo en la red neuronal por defecto y en la red sensorimotora en los amantes de la música heavy metal».

Traducido, el título sugiere que los amantes del heavy metal tienen un mapa de conexiones cerebrales funcionales y una actividad en reposo diferentes a otras personas; en concreto, a los amantes de la música clásica, el grupo utilizado como control. La red neuronal por defecto citada en el título es un conjunto de regiones del cerebro que permanecen activas espontáneamente cuando no estamos haciendo nada en particular; se activa cuando divagamos, y se apaga cuando realizamos una tarea. En cuanto a la red sensorimotora, es el conjunto de conexiones cerebrales encargadas de vincular nuestros movimientos con la información que recibimos a través de los sentidos corporales.

Resumiendo, el estudio trata de analizar si el cerebro de los amantes del heavy metal (para no repetirlo, utilizaré HMML de Heavy Metal Music Lovers, como hacen los autores) es diferente al de los amantes de la música clásica (CML). Y por lo que apuntan en la introducción, parece que es así: los HMML, dicen los autores, tienen una mayor actividad en tres regiones concretas, menor en una cuarta, y algunas diferencias en la conectividad entre ciertas áreas.

Todo esto en sí no es ni bueno ni malo. Una miríada de estudios emplean el mismo método, introducir a un grupo de personas (una a una, claro) en un escáner de resonancia magnética funcional (fMRI), decirlas que no piensen en nada, medir su actividad cerebral en reposo y buscar las diferencias entre participantes agrupados por una característica concreta, ya sea un trastorno o no; por ejemplo, se han hecho estudios de este tipo comparando el cerebro de atletas y de quienes no lo son, o incluso de hombres y mujeres. Sin ningún ánimo de desmerecer estos trabajos, son estudios fáciles, fast food científico; basta disponer del aparato, pensar en dos grupos de personas con alguna diferencia, hacerles la prueba, meter los datos en el software que se encarga de hacer los cálculos y las comparaciones, y muy probablemente saldrá algo que pueda publicarse.

Amon Amarth en 2016. Imagen de Wikipedia / Sven Mandel.

Amon Amarth en 2016. Imagen de Wikipedia / Sven Mandel.

Pero hay algo ya en el título del estudio que me llama la atención, y es el motivo por el que sigo leyendo: el uso del término «alterada». Cuando se hace un estudio de este u otro tipo en un grupo de pacientes enfermos en comparación con controles sanos, parece comprensible hablar de alteraciones, ya que existe un trastorno. Sin embargo, si se compara el patrón de fMRI en reposo de atletas y no atletas, o de hombres y mujeres, no se habla de «alteraciones», sino de «diferencias». ¿Imaginan que un estudio dijera que las mujeres tienen «alteraciones» en sus patrones cerebrales con respecto a los hombres? Es más: repasando otros estudios, incluso he encontrado que muchos autores hablan simplemente de «diferencias» también cuando estudian trastornos como la esclerosis múltiple, la depresión o el síndrome de colon irritable.

El hecho de que los autores del estudio hablen de «alteraciones» en el cerebro de los HMML revela un evidente sesgo. Pero la alarma sube de tono cuando leo el abstract (introducción-resumen) y me encuentro lo siguiente: «los resultados pueden explicar parcialmente los trastornos cognitivos emocionales y de conducta en los HMML comparados con los CML, y son consistentes con nuestras predicciones».

¡¿Cómo?!

¿Quién ha dicho que los amantes del heavy metal estén trastornados?

Por suerte, y al contrario de lo que ocurre en el periodismo, donde eso de la confidencialidad de las fuentes da carta blanca para publicar cualquier dato sin demostrarlo, en ciencia toda afirmación debe ir sustentada: si uno menciona en un estudio que la naranja tiene mucha vitamina C, al final de la frase hay que poner un numerito que le lleva a uno a una lista de referencias, donde se cita un estudio previo en el que unos tipos han medido el contenido en vitamina C de las naranjas.

Así que me voy al texto, y encuentro en primer lugar esta afirmación: «el estilo musical del heavy metal muestra efectos negativos relacionados con el estrés, incluyendo trastornos del sueño, fatiga y ansiedad [2, 3]». Busco entonces la bibliografía al final del estudio, y compruebo las referencias 2 y 3. ¿Qué dicen estos dos estudios?

Pues en resumen, absolutamente nada que tenga que ver con lo que los autores afirman. Uno de ellos, publicado en 2013 en la revista Computers in Human Behavior, se titula: «Mozart o Metallica, ¿quién te hace más atractivo? Un test de música, género, personalidad y atractivo en el ciberespacio». Y trata exactamente sobre lo que el título resume, con una curiosa conclusión: «los participantes masculinos perciben como más atractiva a una mujer con música clásica de fondo en su web, mientras que las participantes femeninas consideran más atractivo a un hombre con heavy metal de fondo en su web». Discutible, pero en fin, no nos desviemos.

El segundo estudio es más estrambótico. Publicado en 2014 por un grupo de investigadores brasileños en la revista turca Archives of the Turkish Society of Cardiology, analiza las variaciones en el ritmo cardíaco en un grupo de hombres cuando escuchan música clásica barroca o heavy metal. Y los resultados explican por qué los autores han tenido que recorrer medio mundo para conseguir colar su estudio en algún sitio: «la estimulación musical auditiva de diferentes intensidades no influye en la regulación del ritmo cardíaco en los hombres». Es decir, que nada de nada; al músculo cardíaco le da exactamente igual Pachelbel que Gamma Ray.

Vuelvo entonces al estudio chino, y sigo leyendo. Yan Sun y sus colaboradores vuelven a la carga, y no se lo pierdan: «entender los mecanismos neurales de los HMML puede ayudarnos a desarrollar un desarrollo saludable de un plan de personalidad para los HMML». Sí, sí, no se fijen siquiera en la desastrosa redacción; ¿un plan saludable de personalidad para los amantes del heavy? Pero esperen, que sigue: «escuchar música heavy metal a largo plazo conduce a trastornos cognitivos de conducta y emocionales [3-5]».

Vamos a ello. ¿Qué dicen estas referencias? La 3 era la de la revista turca, así que continuamos con las 4 y 5. Y les va a sorprender, porque estos dos estudios ¡dicen precisamente todo lo contrario de lo que defienden los autores!

Descubro que uno de los estudios es un viejo conocido, porque en su día ya lo conté aquí. Lo publicaron en 2015 las psicólogas australianas Leah Sharman y Genevieve Dingle en la revista Frontiers in Human Neuroscience. Mediante tests y parámetros biológicos en un grupo de voluntarios, las dos investigadoras ponían a prueba la hipótesis de si «la música extrema produce furia». Y esto es lo que concluían: «los resultados indican que la música extrema no ponía furiosos a los participantes; más bien parecía encajar con su estado fisiológico y resultar en un aumento de las emociones positivas. Escuchar música extrema puede representar una manera saludable de procesar la furia para estos oyentes». O dicho de otro modo, que géneros musicales como el punk o el metal son beneficiosos para la salud emocional de sus fans, como titulé en su momento.

Lars Ulrich, batería de Metallica, en 2008 en Londres. Imagen de Wikipedia / Kreepin Deth.

Lars Ulrich, batería de Metallica, en 2008 en Londres. Imagen de Wikipedia / Kreepin Deth.

El último cartucho que les queda a Yan Sun y sus colaboradores para tratar de justificar esas afirmaciones sobre los supuestos efectos nocivos del heavy metal es un estudio publicado en la revista Self and Identity por un grupo de investigadores de la Humboldt State University de California. Los autores se preguntaron qué había sido de los metalheads de los 80, y para ello reclutaron por Facebook a 377 músicos, fans y groupies de aquella época, a los que sometieron a una encuesta para conocer sus circunstancias actuales. Como grupos de control, utilizaron adultos de la misma generación que no eran –en términos de Yan Sun– HMML, y a jóvenes universitarios actuales.

Los resultados son demoledores para la pretensión del estudio chino: citando a los Who, los chicos están bien: «hoy, estos metalheads de mediana edad son de clase media, se ganan la vida, están relativamente bien formados y recuerdan con añoranza los tiempos salvajes de los 80″, escriben los investigadores. «Fueron significativamente más felices en su juventud y están mejor ajustados actualmente que los grupos de comparación de mediana edad o de edad universitaria».

Naturalmente, una limitación del estudio es que a quienes no les fue tan bien ya no están aquí para contarlo, o tal vez no estén en Facebook. Pero una observación de los autores resulta especialmente reveladora, y es que según las encuestas, muchos de aquellos metalheads de los 80 atravesaron existencias problemáticas y estuvieron expuestos a conductas de riesgo; y lo superaron no a pesar del metal, sino gracias a él: «las culturas de estilo extremo pueden atraer a jóvenes con problemas que pueden implicarse en conductas de riesgo, pero también pueden ejercer una función protectora como fuente de pertenencia y conexión para jóvenes que buscan consolidar el desarrollo de su identidad», reflexionan los autores.

Por supuesto, también en China hay heavy metal. Tang Dynasty en 2004. Imagen de Wikipedia / Paul Louis.

Por supuesto, también en China hay heavy metal. Tang Dynasty en 2004. Imagen de Wikipedia / Paul Louis.

Para terminar, vayamos al resumen de todo esto: incluso si los investigadores chinos presentan diferencias entre el cerebro de los HMML y los CML (los datos muestran diferencias, pero para rematar el desastre, las imágenes de fMRI anotadas con código de color están en blanco y negro en el PDF publicado por la revista; esto sin contar que la muestra es pequeña y que un valor p de 0,05 se considera cada vez menos estadísticamente significativo), no pueden concluir nada de ellas, por una razón.

He repetido mil veces aquí que correlación no significa causalidad. Pero aquí tenemos un caso particular de este problema especialmente interesante. Los neurocientíficos expertos en imagen hablan de la falacia de la inferencia inversa; consiste en que a partir de un estado puede observarse qué regiones del cerebro se activan, pero a partir de la activación de regiones cerebrales no puede inferirse un estado tan fácilmente; el razonamiento no funciona lo mismo hacia atrás que hacia delante. Aunque este tipo de asociaciones son frecuentes en los estudios de fMRI, los expertos advierten de que hacer inferencias inversas válidas es enormemente complicado y requiere unas ciertas condiciones adicionales, incluyendo información de contexto ajena al propio estudio; es decir, una teoría previa validada en la cual los resultados encajen.

El estudio de Yan Sun y sus colaboradores está sembrado de afirmaciones que vinculan alegremente las diferencias particulares observadas en los HMML con «comportamientos impulsivos e hiperactividad», «menor capacidad de control cognitivo», «trastornos del sueño, tristeza y fatiga», «comportamientos de riesgo» o «inclinación a emprender acciones provocadoras para resolver la hostilidad y el antagonismo». Pero lo único que los autores han hecho es un estudio de neuroimagen; ni siquiera les han preguntado a los voluntarios otra cosa que no sea el tipo de música que les gusta, ni mucho menos han realizado ninguna encuesta ni test con ellos. Así que ¿dónde está la teoría que demuestra estas conductas de los amantes del heavy metal?

Desde luego, tampoco está en las referencias que aportan. Donde sí está es en la propia fantasía de los autores: «los resultados son consistentes con nuestras predicciones». Es decir, yo me invento que los metalheads son una panda de taraos, y luego con mis pinturas del cerebro justifico por qué son una panda de taraos. Bien por Yan Sun y compañía. O mejor, \m/.

Por si quieren seguir dañándose el cerebro, aquí les dejo una propina. Esto ocurrió el mes pasado en La Riviera (Madrid), donde una horda de impulsivos trastornados emocionales con escaso control cognitivo, tristeza y tendencias provocadoras hostiles nos reunimos para dar la bienvenida a Blackie Lawless y sus W.A.S.P. en el 25º aniversario de esa joya (para tarados) llamada The Crimson Idol. Disculpen la penosa calidad, mi móvil es de esos que en los comentarios de Amazon suelen aparecer como «se lo regalé a mi madre».

¿Que el café muy caliente provoca cáncer? ¿Y el consomé?

¿Qué es un café muy caliente? ¿Qué es caliente? ¿Templado? ¿Es lo mismo si se pregunta a dos personas distintas? ¿Cómo sabe la gente a qué temperatura bebe el café? ¿Qué bares sirven el café con termómetro? ¿Cómo sabe la Organización Mundial de la Salud a qué temperatura bebe la gente el café o el mate? ¿Y por qué no se dice nada del té, la tila o el chocolate? ¿Y qué hay de la sopa, el consomé o la caldereta de marisco? ¿Tienen más riesgo de cáncer quienes toman los garbanzos del cocido con caldo que quienes los prefieren secos? ¿O al contrario, lo tienen peor los segundos, porque toman la sopa por separado y por tanto tragan el caldo más caliente que quienes mastican los garbanzos? ¿Y aquellos que prefieren la comida en general más caliente?

Imagen de pexels.com (dominio público).

Imagen de pexels.com (dominio público).

Si usted se ha hecho preguntas de esta índole a propósito de la noticia divulgada esta semana por todos los medios, según la cual la Organización Mundial de la Salud (OMS) dice que el café y el mate caliente pueden aumentar el riesgo de cáncer, no por el café o el mate, sino por su temperatura… Enhorabuena: no se preocupe, no es usted más duro de mollera que la media; todo lo contrario, ha demostrado una postura crítica inusual y un juicio muy saludable, además de haber hecho, aunque sea mentalmente, el trabajo que muchos medios de comunicación deberían haber hecho y no han hecho.

Con ocasión de la anterior aparición en los medios de la Agencia Internacional de Investigación sobre el Cáncer (IARC) de la OMS, a propósito de las salchichas y la carne roja (y de la que ya hablé aquí y aquí), ya les alerté en esta sintonía de que este año el mismo organismo tenía en su agenda una reunión para valorar el riesgo cancerígeno del café, el mate y otras bebidas calientes. Y que de ella saldría algún otro titular jugoso, como así ha sido.

Vaya por delante que mi postura respecto a la OMS trata de ser ecuánime, a veces incluso en contra de la corriente: la he defendido cuando pocos lo hacían (gripe A, ébola…), pero también la he vapuleado cuando he considerado que lo merecían (zika, salchichas…). En cuanto a los expertos de la IARC, merecen todo el respeto y hacen muy bien aquello para lo cual han sido designados: mirar del derecho y del revés un batiburrillo de estudios, muchos de ellos dudosos o inconcluyentes, con la obligación de emitir un veredicto de culpabilidad o inocencia que a menudo no puede extraerse de los datos ni metiéndolos en una prensa de las del aceite de oliva virgen extra.

Tanto en esta ocasión como en anteriores, mis críticas no han sido hacia la IARC, sino a la política de comunicación de la OMS y al tratamiento de ciertos medios, a veces acrítico, a veces rayando en el sensacionalismo. Aunque, si piensan que es petulante por mi parte poner en duda este u otros veredictos (están en su derecho), hay algo que sí debo aclarar: el comité de la IARC no es el claustro de profesores de Hogwarts. Aquí no hay magia, sino una simple evaluación de una serie de estudios que están perfectamente disponibles e identificados, y que cualquier persona con la formación necesaria puede valorar.

Pero si les interesa mi valoración de todo este asunto del café y el mate templados, calientes o muy calientes, la resumo gráficamente: ¯\_(ツ)_/¯

Por no extenderme, no voy a entrar en el hecho de que en 1991 el café fuera “posiblemente cancerígeno” y el mate “probablemente cancerígeno” y que, con el cambio de siglo, ambos hayan dejado de serlo. Creo que el propio hecho habla por sí mismo. Me remito a lo ya explicado sobre la carne y el cáncer. O mejor, a mi reciente artículo sobre el monólogo del humorista John Oliver, que lo explica con mucha más gracia. Y para añadir algo más de alpiste mental sobre lo que causa o previene el cáncer, les dejo este gráfico.

¿Todo causa y previene el cáncer? Imagen de Schoenfeld y Ioannidis, American Journal of Clinical Nutrition.

¿Todo causa y previene el cáncer? Imagen de Schoenfeld y Ioannidis, American Journal of Clinical Nutrition.

Pero el asunto de la temperatura sí merece un comentario. Respondiendo a sus dudas, les voy a contar de dónde se saca la IARC que “tomar bebidas muy calientes a más de 65 ºC ha sido clasificado como probablemente carcinogénico para humanos”, como dice el artículo en la revista The Lancet Oncology que resume las conclusiones de la IARC (la monografía completa, que hará el número 116, aún no está disponible, pero sí las referencias a los estudios valorados por los expertos).

En primer lugar, hay estudios epidemiológicos, de esos que he tratado aquí con profusión (la última vez, a propósito del monólogo de Oliver), que tratan de encontrar una correlación sin demostrar ninguna causalidad, y de los que uno puede extraer casi siempre una o otra conclusión estadísticamente significativa, sin importar que el efecto sea minúsculo e irrelevante. Como ilustración de esto sirve también el gráfico que he mostrado más arriba, y de lo cual sale una idea extendida en la calle: todo produce y previene el cáncer… al mismo tiempo.

Vayamos a los estudios citados por los expertos del IARC y que relacionan bebida muy caliente con cáncer de esófago. ¿De cuántos estudios estamos hablando? ¿Decenas? Nada de eso. Hacen un total de… tres. El primero de ellos, del año 2000, es un estudio catalán que compendiaba un total de 830 casos y 1.779 controles en Suramérica; cifras demasiado diminutas para sostener por sí solas una conclusión epidemiológica cuando se trata de cáncer. Más aún cuando su primera conclusión, que el consumo de mate –sin importar la temperatura– se correlaciona con el riesgo de cáncer, es precisamente la que ha sido ahora negada por la IARC. Más aún, sobre todo, cuando el riesgo asociado a la temperatura aparece para el mate, el té y el café con leche, pero no para el café solo (resultados como este suelen ser los que a uno le alertan de que algo no está funcionando del todo bien).

El segundo estudio, de 2013 y también con la participación de los investigadores catalanes en un equipo más amplio, es muy similar, pero centrado exclusivamente en el mate. También en este caso, con 1.400 casos y 3.229 controles, los investigadores encuentran una correlación entre consumo de mate y cáncer, que se refuerza cuando la bebida se consume más caliente. Pero una vez más, la conclusión fundamental es la que no ha convencido a la IARC; basándose en tan escasos datos y tan poco concluyentes, la agencia de la OMS dicta que «las pruebas de la carcinogenicidad del consumo de mate no muy caliente son inadecuadas». En cuanto al efecto de la temperatura, se considera que las pruebas son «limitadas». Pero insisto, si desaparece la sinergia o efecto multiplicador, como lo denominan los investigadores, entre factor 1 (mate) y factor 2 (temperatura), porque la conclusión sobre el factor 1 no es convincente, se acabó la sinergia; por tanto, se cae la lógica del resto de las conclusiones.

El tercer estudio es un caso aparte. Al parecer en la provincia de Golestán, al norte de Irán, existe una tasa especialmente elevada de cáncer de esófago. Así que un grupo de investigadores de la Universidad de Teherán decidió evaluar la posible influencia del té, que al parecer allí se toma a temperatura volcánica. Hay que reconocerles el esfuerzo de un estudio amplio y riguroso. El número de casos es pequeño, 300 y 571 controles, pero en este caso el universo de la muestra tampoco es muy amplio. Además, reclutaron a una cohorte de más de 48.000 voluntarios sanos para estudiar los patrones de consumo de té. De todo ello acababan concluyendo que la alta temperatura del té se asocia con un mayor riesgo de cáncer.

Pero claro, las respuestas no tardaron en llegar, en forma de cartas a la misma revista, British Medical Journal. Y sus títulos hablan por sí solos: «Té y cáncer. ¿Y qué hay de la masticación de opio?«. O «Té y cáncer. ¿Por qué el norte de Irán?» (evidentemente, el Golestán no es la única región del mundo donde se toman bebidas muy calientes). Yo añadiría: Té y cáncer. ¿Qué hay de los genes? Lo de Golestán huele a algún factor genético; algo me dice que el aporte de genes frescos en una remota provincia del norte de Irán debe de ser más bien escaso.

Por último, nos queda hablar de los estudios experimentales, los de laboratorio, los que realmente demuestran una relación directa de causa y efecto, y sin los cuales todo lo demás no deja de ser una apuesta más o menos cabal. La IARC cita solo dos estudios, el segundo muy reciente, publicado en abril de 2016. Y veamos qué es lo que dice: investigadores brasileños alimentaron a unos ratones con agua a 70 ºC y nitrosaminas, compuestos con reconocida actividad cancerígena. La conclusión fue que el agua caliente potencia el efecto cancerígeno de las nitrosaminas. Muy bien. ¿Y el agua caliente sola? En este caso… no, no había cáncer. Lo único que ocurría, en palabras de los investigadores, era que el agua caliente «inducía inicialmente una necrosis esofágica que cicatrizaba y se hacía resistente a la necrosis después de sucesivas administraciones».

Creo que ya está todo dicho. Juzguen ustedes.

Este es el mejor monólogo sobre ciencia jamás escrito

Les aseguro que no les traería aquí un vídeo de 20 minutos y 46 segundos, en inglés y sin subtítulos en castellano, si no fuera porque es el comentario sobre el funcionamiento de la ciencia –y su comunicación– más atinado e informado, además de divertido, que jamás he visto en un medio televisivo (medio al que, todo hay que decirlo, no soy muy adepto). Si dominan el idioma, les recomiendo muy vivamente que lo sigan de cabo a rabo (el final es apoteósico). Y si no es así, a continuación les resumiré los fragmentos más sabrosos. El vídeo, al pie del artículo.

John Oliver. Imagen de YouTube.

John Oliver. Imagen de YouTube.

Su protagonista es John Oliver, humorista británico que presenta el programa Last Week Tonight with John Oliver en la HBO estadounidense. Oliver despliega un humor repleto de inteligencia e ironía, de ese que no suele abundar por aquí. Hace algo más de un año traje aquí una deliciosa entrevista de Oliver con el físico Stephen Hawking.

En esta ocasión, Oliver se ocupa de la ciencia, bajo una clara pregunta: ¿Es la ciencia una gilipollez? Naturalmente, el presentador no trata de ridiculizar la ciencia, sino todo lo contrario, criticar a quienes dan de ella una imagen ridícula a través de la mala ciencia y el mal periodismo.

Para ilustrar cuál es el quid, comienza mostrando algunos fragmentos de informativos de televisión en los que se anuncian noticias presuntamente científicas como estas: el azúcar podría acelerar el crecimiento del cáncer, picar algo a altas horas de la noche daña el cerebro, la pizza es la comida más adictiva, abrazar a los perros es malo para ellos, o beber una copa de vino equivale a una hora de gimnasio.

Sí, ya lo han adivinado: la cosa va de correlación versus causalidad, un asunto tratado infinidad de veces en este blog; la última de ellas, si no me falla la memoria, esta. Les recuerdo que se trata de todos aquellos estudios epidemiológicos del tipo «hacer/comer x causa/previene y». Estudios que se hacen en dos tardes cruzando datos en un ordenador hasta que se obtiene lo que se conoce como una «correlación estadísticamente significativa», aunque no tenga sentido alguno, aunque no exista ningún vínculo plausible, no digamos ya una demostración de causalidad. Pero que en cambio, dan un buen titular.

Naturalmente, a menudo esos titulares engañosos se contradicen unos a otros. Oliver saca a la palestra varias aseveraciones sobre lo bueno y lo malo que es el café al mismo tiempo, para concluir: «El café hoy es como Dios en el Antiguo Testamento: podía salvarte o matarte, dependiendo de cuánto creyeras en sus poderes mágicos». Y añade: «La ciencia no es una gilipollez, pero hay un montón de gilipolleces disfrazadas de ciencia».

Pero el humor de Oliver esconde un análisis básico, aunque claro y certero, sobre las causas de todo esto. Primero, no toda la ciencia es de la misma calidad, y esto es algo que los periodistas deberían tener el suficiente criterio para juzgar, en lugar de dar el ridículo marchamo de «lo dice la Ciencia» (con C mayúscula) a todo lo que sale por el tubo, sea lo que sea. Segundo, la carrera científica hoy está minada por el virus del «publish or perish«, la necesidad de publicar a toda costa para conseguir proyectos, becas y contratos. No son solo los científicos quienes sienten la presión de conseguir un buen titular; los periodistas también se dejan seducir por este cebo. Para unos y otros, la presión es una razón de la mala praxis, pero nunca una disculpa.

El vídeo demuestra que Oliver está bien informado y asesorado, porque explica perfectamente cómo se producen estos estudios fraudulentos: manipulando los datos de forma más o menos sutil o descarada para obtener un valor p (ya hablé de este parámetro aquí y aquí) menor del estándar normalmente requerido para que el resultado pueda considerarse «estadísticamente significativo»; «aunque no tenga ningún sentido», añade el humorista. Como ejemplos, cita algunas de estas correlaciones deliberadamente absurdas, pero auténticas, publicadas en la web FiveThirtyEight: comer repollo con tener el ombligo hacia dentro. Aquí he citado anteriormente alguna del mismo tipo, e incluso las he fabricado yo mismo.

Otro problema, subraya Oliver, es que no se hacen estudios para comprobar los resultados de otros. Los estudios de replicación no interesan, no se financian. «No hay premio Nobel de comprobación de datos», bromea el presentador. Y de hecho, la reproducibilidad de los experimentos es una de las grandes preocupaciones hoy en el mundo de la publicación científica.

Oliver arremete también contra otro vicio del proceso, ya en el lado periodístico de la frontera. ¿Cuántas veces habremos leído una nota de prensa por el atractivo de su titular, para después descubrir que el contenido del estudio no justificaba ni mucho menos lo anunciado? Oliver cita un ejemplo de este mismo año: un estudio no encontraba ninguna diferencia entre el consumo de chocolate alto y bajo en flavonol en el riesgo de preeclampsia o hipertensión en las mujeres embarazadas. Pero la sociedad científica que auspiciaba el estudio tituló su nota de prensa: «Los beneficios del chocolate durante el embarazo». Y un canal de televisión picó, contando que comer chocolate durante el embarazo es beneficioso para el bebé, sobre todo en las mujeres con riesgo de preeclampsia o hipertensión. «¡Excepto que eso no es lo que dice el estudio!», exclama el humorista.

Otro titular descacharrante apareció nada menos que en la revista Time: «Los científicos dicen que oler pedos podría prevenir el cáncer». Oliver aclara cuál era la conclusión real del estudio en cuestión, que por supuesto jamás mencionaba los pedos ni el cáncer, sino que apuntaba a ciertos compuestos de sulfuro como herramientas farmacológicas para estudiar las disfunciones mitocondriales. Según el humorista, en este caso la historia fue después corregida, pero los investigadores aún reciben periódicamente llamadas de algunos medios para preguntarles sobre los pedos.

Claro que no hace falta marcharnos tan lejos para encontrar este tipo de titulares descaradamente mentirosos. Hace un par de meses conté aquí una aberración titulada «La inteligencia se hereda de la madre», cuando el título correcto habría sido «Las discapacidades mentales están más frecuentemente ligadas al cromosoma X». No me he molestado en comprobar si la historia original se ha corregido; como es obvio, el medio en cuestión no era la revista Time.

Y por cierto, esta semana he sabido de otro caso gracias a mi vecina de blog Madre Reciente: «Las mujeres que van a misa tienen mejor salud», decía un titular en La Razón. Para no desviarme de lo que he venido a contar hoy, no voy a entrar en detalle en el estudio en cuestión. Solo un par de apuntes: para empezar, las mujeres del estudio eran casi exclusivamente enfermeras blancas cristianas estadounidenses, así que la primera enmienda al titular sería esta: «Las enfermeras blancas cristianas estadounidenses que van a misa tienen mejor salud». Y a ver cómo se vende este titular.

Pero curiosamente, la población del estudio no presenta grandes diferencias en sus factores de salud registrados, excepto en dos: alcohol y tabaco. Cuanto más van a misa, menos fuman y beben. Por ejemplo, fuma un 20% de las que no van nunca, 14% de las que acuden menos de una vez a la semana, 10% de las enfermeras de misa semanal, y solo el 5% de las que repiten durante la semana. Así que, ¿qué tal «Las enfermeras blancas cristianas estadounidenses que menos fuman y beben tienen mejor salud»?. Para esta correlación sí habría un vínculo causal creíble.

Claro que tampoco vayan a pensar que hablamos de conseguir la inmortalidad: según el estudio, las que fuman y beben menos/van a misa más de una vez por semana viven 0,43 años más; es decir, unos cinco meses. Así que el resultado final es: «El tabaco y el alcohol podrían robar unos cinco meses de vida a las enfermeras blancas cristianas estadounidenses». Impresionante documento, ¿no?

Pero regresando a Oliver, el presentador continúa citando más ejemplos de estudios y titulares tan llamativos como sesgados: muestras pequeñas, resultados en ratones que se cuentan como si directamente pudieran extrapolarse a humanos, trabajos financiados por compañías interesadas en promocionar sus productos… El habitual campo minado de la comunicación de la ciencia, sobre el cual hay que pisar de puntillas.

Oliver concluye ilustrando la enorme confusión que crea todo este ruido en la opinión pública: el resultado son las frases que se escuchan en la calle, como «vale, si ya sabemos que todo da cáncer», o «pues antes decían lo contrario». El humorista enseña un fragmento de un magazine televisivo en el que un tertuliano osa manifestar: «Creo que la manera de vivir tu vida es: encuentras el estudio que te suena mejor, y te ciñes a eso». Oliver replica exaltado: «¡No, no, no, no, no! En ciencia no te limitas a escoger a dedo las partes que justifican lo que de todos modos vas a hacer. ¡Eso es la religión!». El monólogo da paso a un genial sketch parodiando las charlas TED. Les dejo con John Oliver. Y de verdad, no se lo pierdan.

¿Las series de televisión provocan suicidios?

Para los investigadores Luca Perri y Om Sharan Salafia, del Instituto Nacional de Astrofísica de Italia, algo no cuadraba. Si, como se nos dice, el Trastorno Afectivo Estacional (TAE) causa unos mayores niveles de depresión en invierno, ¿por qué en cambio las cifras de intentos de suicidio en 28 países alcanzan su máximo anual en primavera en ambos hemisferios? Como astrofísicos, Perri y Salafia conocen bien la dinámica de los ciclos solares estacionales.

Se supone que abandonar los cuarteles de invierno, salir a la calle entre parterres floridos, solazarnos en las terrazas ante empañadas jarras de cerveza, vestir ropa más reveladora (y verla vestir a otros/as), todo ello debería auparnos el ánimo. Ya se sabe: la primavera, la sangre altera. ¿Por qué entonces hay más gente que en esta estación decide colocarse en el extremo equivocado de una soga o de cualquier otro artefacto mortal?

Ni cortos ni perezosos, Perri y Salafia construyeron una hipótesis: no es el sol… ¿Qué tal las series de televisión? Citando palabras del estudio:

La Depresión Post-Serie, también conocida como DPS, es la tristeza que se siente después de ver una serie larga. El sentimiento amargo cuando sabes que el viaje ha llegado a su fin, pero no quieres que termine. Esto se puede aplicar a cualquier serie, por ejemplo series de televisión, series de dibujos animados, o incluso series de cine.

Los efectos incluyen, pero no solo: un estado de depresión o tristeza, la incapacidad para comenzar otra historia, la necesidad de volver a ver la serie completa, el abuso de internet ligado a la serie, la creación de fanfiction.

Para poner a prueba su hipótesis, los dos investigadores eligieron una de las series actuales más longevas, populares y emitidas en todo el mundo, Anatomía de Grey, como ejemplo de «fenómeno universal y homogéneo». A continuación analizaron el patrón de emisión medio de las 12 temporadas ya producidas: una temporada suele comenzar en torno a la semana 38 del año, más o menos coincidiendo con el equinoccio de otoño en el hemisferio norte, hasta el descanso de invierno de la semana 49, con una reanudación hacia la segunda semana del nuevo año que se prolonga hasta el final de temporada en la semana 21.

Imagen de ABC.

Imagen de ABC.

Así, los científicos esperaban encontrar un aumento de la tasa de suicidios entre las semanas 21 y 38, junto con un repunte hacia final de año. Pero al solapar el ciclo anual de Anatomía de Grey con el gráfico de las tasas de suicidios, surgió la gran sorpresa: los mayores aumentos en las cifras de suicidios se producen durante la emisión de la temporada, descendiendo una vez que la serie ha finalizado. El mínimo anual coincide con el momento en que comienza una nueva temporada, y a partir de entonces los intentos de suicidio empiezan a remontar, deteniéndose brevemente en la pausa de fin de año para luego trepar en una frenética escalada hasta el gran final. Escriben Perri y Salafia:

Tendencia del número de intentos de suicidio a lo largo del año. Las franjas rojas representan los períodos medios de emisión de las temporadas de 'Anatomía de Grey'. Imagen de Perri y Salafia.

Tendencia del número de intentos de suicidio a lo largo del año. Las franjas rojas representan los períodos medios de emisión de las temporadas de ‘Anatomía de Grey’. Imagen de Perri y Salafia.

Por tanto, sugerimos que es la propia serie, con sus tormentosas aventuras amorosas y tensas relaciones, la que aumenta la depresión del espectador. Por el contrario, el final de la temporada es un momento de liberación para los espectadores, cuyos intentos de suicidio descienden drásticamente.

Pero por supuesto, todo ello no es sino una gran broma; ya les advertí ayer de que iba a comentar un nuevo y precioso caso de correlaciones espurias. Tras detallar sus conclusiones, Perri y Salafia desvelan el propósito real de su estudio, disponible en la web de prepublicaciones arXiv.org: poner de manifiesto las correlaciones epidemiológicas que con tanta frecuencia se publican en la literatura médica sin justificar ningún vínculo real entre presunta causa y supuesto efecto. Una preocupación que también lo es de este blog, como ya sabrán si se han pasado alguna otra vez por aquí. Los investigadores aclaran:

Este estudio, junto con otros (por ejemplo, el que encontró una correlación entre el número de personas ahogadas tras caer a una piscina y las apariciones cinematográficas de Nicolas Cage), podría ser una advertencia a los científicos de que sean cautos con las correlaciones espurias. Una correlación espuria surge, por ejemplo, cuando se comparan mediciones que dependen de la misma variable. En este caso, la correlación es simplemente la consecuencia de la dependencia común de las mediciones en esa variable, y no de una correlación real entre las mediciones.

Un ejemplo de esto último ya fue comentado en este blog, a propósito de un estudio que pretendía correlacionar el consumo de Viagra con el riesgo de melanoma. Los propios autores de aquel trabajo reconocían que los principales consumidores de Viagra eran hombres con un mayor nivel económico, «que probablemente pueden costearse más vacaciones al sol» y que «tienden a tomar más el sol», y que además «buscan atención médica más a menudo para los lunares de la piel, lo que lleva a un mayor riesgo de diagnóstico de melanoma». Es decir, que lo que aumenta el riesgo de melanoma, como está ya bien establecido, no es la Viagra, sino tomar el sol.

En el caso del estudio de Perri y Salafia, la trampa que los investigadores tienden con fines de pedagogía científica es que sí existe una ligera estacionalidad de las tasas de suicidios, y coincide casualmente con los ciclos de las series. Ligera porque, si se fijan, el gráfico no refleja cifras absolutas, sino cambio en la tendencia, que a lo largo del año oscila solo entre 0,9 y 1,2; si se representaran las cifras absolutas en la muestra de 28 países, el aspecto de los picos y valles sería mucho menos espectacular. Esta manipulación de los datos, maliciosamente consciente en el caso de Perri y Salafia, es algo también frecuente en los estudios de correlaciones motivadas por intereses, como también expliqué aquí.