BLOGS
Ciencias mixtas Ciencias mixtas

Los secretos de las ciencias para
los que también son de letras

Entradas etiquetadas como ‘valor p’

Correlación no implica causalidad: el principio de Wang o “teoría estúpida”

En la genial Un cadáver a los postres (Murder by Death) de Neil Simon, esa surrealista parodia del género de detectives dirigida por Robert Moore en 1976 –sí, la de Benson Señora–, hay un momento en el que Dick Charleston (David Niven) explica la muerte del anfitrión de la velada, el millonario Lionel Twain (Truman Capote en su única aparición en el cine), proponiendo que en realidad fue un suicidio: Twain inventó una máquina para que le apuñalara 11 o 12 veces por la espalda. A lo que su colega Sidney Wang (Peter Sellers), con su torpe manejo del idioma, replica:

— Un momento, por favor. Muy interesante teoría, señor Charleston, pero olvidado punto muy importante.

¿Cuál es? –indaga Charleston.

— Estúpida. Teoría más estúpida jamás oída.

Sidney Wang (Peter Sellers) en 'Un cadáver a los postres' (1976). Imagen de Columbia Pictures.

Sidney Wang (Peter Sellers) en ‘Un cadáver a los postres’ (1976). Imagen de Columbia Pictures.

Hay ocasiones en que ciertos estudios científicos me devuelven a la mente aquel pasaje de la película. Se trata de los estudios que establecen una correlación entre una condición y una observación, pero donde no solamente no se demuestra ningún vínculo de causa y efecto entre ambas, sino que además la posible existencia de ese vínculo resulta algo contrario al sentido común y a cualquier atisbo de plausibilidad. Como que alguien fabrique una máquina destinada a apuñalarle 11 o 12 veces por la espalda para que parezca un homicidio. No es que sea imposible; es que se trata de una hipótesis tan descabellada que necesita más pruebas para cruzar el umbral de la credibilidad que otra mucho más plausible. Como decía Carl Sagan, y otros antes que él, afirmaciones extraordinarias requieren pruebas extraordinarias.

Imagino que quienes menos sentido encontrarán a estos estudios son los físicos. Para un físico, la naturaleza debe describirse mediante ecuaciones, incluso cuando hay incertidumbres (como en la cuántica). Pero no es necesario tirar dos veces una manzana al aire para comprobar si continúa cayendo: las ecuaciones describen perfectamente lo que hará la manzana.

La biología, mi campo, introduce sistemas más sucios (desde el punto de vista de las variables) que en la mayoría de los casos no pueden reducirse a matemática. En algunos sí se hacen aproximaciones válidas; por ejemplo, el impulso nervioso en las neuronas se describió aplicando las mismas ecuaciones que explican el comportamiento de la electricidad en los circuitos de cables.

Pero la biología es inmensamente diversa y abarca un espectro muy amplio de certidumbres, desde los modelos en los que bastan unas pocas repeticiones del experimento para tener la seguridad de que el resultado es legítimo, hasta aquellos en los que es necesario recurrir a meta-análisis, o estudios que reúnen múltiples estudios, porque ni siquiera un estudio completo es suficiente para asegurar que existe un efecto. Y a medida que nos desplazamos hacia la banda de ciencias aún más blandas, como la psicología, la necesidad de los metaestudios es aún mayor.

Lo que ocurre con los metaestudios es que el umbral de la credibilidad no es una propiedad de la naturaleza en sí, sino algo que definimos los humanos de forma más o menos arbitraria en función de algún parámetro estadístico. Me explico con un ejemplo: todos sabemos que el tabaco causa cáncer de pulmón. Pero ¿qué significa exactamente esto?

Dado que el humo se inhala, la relación entre el tabaco y el cáncer de pulmón parece plausible, lo que justifica su investigación. Tan plausible parecía la relación que ya se sospechaba a comienzos del siglo XX, cuando solo se habían descrito un centenar largo de casos de cáncer de pulmón en las revistas médicas. Los primeros estudios epidemiológicos se hicieron en Alemania en los años 20 y 30, lo que motivó la primera campaña antitabaco de la historia, la del régimen nazi. Desde entonces, decenas de miles de estudios de correlación y sus correspondientes metaestudios han apoyado este vínculo. Pero además, la relación de causa y efecto también ha sido validada por ensayos experimentales en los que se han explicado los mecanismos biológicos por los cuales ciertos compuestos del humo del tabaco provocan cambios en las células que conducen al cáncer.

Pues bien, incluso en un caso tan claro como este, y teniendo en cuenta que las cifras varían debido a la implicación de muchas variables (como el historial del paciente, su perfil genético, la edad de inicio del consumo de tabaco, la frecuencia, etc.), el cáncer afecta a alrededor de un 20% de las personas que fuman. Es decir, que la gran mayoría de las personas que fuman no sufren cáncer de pulmón.

Vayamos ahora al extremo contrario. Hace tres años, los medios montaron todo un circo con la afirmación de que el consumo de carne, sobre todo procesada, provoca cáncer. Como ya me ocupé detalladamente de intentar explicar muy claro para quien quisiera leerlo (aquí y aquí), así dicho, esto es sencillamente una barbaridad; si bien vino propiciada por una nota de prensa muy poco afortunada de la Organización Mundial de la Salud (OMS), la misma OMS que a continuación se quejaba de que los medios se habían quedado “solo con el titular”.

Imagen de Pixabay.

Imagen de Pixabay.

Pero es que solo en la letra pequeña de la nota de prensa –y los medios no se caracterizan precisamente por fijarse en la letra pequeña– uno de los expertos de la OMS responsables del anuncio aclaraba que “para un individuo, el riesgo de desarrollar cáncer colorrectal por su consumo de carne procesada sigue siendo pequeño”. La conclusión, el verdadero mensaje, era que el consumo de carne aumenta el riesgo de cáncer colorrectal sobre un nivel de base que es diminuto, de modo que el nivel de riesgo resultante de este aumento continúa siendo diminuto.

Pongámoslo en números para que se entienda mejor; números que publicaron varias entidades de lucha contra el cáncer y que transmitían un mensaje infinitamente más claro que la inmensamente torpe nota de prensa de la OMS: según la Sociedad contra el Cáncer de EEUU, el riesgo de una persona cualquiera de sufrir cáncer de colon es del 5%; si come carne, el riesgo aumenta a menos del 6%. Por su parte, la Unión Internacional de Control del Cáncer comparó las cifras con las del tabaco: fumar multiplica el riesgo de cáncer por 20, o lo aumenta en un 1.900%; comer carne multiplica el riesgo de cáncer por 1,18, o lo aumenta en un 18%. Creo que estas cifras dan una idea bastante clara de la magnitud del problemón que supone comer carne.

Resumiendo, para demostrar que X produce Y hacen falta dos cosas:

1. Una correlación estadística suficientemente significativa.

Insisto, el límite de lo que es significativo y lo que no lo definimos los humanos de forma arbitraria. Suelen utilizarse parámetros como el llamado valor p, del que ya he hablado aquí varias veces (como aquí y aquí). El valor p nos da una perfecta medición de cuál es el estatus probabilístico de que esa correlación signifique algo real, pero en qué punto de corte nos creemos que es real no es más que un convencionalismo; de hecho, este punto de corte es un intenso motivo de discusión entre los científicos.

También es importante aclarar que los parámetros como el valor p, o lo que consideramos estadísticamente significativo, no tienen nada que ver con el tamaño del efecto. El tabaco y la carne sirven de ejemplo: el primero tiene un efecto muy grande, mientras que el de la segunda es diminuto, y sin embargo ambos pueden tener la misma significación estadística. Basarse en esto último para decir que el riesgo de cáncer es el mismo en los dos casos es no haber entendido nada de nada.

2. Un mecanismo plausible que sea comprobable por otras vías.

Sin un mecanismo plausible de causa y efecto, una correlación no deja de ser una casualidad curiosa, como que choquen dos coches con matrículas consecutivas. O, como decía Wang, una “teoría estúpida”, como que los coches con matrículas parecidas tiendan a atraerse. Establecer correlaciones es muy fácil, teniendo una serie de datos en distintas condiciones experimentales y un software básico. Yo mismo presenté aquí correlaciones entre la evolución del número de casos de trastornos autistas y el del número de ancianas centenarias británicas, o las importaciones de petróleo en China, o la facturación de la industria turística.

Número de casos de autismo (en azul) frente a número de mujeres centenarias en Reino Unido (en rojo), de 1995 a 2010. Gráfico de elaboración propia.

Número de casos de autismo (en azul) frente a número de mujeres centenarias en Reino Unido (en rojo), de 1995 a 2010. Gráfico de elaboración propia.

Para convertir una casualidad en causalidad es preciso proponer un mecanismo plausible que pueda estudiarse por otros métodos. En el caso de la biología, se trata de llevar esa hipótesis al laboratorio; por ejemplo, ensayar in vitro e in vivo el efecto cancerígeno de los compuestos del tabaco. Pero cuando se aventura que los huracanes causan más muertes si se les pone nombre de mujer, como afirmaba un estudio hace unos años, los investigadores tendrán que buscar la manera de proponer un mecanismo y testarlo; uno que no requiera la premisa de que la población es rematadamente imbécil de solemnidad, como cuando dijeron que “la gente atribuye a los huracanes con nombre femenino ciertas cualidades asociadas a las mujeres, como la calidez, y cualidades como la agresividad a los huracanes con nombres masculinos”.

Una última cosa que no debería ser necesario aclarar, pero que parece serlo, es que un mecanismo plausible no puede sustituirse por una corazonada, una intuición o el deseo muy fuerte de que algo sea cierto. Por ejemplo, cuando se publicó lo de la carne y el cáncer hubo ciertas personas del veganismo proselitista, el que pretende imponer su credo al resto de la humanidad, que ya lo sabían, y que seleccionaron los pedacitos de información más sensacionalista publicados por los medios peor informados para defender su visión.

Lo preocupante es que estos prejuicios, ideas preconcebidas y sesgos cognitivos no solo afectan al público no científico, sino también a los propios investigadores cuando emprenden un estudio tratando por todos los medios de demostrar lo que previamente ya saben. En ciertos casos ocurre que los estudios nacen ya contaminados por prejuicios éticos, culturales, sociales o de otro tipo, todo eso que los investigadores deberían dejar en la puerta junto con el paraguas antes de entrar en el laboratorio. Un ejemplo que he comentado aquí varias veces son los estudios que han tratado de probar los efectos negativos que produce escuchar música heavy metal, y en el que han llegado a darse casos de estudios que lo afirmaban incluso cuando sus datos no apoyaban tal afirmación.

Mientras no haya un mecanismo plausible, debe aplicarse el principio de Wang: “teoría estúpida”. Mañana les contaré otro ejemplo muy sabroso de ello.

Ojo con la videncia genética (y con la privacidad genética)

Hace diez años, la compañía californiana 23andMe inauguró el mercado de la genómica personal con una oferta de análisis de variantes genéticas (técnicamente llamadas SNP, o snips) que permitía a sus clientes conocer su propensión a un cierto número de fenotipos, léase rasgos, ya sea la calvicie o la miopía.

Imagen de Pixabay / Dominio público.

Imagen de Pixabay / Dominio público.

23andMe obtuvo un enorme éxito, no solo por ser la primera que ofrecía este servicio al consumidor general, sino por su imagen hip: gracias a los contactos de su cofundadora, la bióloga Anne Wojcicki, por entonces casada con el cofundador de Google Sergey Brin, en Hollywood se organizaban spit parties en las que la gente guapa escupía en un tubo para hacerse analizar su perfil por 23andMe.

Pero entonces vino la FDA con las rebajas. En 2013 la agencia reguladora de fármacos de EEUU ordenó a 23andMe que suspendiera el servicio, ya que las informaciones facilitadas a los clientes en materia de salud no contaban con ningún tipo de validación clínica legal, motivo por el cual a la FDA le preocupaban “las consecuencias para la salud pública de resultados imprecisos”. Actualmente 23andMe solo ofrece perfiles genéticos con resultados genealógicos. El año pasado anunció que próximamente reanudará su servicio de salud, aunque mucho más recortado que antes, pero esta vez con la aprobación de la FDA.

La preocupación de la FDA no era solo el cumplimiento de un trámite burocrático. Lo cierto es que hoy se conocen las secuencias de nuestros genes, pero no tanto sus funciones: completar el Genoma Humano fue como adquirir una inmensa enciclopedia en un idioma que aún estamos aprendiendo a descifrar. Tenemos el texto, pero no sabemos qué significa.

La literatura médica está desbordada con estudios que correlacionan variantes génicas con fenotipos, pero sin ninguna prueba real más allá de una correlación estadística. Y ya he explicado aquí unas cuantas veces que correlación no significa causalidad (mañana contaré un nuevo y precioso ejemplo de correlaciones espurias). De hecho, recientemente la Asociación Estadística de EEUU (ASA) ha publicado una declaración que invita a abandonar el uso del valor p, en el que se basa la práctica totalidad de los estudios epidemiológicos que dicen encontrar una correlación “estadísticamente significativa”; esos del estilo: “comer X aumenta (o reduce) el riesgo de padecer Y”.

La ASA advierte de que el significado del valor p suele malinterpretarse: en pocas palabras, y citando la declaración, “los valores p no miden la probabilidad de que la hipótesis estudiada sea cierta, ni la probabilidad de que los datos sean producto solamente del azar”. Y añaden algo que debería resultar plenamente obvio, no para el público, pero sí para cualquier criatura relacionada con el mundo de la ciencia: “Un valor p, o significación estadística, no mide el tamaño de un efecto ni la importancia de un resultado”.

Por ilustrarlo con un ejemplo simplón: sabemos que un tiro en la cabeza suele matar. Pero si consideramos solo unos pocos casos, no alcanzaremos un valor p del que podamos concluir que esta relación entre disparo y muerte es estadísticamente significativa. Por el contrario, si analizamos una enorme población de casos de muertes y rebuscamos un poco, con toda seguridad podremos encontrar algún factor que esté desigualmente distribuido en esta población; por ejemplo, más muertos con el pelo rizado. Y aunque la diferencia sea muy escasa, con una muestra grande podremos elegir condiciones en las que el valor p sea “estadísticamente significativo”, lo que daría un bonito titular: el pelo rizado mata. Y lo crean o no, así funcionan muchos de los casos de estudios que llegan a la prensa, como he contado aquí en varias ocasiones.

Hace unos días, he sabido por mi compañera de patio bloguero Madre Reciente que una aseguradora española ofrece un servicio de perfil genético con el que dicen orientar a los padres sobre cosas como si su hijo/a será un buen atleta, tendrá buena memoria, será propenso/a a aprender de sus errores o mostrará tendencia al riesgo.

Elijamos un ejemplo, el llamado “gen de la velocidad”. El propio codescubridor de este presunto vínculo del gen ACTN3 en el que se basa la proclama ya dejó claro que ACTN3 explica solo el 2-3% de la variación en la función muscular en la población general”. Y que “ACTN3 no te dice si tu hijo será o no un súper-atleta”. Más claro imposible, y directamente de la fuente.

Sigamos con otro: la presunta propensión al riesgo, basada en el gen TPH2. La proclama se basa en estudios en los que se dice haber detectado una correlación (correlación, no causalidad) entre formas de los genes TPH y conductas suicidas. Pero un meta-análisis (estudio de estudios) publicado en 2014 concluía: “Con respecto a las variantes del gen TPH2, no hemos podido encontrar una asociación con conductas suicidas”. Otra vez, más claro imposible.

En resumen, todo lo explicado arriba se resume en esto: de los genes se puede predecir fácilmente una intolerancia a la lactosa, o la composición de la cera de los oídos. En cuanto a los rasgos complejos no mendelianos, que además están en gran medida (pero no sabemos ni sabremos nunca cuánta) influidos por otros factores ambientales y epigenéticos, cualquier pretensión de predicción es pura videncia genética. Lo cual no sería tan grave si no fuera porque servicios como el ofrecido por esta aseguradora pueden desembocar en grandes catástrofes, en caso de que los padres decidan orientar la educación de sus hijos en función de los resultados.

Pero hay algo más. En EEUU, país donde los tests de perfiles genéticos para el consumidor se han popularizado y comentado vivamente en los medios, existe también un debate sobre la privacidad de los datos genéticos. Uno de los casos que más preocupan es el hecho de que las aseguradoras médicas puedan hacerse con datos genéticos de sus clientes y aplicar criterios discriminatorios; por ejemplo, pólizas más caras para aquellos que posean ciertas variantes genéticas presuntamente relacionadas con el riesgo de padecer alguna enfermedad.

Y como ya he dicho, quien ofrece el test genético que he mencionado es precisamente una compañía de seguros de salud. Poner los datos genéticos de nuestros hijos en poder de la aseguradora es tan sensato como pinchar un cartel en la puerta de nuestra casa diciendo que nos hemos marchado de vacaciones y no volveremos en un mes.

Para que se hagan una idea sobre la importancia de mantener la privacidad de sus datos genéticos, en caso de que algún día lleguen a disponer de ellos, nada mejor que recordar las palabras de uno de los miembros del consejo de administración de 23andMe: “El juego a largo plazo no es hacer dinero vendiendo kits […] Una vez que tienes los datos, la compañía se convierte de hecho en el Google de la salud personalizada”.

(PD: Por cierto, y a propósito de los consentimientos escritos y políticas de privacidad, creo que el ejemplo de Google es suficientemente revelador, para cualquiera que haya seguido la saga de esta compañía y sus escarceos con las fronteras de la legalidad sobre el uso de datos personales, tanto en EEUU como en Europa. Las políticas de privacidad no se graban en granito, y que levanten la mano quienes lean de cabo a rabo esos emails de las compañías titulados “hemos cambiado nuestra política de privacidad”. Si quieren un ejemplo, aquí tienen los 20 folios de los términos del servicio de 23andMe).

Ni el chocolate adelgaza, ni mirar tetas alarga la vida: mala ciencia y mal periodismo

Desde hace tiempo, infinidad de medios han publicado la noticia de un presunto estudio según el cual la contemplación diaria de los pechos femeninos alargaría la vida de los hombres (he dicho la vida) en unos cinco años. El supuesto trabajo venía firmado por la doctora Karen Weatherby de Fráncfort y fue publicado en The New England Journal of Medicine, una de las revistas médicas más poderosas del mundo.

¿El secreto de una vida larga y sana? Imagen de PhotoPin / CC.

¿El secreto de una vida larga y sana? Imagen de PhotoPin / CC.

Naturalmente, ni la doctora Weatherby ni su estudio existieron jamás; se trata solo de una broma que comenzó a circular por internet hace más de una década y cuyo origen se remonta a ese entrañable tabloide de supermercado de EE. UU., el Weekly World News, que publicó la misma noticia sucesivamente en 1997 y en 2000 –de hecho, casi la misma página completa, con el faldón sobre el iraní condenado a latigazos por poseer visión de rayos X–.

Pero por increíble que parezca, la noticia no solo se coló en numerosos medios respetables de todo el mundo, sino que a pesar de haber transcurrido 15 años desde que se aireó por primera vez y de haberse reiterado una y otra vez su falsedad, aún resurge periódicamente, y todavía sigue publicada en las webs de algunos medios. Con solo una búsqueda ligera, he comprobado que El Diario Vasco, del grupo Vocento, mantiene la noticia en su web desde 2007, lo mismo que el suplemento Campus del diario El Mundo desde 2008. El asturiano El Comercio (Vocento) la publicó en julio de 2014, y el Ideal de Granada (también Vocento) en ¡enero de 2015! Tal vez lo mejor, el titular en el Times of India, nada menos que en febrero de este mismo año: ¡Contemplar domingas (boobs) para vivir más! A fecha de hoy, la falsa investigación de la falsa Weatherby permanece mencionada sin rectificación en artículos de distintos medios, como la revista Quo, la web de Antena 3 y, ay, en una lista de esta casa.

Pero lo más pasmoso es que ¡en marzo de 2015! los diarios Hoy de Extremadura y El Norte de Castilla –¿adivinan de qué grupo?– han vuelto a publicar la noticia con la siguiente (e inaudita) aclaración: “Este diario no ha podido contrastar ni la veracidad de este hecho ni la existencia de la doctora Karen Weatherby”. ¿En serio? Basta una búsqueda instantánea en Google para comprobar al instante lo que Hoy y El Norte de Castilla no han podido contrastar. Pero no se trata de cargar las tintas contra Vocento; el día en que el archivo de internet habilite una búsqueda por texto, podremos comprobar quién más publicó la noticia en su día sin la menor contrastación; simplemente, Vocento ha sido más lento que otros en reaccionar. Hace solo unos meses pude escuchar una mención a la noticia dándola por auténtica en la cadena de radio Onda Cero.

El episodio serviría como punto de partida para pontificar contra el nivel del periodismo científico en ciertos medios españoles, muchos de los cuales aplicaron sus recortes comenzando por hincar la tijera a sus secciones de ciencia para pasar a nutrirse exclusivamente de teletipos de agencias y de rumores rebotados y manejados por sufridos becarios a quienes les cae en suerte la tarea de enfrentarse a una materia compleja sobre la que no han recibido ninguna formación.

Pero lo cierto es que no se trata solo de un problema nuestro. Ayer conté el montaje de John Bohannon, biólogo y periodista de Science, destinado a destapar el negocio de las falsas revistas de ciencia. Más recientemente, Bohannon ha protagonizado otro escándalo al demostrar cómo un titular llamativo referente a un estudio sin verdadero soporte científico puede abrirse hueco en medios de todo el mundo, especialmente en lo que el propio periodista denomina “complejo investigación-medios sobre dietas”.

En esta ocasión la idea no partió del propio Bohannon, sino de los reporteros de televisión alemanes Peter Onneken y Diana Löbl. Los dos periodistas acariciaban el proyecto de realizar un documental sobre la seudociencia en la industria dietética y llamaron a Bohannon para que les ayudara a llevarlo a cabo, a raíz del trabajo del estadounidense relativo a las revistas depredadoras. El grupo reclutó después a un médico, Gunter Frank, que había escrito un libro sobre el tema y que sugirió la idea del chocolate; según Frank, es “un favorito de los fanáticos de los alimentos integrales”. “El chocolate amargo sabe mal, así que debe de ser bueno para ti. Es como una religión”, dijo Frank, según publicó Bohannon en el artículo en el que explicaba todo el montaje.

Contando además con la ayuda del analista financiero Alex Droste-Haars para manejar los datos estadísticos, el grupo reclutó a (solo) 15 voluntarios y se dispuso a conducir un ensayo clínico real: un tercio de los participantes mantuvo durante tres semanas una dieta baja en carbohidratos, otro siguió el mismo patrón añadiendo una barra de chocolate de 42 gramos al día, y finalmente el tercero actuó como grupo de control sin cambios en su alimentación. Los sujetos fueron monitorizados en 18 parámetros, incluyendo nivel de colesterol, de sodio, peso, proteínas en sangre, calidad de sueño y bienestar general.

Y después de recopilar, tratar y analizar los datos, ahí estaba: los dos grupos con tratamiento habían perdido algo más de dos kilos a lo largo del estudio, con un adelgazamiento un 10% más rápido en los que tomaron chocolate, quienes además mostraban mejores niveles de colesterol y de bienestar. Todo ello, con diferencias “estadísticamente significativas”, siguiendo el típico mantra de los estudios al uso.

Pero si algún mantra se repite aquí, en este blog, es que “correlación no significa causalidad”. He explicado ya varias veces que, si uno trata de correlacionar dos conjuntos de datos sin ninguna relación entre ellos, se puede demostrar que las ancianas británicas tienen la culpa del crecimiento del autismo, o que los huracanes con nombre de mujer son más letales, o que las películas de Nicolas Cage son causantes de los ahogamientos en piscinas en EE. UU., o que los sagitario sufren más fracturas de húmero. Como aclara Bohannon, “si mides un gran número de cosas en un pequeño número de personas, casi tienes la garantía de conseguir un resultado estadísticamente significativo”. Con un sencillo cálculo, el autor ilustra que el estudio tenía un 60% de posibilidades de obtener algún resultado “significativo”, es decir, con un valor p menor de 0,05, un estándar muy utilizado en los ensayos epidemiológicos.

Desde hace años se viene reflexionando sobre la errónea interpretación del valor p. En 2005, un famoso trabajo hizo notar la falta de fundamento de numerosas conclusiones por una mal entendida aplicación de los conceptos estadísticos: el valor p realmente no demuestra la probabilidad de que la correlación entre dos conjuntos de datos sea aleatoria, sino la probabilidad de que la hipótesis nula, la que refuta lo que queremos demostrar, sea cierta.

Hay una gran diferencia: en el segundo caso, no se demuestra que la hipótesis alternativa sea correcta; para ello sería necesario conocer la probabilidad de que realmente exista un efecto, y esto depende de otros conceptos como la plausibilidad biológica, algo tan etéreo a veces que no puede justificarse sino sobre la base de un mecanismo experimentalmente demostrable. Algunos estadísticos han tratado de establecer una regla de uso general, estimando que con un valor p < 0,01, el riesgo de falsa alarma aún es como mínimo del 11% en el mejor de los casos, subiendo al menos al 29% con una p < 0,05. ¿Alguien jugaría a la ruleta rusa sabiendo que en el cargador de diez disparos hay como mínimo 1,1 balas, tal vez más?

Pero volviendo a la historia, Bohannon y sus colaboradores rápidamente escribieron su estudio, titulado Chocolate with high cocoa content as a weight-loss accelerator (Chocolate con alto contenido en cacao como acelerador de la pérdida de peso) y firmado por Johannes Bohannon, Diana Koch, Peter Homm y Alexander Driehaus, todos ellos del (recién creado por ellos mismos) Institute of Diet and Health de Mainz; lo enviaron a 20 revistas de las que Bohannon conoce, y en apenas 24 horas el manuscrito fue aceptado por varias de ellas. Los autores eligieron una, International Archives of Medicine, que calificó el trabajo como “sobresaliente” y se ofreció a publicarlo por 600 euros. Según Bohannon, el artículo fue publicado menos de dos semanas después de que Onneken recibiera el cargo en su tarjeta de crédito, y sin que se modificara ni una coma. El montaje aún requería un último paso, y era producir una nota de prensa espectacular y atractiva. Delgados gracias al chocolate, decía. Después, a distribuirla a los medios.

Y picaron, claro. Muchos, comenzando por el tabloide alemán Bild, el primer diario de Europa en tirada. La nota de prensa no mencionaba cuántos sujetos habían participado en el estudio, ni cuánto peso habían perdido, ni ningún otro detalle relativo al estudio, pero tampoco los periodistas interrogaron a Bohannon sobre nada de ello; lo único que interesaba era el titular. En cuanto al estudio, fue retractado por la revista que lo publicó al descubrirse el pastel. “De hecho, ese manuscrito fue finalmente rechazado y nunca se publicó como tal”, alega la web de la publicación, atribuyéndolo todo a un infortunado malentendido.

Quiero dejar claro cuál NO debe ser la conclusión a extraer de esta historia: que el chocolate NO adelgaza. Y por si la doble negación lleva a confusión, aclaro aún más: el estudio (real, pero deliberadamente malo) de Bohannon no demuestra que el chocolate adelgaza, ni lo contrario. No demuestra absolutamente nada, como tantos otros estudios (reales, pero inintencionadamente malos) que a diario se están publicando en revistas médicas y, de rebote, en los medios, atribuyendo toda clase de propiedades a toda clase de productos, hábitos o estilos de vida.

Los titulares dietéticos son un triunfo seguro: no importa que el estudio ni siquiera se base en ningún tipo de ensayo controlado; basta con reunir un grupo de voluntarios, hacerles rellenar un cuestionario sobre qué es lo que comen (o más bien, lo que dicen que comen), medirles una serie de parámetros y meter los datos en la churrera, hasta que ¡bang!, el chocolate adelgaza, con valor p < 0,01. Un estudio a gran escala en EE. UU. sobre la salud de las mujeres en función de la dieta reconocía: “La validez de los datos de estudios de observación como estos depende en gran parte de mediciones precisas de la dieta, y no es posible tener mediciones precisas”. En resumen, podrá ser ciencia, pero mala, y el periodismo que le otorga credibilidad sin hacer notar las objeciones a la validez de los resultados es mal periodismo.