Associação nem sempre é causal

Quando cientistas analisam dados, eles utilizam uma ferramenta chamada estatística. Ela é muito útil para extrair informações úteis e para fazer inferência. Isto é, afirmar alguma coisa e fazer associações de causa e efeito. Porém, nem toda associação é causal.

Já discutimos aqui como o método científico funciona. Quando iniciamos um estudo, criamos uma hipótese. A chamada “hipótese nula” ou H0, diz sempre que não há diferença ou associação entre os eventos estudados. Enquanto a hipótese alternativa, aquela que diz que sim: há diferença entre os grupos e há uma associação causal entre os eventos. É aquela que queremos que seja verdadeira.

Nesse momento, podem surgir dois tipos de erros: o erro tipo I e o erro tipo II.

O erro tipo I

O erro tipo 1, ou alfa, ocorre quando rejeitamos a hipótese nula (H0), mas ela era verdadeira. Em estudos clínicos, por exemplo, o erro tipo I diria que um tratamento é melhor que o placebo, quando não há diferença. Esse alfa é definido arbitrariamente pelo pesquisador. Trata-se daquele número cabalístico que você vê como p-valor < 0,05. Isso significa que o estudo tem 5% de chance de estar errado quando assume que existe diferença entre os tratamentos. Pode-se ser mais restringente e aceitar um p-valor < 0,01, que significa 1% de chance de estarmos errados ao inferir uma diferença.

A probabilidade complementar do erro tipo I é dada por 1 – alfa, e traduz nossa capacidade de aceitar a hipótese nula quando ela é verdadeira. Em outras palavras, a probabilidade complementar do erro é o acerto. Não usamos muito esta probabilidade dado que, ao fim e ao cabo, deseja-se descartar a hipótese nula e nunca aceitá-la. No final, todo teste se propõe a medir diferenças.

O erro tipo II

O erro tipo II, ou beta, ocorre quando aceitamos a hipótese nula, mas ela é falsa. Ou seja, quando dizemos que não há diferença entre o tratamento e o placebo, mas ela existe. Por alguma razão como as limitações experimentais, não fomos capazes de ver uma diferença que, na verdade, era real.

A probabilidade complementar do erro tipo II é dada por 1 – beta. Esta probabilidade é o que chamamos também de poder estatístico. Ela traduz nossa capacidade de rejeitar a hipótese nula quando ela é falsa. Ou seja, ver uma diferença real entre tratamento e placebo.

Um bom estudo deve ter um alfa baixo e um poder estatístico alto. Enquanto alfa é um valor  arbitrário, o poder estatístico é mais controlado. Ele é afetado pelo tipo de desfecho medido e pelo número de pacientes incluídos no estudo, por exemplo.

Fazendo as perguntas certas

Mesmo quando aplicamos a estatística corretamente, existem limitações como descrevemos acima. No entanto, há outra questão sobre inferência científica: associações e causalidade.

Você já deve ter ouvido a expressão “os números não mentem” ou, “a estatística nunca mente.”. De fato, a estatística é uma ferramenta completamente indiferente ao mundo real. Ela responde ao que lhe é perguntado.

No romance de Douglas Adams, O Guia do Mochileiro das Galáxias, (SPOILER A VISTA) dois seres super inteligentes constroem um supercomputador capaz de calcular qualquer coisa e gerar uma resposta para qualquer pergunta. A pergunta dirigida ao supercomputador foi “qual o sentido da vida, do universo e tudo o mais?” Após 7 milhões de anos calculando, o supercomputador finalmente declara: “a resposta é 42.” A lição oferecida pelo romance do escritor britânico é simples: de nada adianta ter o melhor supercomputador se não soubermos formular as perguntas corretamente.

Estudos de associação

Em junho de 2000, o professor Robert Matthews publicou um artigo intitulado “Cegonhas trazem bebês (p = 0,008).” Nesse estudo, o professor mostrou que a população de cegonhas, uma ave extremamente comum na Europa, cresce ao longo do tempo de maneira proporcional à taxa de natalidade em 17 países da Europa. Naturalmente, Matthews não desejava sugerir que as cegonhas trazem os bebês, ainda que o nível de significância seja igual a 0,008. Isso quer dizer que você tem 0,8% de chance de estar errado quando diz que a população de cegonhas cresce junto com a taxa de natalidade na Europa. Impressionante!

Seguindo esse raciocínio, o cardiologista Franz Messerli publicou um estudo em outubro de 2012, na revista The New England Journal of Medicine, intitulado “Consumo de chocolate, função cognitiva e laureados com o Nobel.” O estudo mostra uma forte correlação entre o consumo de chocolate per capita de um país e o número de prêmios Nobel por 10 milhões de habitantes. O p-valor foi menor que 0,0001, ainda mais impressionante!

Em ambos os casos temos um dado estatístico que mostra forte correlação entre dois elementos da natureza, que sabemos não se trata de uma associação causal no mundo real. Tanto Matthews quanto Messerli não pretendiam sugerir que as associações são verdadeiras. Eles queriam alertar para o fato de que correlação não é sinônimo de causalidade. Os eventos podem correlacionar apenas acidentalmente e isso ser destituído de significado biológico. A estatística está errada? É claro que não. Errada está a pergunta inicial, a hipótese. Esses dois artigos pretendem educar nosso raciocínio para não sobrevalorizar associações ou inferir imediatamente causalidade delas.

Aplicando o raciocínio crítico

É provável que você já tenha ouvido também o argumento: alguns países como a Índia têm baixa taxa de letalidade por Covid-19 porque a população faz uso sistemático de ivermectina (por conta da alta prevalência de doenças parasitárias na região). Esta associação causal é enganosa.

Em entrevista concedida à revista Nature, o epidemiologista Jayaprakash Muliyil, consultor do governo indiano, explica que a idade média da população indiana é baixa. Isto é, o país tem uma população mais jovem. Sabemos que uma população mais idosa está em maior risco de doença mais severa. Portanto, não é uma surpresa a baixa mortalidade por Covid-19 na Índia. Além disso, Muliyil aponta que há uma séria limitação em usar mortalidade como indicador onde os registros de óbitos são incompletos. Como não há testes para todos, a maioria dos óbitos não têm a causa definida. Cerca de 66% da população indiana vive em área rural, sem acesso à testagem ou serviços de saúde. Isto significa que muitos óbitos sequer serão registrados oficialmente.

Argumentar que o uso de qualquer medicação sem evidências se correlaciona com menor mortalidade por Covid-19 é um erro de raciocínio tão esdrúxulo quanto os exemplos de cegonhas trazendo bebês ou chocolate aumentado capacidade cognitiva.

Perceba que o fato de haver estudos in vitro demonstrando algum efeito sobre a replicação viral pode não ter qualquer significado clínico. Outras drogas, como metformina, fluoxetina, e sertralina apresentam também evidências de efeitos in vitro, e sequer estão sendo discutidas para tratamento da Covid-19.

Talvez o erro não esteja na pergunta, mas seja produto de sucessivas comparações. Isso gera o que conhecemos como problema das múltiplas comparações. Podemos simplificar por este exemplo: Se você comparar muitos grupos de diferentes formas, inevitavelmente você deve encontrar alguma diferença estatisticamente significante por meio do mero acaso. É o que vemos no estudo que comparou o consumo de diferentes tipos de vegetais em diferentes países com as taxas de mortalidade por Covid-19. O estudo encontrou que o consumo de alface aumenta mortalidade, enquanto o consumo de pepino e repolho reduzem o risco de morte por Covid-19. Não é preciso mencionar o quão esdrúxula é esta associação. E, para sermos honestos, este é o menor dos problemas com esse estudo extremamente mal elaborado. Diferente dos estudos de associação que mencionamos antes, este aqui não tem o objetivo de instigar o pensamento crítico. É apenas de um estudo mal desenhado.

Há uma plataforma criada por Tyler Vigen onde você encontra eventos que se correlacionam perfeitamente, mas que não têm qualquer ligação causal no mundo real. Chamamos esses eventos de correlações espúrias. Como exemplo, vemos que o consumo per capita de margarina nos Estados Unidos da América correlaciona fortemente com o número de óbitos por cirurgias com enxerto, derivação ou anastomose. Será que o consumo de margarina está aumentando o risco? Você já entendeu que a resposta é um categórico NÃO. Esta não é uma associação causal. Trata-se de apenas um dos diversos exemplos de correlações espúrias.

Divirta-se procurando diversas correlações entre eventos completamente absurdos. O objetivo é perceber que não basta ter uma a ligação forte e estatisticamente significante entre eventos. É preciso uma explicação que faça sentido no mundo real.

REFERÊNCIAS

Matthews R. Storks Deliver Babies (p = 0.008). Teaching Statistics. 2001

Messerli FH. Chocolate Consumption, Cognitive Function, and Nobel Laureates. The New England Journal of Medicine. 2012

Pulla P. ‘The epidemic is growing very rapidly’: Indian government adviser fears coronavirus crisis will worsen. Nature. 2020

Fonseca SC, et al. Association between consumption of vegetables and COVID-19 mortality at a country level in Europe. MedRXiv. 2020

Facebook Comments
COMPARTILHAR: