A senhorita degusta cloroquina, ou como transformar bobagem em evidência

Blanche Muriel Bristol pesquisava algas na Rothamstead Exeprimental Station no Reino Unido. Ronald Fischer, um dos pais da estatística moderna, trabalhava na mesma instituição. Um dia, dentro da melhor tradição britânica, Ronald ofereceu um chá com leite lá pelas 5 da tarde. Muriel recusou, justificando que preferia o sabor de chá colocado no leite a leite colocado no chá. Ronald zombou de Muriel, dizendo que a ordem de preparação não altera o sabor do chá. Muriel respondeu que não só altera como ela sente a diferença e prefere quando chá é colocado no leite.

Para resolver a controvérsia, Ronald propôs um experimento simples: ofereceu a Muriel 8 xícaras de chá em ordem aleatória. Em 4 xícaras o leite foi adicionado antes do chá, e em 4 o leite foi adicionado depois do chá. O desafio consistia em Muriel escolher 4 das 8 xícaras e identificar o que foi colocado antes: o leite ou o chá. Muriel acertou todas. Ronald se perguntou: qual a chance de Muriel ter acertado por acaso? Aí nascia o conceito de p-valor: a probabilidade de obter num teste resultados pelo menos tão extremos quanto os resultados observados, assumindo que a hipótese nula é correta. Complicado, não?

Nesse caso, a hipótese nula é que Muriel não consegue distinguir os chás. Qual a chance de acertar pelo acaso? Para saber, precisamos contar o número de combinações de acertos possíveis. Na tabela a seguir, A significa acertou e E  significa errou. Consideramos cada possibilidade para diferentes configurações:

AcertosCombinação de situações
0EEEE1 x 1 = 1
1EEEA, EEAE, EAEE, AEEE4 x 4 = 16
2EEAA, EAEA, EAAE, AEAE, AAEE,AEEA6 x 6 = 36
3EAAA, AAEA, AEAA, AAAE4 x 4 = 16
4AAAA1 x 1 = 1
Total70

Dadas as possíveis combinações leite/chá, a chance de Muriel ter identificado corretamente as 4 xícaras ao acaso é de 1 entre as 70 possíveis. A probabilidade de obter um resultado tão extremo quanto o obtido, considerando correta a hipótese nula (Muriel não conseguir distinguir os chás) é p < 1/70 ou p < 0,014. Como nesse caso só existem 2 possibilidades (acertou, não acertou), é fácil calcular o p-valor.

Qual seria o p-valor se Muriel tivesse acertado 3 em vez de 4 vezes? É só olhar a tabela: a chance de acertar pelo menos 3 de 4 é (16+1)/70=0,24, ou seja, p < 0,24. Em pesquisas clínicas se convencionou que o valor máximo aceitável para um resultado ser estatisticamente significativo é p<0,05. Portanto, se Muriel tivesse acertado 3 das 4 tentativas, não poderíamos concluir que ela realmente conseguia distinguir os sabores. Fischer não só criou um critério de significância estatística como aprendeu que mulheres têm sempre razão quando falamos de gosto para comida.

As coisas se complicam bastante quando temos outros fatores em jogo. Em geral não é possível calcular exatamente o p-valor, mas recorremos a aproximações que precisam ser entendidas no contexto dos dados. 

Passaram quase 100 anos desde que Muriel degustou o chá. Estamos no meio da maior pandemia da história da humanidade. Muita gente sem treinamento científico está ávida por entender o que está acontecendo. Mais do que nunca, significância estatística é fundamental para interpretar dados.

Exemplo 1. 12 de janeiro de 2021. Apresentação dos resultados dos testes da vacina Coronavac pelo Instituto Butantan. É anunciado 100% de eficácia para casos graves e moderados. Ninguém presente se dá conta do p=0,4967 associado aos 100% de eficácia, apesar da nota de pé de página. Ninguém explicou que o resultado não tinha significância estatística e poderia ser devido ao pequeno tamanho do grupo. 

Figura apresentada na apresentação da Coronavac. Note o p=0,4967 associado à eficácia de 100% 


O estrago estava feito. Com a vacinação em andamento, começam a aparecer casos graves e mesmo morte de vacinados. Opositores da vacina gritam sem razão que ela não serve para nada. Ela funciona, mas os 100% anunciados obviamente não se confirmaram. Isso era esperado, dado que o valor apresentado de p~0,5 não tinha significância estatística. Esse resultado nem deveria ter sido apresentado ao público. 

Exemplo 2. Um site que se chama c19study, mantido por um grupo anônimo. Apresenta "meta-análises" sobre todo tipo de tratamento precoce para covid-19, e invariavelmente conclui que todos funcionam. Esse site é citado e invocado como evidência científica por 10 entre 10 defensores de tratamento precoce. Prefeitos e médicos sem formação científica repetem orgulhosos, citando o site, que "a chance de cloroquina não funcionar é de 3 em um quatrilhão".

Afirmação desinformativa do site hcqmeta.com. Esse número está completamente fora do razoável para uma compilação desse tipo


Só tem um problema: isso está muito errado. Como este artigo é sobre p-valor, não vou discutir como a (não) seleção dos artigos pelo site está errada. Tomarei como exemplo a inútil hidroxicloroquina. O site hcqmeta.com afirma:

  • HCQ é eficaz para COVID-19. A probabilidade de um tratamento ineficaz gerar resultados tão positivos quanto os 231 estudos até o momento é estimada em 1 em 3 quatrilhões (p = 0,0000000000000003).
O p-valor<3x10^-16 é completamente absurdo. Por exemplo, num experimento de física, com tudo controlado no laboratório, trabalhamos com p~10^-6. Como seria possível um conjunto de estudos observacionais mal desenhados resultar em  uma certeza tão grande? Isso é tão absurdo que muita gente começou a perguntar como os autores anônimos chegavam nisso. A primeira suposição foi que eles multiplicavam os p-valores. Como ninguém tem paciência para juntar tantos dados do lixo, ninguém foi conferir. Mas de repente o p-valor aumentou de 10^-18 para 10^-16 em poucos dias. Não podia ser multiplicação de números sempre menores que 1.
A tática errada usada no site é descrita em aulas, manuais e livros sobre meta-análise com o aviso claro que não pode ser usada num contexto como esse. Ela ignora o conteúdo e a qualidade de cada estudo e reduz cada estudo a uma degustação de chá. Na tática utilizada pelos anônimos, toda a informação proveniente de cada estudo é "HCQ mata o corona", ou "HCQ não mata o corona". Assim, um estudo enviesado observacional obviamente mal feito com um paciente (p~1) que mostra um suposto sucesso da HCQ passa a valer o mesmo que um estudo randomizado controlado duplo cego com 4000 pacientes e p<0,02. Isso magicamente transforma estudos ruins em bons, mascarando a má qualidade dos dados originais.
A Muriel dessas pessoas supostamente acerta 176 das 231 degustações, resultando no falso p~10^-16.
Isso está obviamente muito errado. Entra lixo, sai lixo.

Desconfiem de políticos, médicos, quem for, que cita c19study como fonte de evidência. Ou eles não entendem o que dizem ou agem de má fé. Ao contrário da Muriel.


Esse texto é dedicado a Júlia e Isadora, as duas estatísticas da minha vida.

Comentários