Blanche Muriel Bristol pesquisava algas na Rothamstead Exeprimental Station no Reino Unido. Ronald Fischer, um dos pais da estatística moderna, trabalhava na mesma instituição. Um dia, dentro da melhor tradição britânica, Ronald ofereceu um chá com leite lá pelas 5 da tarde. Muriel recusou, justificando que preferia o sabor de chá colocado no leite a leite colocado no chá. Ronald zombou de Muriel, dizendo que a ordem de preparação não altera o sabor do chá. Muriel respondeu que não só altera como ela sente a diferença e prefere quando chá é colocado no leite.
Para resolver a controvérsia, Ronald propôs um experimento simples: ofereceu a Muriel 8 xícaras de chá em ordem aleatória. Em 4 xícaras o leite foi adicionado antes do chá, e em 4 o leite foi adicionado depois do chá. O desafio consistia em Muriel escolher 4 das 8 xícaras e identificar o que foi colocado antes: o leite ou o chá. Muriel acertou todas. Ronald se perguntou: qual a chance de Muriel ter acertado por acaso? Aí nascia o conceito de p-valor: a probabilidade de obter num teste resultados pelo menos tão extremos quanto os resultados observados, assumindo que a hipótese nula é correta. Complicado, não?
Nesse caso, a hipótese nula é que Muriel não consegue distinguir os chás. Qual a chance de acertar pelo acaso? Para saber, precisamos contar o número de combinações de acertos possíveis. Na tabela a seguir, A significa acertou e E significa errou. Consideramos cada possibilidade para diferentes configurações:
Acertos | Combinação de situações | |
---|---|---|
0 | EEEE | 1 x 1 = 1 |
1 | EEEA, EEAE, EAEE, AEEE | 4 x 4 = 16 |
2 | EEAA, EAEA, EAAE, AEAE, AAEE,AEEA | 6 x 6 = 36 |
3 | EAAA, AAEA, AEAA, AAAE | 4 x 4 = 16 |
4 | AAAA | 1 x 1 = 1 |
Total | 70 |
Dadas as possíveis combinações leite/chá, a chance de Muriel ter identificado corretamente as 4 xícaras ao acaso é de 1 entre as 70 possíveis. A probabilidade de obter um resultado tão extremo quanto o obtido, considerando correta a hipótese nula (Muriel não conseguir distinguir os chás) é p < 1/70 ou p < 0,014. Como nesse caso só existem 2 possibilidades (acertou, não acertou), é fácil calcular o p-valor.
Qual seria o p-valor se Muriel tivesse acertado 3 em vez de 4 vezes? É só olhar a tabela: a chance de acertar pelo menos 3 de 4 é (16+1)/70=0,24, ou seja, p < 0,24. Em pesquisas clínicas se convencionou que o valor máximo aceitável para um resultado ser estatisticamente significativo é p<0,05. Portanto, se Muriel tivesse acertado 3 das 4 tentativas, não poderíamos concluir que ela realmente conseguia distinguir os sabores. Fischer não só criou um critério de significância estatística como aprendeu que mulheres têm sempre razão quando falamos de gosto para comida.
As coisas se complicam bastante quando temos outros fatores em jogo. Em geral não é possível calcular exatamente o p-valor, mas recorremos a aproximações que precisam ser entendidas no contexto dos dados.
Passaram quase 100 anos desde que Muriel degustou o chá. Estamos no meio da maior pandemia da história da humanidade. Muita gente sem treinamento científico está ávida por entender o que está acontecendo. Mais do que nunca, significância estatística é fundamental para interpretar dados.
Exemplo 1. 12 de janeiro de 2021. Apresentação dos resultados dos testes da vacina Coronavac pelo Instituto Butantan. É anunciado 100% de eficácia para casos graves e moderados. Ninguém presente se dá conta do p=0,4967 associado aos 100% de eficácia, apesar da nota de pé de página. Ninguém explicou que o resultado não tinha significância estatística e poderia ser devido ao pequeno tamanho do grupo.
Figura apresentada na apresentação da Coronavac. Note o p=0,4967 associado à eficácia de 100% |
O estrago estava feito. Com a vacinação em andamento, começam a aparecer casos graves e mesmo morte de vacinados. Opositores da vacina gritam sem razão que ela não serve para nada. Ela funciona, mas os 100% anunciados obviamente não se confirmaram. Isso era esperado, dado que o valor apresentado de p~0,5 não tinha significância estatística. Esse resultado nem deveria ter sido apresentado ao público.
Exemplo 2. Um site que se chama c19study, mantido por um grupo anônimo. Apresenta "meta-análises" sobre todo tipo de tratamento precoce para covid-19, e invariavelmente conclui que todos funcionam. Esse site é citado e invocado como evidência científica por 10 entre 10 defensores de tratamento precoce. Prefeitos e médicos sem formação científica repetem orgulhosos, citando o site, que "a chance de cloroquina não funcionar é de 3 em um quatrilhão".
Afirmação desinformativa do site hcqmeta.com. Esse número está completamente fora do razoável para uma compilação desse tipo |
Só tem um problema: isso está muito errado. Como este artigo é sobre p-valor, não vou discutir como a (não) seleção dos artigos pelo site está errada. Tomarei como exemplo a inútil hidroxicloroquina. O site hcqmeta.com afirma:
- HCQ é eficaz para COVID-19. A probabilidade de um tratamento ineficaz gerar resultados tão positivos quanto os 231 estudos até o momento é estimada em 1 em 3 quatrilhões (p = 0,0000000000000003).
Comentários