30% dos cursos avaliados abaixo da média do ENADE. O que isso significa? Rigorosamente NADA!

Ou melhor, isso significa que as notas foram padronizadas. É muito engraçado ler as manchetes dos principais órgãos da imprensa:
G1: Enade tem 30% dos cursos do ensino superior abaixo da média, diz MEC
Folha: 30% dos cursos tiveram desempenho insatisfatório no Enade, diz MEC
Estadão: Enade: 30% dos cursos de ensino superior têm desempenho insuficiente
Os comentários do Ministro Mercadante vão na mesma direção. No G1: "Entretanto, mesmo com o resultado, o ministro da Educação,Aloizio Mercadante, considera que o ensino no país está evoluindo se comparados aos resultados do Enade de 2009, quando foi feita a avaliação dos mesmos cursos avaliados em 2012."
Só é possível concluir que o Ministro e os jornalistas que cobriram a divulgação dos resultados estavam muito mal preparados ou não entendem como é gerado o Conceito ENADE e por isso dão declarações que equivalem a dizer que 1+1=2 como se isso fosse uma grande novidade. Vou mostrar a seguir que pela forma como ele é gerado, exceto em casos extremos que também comentarei, SEMPRE cerca de 30% dos cursos terão nota entre 0 e 2, com pequenas flutuações aleatórias de ano para ano.
Figura 1. Três possíveis distribuições de notas no ENADE.
O processo de tratamento dos dados está descrito em Nota Técnica do INEP.  Para se obter o Conceito ENADE é feita uma mudança de escala muito usada em estatística, chamada de padronização.  Os conceitos são calculados a partir da média e do desvio padrão da distribuição de notas. Os estatísticos têm boas razões para supor que a distribuição de notas do ENADE obedece uma curva em forma de sino chamada distribuição normal. A primeira mudança de escala transforma as distribuições de nota em uma curva em que a média vale zero e cada desvio padrão vale um. Então para transformar essa escala padronizada em uma escala supostamente linear de zero a 5 é feita uma segunda padronização que deve estremecer qualquer estatístico que entende do assunto: adiciona-se a menor nota padronizada a todas as pontuações, fazendo a curva começar em zero e depois divide-se as pontuações pelo maior valor obtido, chegando a uma escala entre zero e um que é multiplicada por 5 para chegar na escala entre zero e cinco. Essa segunda padronização que eu saiba (não sou estatístico, apesar de usar muito estatística em minha vida profissional) não tem justificativa teórica alguma, mas transforma os dados em uma escala entre zero e cinco. Como isso é complicado, esse  é o momento para fazer alguns exemplos. Imaginemos que o resultado do ENEM de 3 edições seguidas apresenta as 3 curvas na figura abaixo na ordem verde, preta e vermelha. Isso significa que o ensino superior brasileiro está piorando? Talvez, mas pode também significar que ele está melhorando ao mesmo tempo que as provas estão ficando mais difíceis. Uma das justificativas da padronização é justamente tornar o Conceito ENADE insensível a variações no grau de dificuldade das provas. Após a primeira padronização, as três curvas ficam exatamente iguais, representadas na figura 2.
Figura 2. As mesmas distribuições da figura 1 padronizadas.
Isso mostra de forma bastante conclusiva que independentemente do grau de dificuldade da prova, que no meu exemplo teve uma variação exagerada, a padronização faz com que as distribuições de notas tenham sempre a mesma cara e sigam uma mesma escala. Afinal, é para isso mesmo que serve a padronização: evitar que uma prova atipicamente difícil ou atipicamente fácil altere de forma significativa o resultado da avaliação, que tem como objetivo comparar desempenhos de quem faz uma prova, jamais comparar quem faz provas diferentes.
Então fazemos a segunda padronização e chegamos à próxima figura, que corresponde à distribuição do Conceito ENADE (as notas são arredondadas para o valor mais próximo para chegar a uma escala de inteiros de zero a 5).

Figura 3. O conceito ENADE para as curvas
anteriores. A área entre zero e 2 corresponde a
31% da área total.
Cabe ainda perguntar que percentual da curva  corresponde aos conceitos entre zero e 2. Como a curva da distribuição normal segue uma função conhecida e não é possível calcular sua área analiticamente (a partir de sua integral, como diriam os matemáticos), qualquer livro de probabilidade ou de estatística tem esses valores tabelados. Eu procurei no livro do Sheldon Ross de Probabilidade (simplesmente porque o tinha em casa) e encontrei essa área igual a exatamente 30,85%.  Portanto, não deveria surpreender que 30% dois cursos tenham nota inferior a 3, ou que "Um em cada três cursos de Direito tenha desempenho ruim no ENADE". É assim para todos os cursos, porque o Conceito ENADE é definido dessa forma. Eu venho dizendo que se as pessoas soubessem um mínimo de estatística ela sestariam muito mais bem equipadas intelectualmente para lidar com pseudo-ciência e curas milagrosas. Elas também deixariam de se surpreender a cada ano por ter 30% ou 1/3 dos cursos "reprovados" no ENADE.
Antes de terminar eu quero chamar a atenção par ao absurdo que é a segunda padronização, a que transforma a escala ancorada na média numa escala linear. Imagine que um único curso tenha um desempenho particularmente ruim no ENADE e fique com uma nota padronizada muito abaixo da média (um outlier no jargão técnico). Quando for feita a segunda mudança de escala, todos os Conceitos ENADE serão artificialmente empurrados para cima. Certamente o Ministro elogiará o fato de quase todos os cursos brasileiros (exceto o coitadinho com desempenho muito abaixo da média) estarem "aprovados" com Conceito maior que 3. Isso não significaria absolutamente nada também, a não ser que uma escola teve nota muito inferior às demais. Isso na verdade ocorreu numa das primeiras avaliações de Medicina, como foi discutido de forma muito clara no artigo O Enigma do ENADE por Simon Schwartzman em 2005.
A propósito, quando fui buscar a referência vi que ele escreveu um texto muito bom e mais conciso sobre o mesmo assunto.
Eu havia abordado essencialmente o mesmo assunto de agora em um texto sobre o ENEM.
Enfim, ao contrário do que o Ministro da Educação afirmou, não é possível dizer que o ensino superior brasileiro melhorou a partir do resultado do ENADE, nem seria de se esperar que um número muito diferente de 30% ou 1/3 dos cursos tirasse uma nota abaixo de 3.

Upideite 8/10/2013: Na gloriosa região campineira são só 25% abaixo de 3. Esse tipo de comparação entre regiões é perfeitamente válido, mas o jornalista insinua como má o que deveria ser uma ótima notícia para a região.

Upideite 10/10/2013: Algum editor do G1 andou lendo o Cultura Científica ou o blog do Simon: Hoje saiu uma notícia abordando exatamente esse assunto, claro que sem fazer menção à barriga original. ou aos blogs.

Upideite 18/10/2013: O Simon nota que um editorial do Estadão incorre no mesmo erro relatado aqui. Parece que ao contrário do pessoal do G1, o editorialista não leu o blog do Simon nem o Cultura Científica. A exemplo do que acontece nos EUA, a grande imprensa teria a ganhar se prestasse atenção nos blogs.

Upideite 23/10/2013: O caso da revista Época é o mais curioso: Enquanto sua página web cai no erro apontado aqui, um editorial na versão impressa corretamente afirma o mesmo que apontado aqui e no blog do Simon. O editor deve ter lido os blogs, mas o redator não...

Comentários

none disse…
"Quando for feita a segunda mudança de escala, todos os Conceitos ENADE serão artificialmente empurrados para cima."

Para minorar esse problema, há um corte dos outliers com Z-score acima de +3 ou abaixo de -3.

No caso do ENEM, é preciso levar em conta que as correções das questões levam em conta a TRI. Aí é possível se levar em conta a dificuldade da prova para comparar os resultados de um ano para outro.

[]s,

Roberto Takata
Takata,
Correto, mas devemos lembrar que não temos mais que 0,13% das instituições com Z-score<-3 e outros 0,13% com Z-score>3, ou seja, ainda é possível termos uma distorção dos resultados por um outlier. Simplesmente não consigo entender o que levou alguém no INEP a fazer essa grande contribuição à estatística ao colocar limites numa escala que foi definida para não ter limites. Infelizmente ao que consta essa ideia não foi submetida para publicação em periódico especializado, até porque tenho sérias dúvidas se seria aprovada.
O uso da TRI no ENEM é bastante obscuro. Nos casos em que se usa TRI para equalizar anos diferentes (como SAT, GRE, SAEB) são usadas questões-âncora para equalizar as provas, ou seja, as questões nunca são divulgadas e algumas são repetidas. O ENEM divulga as questões. Não sei como eles fazem para comparar anos diferentes, pois não há nota técnica alguma explicando.
Anônimo disse…
Confirmou o que eu já suspeitava: políticos não entendem de estatísticas!
Anônimo disse…
Caro,
Produzi artigo criticando também as declarações do Ministro. Caso o amigo tenha tido a paciência de analisar as médias das notas dos alunos participantes do ENADE 2009 e 2012, as mesmas despencaram em 2012, e o ministro ainda afirma que o sistema mostrou evolução. A respeito da comparação das duas versões do ENADE (2009 e 2012)e ENADE de uma área com outra pelo INEP e pelo ministro, fiz a seguinte analogia no meu artigo:
"Suponhamos, para tornar o meu raciocínio mais didático, que eu seja um estatístico e queira me meter a futebólogo. Suponhamos que eu pretenda estabelecer um padrão de avaliação da qualidade dos jogadores profissionais de futebol. Suponhamos que, para tanto, eu elenque 100 habilidades e aplique testes a todos os jogadores de futebol para verificar quantas destas habilidades cada um domina. Suponhamos que como resultado, dentre um grande número de clubes pesquisados, no Luverdense o jogador Emerson apresente a menor qualidade segundo este meu critério, demostrando dominar apenas 5 das 100 habilidades, e o Rubinho, o de melhor qualidade, mostrou dominar 25 habilidades. Suponhamos que os mesmos testes sejam aplicados ao Barcelona e o jogador com menor desempenho tenha sido o Pique, mostrando dominar 65 habilidades. Já o de melhor desempenho tenha sido o Messi, mostrando dominar 99 das 100 habilidades. Suponhamos que uma vez tabulados estes dados eu decida aplicar Gauss a amostragem de cada clube e converter a Distribuição de Gauss numa escala de 1 a 5 como se faz no ENADE e CPC.
Aplicadas todas estas suposições, chegaríamos ao resultado de que a Distribuição de Gauss no Luverdense seria aplicada no intervalo amostral de 5 a 25, e no Barcelona se daria no intervalo de 65 a 98. Aplicada a Distribuição de Gauss aos dois casos e convertido o resultado a escala de conceito de 1 a 5, eu teria como resultado que no Luverdense o Emerson é conceito 1 e o Rubinho é conceito 5. Já no Barcelona, o Piquet seria conceito 1 e o Messi conceito 5 (e quem sabe o Neymar conceito 4). Isto posto, eu divulgo os resultados da minha pesquisa para que o público tome conhecimento da qualidade dos jogadores.
Para os familiarizados com estatística, desde que informados que o método aplicado foi a Distribuição de Gauss e tendo acesso a média e ao Desvio Padrão de cada clube, entenderiam perfeitamente o padrão que eu estaria estabelecendo. Para 99,9% dos mortais que mal sabem o que é uma média, não fazem a mínima ideia o que é Desvio Padrão e muito menos uma Distribuição de Gauss, a mensagem que estaria transmitindo é que Pique é um perna de pau ao tempo que Rubinho é um craque, que Rubinho é tão bom quanto o Messi e até mesmo melhor que o Neymar. Lamento afirmar isto, mas é exatamente o que se está fazendo na educação superior."
Abraços
Jorge Gregory
jorge.gregory@terra.com.br