Ir para conteúdo

Biblioteca

Avaliação de Resultado e de Impacto

Aula sobre Avaliação de Resultado e de Impacto ministrada por Ricardo Paes de Barros.



Avaliação de Resultado e de Impacto - Parte 04

O que uma avaliação experimental requer?

Ir para a transcrição do vídeo

Transcrição

00:00 a 00:08 (Vinheta de abertura)

Imagem: Vinheta de abertura. Ilustração de um mapa múndi na cor azul clara ocupa toda a tela. A logomarca da Fundação Itaú Social aparece ao centro e alguns ícones na cor branca aparecem formando um círculo central ao redor da logomarca. A logomarca desaparece, dando lugar ao texto em azul escuro: “Curso Avançado de Avaliação de Políticas Públicas e Projetos Sociais”. Na sequência, os textos são substituídos por um retângulo grande azul escuro na parte central da tela. Dentro dele, está escrito: “Avaliação de Resultado e de Impacto, Professor Ricardo Paes de Barros, 20 de Janeiro”. Abaixo do retângulo, também em azul escuro, o texto “O que uma avaliação experimental requer?”.

Áudio: trilha moderna percussiva.

00:09 a 22:13 (Ricardo Paes de Barros)

Imagem: Professor Ricardo Paes de Barros, da Fundação Itaú Social, está à frente de uma sala de aula com um telão e lousa verde atrás dele. Ele está de pé e apresenta os conteúdos olhando para a turma.

Áudio Professor: Existe uma empresa brasileira em educação, chamada Mind Lab, que faz um trabalho fantástico. É uma empresa brasileira-israelense. Agora, eu acho que ela é mais brasileira do que israelense. Eles fazem uma coisa fantástica, porque eles pararam para pensar em como que nós pensamos no dia-a-dia. Um monte de psicólogos, educadores, Piaget, Vigotski... esses caras todos pararam para pensar isso: como é que a gente raciocina? Na verdade, você perceber a forma como você raciocina, provavelmente você raciocina intuitivamente, automaticamente, sem perceber que você, a cada hora, está usando um tipo de raciocínio um pouco diferente. Eles mapearam que existem basicamente 10 tipos de raciocínios. E eles estão ensinando isso para as crianças. São 10 métodos. Então, por exemplo, o Método da Escada é o método onde você pega um problema e se decompõe o problema. Pegam-se várias coisas, decompondo e indo passo a passo. Sabe-se que há algumas coisas que não se resolvem assim. Por exemplo, se você estiver resolvendo um problema de otimização dinâmica, você não pode resolver o problema passo a passo. Na verdade, a programação dinâmica resolve de trás para frente. Você tem que ir até o final do problema para ir resolvendo de trás pra frente o problema. Quando se é uma demonstração matemática, você não consegue pensar sequencialmente, porque a coisa não encaixa. Ou seja, você tem botar na sua memória todos os passos da cadeia para ter certeza que aquela cadeia lógica realmente leva você de A para B. Você tem que a cadeia inteira na sua cabeça. Quando se tem que ter a cadeia inteira na cabeça, é um outro tipo de raciocínio, que se chama Método da Filmadora. Então, fez-se essa decomposição em 10 métodos, que é super divertido, e inventou-se uns joguinhos para ensinar à criança cada método. Então, por causa dessa coisa do Método da Filmadora, da programação dinâmica, há uma maneira muito legal de ensinar à criança que é a seguinte: eles botam um monte de carrinho em um estacionamento e fala-se: “saia com esse carro lá por aquele canto!”. Se a criança ficar tentando só os que estão na frente, ele não sai. A criança tem que pensar de 5 a 10 passos à frente. Ela tem que primeiro mover um carro que está lá na frente para um canto, para esse outro carro poder se mexer e para outro carro poder se mexer... Ela tem que usar exatamente o raciocínio da programação dinâmica. Tem que ir lá no último, mexer o último carro. E aí mexer o anteriormente, o anterior... que aí vai dar o espaço. Mas a criança só consegue saber que sequência é essa se botar na memória dela todo o raciocínio. É como quando se joga xadrez. Você fica tentando pensar lá na frente para se ter a sua estratégia. Então, eles (Mind Lab) tem esses modos de raciocínio, esses métodos. E eles estão, há algum tempo, lutando e tentando convencer as pessoas de que o método deles é legal, que tem impacto. Já fizeram várias avaliações de impacto. Eu acho todas mais ou menos! Acabou caindo na minha mão e eu estava discutindo com eles. Daí eles me falaram: “a gente vai ter uma trabalheira! Essa coisa de ‘controle’, ‘tratamento’...”. Aí eu falei para eles: “eu vou fazer isso aí se for experimental! Se não for experimental, não vou fazer!”. E eles falaram: “Isso dá uma trabalheira! Eu tenho que aleatorizar, tenho que convencer todo mundo a sortear a, no fundo, isso é tudo a mesma coisa! O problema que eu tenho hoje é que eu convenço alguns, mas não convenço todos. Porque alguns reclamam disso e daquilo da minha avaliação. Com essas coisas de avaliação, eu nunca tenho, na verdade, uma palavra final e eu fico tombando de um lado para o outro. Aí eu mostrei para eles uma evidência e eles falaram assim: “realmente! se eu fizer isso, ninguém nunca mais vai ter dúvida do impacto do meu programa”. Eu consegui convencê-los que existia um método infalível. Então, eu vou tentar convencer vocês também! Pode ser que seja mais difícil. (risos). O programa aqui é do Instituto Unibanco, que se chama “Jovem de Futuro” e é basicamente um programa de aplicar PDCA nas escolas. Chega-se na escola e tenta organizar para que a escola tenha PDCA. Tipicamente, elas têm um pouco mais de acesso tendo PDCA. Obviamente que, para se ter PDCA, precisa-se de meta. E a meta é de aprendizado. E a ideia é que, havendo uma gestão mais racional, terá impacto sobre o aprendizado. Então, é um programa de melhoria de gestão escolar, que tem um objetivo acadêmico de melhorar o aprendizado. O que a gente faz? Vamos ao Estado, agrupamos as escolas em vários pares, idealmente. Depois, eu vou falar para vocês porque é importante se agrupar em pares. Nesse exercício aqui, vocês já irão perceber um pouco a vantagem de se agrupar em pares. Então, existe um monte de pares. Na verdade, em alguns lugares, não dá para ter par. Porque, se eu tiver par, haverá uma escola tratada e uma escola controle. E a ideia do programa é que se tenha uma tratada hoje. E meu controle entra no programa três ou quatro anos depois. Então, o tratamento entra no primeiro ano e o controle, no quarto ano. Tem-se uma janela de 3 anos para avaliar o impacto. Então, o que a gente vai estar vendo aqui é o que aconteceu, ao final de três anos. Nem sempre se consegue fazer par porque o Estado fala: “eu tenho 200 escolas e você quer deixar 100 como controle? Não, espera aí! Vamos negociar aqui. Eu tenho 200 escolas, eu te dou 50 controles e você me dá 150 tratamentos”. O que me leva, na verdade, a ter grupos de quatro escolas: três tratamento e um controle. E as histórias são também no sentido contrário: “olha, eu não consigo levar o programa para tantas escolas. Então, coloca três de controle e me dá uma de tratamento”. O que importa aqui é que vários grupinhos foram feitos. E, dentro destes grupinhos, a escola a ser tratada em primeiro lugar é escolhida por sorteio, na presença de todo mundo. E as de tratamento são deixadas para serem tatadas três anos depois. E o que a gente faz? Todos estes estados têm seu próprio sistema de avaliação do ensino médio, tipo SAEB, que mede a nota de Matemática e Português em todas as escolas. Então, eu vou lá ao final do terceiro ano. Eu sei qual era a nota daquelas escolas antes do programa, na terceira série. E daí, eu vou chegar lá, três anos depois, e ver qual é a nota dessas escolas na terceira série. Então, vocês entenderam qual é o resultado? É a nota de Matemática ao final do terceiro ano letivo na terceira série, antes do programa e três anos depois. Eu estou fazendo a média da escola no terceiro ano, antes e depois. Então, o antes estaria aqui no gráfico. Escolhi por sorteio, no início. E, por isso, essas duas coisas vão ser iguais. Depois, isso aqui é o que acontece com o grupo de controle. E este outro aqui é o que acontece com o grupo de tratamento. E este aqui seria o impacto. Este gráfico aqui é estilizado, não é o que aconteceu na verdade. É só para vocês terem uma ideia. Isso aqui seria super convincente. Mas eu vou mostrar algo que é muito mais convincente do que isso, eu acho. O que se tem até hoje? No Unibanco, nós temos 414 experimentos. Boa parte desses dados são públicos. Então, quem quiser se divertir fazendo trabalhos com esses dados, está disponível. É só pedir lá no Unibanco, que eles dão. O que é uma coisa legal, porque é uma avaliação feita e os dados são públicos. Então, tem 414 experimentos aleatórios feitos em 10 estados diferentes. Só que se tem 116 que maturaram em três anos. Que é o que eu vou mostrar aqui para vocês. Este é o crescimento do tratamento. E este é o crescimento do controle. Só que aqui são médias. Eu não vou pegar médias. Vamos dizer que cada experimento desses é um par de escolas. Eu vou pegar o que aconteceu com o tratamento. Eu não estou usando o resultado, mas a variação. E comparando com essa outra variação. Suponham que o programa não tem impacto. E eu quero rejeitar essa hipótese. O que deveria ser maior? A variação do tratamento ou a do controle? Ou deveriam ser iguais? Não vai ser igual, porque um é uma escola A e outro, uma escola B. Em média, deveria ser igual. Mas aqui eu não estou pegando as médias. Eu estou pegando uma escola de tratamento e uma escola de controle. O que deve acontecer? Metade do tempo, tratamento deve ser maior. E metade do tempo, o controle deve ser maior. Eles não vão ser iguais, porque tem uma flutuação. Então, ora um vai ser maior, ora outro vai ser maior. Se eu tenho 116 experimentos, em quantos experimentos eu devo ter a melhora do controle maior que a do tratamento? E em quantos experimentos eu devo ter a melhora do tratamento maior que a do controle? Vou ajudar: a metade de 116 é 58. A resposta é 58. Eu tenho 116 experimentos. Eu sei que a probabilidade do tratamento ser melhor que o controle é meio. E eu sei que a probabilidade de tratamento ser melhor que o controle e meio. Logo, eu devo esperar que, desses meus 116 experimentos, se o programa não tem nenhum impacto, eu devo observar 58 casos onde o tratamento melhorou mais que o controle. E, 58 casos onde o controle melhorou mais que o tratamento. Isso quer dizer o seguinte: na hipótese nula, de que o programa não serve para nada e que é a hipótese na qual eu quero rejeitar, fazer 116 experimentos é igual a jogar para cima 116 moedas perfeitamente honesto. É como se brincasse de jogar 116 moedas para cima. Deu cara? O tratamento é melhor que o controle. Deu coroa? O controle é melhor que o traramento. Logo, eu vou registrar para esses 116 experimentos, se é 1 ou 0, se é cara ou coroa. São 116 eventos independentes que, seu eu fiz o meu experimento corretamente e se o programa não tem nenhum impacto, a probabilidade deve ser meio. E aí vem esse meu gráfico aqui, que eu acho que convence todo mundo e queria saber se convence vocês que este programa tem impacto. Isso aqui é um gráfico que tem simplesmente o número de vezes que o tratamento teve desempenho melhor do que o controle. Obviamente, ninguém espera que, jogando 116 moedas, vai dar exatamente 58 caras e 58 coroas. Na verdade, isso aqui é uma binomial. É só calcular aqui e vamos chegar ao final da conta que isso aqui dá 7,4 por cento. Então, essa probabilidade de exatamente 58 é, na verdade, só 7 por cento. A moeda é honesta se ela dá um número parecido com 58. Não deve desviar muito de 58. O que isso significa? Se eu mexer nessa coisa, mais ou menos um, eu tenho 22 por cento de chances de estar aqui dentro. Você vai andando com isso e chega aqui. Então, se eu andar dez pra cima e 10 para baixo, ou melhor, se eu jogar 116 moedas honestas, 95% das vezes vai dar entre 48 e 68 caras; e entre 48 e 68 coroas. O que isso quer dizer? Se o problema não tem impacto, o número de vezes tem que estar aqui dentro do gráfico. Se der aqui no começo da curva, o que significa? Que se tem um número muito maior de vezes que o controle é melhor que o tratamento! Aí, esse programa está prejudicando as pessoas! Se você der aqui ao final da curva, o que siginifca? Que você tem muita sorte! Ou seja, você jogar 116 moedas e dar 116 caras. Pode acontecer? Pode. A gente sabe até calcular a probabilidade disso. É o que acontece toda vez que se faz um teste de hipóteses. Você vai rejeitar a hipótese, mas você sabe que existe uma probabilidade de você rejeitar uma hipótese certa. Se der 116 caras, a probabilidade de se estar rejeitando a hipótese certa é muito baixa. E o que deu aqui, no final? Deu isso. 75 casos em que o tratamento era melhor do que o controle, em Língua Portuguesa; e 76 casos, em Matemática. Este resultado me coloca aqui, depois da curva. Convenço ou não de que esse programa tem algum impacto? Se você quiser saber, eu calculei a área dali para frente. A área dali para frente é 1 em 2000. Logo, a probabilidade do programa não ter impactos e se observar isso acontece uma vez a cada duas mil vezes. Ou seja, ou eu dei uma sorte de 1 em 2000 ou o programa tem impacto! O que quer dizer o seguinte: se você tentar todo dia, o esperado é que você vai ter uma sorte dessa uma vez a cada cinco anos! O que significa: ou você é muito sortudo ou esse programa temm ipacto! Essa que é a vantagem de se fazer uma avaliação de impacto desse jeito. Por exemplo, o conselho do Instituto Unibanco ficava o tempo todo discutindo se o negócio tinha impacto, se não tinha impacto. No dia em que eles viram esse gráfico, disseram: “está bom, manda alguém escrever isso e colocar lá na primeira página”. Encerrou a conversa, encerrou a discussão. Deixa eu dizer uma coisa para vocês que dá mais credibilidade a isso. Eu posso pegar o passado. E o programa não deve ter impacto sobre o passado, embora o Pedro Malan, ex-ministro da Fazenda e membro do conselho do Unibanco, tenha dito que, “no Brasil, até o passado é incerto”. A gente muda leis, que mudam o passado. E aí, quando você faz qualquer coisa econômica no Brasil, você tem que partir do princípio que o passado pode mudar também. Então, a gente cria dívidas que não existiam porque a gente muda legislação e ela se aplica ao passado! E ele, quando era ministro, sofreu abessa com essas dívidas que ninguém sabia que existiam e que apareciam de repente. Então, eu posso pegar o passado d fazer essa conta. O que é o passado para mim? É a minha linha de base. Já foi coletada antes. A minha linha de base deu aqui, no gráfico. E isso significa o seguinte: no meu ponto de partida, os controles eram um pouquinho melhor do que eram o meu tratamento. Ela dá 54 quando era 58. Quer dizer, a diferença é 4. Então, está bem alto! Se você quiser o “P” valor, é só calcular a área até aqui desse negócio e você vai ter um “P” valor alto pra caramba.

22:14 ao Fim (Cartela)

Imagem: Ilustração de um mapa múndi em tom azul claro ao fundo. E, em primeiro plano, duas imagens de capítulos posteriores a esta aula com o cabeçalho “Veja Também” em azul escuro. No rodapé, o texto: “Conheça mais em www.redeitausocialdeavaliacao.org.br .

Áudio: Trilha moderna percussiva.