Ir para conteúdo

Biblioteca

Avaliação de Resultado e de Impacto

Aula sobre Avaliação de Resultado e de Impacto ministrada por Ricardo Paes de Barros.



Avaliação de Resultado e de Impacto - Parte 05

Argumentos em prol da alocação por sorteio

Ir para a transcrição do vídeo

Transcrição

00:00 a 00:08 (Vinheta de abertura)

Imagem: Vinheta de abertura. Ilustração de um mapa múndi na cor azul clara ocupa toda a tela. A logomarca da Fundação Itaú Social aparece ao centro e alguns ícones na cor branca aparecem formando um círculo central ao redor da logomarca. A logomarca desaparece, dando lugar ao texto em azul escuro: “Curso Avançado de Avaliação de Políticas Públicas e Projetos Sociais”. Na sequência, os textos são substituídos por um retângulo grande azul escuro na parte central da tela. Dentro dele, está escrito: “Avaliação de Resultado e de Impacto, Professor Ricardo Paes de Barros, 20 de Janeiro”. Abaixo do retângulo, também em azul escuro, o texto “Argumentos em prol da alocação por sorteio”.

Áudio: trilha moderna percussiva.

00:09 a 33:22 (Ricardo Paes de Barros)

Imagem: Professor Ricardo Paes de Barros, da Fundação Itaú Social, está à frente de uma sala de aula com um telão e lousa verde atrás dele. Ele está de pé e apresenta os conteúdos olhando para a turma.

Áudio Professor: Eu não sei se vocês vão gostar desse exemplo. Eu acho fascinante. O Fischer, quando inventou toda essa coisa experimental, nas primeiras décadas do século 20, ele era muito claro. Um monte de coisa que, às vezes, a gente acha que tem a ver com experimento, não tem nada a ver. Então, ele inventou uma coisa que é um exemplinho, que ele ficou meio apaixonado. Ele gasta 15 páginas do livro dele falando sobre esse exemplinho e que daria, claramente, em meia página. Quando você fala, às vezes, com as pessoas sobre experimentos, elas te dizem o seguinte: “mas eu não tenho duas escolas iguais”. Porque, a pessoa acha que, em um experimento, ela tem que pegar duas escolas iguais, colocar uma no tratamento e uma no controle. E ele acha o seguinte: “as minhas escolas respondem de maneira diferente ao programa. Então, o impacto do programa é heterogêneo. Como eu faço o experimento?“. Então, o que esse exercício do Fischer vai mostrar é que a gente precisa realmente que as coisas sejam aleatoriamente escolhidas. Eu vou dar uma pequena mudada no exemplo do Fischer. Então, o exemplo dele, por se um estatístico inglês, tem a ver com tomar chá. Então, no exemplo dele, ele argumenta que essa coisa de misturar chá com leite não é tão simples quanto a gente pensa. Tem uma arte em misturar o chá com leite. A conversa dele tem a ver com a sequência com que você usa. Se o leite vem antes ou o chá antes. Para a gente, não importa muito. Suponha que você tem um programa que vai treinar alguém a misturar o chá com leite de uma maneira certa. Então, você vai qualificar alguém a fazer isso. E você quer saber se seu programa de qualificação realmente teve algum impacto. Então, o que o Fischer fala é o seguinte: “eu tenho uma pessoa que é um especialista em chá. E ele consegue beber o chá e dizer se esse chá foi ou não foi preparado corretamente”. Então, ele pega duas pessoas: uma que foi qualificada e outra que não foi qualificada. E daí ele pega oito xícaras de chá, as mais diferentes que você puder imaginar. As xícaras são completamente diferentes. De tamanhos diferentes, tudo diferente. As cores são diferentes, os tamanhos são diferentes, as formas são diferentes. E ele avisa para a pessoa que vai provar o seguinte: “olha, em quatro dessas xícaras, eu vou colocar uma pessoa treinada. E, em quatro dessas xícaras, eu não vou colocar uma pessoa treinada. E você vai ter que me dizer quais as quatro xícaras que a pessoa treinada preparou e quais as quatro xícaras que a pessoa não treinada preparou”. Com isso, ele constrói um outro argumento: “eu tenho oito observações e elas são dependentes. Elas não são independentes”. Então, as xícaras são todas diferentes. A resposta da pessoa vai ser uma série de zeros e uns, de tamanho 8, com quatro uns e quatro zeros. A pessoa vai ter que preencher assim: 1,0,1,0,1,0,1,0... ou então, 1,1,1,1,0,0,0,0... Ela vai ter que responder coisa desse tipo. Essas oito coisas não são independentes. As xícaras são totalmente diferentes. Eu treinei uma pessoa. Eu só vou fazer uma coisa. A única coisa que vou fazer é escolher aleatoriamente quais dessas oito xícaras eu vou dar para uma pessoa preparar o chá e quais dessas oito eu vou dar para o outro preparar. Eu vou escolher aleatoriamente. E também não é independente, porque se eu escolher as quatro primeiras para um, as quatro seguintes vao ter que ser para o outro. Eu vou, de uma vez, escolher quatro aqui, quatro ali e dar para a pessoa. A única coisa que eu sei e que a pessoa que vai provar não sabe é o resultado desse. O resto tudo ele sabe. Ele sabe que tem uma pessoa treinada e uma não treinanada. Sabe que tem um que vai misturar quatro xícaras e outro que vai misturar quatro. Ele só não sabe a sequência. Ele tem que adivinhar a sequência. E da maneira como ele vai advinhar a sequência, eu vou saber se o programa teve impacto ou não. Então, eu simplesmente coloco aqui uns papeizinhos escritos: ‘treinado’ ou ‘não treinado’, ‘tratamento’, ‘controle, ‘tratamento’, ‘controle’. Eu escolho esse ‘tratamento’ e ‘controle’ aleatório. A pessoa que é o tratamento vem aqui e prepara as quatro dele. Eu checo se ele realmente fez. Daí o controle vem e prepara as quatro dele. Eu tiro os meus papeizinhos, guardo comigo e daí jogo fora, porque daí ninguém vai saber o que aconteceu. Aí, vem uma pessoa que é capaz de detectar essa diferença. E eu vou dizer que tem impacto se essa pessoa realmente conseguiu detectar esse negócio. A questão toda é a seguinte: você vai fazer a discussão na hipótese nula, de que esse programa não serve pra nada. Essa pessoa vai ter que vir aqui e ele tem que escolher quatro xícaras, Porque a pessoa, que vai provar isso, sabe que tem quatro. Então, ela vai, dentro de uma certa margem de erro, chutar quatro. Então, se o programa não tem nenhum impacto, isso aqui são oito xícaras mal preparadas. Alguma pode ter ficado por acaso bem preparada, um pouquinho melhor, um pouquinho pior. Coitada da pessoa que tem que julgar isso! Mas ela vem e julga alguma coisa. Qual é a probabilidade de ela acertar nas quatro xícaras? É combinação de oito, quatro a quatro. Então, quando ela para para pensar, são 70 opções, que é a combinação de oito, quatro a quatro. Existem 70 possibilidades aqui. Se o programa não tem nenhum impacto, qualquer coisa que essa pessoa estiver falando é simplesmente um chute. Logo, ela tem a probabilidade 1 sobre 70 de acertar. Se ela acertar, eu vou dizer que o programa tem impacto, sabendo que a chance do programa não ter impacto e ele acertar é 1 sobre 70. Ou seja, 1 sobre 70 é o meu “P” valor do teste se o programa tem impacto ou não tem impacto. 1 sobre 70 é um número pequeno para caramba! 1,3%, mais ou menos. Então, é um número bem pequeno. Então, basicamente, o meu teste é: se a pessoa acertar, vai ser igual àquela minha curva e a bolinha fica lá na ponta. Se o programa não tem nenhum impacto, eu simplesmente peguei oito zeros e ‘uns e embaralhei. E eu falei para a pessoa chutar como eu embaralhei. Se ele acertar exatamente como eu embaralhei, eu vou dizer: “esse cara é mágico!”. Ele vai ter 1 em 70 chances de fazer isso. Logo, se ele consegue fazer isso, provavelmente esse programa tem impacto. Agora, vamos supor que essa pessoa acertou três. Impossível, porque ninguém consegue acertar três. Antes ela tinha acertado oito. Ela consegue acertar seis mas não consegue acertar sete. Equivale a acertar três uns e três zeros. Se voc6e fizer a conta de quanto vai dar isso, tem que fazer um monte de combinatórias, vai dar, mais um menos, 24% ou 25%. Obiviamente, se a pessoa acertar seis, você não vai ficar tão impressionado. E aí você vai dizer: “eu só vou dizer que o programa tem nenhum impacto se você acertar as quatro”. Então, eu acabei de fazer um teste. As unidades eram totalmente heterogêneos e as coisas não eram independentes. Esse meu teste está baseado em uma única coisa: eu misturei os zeros e uns. E, se o programa não tem nenhum impacto, o que a pessoa está tentando fazer é chutar uma sequência de quatro zeros e quatro uns que eu ambaralhei. E essa é a graça da do experimento. Todo o teste só depende da tua aleatorização ter sido bem feita. Então, é por isso que a avaliação experimental consegue avaliar o impacto sem a gente fazer nenhuma hipótese. O que evidentemente não se consegue se não tiver uma coisa experimental. Existe uma outra coisa embutida aí, que a gente como economista se esquece certo, mas que um estatístico não se esquece, que é o seguinte: testar que existe o impacto é uma coisa que precede estimar o impacto. É muito curioso! Em economia, quando você vai testar se alguma coisa existe ou não existe, você estima o tamanho dela. E depois testa se aquele tamanho é zero ou não. Não é isso que se faz o tempo todo? Faz-se um teste T, para ver se o coeficiente é zero ou não. Já está se estimando! Quando eu apresentei aqui para vocês a coisa do Unibanco, vocês não tinham a mais vaga ideia de qual era o tamanho do impacto, certo? Não tinha nenhuma discussão do tamanho do impacto. Era simplesmente uma discussão se existia ou não existia impacto. Entendeu? Então, isso é uma tradição que a gente perdeu um pouco. Em econometria, a gente está tão preocupado em estimar um parâmetro, que a gente confunde o processo de estimar o impacto com o processo de testar se existe ou não existe impacto. O exemplo que eu dei para vocês daquela curvinha do “Jovem de Futuro”, talvez a maioria de vocês tenham ficado totalmente convencidos de que o negócio tem impacto. Mas vocês não tinham a mais vaga ideia de qual era o tamanho do impacto. Impossível saber isso naquele gráfico! E nesse exemplo que eu estou dando para vocês, também é a mesma coisa. Eu peguei os zeros e uns e embaralhei. Se a pessoa acertar os quatro eu falo: “opa, só 1 em 70 consegue acontecer isso! Logo, esse problema deve ter impacto”. A pessoa que prepara esse negócio deve realmente deixar uma marca naquela xícara, porque ele foi em cima naquela xícara! Este negócio deve ter impacto. Mas eu não faço a menor ideia de qual é a magnitude do impacto! Eu só sei que teve impacto. O Fischer gasta páginas tentando explicar isso: não tem maneira de estimar o impacto sem fazer alguma hipótese! Pode ser que, em uma xícara de um certo tipo, seja muito mais evidente que a pessoa preparou bem do que em outras xícara, entendeu? Mas não importa. Se a pessoa acertar quatro, ela está me dizendo que a coisa teve impacto, entendeu? Então, esses dois exemplos, o que eu dei antes e esse, mostram que o experimento não requer que as unidades sejam a uma amostra aleatória da população. Essas xícaras que eu usei não são uma amostra de nenhuma população de xícaras. Essas duas pessoas que eu selecionei, um para treinar e outro para não treinar, não é uma amostra da população etc. Qual o problema de você não ter uma amostra da população? O que o experimento te dá é aquilo que a gente chama da validade interna. O experimento te aponta para o verdadeiro valor do impacto. Só que ele te dá a média do impacto em uma população, que é a população que participou do sorteio. É o impacto tanto sobre os tratados como impacto sobre os não tratados, porque, afinal de contas, os tratados e os não tratados vêm da mesma população, por causa do sorteio. Então, o experimento te dá o impacto sobre os participantes do sorteio ou o impacto sobre os beneficiados e os não beneficiados. Mas, se quem participou do sorteio é uma amostra super selecionada, a validade externa do experimento e da sua avaliação está prejudicada. Isto é uma característica típica de todas as avaliações de impacto experimentais. Sempre se perde validade externa, porque sempre tem umas pessoas que não participam de sorteio. Agora mesmo, a gente fez um sorteio. No Rio de Janeiro, existem algumas escolas de ensino médio, que são de tempo integral e são especiais. Tem três no Rio de Janeiro que estão ligadas ao Instituto Ayrton Senna. Uma é no Andaraí, no Rio, uma outra em Niterói e outra em Valença. A gente sorteou os alunos para essas três escolas porque tinha um excesso de demanda. Na hora em que a gente foi sortear os alunos, a secretária falou: “você não vão sortear as crianças com deficiência, certo?”. E aí a gente falou: “se não é para sorteá-los, a gente não sortea”. E daí: “os que vieram de escolas privadas vocês não vão deixar entrar não, né?” (risos). Esse também não entraram. As crianças com deficiêencia não participaram porque entraram. Os alunos das escolas privadas não participaram porque havia uma quantidade enorme de candidatos de escola pública. Na verdade, criou-se uma cota pequenininha para escola privada. Então, obviamente, se a gente conseguir estimar o impacto, vai ser para alunos não deficientes, vindos da escola pública. Porque senão, generaliza-se para todos os candidatos daquele programa. E, além disso, a gente não está calculando impacto para o aluno típico do Rio de Janeiro. Até porque, o aluno típico do Rio de Janeiro eventualmente nem quer fazer uma escola de ensino médio de tempo integral, porque precisa trabalhar, quer fazer uma escola à noite ou alguma coisa desse tipo. Então é representativo dos que se candidataram e que não é representativo do Rio. A gente está vendo que muitos alunos que se candidataram e que foram sorteados não aparecem. Por quê? Porque é aluno que passou no concurso do colégio militar, do colégio aplicação Dom Pedro Segundo... Então, no fundo, os jovens que se candidataram a uma escola de excelência dessa são alunos que queriam andar de ônibus todo dia, vindo de outro bairro, para ir para uma escola melhor! Eram alunos diferentes! Obviamente, o impacto que se vai calcular é sobre esses alunos e não sobre uma amostra do Rio de Janeiro, está certo? Então, toda avaliação de impacto tem problema de validade externa porque, ao fazer o experimento, ao sortear, acaba-se tendo que se limitar a isso. E eu vou mostrar a vocês que o melhor momento de fazer o sorteio limita mais e mais a sua validade externa. “Vamos fazer o sorteio antes de eu dar expectativa para aquelas pessoas de que elas vão participar do programa”. Mas, se eu fizer isso, eu vou sortear um monte de gente que depois vai dizer: “não! quem disse que eu queria participar desse programa?”. Então, você precisa fazer o sorteio sempre depois que a pessoa se declara interessada. Você precisa fazer o sorteio naqueles que se candidatam à vaga. Então, pensando em termos de avaliação, é melhor fazer o sorteio depois que a pessoa disse que abre mão. Vamos dizer que uma pessoa passou no colégio militar e aí eu pergunto para ele: “você vai para o colégio militar ou você vai participar desse sorteio? Se você for sorteado, você vem para cá ou vai para o colégio militar?”. Se ela falar para mim: "eu vou para aí”. Daí ele entra no sorteio. Se ele disse para mim: “se eu for sorteado, eu vou continuar indo ao colégio militar”. Então, essa pessoa é inútil no meu sorteio. Se ela já vai para o colégio militar, por que ela vai participar do meu sorteio? Então, eu gostaria de ter essa informação antes de se fazer o sorteio. Só que a pessoa só se matricula no colégio militar lá na frente! Então, eu tenho que fazer o sorteio antes! Eu acabo tendo um monte de gente, que vão ser os desistentes, o “no-show”, que vai causar uma confusão na avaliação de impacto. Então, tem uma questão de validade externa porque se sorteia em um grupo específico. Você obviamente não requer unidades homogêneas, ou seja, as escolas sorteadas, os alunos sorteados não precisam ser homogêneos, pode ser qualquer coisa. E você não requer que todas unidades tenham uma resposta homogênea. Com um experimento, você estima perfeitamente o impacto heterogêneo. Obviamente que se o impacto é heterogêneo, você está calculando o impacto médio na população com que você está trabalhando. O que você precisa? Que as unidades sejam aleatoriamente alocadas ao tratamento e ao controle. Então, deixa eu mostrar aqui para vocês o seguinte. Isso aqui é um caso prático, que está criando uma confusão incrível. É avaliação não experimental. O que a gente fez foi matching. O matching é muito bom quando feito antes do sorteio. Isso aqui é um matching que não teve sorteio nenhum. Alguns municípios foram escolhidos para participar do programa. Outros não foram escolhidos para participar do programa. Estamos, a posteriori, fazendo um casamento de municípios que não participaram com municípios que participaram para calcular o impacto do programa. Isso aí no gráfico foi o que aconteceu com o grupo de comparação. Este é um programa de primeira infância que tentava integrar todas as políticas de primeira infância em certos municípios. Por exemplo, a taxa de cobertura de creches no grupo de comparação que a gente selecionou subia. Aí, no grupo de tratamento, ela começava aqui embaixo, o que eles ficaram super orgulhosos: “realmente nós pegamos um grupo aqui em que tudo parace igual. A gente realmente teve um olho clínico e pegamos os municípios que estavam dando menos atenção à primeira infância”. Logo, se a gente acreditar no nosso grupo de comparação, este seria que ser o comportamento do tratamento. “poxa, então espero que eu esteja acima dessa linha! É com esse ponto aqui que eu tenho que olhar o meu resultado final!”. Mas, na hora em que foi ver o resultado final, ele estava ali e o cliente estava todo orgulhoso. Este é que tinha sido o impacto do programa. Ele começou pior do que o grupo de comparação e terminou melhor que o grupo de comparação. Então, esse é o impacto do programa. E a conclusão é: “ótima a avaliação! Perfeito! Nem precisava ter feito aquele sorteio todo que vocês estavam querendo e que fez aquela bagunça toda! Isso aqui está uma maravilha. Fecha a conta! Vamos em frente!”. Bom, a gente foi olhar os resultados para a Saúde. Aí para a Saúde, isso aqui é o que estava acontecendo. Sabe-se que tem esse problema dramático no Brasil. O que os outros países não conseguem entender é que a gente tem uma quantidade de partos cesarianos absurdamente grande: “parto é um negócio tão simples! Por que vocês fazem uma coisa muito mais complicada e cara, quando ele pode ser mais simples?”. E ninguém consegue entender. Então, uma das coisas é aumentar o número de partos normais e reduzir o número de partos cesarianos. Só que, dos municípios selecionados, o número de partos normais estava diminuindo depois do programa. E, portanto, o número de partos cesarianos estava aumentando. Daí a pessoa falava assim: “na verdade, No Brasil, esse negócio está dimuindoa passos normais. E o que eu estou conseguindo fazer é que ele diminua menos”. Bom, vamos ver o que aconteceu com o grupo de comparação! O grupo de comparação, que por acaso saiu exatamente no mesmo ponto, ele veio para aqui. E o impacto é menos três. E a resposta da pessoa para mim foi: “o que você fez de errado? Explica agora o que você fez de errado”. (risos). No outro caso, ele não me perguntou o que eu fiz de certo! Então, ele chegou à conclusão de que o programa dele tinha feito alguma coisa. Aqui ele perguntou para mim: “o que você fez de errado?”. Aí, chamou-se uma junta de pesquisadores para ver. A maior parte deles eras epidemiólogos e: “estatisticamente, está tudo certo! Agora, porque deu isso aí?” Tem 350 mil razões pelas quais o programa pode ter impacto e acontecer isso. Esse matching, por melhor que ele pareça, pode estar errado. Se você fizer uma avaliação não experimental, você vai sempre se deparar com uma coisa deste tipo. Ou você dá uma resposta boa, todo mundo ficar contente, vai em frente, publica e é contratado de novo; ou você aparece com uma coisa dessa, fica todo mundo chateado contigo, tira o nome dele lá de cima do gráfico e, provavelmente, não te contrata de novo! Nesse caso aqui, eles são meus amigo e eu acho que não vou ter problema! (risos). Mas eu ainda tenho que arranjar uma explicação para isso. Agora, o que a gente está fazendo é se metendo em levantar um monte de informação, que é muito mais trabalhoso levantar, para tentar remendar isso. Quando uma avaliação experimental no início teria evitado toda essa história. Então, o que eu quero dizer para vocês é o seguinte: vale a pena fazer avaliações experimentais!

33:23 ao Fim (Cartela)

Imagem: Ilustração de um mapa múndi em tom azul claro ao fundo. E, em primeiro plano, duas imagens de capítulos posteriores a esta aula com o cabeçalho “Veja Também” em azul escuro. No rodapé, o texto: “Conheça mais em www.redeitausocialdeavaliacao.org.br .

Áudio: Trilha moderna percussiva.