Ir para conteúdo

Biblioteca

Avaliação de Resultado e de Impacto

Aula sobre Avaliação de Resultado e de Impacto ministrada por Ricardo Paes de Barros.



Avaliação de Resultado e de Impacto - Parte 07

Como realizar o processo de seleção por sorteio?

Ir para a transcrição do vídeo

Transcrição

00:00 a 00:08 (Vinheta de abertura)

Imagem: Vinheta de abertura. Ilustração de um mapa múndi na cor azul clara ocupa toda a tela. A logomarca da Fundação Itaú Social aparece ao centro e alguns ícones na cor branca aparecem formando um círculo central ao redor da logomarca. A logomarca desaparece, dando lugar ao texto em azul escuro: “Curso Avançado de Avaliação de Políticas Públicas e Projetos Sociais”. Na sequência, os textos são substituídos por um retângulo grande azul escuro na parte central da tela. Dentro dele, está escrito: “Avaliação de Resultado e de Impacto, Professor Ricardo Paes de Barros, 20 de Janeiro”. Abaixo do retângulo, também em azul escuro, o texto “Como realizar o processo de seleção por sorteio”.

Áudio: trilha moderna percussiva.

00:09 a 49:53 (Ricardo Paes de Barros)

Imagem: Professor Ricardo Paes de Barros, da Fundação Itaú Social, está à frente de uma sala de aula com um telão e lousa verde atrás dele. Ele está de pé e apresenta os conteúdos olhando para a turma.

Áudio Professor: Volta e meia, você faz esses pareamentos sem ter o sorteio exatamente para você tentar criar grupos de comparação que sejam balanceados. O que estou discutindo aqui são métodos experimentais, onde o balanceamento já vem do sorteio. Mas mesmo que você tenha o balanceamento vindo do sorteio, é super útil você fazer um pareamento antes do sorteio e fazer o sorteio dentro dos pares ou dentro dos grupos. E que gera alguns problemas, que algumas pessoas comentaram aqui, de ponderação disso etc. Lembrando que a PNAD é uma amostra super estratificada e que, portanto, tem problemas de ponderação. Ao fazer esse pareamento, gera-se um problema de ponderação. Os pesos são fáceis de você descobrir quais são. E, para algumas coisas, você precisa usar o peso para outras coisas você n,ão precisa usar o peso. Depende exatamente do que você está fazendo. É igualzinho na PNAD: para algumas coisas, você precisar usar os pesso; para outras coisas, não precisa usar os pesos. Agora, porque é tão importante fazer um pareamento antes de se fazer o sorteio? Antes de mais nada, porque, em vários casos, você obrigado a fazer. Naquele caso que eu mostrei para vocês, do “Protejo”, havia uma pessoa se inscrevendo na Rocinha e outra pessoa se candidatando em Niterói ou na Vila Kennedy. A pessoa que se candidatou na Vila Kennedy não virá ao programa na Rocinha. Mesmo porque, não vão deixar ele entrar! (risos). E a pessoa da Rocinha não vai conseguir fazer a o curso na Vila Kennedy pelas mesmas razões e porque a passagem de ônibus vai ser cara, além que ele vai ter que gastar duas horas de ônibus para ir de um lugar para o outro. Logo, os sorteios têm que ser feitos dentro do lugar onde a pessoa se candidatou. Além disso, como mostrei para vocês, em cada lugar, havia quatro células. Então, eram 152 sorteios, que foram feitos para gerar os 2.425 beneficiários e 2.432 jovens de controle. Esses beneficiários estão espalhados por estes agrupamentos. E estes controles estão espalhados por este agrupamento. O ideal é que todos esses agrupamentos tivessem o mesmo número de controle e o mesmo número de tratamentos. Em vários deles, não deu excesso de demanda. E, portanto, não têm nenhum controle. E há inclusive uns que não tem nenhum tratamento, porque ninguém se candidatou. Então, perdem-se vários desses aagrupamentos. Mesmo que eu balance, mesmo havendo dois para um de candidatos, não há dois para um de candidato em cada um desses sorteios. Então, a minha amostra acaba sendo só com base em 93 sorteios. Só em 93 sorteios, eu tinha pelo menos cinco controles e pelo menos cinco tratamentos. E o que eu fiz foi escolher cinco controles e cinco tratamentos em cada um desses 93 agrupamentos. Então, eu fiquei com essa quantidade. Essa era a minha a minha amostra que eu parti para para fazer o estudo. Então, eu só fiquei, na verdade, com 11 grupos, onde eu tinha pelo menos cinco controles e pelo menos cinco tratamentos. Então, respondendo a pergunta que foi feita. Ter muito controle e pouco tratamento ou ter muito tratamento e controle são duas coisas ruins. Porque, na verdade, o que se está fazendo? O seu estimador de impacto é a média em um grupo menos a média do outro grupo. Logo, o seu estimador depende de uma diferença de duas médias. Se você quiser trabalhar em variação, é a média das variações. A variância em uma diferença de duas coisas estocasticamente independentes é a soma das variâncias. Então, tem que se somar as variâncias. Se você tiver um tamanho de amostra fixo, a melhor coisa é você balancear. Como o desvio-padrão varia com a raiz quadrada, com a função côncava, qualquer desbalanceamento aumenta a sua variação. O melhor é você ter o mesmo número nos dois casos. Você pode fazer uma conta simples e perceber. Então, o ideal é você ter tantos controles quanto tratamentos. Evidentemente, não se consegue ter isso, porque depende do excesso de demanda, depende do excesso da oferta etc. E obviamente, jogar fora a observação para ficar balanceado não ajuda nada, certo? Só piora também. Tipicamente, o que você queria era aumentar onde não se consegue aumentar. Diminuir ou free disposal é sempre possível. Se pode jogar fora aleatoriamente a sua informação. Então, é claro que desbalanceamento é uma coisa ruim. Quanto mais balanceado, melhor. Mas, nem sempre você pode fazer. Qual é o custo de sair de 152 para 93? Nestes 93, dentro de cada um, eu tive um sorteio e, portanto, validade interna perfeita. A validade externa é aquilo que eu falei. Já perdi. Eu não sou nem representativo dessas pessoas aqui. Mas, obviamente, eu já estava em 19 bairros não aleatoriamente escolhidos do Rio de Janeiro, que não é Brasil. Nem é o Rio de Janeiro inteiro. Já não era representativa de muita coisa. Ficou menos representativo ainda. Mas, é o que você precisa para continuar tendo validade interna e ,portanto, tendo controle e tratamento ali dentro. Depois, pode-se tentar fazer alguma coisa para ganhar validade externa. Mas, validade externa e avaliação experimental são quase que antônimos. Ninguém consegue. Tem que rezar para que o impacto seja razoavelmente constante e, portanto, a heterogeneidade não ser tão importante assim. Aí, eu queria falar para vocês rapidamente também daquele trabalho que eu estava falando para vocês. O das creches. Eu tinha em 2008, 12 mil vagas e eu tive 25 mil candidatos para essas 12mil vagas. Ou seja, eu tinha uma razãode dois para um. Só tem que esses dois para um estavam, na verdade, espalhados por mais de 100 creches na cidade do Rio de Janeiro. Então, vou mostrar aqui rapidamente para vocês. Como esse sorteio foi feito? Dá um trabalho fazer esse sorteio, mas a vantagem disso é que a gente está até hoje seguindo essas crianças, desde 2007 até agora. E se consegue avaliar o impacto com uma coisa experimental. Então, isso aqui era o que a gente fazia publicamente. A CRE são as regionais educacionais da cidade do Rio de Janeiro. São 10 regionais educacionais. A gente fazia esses sorteios em cada uma das regionais. Sentava lá na regional, sorteava todos os alunos, de todas as creches, daquela regional. Um monte de gente, das creches, pais etc. Então, o sistema era esse. Se escolhia a CRE onde você estava, a regional onde você estava, escolhia-se a creche... Aqui, eu escolhi a Senninha. E cada creche tem quatro turmas. não adianta você querer sortear as crianças, porque uma criança tem 1 ano de idade e a outra tem 3 anos. Não adianta dizer “você sim, você não”, porque uma pertença a uma turma e a outra àquela turma. Se não tem vaga nessa turma, então não adianta sortear. Então, o que tem que se fazer é, dentro de cada creche, quatro sorteios. Porque se a criança tem 3 anos, ela tem que ser sorteada para uma turma de Maternal 2. Se ela tem 2 anos, ela tem que ser sorteada para uma turma de Maternal 1. Se ela não tem nem um ano, ela vai para o Berçario 1. Então, aqui você tem o total de inscritos. Eu tive 34 que se candidataram para o Berçário 1, 60 para o Berçário 2. Só que, no Berçário 2, eu tinha zero vagas. Então, 60 candidatos mas zero vagas. Então, não teve sorteio, porque não tinha vaga. Aqui eu tinha 34 candidatos e 21 vagas. Teve um sorteio. E daí o sistema travav. Uma vez que se tinha o sorteio, ele bloqueava para ninguém ficar sorteando em cima do sorteio que já tinha sido realizado. Então, esse sorteio não podia fazer. Eu estava numa situação em que eu podia fazer o sorteio do Berçário 2, mas não tinha vaga. Então, não ia fazer o sorteio. Logo, tinha esse caso aqui, que é o Maternal 1, de crianças de 2 a 3 anos, onde eu tinha 57 inscritos. Tinha um critério aqui também de vulnerabilidade. Se a criança claramente não fosse vulnerável, ela entrava aqui e ficava no fim da fila. Todas aqui obviamente sabiam qual era o critério e todo mundo se declarou vulnerável de alguma maneira. E esse critério era bem amplo. Era um critério tipo “ou”. Então, todo mundo tinha algum tipo de vulnerabilidade. Mas eu tinha 13 vagas! Então, eu tinha que sortear essas 57 crianças com essas 13 vagas. O que o sistema fazia? Primeiro, ele partia para a lista dos inscritos. Aqui nesta tabela, estão todos os inscritos. Obviamente, que você podia rolar isso, puxando isso daqui e apareciam os nomes de todas as crianças. Então, todo mundo podia ver se tinha se inscrito mas não aparecia no sorteio. Bom, o passo seguinte, que é o sorteio. O que a gente vai fazer? Eu sei que eu tenho 57 inscritos e eu sei que tenho 13 vagas. O que eu vou fazer aqui é sortear, sem reposição, 57 números. Eu vou atribuir a cada criança dessa, um número entre 1 e 57. E tem uma tecla que sorteia. O que a gente fazia? Apertava a tecla “Sortea” e aparecem aqui números aleatórios. Aí pode-se falar: “isso aí é embromação!”. “Está bom! Então, escolhe uma criança e pede para ir lá na frente apertar quantas vezes quiser. Vocês vão ver os números vão ficar misturando, está certo?”. Então, ficava-se testando isso aqui para ver que era um negócio sério. O que vai acontecer aqui? Quem tiver número de 1 a 13, vai entrar. Quem tiver 14 em diante, não vai entrar. Então, clicava-se aqui no botão até sentir que a coisa era honesta ou quando parecia honesto. E lembrando que sempre parece o honesto porque número aleatório é aquela coisa! Ninguém sabe gerar números aleatórios. Gera pseudo números aleatórios. Havia um protocolo com o TCE para certificar de que isso era honesto. No final da história, todo mundo ficava cansado e dizia: “aperta uma vez que está ok”. Falava-se: “a gente vai combinar quantas vezes se aperta. Se apertar três vezes, você pára na terceira”. Porque senão, fica-se apertando aqui até aparecer uma coisa e isso não é sorteio! Ok, pode-se escolher quantas vezes vai apertar e todo mundo escolheu sempre um racionalmente. Se apertou uma vez, o que deu? Deu isso aqui. Aqui deu que o Filipe é o primeiro da fila (com número 1). E o primeiro que não entra é Ana Luiza (com o número 14). Então, o próximo passo era separar isso em dois grupos, dessa maneira que está aqui: Filipe é o primeiro, Ana Luiza é a décima quarta e aqui era a nossa lista de espera. Este outro aqui eram os nossos selecionados. Quem a gente tem conseguido ao longo do tempo, são essas crianças (grupo dos selecionados) e as treze últimas dessa lista de espera. Obviamente, a gente escolheu as trezes últimas porque isso aqui é aleatório e essas crianças aqui tinham uma grande chance de virem para cá (nos selecionados), se houvesse vaga. Então, a gente escolheu o final da lista. Mas você pode usar, na sua avaliação de impacto, a ordem com que isso aqui foi escolhido, porque a ordem é aleatória. Não é só “Sim” e “Não”, mas o número é aleatório. O número dele na fila de espera é aleatório. Então, pode ser usado como variável instrumental ou qualquer coisa que se queira fazer. Feito isso, a gente tinha controle e tratamento. A gente fez uma linha de base e medimos a renda per capita deles. Olha a distribuição da renda per capita dos beneficiários na lista de espera! É impressionantemente uma em cima uma da outra. Obviamente se eu quisesse fazer isso, eu podia fazer com um matching a posteriori. Eu podia falar: “eu não preciso de sorteio para fazer isso. Escolhe da maneira que você quiser. Escolhe e me dá a distribuição de renda no grupo de tratamento”. Daí, eu vou no grupo de quem não está na creche e arranjo uma distribuição exatamente igual a essa. Você consegue isso pelo sorteio. Isso quer dizer o seguinte: se você consegue isso para distribuição de renda, você consegue isso para várias outras variáveis. A gente tem uma centena de variáveis calculadas e todas elas são coisas desse tipo. O que quer dizer que os não observados devem seguir o mesmo padrão, o que é a grande vantagem da seleção aleatória. Essa aqui é a minha amostra. Ela está em 209 sorteios. Então, na verdade, você tem que ter uma estimativa para cada uma das 209 células e depois vai fazer uma média disso, que se pode fazer ponderada, não ponderada, como você achar melhor. Então, a minha amostra está espalhada por 209 sorteio que foram feitos. Mas esses sorteios são 209 porque eu fui obrigado. São várias creches e vários agrupamentos dentro daqueles quatro agrupamentos de cada creche. Então, na verdade, são 400 agrupamentos em potencial, mas que só existiram 200. Eu fui obrigado a fazer 209 experimentos. Mas existem vários casos em que você não precisa fazer agrupamentos e você faz agrupamentos de qualquer maneira. Qual é a vantagem de se fazer o agrupamento mesmo quando não se é obrigado a fazer o agrupamento? Fala-se assim: “você pode fazer um único sorteio!”. Daí você responde: “mas eu não não quero fazer um sorteio. Eu vou criar pares, que, a posteriori, vão ser controle e tratamento, mas que a priori eu não sei. Eu vou parear eles e depois eu vou sortear, dentro de cada par desses, um controle e um tratamento”. Qual é a vantagem disso? A primeira vantagem disso é que o pareamento vai aumentar a sua eficiência. O que é a variância do estimador de diferença? É a variância de uma média aqui menos uma média aqui. A variância de uma diferença de médias. A variância de uma diferença de média de duas coisas independentes é a variança desse mais a variância deste, certo? Se eu tenho grupos, é a variância dentro do grupo. Vocês já viram aquela famosa fórmula da decomposição da variância? Onde a variância de “Y” é igual ao valor esperado da variância de “Y”, dado “X”, mais a variância do valor esperado de “Y”, dado “X”. A questão toda é a seguinte: fazendo os agrupamentos, eu só tenho que lidar com essa variância aqui do começo. Essa outra parte da variância, eu elimino. É por isso que todo mundo que faz amostragem, faz uma amostragem estratificada. Toda amostragem estratificada tem um menor erro de medida do que uma amostragem não estratificada. Se eu fizer uma amostragem não estratificada de uma população onde metade são mulheres e metade são homens, eu não garanto que, nessa minha amostra, metade são homens e metade são mulheres, o que é uma fonte extra de variabilidade. Mas, se eu fizer uma amostra onde eu digo: “estratifica. Tira uma amostra de mulheres em uma amostra de homens”. No final, eu sei que metade vão ser homens e metade vão ser mulheres. Então, uma fonte de variabilidade é eliminada na hora em que eu estratifico. Então, é exatamente o que acontece aqui. Na hora em que você faz esse pareamento, a priori, você está eliminando uma fonte de variação. Se você tem uma uma avaliação experimental, pode-se estimar somente pela primeira diferença ou por diferença em diferença. Mas você pode usar regressão para reduzir a variância, para ganhar eficiência. Mas, se você fez um pareamento baseado nesse “X”, no fundo você implicitamente já controlou por esse “X”. Então, essa sua regressão nesse “X” não vai somar mais nada, porque isso já está no seu pareamento. Então, por parear, você reduz a fonte de variabilidade e melhora o seu estimador. Um caso radical ajuda você a entender isso. Suponham que eu tenho pessoas de dois tipos: Tipo A e Tipo B. Todas as pessoas do Tipo A são exatamente iguais. E todas as pessoas do Tipo B são exatamente iguais. Seu eu sortear aleatoriamente o tratamento e o controle, a média do tratamento e a média do controle vão ser diferentes por duas razões. Quem me diz porque? Entenderam a ideia? Tem pessoa Tipo A e pessoa Tipo B. Daí, eu coloquei todo mundo junto, escolhi por sorteio quem vai pra cá e quem vai pra lá. Dei um problema para um grupo e um problema para o outro grupo. Porque essa média daqui vai ser diferente daquela média ali? Quem chuta? Tem duas razões porque essa média aqui seria diferente dessa outra média. Uma razão é obviamente por causa do programa. Mas qualquer diferença entre esse grupo e esse outro grupo é devido ao programa? O que pode dar diferente? A porcentagem de A e B. Se eu fizer um único sorteio, a diferença entre a média em um grupo menos a média no outro grupo vai ser igual ao meu impacto mais a diferença na proporção de “Bês” em 1 menos a propoção de “Bês” em 2, vezes um número. Eu não sei o quanto pertenceu o grupo B afeta esse resultado. Mas eu falei: “o grupo A e B têm resultados diferentes”. O que acontece? Na hora em que eu pego o meu conjunto e seleciono metade pra cá e metade pra lá, mesmo que A e B sejam meio a meio da população, nessas minhas amostras eles não vão ser meio a meio. Vai ter uma flutuação. Essa flutuação vai somar aqui e eu vou ter que separar isso entre isso e isso. Na verdade, o que vai ser a variabilidade disso? Vamos dizer que o impacto é igual para todo mundo. Isso aqui é uma constante. Cada vez em que eu fizer um sorteio, essa diferença vai ser diferente. Por que? Porque a proporção de pessoas no Grupo B tratamento e a quantidade de pessoas do Grupo B controle vai ser diferente. Eu faço a média no tratamento e no controle. Vamos dizer que o impacto seja 10. A diferença vai dar o quê? 10 mais ou menos alguma coisa. O que é esse “mais ou menos alguma coisa”? É o fato que, na hora em que eu fiz aquele sorteio, por acaso deu mais B do lado de cá e menos B do lado de lá. Ou deu menos B do lado de cá e mais D do lado de lá. Se eu observo essa variável, é aquela coisa: eu faço uma regressão, a posteriori, que corrige por isso. Mas eu vou ter que fazer uma regressão a posteriori que corrigi por isso, eu vou perder um grau de liberdade por caisa desse “alfa”etc. Se eu pegar os “As” e colocar de um lado e os “Bês”, do outro lado, e fizer o sorteio dentro dos “As” e dentro dos “Bês”, o que vai acontecer? Na hora em que eu calculo a diferença entre os “As”, eu tenho exatamente “delta”. E se eu fizer essa diferença entre os “Bês”, eu vou ter exatamente “delta”. Então, nos dois grupos, eu vou encontrar exatamente “delta” sem variabilidade nenhuma, porque todo mundo ali dentro, por definição, era igual. A única diferença que existe entre eles é que um recebeu o programa e outro não recebeu o programa. E a gente chegou à conclusão de que o impacto do programa é fixo. Logo, eu vou obter certos valores em um grupo e, no outro grupo, os mesmos valores mais “delta”. Então, isso vai eliminar parte da minha variabilidade em geral e, portanto, vai reduzir a minha variança. Então, para que eu faço um pareamento a priori? Em parte, porque eu sou obrigado. E em parte, porque está ao meu favor fazer isso. Por que é que alguém vai te dar um conjunto de escolas, jogar todas elas em um pote e sortear? Você fala: “espera aí. Eu não vou fazer isso! Eu vou pegar as que são menores e juntar um grupo. As que são maiores, vou juntar um grupo. E sortear ali dentro daqueles grupos. Daí eu garanto que todos os grupos estão balanceados no meu sorteio. Ou seja, eu já saio do meu sorteio com um conjunto de variáveis “X”, que eu não preciso fazer aquele teste para avaliar se elas são balanceadas. Eu já sei que elas são balanceadas. Porque eu já balancei a priori”. Pode facilitar um pouco você avaliar a heterogeneidade do impacto, porque existem esses vários grupos. E aí você tipicamente separa aqueles que você acha em que o impacto vai ser diferente dos outros. Mas isso vai depender do tamanho da sua amostra. O mais importante para isso é o atrito. O inimigo mortal, o grande inimigo da avaliação de impacto experimental é o atrito. Não existe nenhuma solução para o atrito que não seja você abrir mão do desenho experimental. Um desenho experimental com atrito é um desenho não experimental. Basicamente isso. O atrito destruiu o sorteio! Se você tinha um sorteio, vem um atrito. A menos que o atrito seja aleatório, por razões desconhecidas. Mas aí, se o atrito é aleatório, pode-se dizer que os beneficiários são aleatórios também! Certo? Então, não há como eu demonstrar. Dado que o atrito, por definição, eu deixei de observar alguém, eu não tenho como saber se aquele alguém é um componente aleatório da minha amostra ou não. Provavelmente deve haver uma razão pela qual eu não conseguiu entrevistar aquela pessoa mas consegui entrevistar os outros. Então, deve ser tudo menos aleatório. Então, o atrito mata, em princípio, a avaliação de impacto experimental. É o pior inimigo da avaliação de impacto experimental. A grande maneira de resolver o problema de atrito, talvez a única maneira, é não ter atrito! Agora, o pareamento resolve o problema do atrito, em certo sentido. No caso do “Jovem de Futuro”, eu tenho 400 experimentos. No caso das creches, eu tenho 200. Se em 10 deles eu tenho atrito, simplesmente eu jogo os 10 fora! Daí vocês falam: “se você jogar os 10 fora, você não afeta o experimento?”. Não, porque eu fiz um experimento dentro dos compartimentos. Então, o experimento neste compartimento não tem nada a ver com jogar este fora. Eu perco a validade externa? Perco, porque agora o meu universo é o universo daqueles que participaram do sorteio, que já é restrito. Eliminamos aqueles que não deram o excesso de demanda. Eliminamos aqueles que não deram excesso de oferta. Eliminamos aqueles que eu perdi por atrito. Mas a minha validade interna está perfeita. Dentro desse universo, eu estou estimando exatamente o valor correto. Também se perde eficiência, porque se está jogando fora compartimentos. Obviamente, ter 100 compartimentos é melhor do que você ter 55. Então, é sempre bom fazer isso. No caso do “Jovem de Futuro”, a gente consegue jogar fora vários compartimentos. Por isso que é também bom você fazer pares, porque, quando você faz pares, você tem um número grande de compartimentos. E se um não foi observado, você só está perdendo um outro observado. Em geral, no atrito, uma das pessoas é não observado. Se os dois não foram observados, você já não tinha o par mesmo. Quando você faz grupos de sete, se voc6e atrito com uma pessoa, você tem que jogar os sete fora. Então, essa é outra vantagem de você fazer os pares. É sempre melhor. Deixa eu só mostrar para vocês aqui, rapidamente, uma coisa. Teste da existência da heterogeneidade. Isso aqui é uma coisa bem prática, certo? Conselho do Unibanco: Pedro Mallan, Marcos Lisboa, Cláudio Moura Castro e Pedro Moreira Salles. Qual era a informação que eles tinham que deixam eles zonzos? Isso aqui, na tabel,a são os lugares onde o programa existia. Aqui, a estimativa. Eles olhavam para isso e diziam: “você está me dizendo que o impacto vai de 0 a 10!? Sei lá se isso tem impacto! Você está me dizendo que um alunot tirou uma nota que vai de 0 a 10. Ok! Mas o que isso me diz? Você está me dizendo que meu impacto pode ser 0 ou pode ser 10? Eu tenho impacto ou não tenho impacto? E se existe impacto, que história é essa de ser 0 ou ser 10? Isso dizer que o meu impacto depende à beça de qual o lugar que estou fazendo o programa? Então, eu não sei que se eu for par um outro lugar, o programa vai ter impacto ou não! Porque pode ser 0 ou pode ser 10!”. E aí, o Pedro Moreira Salles liga para o governador e fala: “você quer o programa ou não quer o programa? Eu vou levar o programa aí, mas eu não sei é 0 ou 10 o impacto, entendeu?”. (risos). Eu vivia dizendo: “vocês estão interpretando isso errado, porque esse impacto está sendo medido com um erro! Então, esse impacto, na verdade, ele é 5! Mas ele é um 5 medido com erro, porque todo impacto você mede com erro! 5 medido com erro, dependendo do tamanho do erro, pode ser 0 ou pode ser 10”. Não convencia muito. Essa tabela, eu acho, que foi mais convincente, embora ela não seja definitiva, porque o poder estatístico dessa análise é limitado. Então, por que esse número é diferente daquele número? Tem duas razões para estes números serem diferentes. Uma razão é simplesmente o seguinte: se eu medir várias mesas, vai me dar números diferentes, porque eu tenho um erro de medida, mesmo que as mesas sejam iguais. Então, se houver uma fábrica que diga que todas as suas mesas são iguais. Daí alguém diz: “mas eu medi e elas deram diferentes”. “Bom, tudo bem. O problema é com a sua medida”. “Como você sabe que o problema é na medida e não é na sua fabricação?” Essa é a questão. Os números de medida da mesa deram diferentes porque você me deu mesas diferentes ou porque a minha medida tem erro? Então, esse é um problema fundamental em avaliação de impacto e em análise de heterogeneidade do impacto. A única maneira de se resolver esse problema é se souber a precisão com que eu meço o tamanho da mesa. Se eu meço o tamanho da mesa com mais ou menos 1 centímetro e uma mesa me deu 30 centímetros maior do que a outra, eu vou dizer: “a mesa é maior que a outra! Não é um problema na minha medida! É um problema na sua fabricação!”. Isso envolve eu comparar a variabilidade das medidas com o erro de medida. Quando eu estou medindo a mesma coisa, com que variabilidade eu meço? Como é que a gente fez isso aqui? A gente fez o seguinte: em Goiás, eu tenho 25 experimentos. Eu posso argumentar que, em Goiás, o impacto é mais ou menos o mesmo, embora se possa ter uma variabilidade também do impacto dentro de Goiás. Então, como eu meço o impacto de Goiás 25 vezes, eu consigo descobrir qual é a variabilidade desses 5,8. Na verdade, o erro padrão dessa estimativa, que deu 3,8. Tanto é que eu crio um intervalo de confiança que vai de menos 1 a 12. Isso tudo está medido na escala SAEB. Um aluno no ensino médio aprende alguma coisa como 25 pontos na escala SAEB. Só para vocês terem uma ideia. Então, 12 é coisa para caramba! 12 é a metade do que um aluno aprende nos três anos do ensino médio. 7 é, mais ou menos, o que ele aprende por ano, no ensino médio. Então, aqui eu obtenho uma estimativa de qual é a flutuação desse lugar. Aqui, no Pará, eu só tenho 15 medidas, certo? E pode ser que, no Pará, a variabilidade seja maior porque as escolas são mais heterogêneos e etc. Daí o meu erro é esse aqui. Então, eu tenho essas várias medidas e eu tenho qual é a precisão dessas várias medidas. Então, isso permite criar uma estatística em que medida essa variabilidade aqui pode ser explicada por erros de medida ou não. No Pará, eu medi 10. Isso aqui é a minha minha média global, de tudo. Eu estava dizendo para o conselhodo do Unibanco. O impacto é 5. Aí eles: “5 ou nada, 0 ou 10.. é qualquer coisa!”. Eu disse: “não, calma! vou te mostrar que é 5. Está vendo esse 10? A diferença entre 10 e 4,6 é 5,6. Mas qual é o erro de medidas nesse 10? É 4,7. Então, se tem uma coisa com erro padrão de 4,7, o intervalo de confiança é mais ou menos duas vezes isso. Ou pelo menos, uma vez e meia. Então, é mais ou menos 7. Então, se eu tenho uma diferença de 5,6, não é significativo!” Então, você vem aqui e calcula esse número dividido por esse outro número, ao quadrado a esse número aqui. Você estará criando aqui uma qui-quadrada. Ou seja, esse número menos esse número, dividido por esse número, você coloca isso aqui. Isso vai ser como se fosse uma qui-quadrada com um grau de liberdade. Só que eu fiz isso aqui uma vez! Se fizer isso só uma vez, fica muito difícil de saber. Aí, você faz isso todas as vezes. Para cada um desses números, você pega a diferença daqui para cá, divide por isso, eleva ao quadrado e põe aqui. Se isso aqui está perto de um, quer dizer que esta distância daqui para cá é igual ao seu desvio padrão. É o que você devia esperar. Ou seja, esta distância aqui ao quadrado, o valor esperado dela, é o quadrado disso aqui, que é a varância. Então, essa distância daqui ao quadrado, em média, tem que ser igual a isso. Logo, você pega essa distância aqui ao quadrado, divide por isso ao quadrado e coloca aqui. Isso aqui devia estar perto de um. Se está perto de um, essa diferença aqui é erro de medida, está certo? Se eu pegar aquilo que eu estava falando: 30 centímetros de mesa e dividir por 1 centímetro, que é a precisão da medida, iria dar 30. E quando eu pego São Paulo, o que acontece? Esse 0 tem precisão 2! O que é estatisticamente diferente de 4,60. Concordam? Se eu medir 0 e disser que a sua precisão é 2, em uma coisa que mede 5, não dá. Por que? Porque essa diferença aqui é 4,3. Dividido por 2,1, vai dar 2. Ao quadrado, vai dar 3,9. Isso aqui não é um. Mas obviamente que eu posso ter dado azar aqui. Por isso que eu fiz a conta para cada uma dessas coisas. Fazendo uma vez só, o poder estatístico é muito baixo. Você soma tudo isso, você tem isso aqui que é uma qui-quadrado, conhecido como Cochran em Q. É uma medida de heterogeneidade. A distribuição disso é uma qui-quadrada, que se perde um grau de liberdade. Então, aquela soma ali devia dar 7. Só que, como você está subtraindo de uma média global, você perde um grau de liberdade e vira. Então, aquilo é uma qui-quadrada com 6 graus de liberdade. A média de uma qui-quadrada com 6 de liberdade é 6, certo? Então, você tem que pegar aquele número, jogar aqui nessa distribuição e ver se a variabilidade esperada é isso aqui. A média. Se der para cá à esquerda, você está abaixo da variabilidade esperada. Se der para cá à direita, você está acima da variabilidade esperada. Mas obviamente, evidências de heterogeneidade a gente vê nessa cauda aqui. O número dá 8. E o número da tabela dá 8,3. Então, esse 8,3 me põe nesse ponto aqui da tabela. Um pouco desconfortável, porque está acima dessa média, embora não esteja tanto para cá! Agora, você percebe que esse número 8 é o que importa. Agora, se você olha de novo para o dado, você vê o seguinte: este 8 vem desse 4 aqui. Então, a minha evidência de heterogeneidade vem de São Paulo. Se eu somar o resto, vai dar tudo bem. Então, eu tenho alguma evidência de heterogeneidade, que vem de São Paulo. Enquanto que aqui, por exemplo, em Língua Portuguesa, eu não tenho. Olhem só! Dá tudo muito baixo, apesar de os números aqui irem de 10 a 2. Esse de 10 a 2 é a variabilidade de medida. Esses impactos são medidos com erro. Então, isso aqui está mostrando o seguinte: a variabilidade das estimativas de impacto não quer dizer que o impacto seja heterogêneo. Parte da variabilidade das medidas de impacto vem simplesmente do fato de que são medidas de impacto independentes e que, portanto, têm um componente aleatório que deve flutuar. Tem-se que descontar, em certo sentido, esse componente aleatório para se obter uma visão se a variabilidade é grande o suficiente para eu falar que existe heterogeneidade. Então, no caso aqui, isso aqui é 1,9. Então, Língua Portuguesa está aqui na distribuição e, portanto, nenhuma evidência de heterogeneidade, apesar de a estimativa pontual variar de 2 a 10. Enquanto que, em Matemática, há alguma evidência. Então, a tendência do mundo é olhar as estimativas pontuais que variam e interpretar aquilo como heterogeneidade. Nossa missão é chegar para a pessoa e falar: “calma, nem toda variabilidade é heterogeneidade. Parte da minha variabilidade é a variabilidade natural da medida que eu estou usando para estimar o impacto. Eu tenho que subtrair essa variância para poder medir isso”. E o teste Cochran em Q é uma maneira bem simples de você testar a heterogeneidade quando se tem “n” impactos medidos de forma independente. A grande vantagem aqui é que a compartimentalização dos sorteio permitiu ter medidas completamente independentes do impacto nesses lugares. Aqui, eu tenho sete medidas completamente independentes, porque são sete sorteios completamente diferentes. Então, permite-se que eu faça isso.

49:54 ao Fim (Cartela)

Imagem: Ilustração de um mapa múndi em tom azul claro ao fundo. E, em primeiro plano, duas imagens de capítulos posteriores a esta aula com o cabeçalho “Veja Também” em azul escuro. No rodapé, o texto: “Conheça mais em www.redeitausocialdeavaliacao.org.br .

Áudio: Trilha moderna percussiva.