Ir para conteúdo

Biblioteca

Indicadores Socioemocionais

Aula sobre Indicadores Socioemocionais ministrada por Daniel Santos.



Indicadores Socioemocionais - Parte 07

Sétima parte da aula sobre Indicadores Socioemocionais ministrada por Daniel Santos

Ir para a transcrição do vídeo

Transcrição

00:00 a 00:07 (Vinheta de abertura)

Imagem: Vinheta de abertura. Ilustração de um mapa múndi na cor azul clara ocupa toda a tela. A logomarca da Fundação Itaú Social aparece ao centro e alguns ícones na cor branca aparecem formando um círculo central ao redor da logomarca. A logomarca desaparece, dando lugar ao texto em azul escuro: “Curso Avançado de Avaliação de Políticas Públicas e Projetos Sociais”. Na sequência, os textos são substituídos por um retângulo grande azul escuro na parte central da tela. Dentro dele, está escrito: “Indicadores Socioemocionais, Professor Daniel Santos, 7 de Janeiro”. Abaixo do retângulo, também em azul escuro, o texto “Parte 7”.

Áudio: trilha moderna percussiva.

00:08 a 38:26 (Daniel Santos)

Imagem: Professor Daniel Santos, da Fundação Itaú Social, está à frente de uma sala de aula com um telão e lousa verde atrás dele. Ele está de pé e apresenta os conteúdos olhando para a turma.

Áudio Professor: Eu estou querendo trazer a discussão para o nosso caso brasileiro e contar para vocês que, grande parte do que a gente tem feito no Laps e agora no EduLab 21, um Think Tank dedicado à essa agenda, tenta propor maneiras de medir em larga escala e que sirva tanto para monitoramento quanto para avaliação de impacto dessas características ditas não-cognitivas ou socioemocionais. Por causa dessas limitações, a nossa escolha acabou recaindo sobre instrumentos de relato ao invés de tarefa. Empiricamente, a gente, até hoje, teve muita dificuldade para desenvolver medidas de hetero-relato que fossem confiáveis. Então, as nossas medidas principais são todas de auto-relato. Hoje, uma criança muito pequena não consegue falar sobre si mesma. Então, essencialmente a literatura concorda que, entre 9 e 10 anos de idade, é a faixa onde se consegue começar a medir essas características dessa forma. Então, esse tem sido grande parte do nosso foco. Se eu quero comparar um grupo de tratamento e um grupo de controle ou se eu quero comparar duas escolas ao longo do tempo ou no mesmo instante do tempo, o primeiro passo é criar medidas que sejam comparáveis entre grupos. E como é que se lida com todas essas limitações dos instrumentos de auto-relato. Erro de medida, que a gente acabou de discutir, seria uma primeira grande limitação. Especialmente no contexto de avaliação de impacto, alguns dos tratamentos mais sofisticados que têm sido dados é embutir a estimação do teta com estimação do efeito de tratamento em um único estágio, ao invés de fazer em dois. Então, vamos reter isso daquela nossa primeira conversa. A segunda coisa é a necessidade de se saber, seja na avaliação de impacto ou no sistema de monitoramento, lidar com alguns desafios que são fundamentais. Vamos tentar motivar cada um deles e vocês vão ver que uma parte deles já tem pistas de como tratar e uma outra parte não tem pistas e a gente precisa aprender. O primeiro desafio, que seria o da comparabilidade, é saber como se faz para que as respostas no grupo de controle e no grupo de tratamento não sejam influenciadas pelo simples fato de que um é grupo de controle e outro é grupo de tratamento. Isso pode ser influenciado pela intervenção em si ou pode ser influenciado pelo fato de ter sido randomizado. Se foi randomizado, por exemplo, em nível de escola, é muito difícil isolar o efeito da escola. Seria preciso muita escola para essas coisas realmente se balancearem e anularem o viés de resposta. Mas, pode ser que a intervenção afete também o seu estilo de resposta. E ela pode afetar, porque ela afeta o seu grupo de referência. Então, por exemplo, se a minha intervenção é fazer um mantra de como as pessoas precisam ser pontuais, disciplinadas etc, isso pode mudar quem são os meus colegas e como é a minha referência de como responder a esse tipo de pergunta. Vocês estão aqui no mestrado e doutorado, vão ver que um fenômeno típico quando se termina o doutorado é que o sarrafo vai lá na Lua! Vocês acham que tudo que estão fazendo é horrível. E depois, quando você volta para o mundo dos vivos e começa a entrar em contato com tudo que é feito, vocês veem que existem realmente coisas em se pode contribuir. A própria intervenção de ter feito doutorado pode afetar o que o grupo de referência que com isso afetar como é que eu respondo a um conjunto de intervenção pode afetar o que é o grupo de referência e isso afetar como se responde a um conjunto de itens. E a intervenção pode afetar também os incentivos que existem para responder uma pergunta. Por exemplo, no projeto Jovens de Futuro, que é um programa Instituto do Unibanco e feito em vários lugares do Brasil, a escola ganha 100 reais por aluno, o que é um pedaço da intervenção, mas ela só mantém esse ganho se os alunos forem bem na prova de Matemática. Evidente que eles têm um super incentivo para irem bem na prova de Matemática! O segundo grande desafio é a sintetização, que tem a ver com duas coisas. Primeiro, como eu mostrei para vocês naqueles gráficos de sensibilidade e maleabilidade, nem sempre essas características que a gente está medindo são cumulativas ao longo da vida. Digamos, só para ilustrar, que esse gráfico aqui seja o padrão de desenvolvimento dessa característica, que é uma das mais importantes para predizer sucesso futuro dentro daquelas que a gente mede. Talvez, a minha intervenção seja bem sucedida não se, aos 30 anos de idade, ela tiver deslocado essas duas curvas para cá, mas se o tamanho desse vale tivesse reduzido para cá, porque aqui que é a fase onde as crianças estão nas escolas aprendendo. Se grande parte do porquê de essa característica é boa tiver a ver com o efeito que ela tem sobre o aprendizado, eu não necessariamente quero um deslocamento paralelo, como a gente está acostumado a medir; eu quero uma redução desse vale aqui, eu quero dar um peso grande para quanto se consegue mexer aqui. Esse é um pedaço do problema, que é o fato de ela não ser cumulativa. Um outro problema que existe é que, para várias das características, não é verdade que quanto mais melhor. Digamos que eu queria medir agressividade e eu tenho duas escolas que têm a mesma média. Em uma escola, todos estão na mesma média, na média da população. E em uma outra escola, metade é bandido e metade é carneirinho. Essas duas escolas são iguais? Se eu fizer uma intervenção, pela qual, no início, elas fossem idênticas e, no final do dia, elas teriam uma diferença. Será que o programa não teve efeito, simplesmente porque a agressividade média não mudou? No primeiro problema, é como eu torno duas distribuições comparáveis. Essas distribuições sofrem de vários vieses, que podem ser sistemáticos, e eu quero que as distribuições sejam comparáveis. Um outro problema é saber como eu tenho estatísticas que sintetizem essa distribuição de uma maneira significativa, que tenha significado. Se eu quiser usar isso como ferramenta de monitoramento no sistema educacional brasileiro, eu devo fazer que nem eu faço com Matemática onde eu computo a média e faço um ranking? Ou não, tem que se fazer uma outra coisa? Isso aqui a gente ainda não tem uma resposta! Isso é um bocado complicado. E se a gente não resolver isso, essa agenda vai ter sérias dificuldades de avançar. Na estimação, eu já falei para vocês sobre o erro de medida, que, no fundo, está relacionado com o problema de valor adicionado. Mas, valor adicionado também tem um pouco a ver com a discussão de TRI que a gente a discutiu. Então, esse pedaço, eu vou dizer que a gente discutiu já grande parte dele. O que a gente não discutiu ainda? Lembra que eu falei para vocês que grande parte dos instrumentos de auto-relato, no limite, são sempre a sua autopercepção sobre uma característica sua? Se começarmos a colocar isso em um frame um pouco mais sofisticado de economia, podemos pensar que alguns desses instrumentos medem como você e outros como você se percebe, sempre influenciados pela sua autopercepção das duas coisas. Alguns são desenhados para capturar características que variam menos e que, portanto, têm mais a ver com você é; e outros, quão você se percebe. Na avaliação de impacto, a escolha das medidas também é bastante influenciada por isso. Se o que se quer medir é o impacto sobre o resultado final da nota de Matemática, ela é bastante influenciada por como você é, por quanto você sabe de Matemática. Se o resultado é “eu decidi fazer faculdade no final do segundo grau”, talvez seja muito influenciado por quanto você acha que é o seu potencial de Matemática, mais do que quanto é o seu potencial de Matemática. Então, instrumentos que capturam crenças, autoconceito, a gente acha que conduzem principalmente esse tipo de resultado e de decisões. Ao passo que, instrumentos de traço conduzem mais resultados. Então, aqui são alguns desafios. Mas a gente precisa ter isso aqui tudo claro até para poder propor como ferramentas de política pública no longo prazo. E o quarto desafio é que é muito difícil fazer progresso nessa literatura sem ter uma teoria de mudança por trás. Isso é verdade para avaliação de impacto em geral, mas é especialmente verdade para esse ramo da literatura. O que são os trade offs e por que as estimações não randomizadas ainda têm algum espaço na literatura? E, na minha opinião, elas vão voltar a ter muito mais espaço. Na avaliação de impacto, ela quase que resolve apenas um problema de extração de sinal. Essa intervenção funciona ou não funciona? É como se eu tivesse dois eixos, um “X” na horizontal e um “Y” na vertical. E daí uma curva aqui no meio. E eu quase consigo extrair uma espécie de derivada parcial. Eu não sei se isso aqui valeria se eu fizesse essa mesma intervenção para quem tem esse “X” para cá, antes da curva Eu não sei se, aumentando a dosagem dessa intervenção, o efeito aumentaria ou diminuiria. Eu quase que tenho um problema de extração do sinal. Aquela intervenção empacotado daquela específica forma teve ou não teve impacto? E eu consigo medir isso de maneira muito rigorosa. Em política pública, a gente percebe que cada vez mais é preciso pegar daquela intervenção, que quase sempre é um monte de mudanças empacotadas, e saber quais são os ingredientes centrais ou os princípios ativos que realmente estão fazendo diferença aqui dentro, porque, nem sempre, se consegue replicar todos eles. O Perry Preschool, que tem um efeito enorme na idade adulta, tem um dos ingredientes fundamentais! As pessoas que criaram a intervenção são apaixonadas pela intervenção e estão dispostas a fazer de tudo para aquilo dar certo. Aquilo não é escalável, não se consegue replicar. Em várias tentativas de se fazer o Perry Preschool em outros contextos, não tiveram o mesmo impacto do Perry Preschool! Pode-se copiar o currículo, as atividades, ir na casa das pessoas... mas parece que há um ingrediente especial! Em outras palavras, em teoria de mudança, é descobrir porque algo está levando a um determinado ponto. Isso é super útil para a Ciência, para descobrir, de maneira precisa, que isso causa isso. Mas, em política pública, a gente precisa ganhar grau de liberdade para saber se isso aqui vai funcionar para todos os grupos, quais ingredientes funcionam mais etc. A segunda coisa é que os impactos nem sempre são contemporâneos. Em várias das intervenções educacionais, quando se mede o impacto cognitivo, existe fading out, desaparecimento ao longo do tempo, e os socioemocionais parecem que são de menor magnitude no curto prazo, mas são mais estáveis. No topo disso, a gente está mais interessado em essas duas coisas intermediando resultados futuros. E com a teoria da mudança, já é difícil. Sem ela, é quase impossível lidar com o problema de simultaneidade que existe. Eu consigo saber se uma intervenção educacional teve impacto sobre autoestima. Mas, se o meu objetivo é saber quanto a autoestima tem impacto sobre salário ou quanto a autoestima tem impacto sobre a nota de Matemática, eu tenho um problema. Mesmo que haja uma variação exógena na autoestima, que já é difícil, no microssegundo seguinte, porque a nota de Matemática aumentou, ela já tem um feedback na autoestima e assim por diante. Se não há uma teoria de mudança, não se põe estrutura que seja defensável no modelo para conseguir isolar os efeitos de feedback, já se perde rapidamente a noção de o que está causando o quê. A parte que a gente conseguiu fazer mais progresso está na comparabilidade, que, no fundo, a chance de o negócio avançar é zero. 0 resto a gente acha que é super importante, mas, em alguma hora, alguém vai achar maneiras criativas de usar. Se a gente não consegue comparar duas distribuições, tratamento e controle, escola A com escola B, a coisa realmente empaca. E a gente tem interessado especificamente esses problemas aqui dessa tela: aquiescência, pontos absorventes, distração e fadiga, grupos de referência e overclaiming. Overclaiming, menos. A solução tipicamente neste caso são aquelas cascas de banana de tentar ver quanto o sujeito está exagerando no que ele sabe ou não sabe. Mas, para o tipo de instrumento que se tem agora, não tem sido uma prioridade. A gente tem preferencialmente se dedicado a esses quatro primeiros problemas. Aquiescência, como eu falei para vocês, é a tendência a concordar demais ou discordar demais das perguntas. Então, deixa eu falar aqui sobre que controles a gente pode incluir no questionário que permitem lidar com viés da aquiescência. A forma mais simples é incluir perguntas opostas no questionário. Eu posso perguntar “quanto você é feliz” na pergunta 1, e “quanto você é triste”, na pergunta 2. Então, imagina que eu tenho um instrumento que tem itens com a seguinte estrutura: um item de amabilidade, um item de abertura a novas experiências, um item de estabilidade emocional, um item de extroversão e um item de conscienciosidade. Então, um de cada. Bom, vamos imaginar que uma pessoa só use um pedaço da escala a pergunta relacionada à aquiescência. E que uma outra pessoa, usa a escala inteira. Aí, eu resolvo filtrar isso porque eu quero comparar ambas as pessoas. Mas, eu sei que a primeira pessoa só usa um pedaço da escala. Portanto, se eu não fizer nenhum tratamento, o resultado vai ser mais alto. O que eu posso fazer é colocar pares opostos. Por exemplo, este item aqui: “você se mantém calmo, sem estourar quando provocado”. Um par oposto seria: “quanto você estoura na primeira provocação”. A propriedade que os pares opostos têm é que a soma deles deveria dar sempre 6 e a média, 3. Qualquer desvio da média 3 é um sinal de viés de aquiescência. E, se eu detecto isso, eu posso depois incluir uma sequência de pares opostos no instrumento, tomo a média deles e usar isso para deslocar os seus resultados finais, anulando isso. Eu posso até fazer de uma maneira um pouco mais sofisticada. Digamos que houvesse uma escala de 1 até 7. Daí, uma pessoa só usasse 5, 6 e 7; uma outra, só 6 e 7; e mais uma, 4, 5, 6 e 7. As médias dos pares opostos, dessas três pessoas, poderia dar igualmente diferente da média global, mas são vieses distintos. Em alguns, eu realmente uso muito pouco da escala. Então, a variância entre as minhas respostas é sempre 6 ou7; a outra é 5, 6 e 7, ou seja, uma variância maior. Então, uma sofisticação seria eu normalizar todas as respostas, tirando a média e dividindo pelo desvio padrão. Depois, ter o controle do viés de aquiescência tirando o desvio com respeito ao ponto intermediário e dividindo pela variância dentro do sujeito das respostas dele. O espírito das correções por viés de aquiescência é se pegar pares opostos e, de alguma maneira, direta ou transformada, olhar para o desvio em relação ao ponto intermediário e recalibrar as respostas do indivíduo. Depois, se quiserem, eu posso passar referências e fórmulas para cada uma dessas coisas. E pontos absorventes? Uma tendência das pessoas é, quando elas não têm muita certeza de nada, marcam “moderadamente” na escala e passam para a seguinte, ou seja, querem se livrar do problema. Um problema crônico nessa literatura e que eu ainda não contei para vocês ainda é o problema do equispaçamento. Suponham o que eu tenha vários itens do tipo 1, 2, 3, 4 e 5, que eu já fiz uma análise fatorial inicial, agrupei as perguntas em torno de escalas e cheguei à conclusão que essas tais perguntas pertencem a um mesmo agrupamento. Se eu tomar a média dessas respostas, chamando elas de 1, 2, 3, 4 e 5, implicitamente estarei supondo que a distância do 1 para o 2 ou seja, do “discordo muito” para o “discordo pouco” é igual às distâncias entre os números seguintes, 3, 4 e 5. Existem vários truques. O mais comum deles é a análise policórica, que é enxergar tudo isso aqui como um grande logit ordenado e empilhado. É também olhar para as proporções empíricas de frequência de respostas. Imaginem que existe uma função sinóide por trás e eu preciso parear com a frequência das respostas. Então, é ver onde que está centrado essa distribuição sinóide. O equispaçamento já é um problema per si, mas, no topo disso, existe o problema dos pontos absorventes. Por exemplo, pode ser que o 3 absorva excessivamente respostas. Então, imagina que, ao invés de isso ser um logit empilhado e ordenado, ele é um logit empilhado e ordenado com inflação de 3. Que nem existe um modelo de contagem com inflação de 0. Este tipo de ideia, que é a mesma coisa que o chute. No fundo, aquilo ali é uma inflação de acertos artificial por causa do chute. A maneira de você modelar a inflação também é isso. Por exemplo, imaginem que o sujeito responde 3. Então, eu vou dizer que a chance de o sujeito responder 3 é igual a uma chance que não tem nada a ver como o sujeito é. A chance do item ser igual a 3 tem um negócio que não tem nada a ver com o comportamento, mas tem a ver com uma característica do indivíduo de responder 3 demais. Então, ele já tem uma inclinação de responder 3. Enfim, eu modelo de um jeito em que eu filtro a inflação de respostas 3, no caso, se eu suspeitar que eu tenho pontos absorventes. Vamos falar agora sobre distração e fadiga. Especialmente se o instrumento é aplicado de maneira computadorizada, pode-se medir o tempo por item que a pessoa levou respondendo. E você pode ponderar, pode dar mais peso para aqueles itens que gastaram mais ou menos tempo. Se não é computadorizado, a gente usa uns truques para descobrir quanto tempo as pessoas gastam por item. Um deles, que é simples de fazer, é o truque da caneta BIC quatro cores. Aplica-se um questionário aos indivíduos e uma caneta de quatro cores é dada para responderem. A cada cinco minutos, pede-se para trocar a cor. Assim, sabe-se quanto tempo em média o indivíduo levou para responder cada grupo de perguntas. E o que seria grupo de referência? Grupo de referência tende a ser o problema mais cabeludo deles todos e que a gente tem tentado lidar. Como é que eu lido com o fato de ser pontual para um brasileiro, um alemão, um mexicano e um coreano serem coisas muito diferentes? E um truque que tem sido usado cada vez mais é o seguinte: antes de a pessoa começar a responder sobre si mesma, eu coloco uma série de historietas sobre uma terceira pessoa. Então, por enquanto, as pessoas não estão falando delas, mas de um terceira pessoa. E terceira pessoa é a mesma, quer você esteja no Norte, no Sul, na zona rural, na zona urbana... E eu vou contar uma história como essa: “Aline costuma deixar suas coisas todas bagunçadas, odeia limpar a casa, deixa a lição sem completar. Quanto você acha que Aline é organizada?”. É uma descrição bastante precisa de como Aline é e pede-se que os respondentes mostrem para mim onde está o sarrafo. O que significa ser organizado por cada um de vocês? Se, para o grupo de referência, os indivíduos têm sarrafos diferentes, vai se revelar aqui. E depois eu vou usar essa resposta que as pessoas deram, e que ainda não são sobre elas mesmas, para recalibrar as suas respostas. Como eu posso fazer isso? Existem várias maneiras. Algumas mais paramétricas e outras menos paramétricas. Existe uma que tem se consagrado como a mais frequente. Notem que essas perguntas do na tela são vinhetas âncora, ou seja, elas são ordenáveis. Tem-se claramente três tipos de meninas. Neste exemplo, Aline é propositalmente a menos organizada, Manuela é a do meio e Juliana é a mais organizada. Então, eu tenho um conjunto de vinhetas e depois eu tenho um conjunto de itens, todos eles do mesmo construto ou do construto correlato. Quanto mais próxima do construto está a vinheta, melhor ela corrige o viés de grupo de referência. Então, pede-se para as pessoas falarem da Aline, da Manuela, da Juliana e depois sobre elas mesmas. Essa é a brincadeira. Bom, como é que funciona uma das formas mais simples de corrigir as vinhetas? Digamos que os indivíduos responderam de formas bem diferentes. E vamos supor que, no final do dia, eles tiveram o mesmo padrão de respostas aos itens. Se eu tenho três vinhetas, eu vou ter duas vezes três mais um possibilidades no final do dia. Minha escala recodificada para as respostas dos indivíduos vai, então, de variar em sete pontos, que é o resultado de duas vezes três mais um. Então, essa técnica para corrigir o viés do grupo de referência pega dois indivíduos, que tinham o mesmo padrão de respostas sobre si mesmos, e tenta usar o juízo que eles fazem sobre as situações de maneira diferente para criar uma discriminação entre eles.

Áudio Aluno: Primeiro, eles respondem às perguntas âncora ou à pergunta principal?

Áudio Professor: Primeiro, às perguntas âncora. pergunta claro Se é sensível a isso ou não, é uma das perguntas que a gente precisa testar. Deixa eu só dizer porque isso. Porque ela tem dois papéis. A gente acredita que, além dela servir para saber onde está o sarrafo, ela aquece as turbinas e começar a botar as pessoas para pensar. Ela facilita a se familiarizar com essa escala de cinco pontos. Mas, é importante deixar claro que isso aqui são coisas experimentais ainda. Isso aqui, no Pisa 2012, foi feito, mas aí volta-se a ter um país com mais médias de conscienciosidade, tendo mais média em Matemática, depois dessa correção! Então, não é certamente a única forma de lidar com o problema. E, mesmo existindo as vinhetas, não sei se aquela maneira é a melhor para se usar essa informação. Mas, olha só! É sempre um problemão para mim quando o indivíduo acha que a Aline ou a Manuela é mais organizada que a Juliana! Isso é uma violação. E a proporção de violações é um dos contaminadores principais, porque ela pode ser um viés cognitivo ou ela pode ser realmente alguma coisa errada. Então, um dos indicadores para saber se as vinhetas foram bem construídos é organizar essas três vinhetas nessa ordem. A única informação que eu quero que se revele para mim é onde que essas três meninas se situam em uma escala de 1 a 5. Se essa daqui, a Aline, está coladinha com a Manuela, então é porque o sarrafo está alto e essas duas, então, são igualmente super bagunçadas. E a Juliana é mais ou menos!

Áudio Aluno: Você aí está forçando a propriedade da transitividade, mas você quer olhar para a cardinalidade, né?

Áudio Professor: Isso. O que se quer é apenas situar esses três marcos em uma escala de 1 a 5. Idealmente, quer se situar o contínuo, saber o milímetro a mais de organização onde que ele se situa. Depois da correção, não se consegue discriminar. O charme disso aqui foi, no Pisa 2012, ter corrigido o paradoxo. Aí, as pessoas começaram a usar e a gente tem usado aqui no Brasil também. Então, isso são alguns truques que a gente tem usado, porque, na nossa opinião, o maior problema é tornar comparáveis as respostas.

38:27 ao Fim (Cartela)

Imagem: Ilustração de um mapa múndi em tom azul claro ao fundo. E, em primeiro plano, duas imagens de capítulos posteriores a esta aula com o cabeçalho “Veja Também” em azul escuro. No rodapé, o texto: “Conheça mais em www.redeitausocialdeavaliacao.org.br”.

Áudio: Trilha moderna percussiva.