Ir para conteúdo

Biblioteca

Indicadores Socioemocionais

Aula sobre Indicadores Socioemocionais ministrada por Daniel Santos.



Indicadores Socioemocionais - Parte 03

Terceira parte da aula sobre Indicadores Socioemocionais ministrada por Daniel Santos

Ir para a transcrição do vídeo

Transcrição

00:00 a 00:09 (Vinheta de abertura)

Imagem: Vinheta de abertura. Ilustração de um mapa múndi na cor azul clara ocupa toda a tela. A logomarca da Fundação Itaú Social aparece ao centro e alguns ícones na cor branca aparecem formando um círculo central ao redor da logomarca. A logomarca desaparece, dando lugar ao texto em azul escuro: “Curso Avançado de Avaliação de Políticas Públicas e Projetos Sociais”. Na sequência, os textos são substituídos por um retângulo grande azul escuro na parte central da tela. Dentro dele, está escrito: “Indicadores Socioemocionais, Professor Daniel Santos, 7 de Janeiro”. Abaixo do retângulo, também em azul escuro, o texto “Parte 3”.

Áudio: trilha moderna percussiva.

00:10 a 32:34 (Daniel Santos)

Imagem: Professor Daniel Santos, da Fundação Itaú Social, está à frente de uma sala de aula com um telão e lousa verde atrás dele. Ele está de pé e apresenta os conteúdos olhando para a turma.

Áudio Professor: Então, nessa segunda parte, eu acho que a nossa conversa vai ser um pouquinho mais técnica, mas vou tentar ser didático. Vamos discutir um pouco como essa agenda sobre medição de características não-cognitivas tem caminhado. Eu acho que o Brasil está numa posição privilegiada, bem posicionado nessas questões de como medir essas características não-cognitivas e como torná-las úteis em política pública. Isso aqui é uma conversa que bagunça propositalmente conhecimento psicológico com o nosso aprendizado aqui no Brasil, está bom? A primeira coisa é a gente quebrar um pouco com o paralelismo que existe. O nosso primeiro impulso é tentar começar replicar tudo que a gente aprendeu com os resultados cognitivos. Em avaliação de política pública, muitas vezes são uns dos principais resultados que a gente tem interesse. Então, quebrar o paralelismo com as razões pelas quais a gente quer medir o aprendizado não-cognitivo. A primeira coisa que sugere um paralelismo é que, assim como as características cognitivas, as não-cognitivas também são preditoras de sucesso futuro, portanto elas são muito importantes per si. Melhoram sua autoestima, aumenta sua perseverança, você vai se dar bem na vida. Por isso, é desejável saber como que você tem se desenvolvido e se a escola tem contribuído ou não para isso. A segunda coisa que já incrementa essa conversa é que esse desenvolvimento socioemocional favorece o aprendizado. Existe uma espécie de efeito cruzado aqui. E a terceira coisa é que o desenvolvimento socioemocional tem um componente importante de externalidades. Por exemplo, se eu reduzo a ansiedade de dois ou três meninos em uma sala, eu posso permitir que os outros 40 aprendam. Pode ser que, para esses dois ou três, ter reduzido a ansiedade não gere necessariamente salários mais altos lá na frente. Mas, existe uma razão para se querer documentar se está conseguindo controlar a hiperatividade ou a ansiedade, porque pode-se ter um ganho sobre os outros. Alguém pode até falar: “se a coleguinha aprender Matemática, ela vai ensinar aos amiguinhos”. É verdade. Mas o alcance é bem menor. Quase todo o resultado do desenvolvimento emocional é um bem privado. Com os não-cognitivos, é muito mais evidente esses ingredientes sociais aqui. Isso implica a escolha do que medir. E o que medir é bastante influenciado pela motivação de porque estou medindo e tentando monitorar. Com relação a essas características ditas não-cognitivas ou socioemocionais, existem três grandes formas para se tentar construir medidas psicológicas. A primeira delas seriam medidas baseadas no auto-relato. Ou seja, eu, de alguma maneira, contando como é que eu sou. A forma mais comum de auto-relato são questionários. Às vezes, um questionário pode ser uma afirmação, como por exemplo: “eu me considero uma pessoa feliz”. Aí, a pessoa tem que dizer quando concorda ou discorda dessa afirmação. Às vezes, pode ser uma pergunta do seguinte tipo: “quanto você acha que consegue prestar atenção durante duas horas numa palestra? Muito? Pouco?”. Existem vários formatos, mas invariavelmente está se falando de si mesmo. Uma característica dos instrumentos de auto-relato é que eles se referem à atual percepção. Existe uma discussão, que na minha opinião é muito mais filosófica do que prática, de que a maneira como a pessoa se percebe coincide com a maneira como ela é. E a razão pela qual eu acho que isso possa ter grandes consequências filosóficas é que a maneira como alguém vai se reportar como ela se percebe vai diferir muito da maneira como ela se comporta. Por exemplo, no fundo, eu sou uma pessoa extrovertida, mas tenho uma super dificuldade de falar em público ou de conhecer alguém. Então, o auto-relato reflete a sua autopercepção. E a autopercepção está muito relacionada também a como você se comporta. Dado isso, você pode construir as perguntas desse seu instrumento de auto-relato de diferentes maneiras. Os psicólogos tentam refinar a maneira de formular as perguntas para que a característica intrínseca, que se está tentando medir, seja, por exemplo, traços de personalidade. Então, eu posso formular a pergunta de um jeito que, ao final do dia, eu interprete o resultado daquela medida como um traço de personalidade. Um traço de personalidade seria uma característica que varia pouco ao longo da vida e que define como você é. É uma coisa mais estável. Eu posso construir as perguntas de um jeito que reflita o seu autoconceito. A autoestima é menos estável do que, por exemplo, a sua propensão à depressão. À título de autoconceito, você pode formular perguntas que tentem capturar como hoje você se julga e não somente como você é. E eu posso capturar crenças. Uma medida, por exemplo, bastante relacionada com crenças são o lócus de controle, de que eu falei para vocês. Lócus de controle é quanto que eu acho que eu sou protagonista da minha vida e quanto que eu acho que as coisas acontecem comigo são definidas exogenamente. Quem acha que tudo que acontece consigo é fruto das decisões passadas e das coisas que se fez tem um lócus de controle interno. Quem atribui a causas externas, tem lócus de controle externo. Outros tipos de instrumentos que tentam capturar crenças seriam: “quanto você acha que para se dar bem na vida você precisa acreditar em Deus? Ou precisa estudar bastante? Ou precisa passar perna nos outros?”. As pessoas têm interesse em medir valores e têm interesse em medir interesses. Ambos, valores e interesses, são construções socialmente adquiridas. Então, eles têm um ingrediente naquela discussão eterna de determinar o que é natureza e o que é ambiente. Em inglês, nature versus norture. Os valores e interesses são construções sociais, são coisas ensinadas e adquiridas. A diferença é que interesses estão vinculados a um objeto e valores, não. Interesse, por exemplo, seria quanto que eu gosto do Flamengo. E valores, quanto que eu gosto da Democracia. (risos). A diferença é que, seu eu gosto do Flamengo e tiro o Flamengo da frente, o interesse desaparece. Dado que é tudo auto-percepção, essas coisas acabam sendo super relacionados, porque elas têm em comum o ingrediente que é como a pessoa se percebe em cada uma dessas dimensões. Então, um dos grandes desafios é saber se está mesmo se medindo uma característica de como a pessoa é ou isso aqui é altamente contaminado pelo filtro da auto-percepção, da visão de como a pessoa é. E saber se, quando vários instrumentos desses são aplicados, realmente está capturando dimensões diferentes ou se todas elas têm um ingrediente comum que conduz todas essas respostas também é outra coisa que as pessoas tentam estudar. As pessoas são criativas. Os psicólogo se dedicam enormemente a construir questionários. Mas, existem dois que são os mais comuns. Um são escalas, que a gente chama de Likert, que têm uma afirmação e, depois, vários pontos que capturam diferentes intensidades com os quais você concorda com aquela afirmação ou com os quais o resultado daquela afirmação é mais frequente. Um exemplo de uma pergunta de um item da escala Likert seria o seguinte: “eu sou pontual. Concordo muito? Concordo pouco? Discordo?”. Ou então, “com que frequência você vai ao cinema? Uma vez por semana? Duas vezes por semana?”. São exemplos de itens Likert. Exemplos de itens de escolha forçada seria o seguinte: “você é mais tolerante com a diversidade ou disciplinado?”. Faz-se duas afirmações que, a princípio, uma não tem nada a ver com a outra, mas você tem que se posicionar. Os itens escolhas de escolha forçada tipicamente não se prestam a comparar indivíduos para saber quem é a pessoa que mais tem essa característica. Eles pegam o indivíduo e dizem se ele tem uma vantagem comparativa nisso ao invés disso. O defeito que este tipo de instrumento tem é que você provoca forçosamente uma correlação negativa entre as dimensões. No exemplo de ter que se posicionar entre ser disciplinado e ser tolerante, se eu medisse a correlação entre indivíduos entre essas duas características, ia me dar uma correlação de menos um, por exemplo. A analogia que esses dois tipos de instrumentos tem é muito parecida com o fato de a nota ser normalizada ou não ser normalizada. (risos). Se ela é normalizada, para eu ir bem eu tenho que ir mal! Eu permito que a turma inteira seja melhor ou seja pior. Nos instrumentos de auto-relato, existem dois grandes grupos que são inventários escalas. Inventário são instrumentos que têm a pretensão de medir você inteiro. Escalas seriam instrumentos feitos para medir você em uma dimensão. Então, eu posso construir inventário de personalidade, que tenta medir globalmente como você é. E posso construir uma escala de autoestima, um instrumento cuja maneira de se construir as perguntas é feita para medir a sua autoestima. E um dos grandes ingredientes estudados quando a gente constrói medidas de auto-relato é o Estudo dos Vieses de Respostas. Esse é outro não paralelismo que existe com medidas cognitivas. Em uma prova de Matemática, cada pergunta tem certo ou errado. Aqui, uma pergunta de autoestima que é quanto eu concordo com uma afirmação, posso mentir livremente, por exemplo. Está sujeita a diversos vieses de resposta. Há um viés chamado de viés de desejabilidade social, que é um dos mais importantes e que seria o intento de mentir ou para mascarar quem eu sou ou para agradar quem está me entrevistando, por exemplo. Neste caso, podem existir diversos motivos para eu modificar a minha resposta. Há também outros vieses que são comuns nesse tipo de instrumento. Um deles é o viés de aquiescência, onde as pessoas que tendem a concordar com tudo ou a discordar de tudo. Então, por exemplo: “você é feliz? Concordo muito. Você é triste? Concordo muito”. (risos). O viés de desejabilidade social eu não coloquei aqui, porque eu não tenho muito a dizer para vocês de como a gente criou armadilhas para lidar com esses problemas. Mas, para esses outros aqui, eu posso contar um pouco sobre algumas técnicas que são usadas ou para detectar que o viés existe ou para corrigir o viés uma vez que ele exista. Então, aquiescência é a tendência de concordar demais ou discordar demais das perguntas. Viés de Pontos Absorventes é o seguinte: numa escala de cinco pontos, por exemplo, com “concordo muito”, “concordo pouco”, “nem concordo nem discordo”, “discordo pouco” e “discordo muito”, pode acontecer de o sujeito não pensar direito ou ficar meio confuso e não saber direito como responder. Daí, ele pode sair marcando “nem concordo nem discordo”. Ou se pode ter um Viés de Pontos Extremos. Essas coisas todas variam com a idade. Isso é importante também de se estar documentando. Por exemplo, como é que crianças de diferentes idades respondem diferentemente a isso. Existe também o Viés de Grupo de Referência, que é um dos problemas chave para avaliação de impacto. Suponha que eu tivesse o item “eu sou pontual” e pedisse para se escolher entre “concordo muito”, “concordo pouco”, “nem concordo nem discordo”, “discordo pouco” e “discordo muito”. Eu esperaria, por exemplo, que a média de um brasileiro fosse menor que a média de um alemão. E daí, você vai ver que na realidade não é isso que acontece! Apesar dessa nossa evidência anedótica. Eu acho que eu sou bastante pontual, mas eu sou contaminado porque a maneira como eu respondo a isso é me comparando com os demais brasileiros, como as pessoas que estão à minha volta. Eu não tenho o discernimento para me incluir em uma distribuição completa e me comparar com todas as possibilidades. E isso se tornou um problema dramático, que foi o paradoxo comportamental atitudinal do Pisa 2012. O que foi isso? O Pisa 2012 colocou, em alguns países, um questionário não-cognitivo que tinha, entre outras coisas, conscienciosidade, que é a sua tendência em ser organizado, disciplinado, perseverante, responsável. E quando se fazia uma comparação intra país, assim como no restante da literatura, confirmava-se que indivíduos dentro de um país que reportaram serem mais responsáveis e mais disciplinados tinham notas de Matemática mais altas. Quando se olhava entre países e comparavam-se as médias entre países, olhava-se o contrário, ou seja, os países com média de conscienciosidade auto-reportada mais alto eram os que tinham menores médias de Matemática. E, anedoticamente, houve o caso entre México e Coréia do Sul. O México reportava ter mais conscienciosidade do que a Coréia do Sul, o que chamou atenção. Isso inspirou uma série de construção de técnicas para tentar anular ou mitigar pelo menos um pouco desse viés de grupo de referência. Aqui no Brasil, a gente está explorando essas técnicas exaustivamente. E há o overclaiming! Isso é muito engraçado. O Brasil vai muito mal no Pisa. Aí, as autoridades brasileiras falaram assim: “mas, é claro! Quem bola as questões do Pisa são os europeus, o pessoal da OCDE, os americanos. E isso é baseado no currículo de Matemática de países ricos. Aqui, a gente ensina uma outra Matemática! Logo, se você fizesse uma prova que cobrasse pelo seu ensino, a gente iria se sair melhor”. (risos). E o papel do OCDE, que é quem faz o Pisa, é levar a sério as justificativas de todas as autoridades, porque o que se quer, no fundo, é comparar os países. Então, construiu-se um instrumento que tenta capturar, de uma maneira bastante ampla, quanto que as pessoas acreditam que sabem de um certo assunto. No caso, Matemática. Para ver então se isso é explicável. Então se perguntava quanto se sabe de trigonometria, de álgebra e assim por diante para ver se, de fato, estava desbalanceado. Por exemplo, se os brasileiros acham que sabem muito de Trigonometria e não é cobrado na prova de Matemática. O que se descobriu? Que havia muito pouca variação. Mais do que isso! Especialmente na América Latina, as pessoas clamavam que sabiam Matemática para caramba. E aí, “desexplicava” o que eles queriam explicar! (risos). Então, eles começaram a ter que construir armadilhas para o overclaiming. E o que eles fizeram para tentar controlar isso? No meio do questionário, com perguntas de quanto se sabia de trigonometria, de álgebra etc, eram inseridos tópicos de assuntos que não existiam, como por exemplo: “quanto você conhece de logaritmo octogonal?”! Sei lá! Umas coisas assim. (risos). E o sujeito continuava a responder “para caramba!”, “para caramba”. (risos). Com isso, controla-se o overclaiming. Um outro viés de resposta é a fadiga. As pessoas são muito sensíveis à extensão do questionário. E isso é uma coisa que economista dá muito pouca importância. Aliás, quem for fazer avaliação de impacto preste atenção nisso! A qualidade de informação começa a ficar ruim, vira tudo erro de medida, você não detecta e acha que é porque não teve impacto. Não! A gente gasta um bocado de tempo tentando medir quando que a atenção das pessoas com o questionário começa a declinar. E, por exemplo, a gente descobriu que uma criança na faixa do Fundamental 2, entre 10 e 14 anos de idade, depois de 60 perguntas, o tempo que ela gasta por item começa a despencar dramaticamente. Economista acha que quanto mais, melhor! “Já foi tão difícil aleatorizar, convencer, levantar dinheiro... Deixa eu agora colocar aqui todos os meus instrumentos possíveis, porque em alguma hora eu vou achar uma estrelinha e publicar o paper (relatório)”. (risos). Tem que se prestar atenção! Às vezes, pode-se jogar o bebê fora junto com a água do banho!! E outro viés de resposta que é importante são os incentivos. Se eu der um chocolate para cada resposta certa, as pessoas tendem a acertar mais perguntas. Em princípio, acreditava-se que a pessoa sabia igualmente Matemática. E se oferece algum incentivo, muda-se essa questão. Obviamente, que o papel de incentivo é importante. Mas, quando a gente fala de instrumentos ditos não-cognitivos, um tipo de incentivo que a gente acha que influencia bastante o padrão de resposta é diferente do tipo de incentivo que influenciaria a resposta de Matemática. Por quê? Porque, ao contrário do instrumento cognitivo, o não-cognitivo é low stakes. Essas perguntas invariavelmente não têm certo ou errado. Quando eu tento capturar a sua autoestima, você pode mentir. Não é como a questão de Matemática onde o certo é três e a pessoa respondeu quatro! Então, isso é uma agenda que está sendo feita. Existe uma tese de doutorado em Chicago, existe uma tese de mestrado em São Paulo sobre isso... Quer se descobrir quanto que os incentivos que você dá a uma pessoa para responder influenciam a maneira como aquele instrumento é respondido. E possivelmente, para ser descoberto, não seja necessário dar um real a mais para uma pessoa responder que tem mais autoestima. As pessoas simplesmente vão mentir. Aí, eu não sei o que eu aprendo com isso. Mas, existem questões que são mais sutis! Por exemplo, se eu der acesso às suas respostas ao professor, será que você vai começar a mentir ou não? Se eu der uma palestra, cinco minutos antes, falando que os mais perseverantes são os que se dão melhor na vida, será que você vai mudar o estilo de resposta ou não? São coisas desse tipo. Mas, a suspeita é que sim e precisamos documentar isso aqui. Outra medida psicológica, além do auto-relato, é o hetero-relato, que é baseado no julgamento de Páris. Pode ser seus pais, o professor ou os seus colegas. Existem vários formatos de ferramentas de hetero-relato. Leva em conta o julgamento de terceiros sobre as suas características. Então, por exemplo: “quanto que Mariazinha é comportada? Quanto que Joãozinho é ansioso?”. Um problema comum no julgamento de terceiros, que também é viés de resposta, são os efeitos chifre e auréola. Um problema muito sério que a gente tem encontrado aqui no Brasil é com o fato de se querer perguntar ao professor como é o aluno nos Big Five, ou seja, nas cinco dimensões diferentes. Quando eu faço uma análise das respostas, eu descubro que eu não consigo discriminar cinco. Se eu fizesse uma análise fatorial, haveria um fator que domina todos os demais. O que é isso? Se eu gosto de uma determinada criança, menino ou menina, eu vou dizer que ela é a mais perseverante, a mais feliz, com mais autoestima. E se eu não gosto, ela é menos em tudo. Então, acaba havendo uma correlação enorme que não era para haver entre essas características. Uma das coisas, especialmente quando se faz inventários, é que se quer ter as dimensões mensuradas o mais independente possível para as contribuições adicionais delas serem as maiores possíveis, para serem mais separadas. Especialmente, porque já se sabe que há pelo menos um ingrediente que conduz uma falsa correlação entre elas. Existe um outro elemento que conduz uma falsa correlação entre elas, que são esses efeitos de chifre e auréola. A fadiga aqui é maior ainda. Imagina que eu quero fazer uma avaliação de impacto e eu preciso perguntar ao professor como é que são os 20 alunos dele. Se ele gastar cinco minutos por aluno, vai dar 100 minutos, mais de uma hora e meia respondendo a um questionário. E, com cinco minutos, eu consigo captar bem pouco de uma aluno. Ou seja, é um ganho pequeno para um custo individual muito grande. Além da pergunta Likert e ipsativa que eu já tinha falado antes, existe uma outra coisa que são as nominações. Um exemplo de nominação seria o seguinte. E esse especialmente quando eu faço julgamento de colegas. Eu construo um instrumento que, para idades mais novas, é um teatrinho, e para idades mais velhas, uma pergunta direta. Mas, o teatrinho pode ser o seguinte. Nessa peça, tem um rei, um bobo da corte, um xerife e um vilão. Daí se pergunta assim: “qual dos seus coleguinhas, qual iria se encaixar melhor em cada um desses papéis?”. Essa é uma maneira lúdica de se tentar capturar o julgamento de Páris em idades menores. Em idades maiores, você simplesmente nomeia quem são os líderes da turma, quem são as pessoas que mais atrapalham a aula e coisas do tipo. E a terceira forma de medir são as tarefas, observação direta do comportamento dos indivíduos. Um problema crônico com essas anteriores é um erro de medida causado pelos vieses. Mas, quando se aplica o mesmo questionário para o mesmo indivíduo com um intervalo de dois dias, já se detecta uma correlação bem baixa. Essa correlação cai para algo como 0.5 ou 0.4 a partir de umas duas semanas. Depende muito do instrumento. Existem coisas que a minha percepção sobre mim mesmo é menos sensível ao contexto. Outras são mais sensíveis. Grande parte das tarefas é high stakes, ou seja, existe certo e existe errado. Inclusive, para características bastante diferentes como empatia. Existem algumas tarefas de empatia. A literatura, por exemplo, de inteligência emocional se especializou bastante em desenvolver tarefas, que são high stakes. Existe uma tarefa famosa de reconhecimento de olhares. São pares de olhos e as pessoas dizem se e um olhar de felicidade, de tristeza, de espanto... E tem certo e errado! Se sobrar tempo, vocês me perguntam que a gente discuti como é que se constroem essas tarefas. Exemplos de tarefas? Existe aquela do marshmallow, que eu já contei para vocês; de empatia, que eu estava contando; o dictator game, que é uma tarefa de reciprocidade. Já ouviram falar? Isso aqui foi um economista que inventou! Eu te dou 100 reais e conto a seguinte coisa: “com esses 100 reais, você vai propor uma partição com o seu colega. Se ele topar a sua partição, ela se realiza. Se ele não topar, vocês devolvem o dinheiro para mim”. E aí, eu estou avaliando qual a partição que você vai propor. O falecido Nash diria: “propõe 99,9999 reais para você e o resto para ele. E ele, com esse resto, é melhor do que se ele não topar. O equilíbrio vai ser, se essa coisa se realiza, você vai se dar bem!”. E, na realidade, a gente vê que as coisas não funcionam desse jeito, porque existe a tal da reciprocidade. Então, no fundo, se eu quisesse medir quanto que você acredita na importância da reciprocidade ou coisa do tipo, eu usaria o dictator game para avaliar isso.

32:34 ao Fim (Cartela)

Imagem: Ilustração de um mapa múndi em tom azul claro ao fundo. E, em primeiro plano, duas imagens de capítulos posteriores a esta aula com o cabeçalho “Veja Também” em azul escuro. No rodapé, o texto: “Conheça mais em www.redeitausocialdeavaliacao.org.br”.

Áudio: Trilha moderna percussiva.