Ir para conteúdo

Biblioteca

Indicadores Socioemocionais

Aula sobre Indicadores Socioemocionais ministrada por Daniel Santos.



Indicadores Socioemocionais - Parte 04

Quarta parte da aula sobre Indicadores Socioemocionais ministrada por Daniel Santos

Ir para a transcrição do vídeo

Transcrição

00:00 a 00:08 (Vinheta de abertura)

Imagem: Vinheta de abertura. Ilustração de um mapa múndi na cor azul clara ocupa toda a tela. A logomarca da Fundação Itaú Social aparece ao centro e alguns ícones na cor branca aparecem formando um círculo central ao redor da logomarca. A logomarca desaparece, dando lugar ao texto em azul escuro: “Curso Avançado de Avaliação de Políticas Públicas e Projetos Sociais”. Na sequência, os textos são substituídos por um retângulo grande azul escuro na parte central da tela. Dentro dele, está escrito: “Indicadores Socioemocionais, Professor Daniel Santos, 7 de Janeiro”. Abaixo do retângulo, também em azul escuro, o texto “Parte 4”.

Áudio: trilha moderna percussiva.

00:09 a 28:51 (Daniel Santos)

Imagem: Professor Daniel Santos, da Fundação Itaú Social, está à frente de uma sala de aula com um telão e lousa verde atrás dele. Ele está de pé e apresenta os conteúdos olhando para a turma.

Áudio Professor: Existem tarefas de empatia com crianças que são muito interessantes, mas as tarefas têm uma coisa ruim porque elas são complexas e caras de implementar. Mas, com crianças, existe uma tarefa para uma criança de 3 a 5 anos de idade, em que ela fica numa sala e entra um ator. Daí, há duas tarefas possíveis. Ou o ator entra na sala carregando caixas com dificuldade e se observa o impulso da criança em ajudar. Ou ele simula que bateu a cabeça e ver se a criança vai acudir. São exemplos de tarefas. Qual é o problema das tarefas? Elas têm várias vantagens e, muitas vezes, muitos psicólogos acham que essa é a única maneira, porque ela é imune ou bem menos suscetível a viés de respostas. Mas, a gente vai ver que nem tudo é Ciência. Então, eu vou discutir outras vantagens também que não só o rigor. E ela tem uma interpretação mais difícil. O teste do marshmallow, por exemplo, o que ele mede exatamente? A capacidade de postergar recompensa. O que é isso? Isso é a minha taxa de desconto temporal? Há pessoas que acham que assim. Isso requer um pouco de força de vontade, de perseverança e tem um fundo de conscienciosidade? Há pessoas que acham que sim. Como é que eu interpreto? Como é que eu dou conteúdo para isso, coloco em um modelo uma teoria mais ampla e descrevo como se desenvolve e os mecanismo que estão por trás? É mais difícil de fazer isso. E nem tudo eu consigo medir com tarefas. Às vezes, eu consigo, mas com um custo elevadíssimo. Os instrumentos que medem criatividade com tarefa, por exemplo, são quatro horas com cada pessoa; depois, pega o resultado e manda para juízos distintos para se tomar média. Enfim, alguns realmente são muito difíceis de capturar com tarefa. Bom, isso falando do rigor! Mas, nem sempre o rigor da medida é o único critério para conduzir a minha escolha de qual medida usar. Eu costumo dizer que, nessa minha fase interdisciplinar, existem vários aprendizados interessantes. Deixa eu contar essa história. Existe um grupo com o qual eu interajo bastante. É um pessoal da Psiquiatria aqui da Pinheiros. E aí, a gente estava desenhando uma intervenção com grávidas, que era tentar dar educação financeira para mulheres grávidas. O argumento é o de que “endividamento é uma das maiores fontes de estresse. Estresse materno é uma das maiores fontes de atraso de desenvolvimento da criança, em várias dimensões”. Então, a gente queria ver o efeito da educação financeira sob estresse das mães e, posteriormente, depois do nascimento dos bebês, medir o desenvolvimento infantil em várias dimensões. Aí, esse professor lá da Pinheiros propôs: “a gente vai aleatorizar, porque aqui na Medicina a gente aleatoriza tudo”. Aí, eu começo a fazer as contas de poder, de teste etc. e falo: “então, vamos discutir o tamanho da amostra?”. “É, a gente está pensando em oitenta”. “Oitenta mil?”. (risos). “Não, oitenta mesmo”. O que eu quero dizer com isso? A tarefa, por exemplo, que parece ser menos suscetível a erro de medida, tem que ser aplicada por um profissional. Então, na teoria, vai se precisar de um psicólogo. Muitas delas requerem isso. É um requerimento do CFP, o Conselho Federal de Psicologia. E toma um tempo enorme com cada um deles. Então, se prepare para fazer um campo de meses aí. E é um custo elevadíssimo! Contratar esse profissional, que já é especializado, e pedir para ele ficar quatro horas com a criança, vai se conseguir medir mesmo muito pouco! Então, nem tudo é baseado só no rigor. Os instrumentos de relato têm uma grande atrativo, que é a factibilidade. E factibilidade é medida por curta duração e baixo custo. Pode-se não requerer profissionais especializados. E outra coisa que torna mais factível linguagem acessível. Quando a gente entrou com essa agenda aqui no Brasil, o nosso principal interesse não era ainda avaliação do impacto, era monitoramento. Era como se ter ferramentas que permitissem tirar um retrato do Brasil. “Será que a autoestima dos brasileiros é homogênea? O Norte é diferente que o Sul? Como é esse negócio no Brasil?”. E aí, como era esse o interesse principal, a gente resolveu criar um cardápio com os cinco pilares que deveriam conduzir esse corpo do instrumento para essa finalidade. Não necessariamente são os mesmos pilares para a avaliação de impacto. E, para comparar, uma linguagem que fosse simples ganhava pontos. Por esse critério de factibilidade, de cara a gente descartava tarefas. Eu não tenho como garantir. E mesmo que essas tarefas fossem baratas de serem feitas, dependeriam muito do contexto em que são feitas. Então, por exemplo, imagina essa tarefa de empatia que eu estava contando para vocês. Se, uma das salas é toda apertadinha e a outra tem um sofá com a criança a léguas da pessoa que bate a cabeça, talvez isso afete dramaticamente o resultado a tarefa. Neste caso, como eu vou garantir que as condições ambientais, em que as tarefas foram aplicadas, são idênticas em uma escola do Sul, do Norte e Centro-oeste? Então, com isso, a gente descartou e ficou com as de relato. E, nas de relato, linguagem, que era a base dos questionários, era uma coisa bastante importante. Uma outra coisa aqui que, para nós, sempre foi fundamental é o poder preditivo. A menos que eu já tenha uma teoria ex-ante que me diga o que são as características psicológicas importantes para os indivíduos, é meio difícil a escolha dos instrumentos que eu vou usar. Eu tenho os instrumentos de traços, de autopercepção, de valores, de interesses... O que deve guiar a minha escolha? Uma parte dessa escolha é guiada naturalmente pela intervenção ou pela finalidade. Se é um intervenção que quer mudar a autoestima das crianças, é óbvio que eu preciso de um instrumento de autoestima. Seria mais ou menos parecido quanto se tem uma teoria. Eu posso ter informação ex-ante t que me conduza a isso. Mas, se eu não tenho e tudo o que eu sei é que eu tenho uma crença profunda que isso muda o desenvolvimento emocional das pessoas, mas não sei exatamente qual parte dele, como eu escolho isso? E se fosse mais do que isso! Imagina que eu quero tirar um retrato do Brasil! Por onde eu começo? Eu não posso aplicar tudo. Geralmente, alguns desses questionários são longos. Ainda mais se eu quiser ser compreensível com eles! Um critério que a gente adotou é o poder preditivo. Vamos olhar na literatura, quais dessas dimensões são as mais associadas com sucesso futuro. Isso teve na base muito da construção que a gente fez no Brasil, de o que medir e como medir. As medidas que a gente construiu estavam muito ligadas à modificação do desenvolvimento socioemocional na escola. Isso aqui se aplica a outras outro tipos de intervenção, ok? Queria se medir coisas que fossem maleáveis nessa faixa etária e nesse ambiente. Eu não vou medir ou monitorar o desenvolvimento socioemocional, em uma intervenção escolar, características que cristalizam aos três anos de idade ou que só começam a se modificar aos 30. Eu quero coisas que sejam modificáveis por essa intervenção humana e maleáveis nesse ambiente. A maleabilidade, a gente pontuava mais, se houvesse evidências de que a escola foi o vetor que provocou essa mudança. E, finalmente, uma outra coisa que conduz são indicadores psicométricos de que essa medida é internamente consistente, que tem alta validade e, mais do que tudo, se elas são estáveis. Eu não quero construir medidas, tanto para avaliação do impacto quanto para monitoramento, cuja a maneira de como as pessoas respondem ao questionário seja muito sensível a um passarinho piando ou a uma britadeira do lado de fora da escola! Precisam ser medidas o mínimo possível influenciadas por essas variáveis ambientais circunstanciais. Com base nesse conjunto de características que falamos há pouco, vou contar qual foi a maneira que a gente escolheu para começar esse percurso aqui no Brasil. Grande parte do impulso que a gente deu foi com medidas de relato. Predominantemente, com as de auto-relato, por todos esses critérios que eu já falei. E 99 por cento da literatura tem caminhado nessa direção. Então, parte dessa nossa conversa vai ser muito direcionada para medidas não-cognitivas baseadas em auto-relato. As medidas mais antigas tentavam medir vários comportamentos. E eu acreditava que cada um desses comportamentos media uma característica latente com o erro de medida. A minha escala de autoestima é construída assim: eu faço uma pergunta, faço outra, faço outra, até fazer a “kaésima” pergunta. Em princípio, cada um desses indicadores é uma medida da sua verdadeira autoestima com erro, mas esse erro medida tende a ser muito alto. Então, por que eu faço várias perguntas? E por que eu mexo algumas perguntas, já que algumas são fraseados na forma positiva e outras na forma negativa? Porque esse erro de medida tende a ser grande e eu quero tentar mitiga-lo. E se eu fixar o meu estimador com uma média, que vantagem ele tem? Ele tem a vantagem de que a variância desse erro de medida, depois que eu tomo a média, é bem menor que a do exemplo anterior. Então, essa última é uma medida mais acurada do que aquela caso usasse cada uma das respostas individualmente. Então, é só o início do início. É uma forma de tentar, de uma maneira bastante simples, construir um estimador de uma característica latente. E quais os problemas que começam a surgir a partir disso? Nós vamos lidar com várias aqui. Alguns de uma maneira mais rigorosa e outro, menos rigorosa. O primeiro deles é o de interpretação. De início, você pode achar que é um erro de medida. Se fosse uma escala de extroversão, por exemplo, seria algo assim: “quanto você consegue manter uma amizade por mais um mês? Quanto você consegue falar em público?”. Se esse exemplo fosse realmente uma coisa totalmente idiossincrática, como: pessoas com a mesma extroversão, alguns, pela experiência de vida, aprenderam mais a falar em público do que a abordar alguém; outras aprenderam a ser mais assertivos etc. Se fosse assim, ok. Mas isso tem interpretação, certo? E o que está embutido nesse “épsilon”? Entre outras coisas, a sua autopercepção sobre si mesmo, que pode ser influenciada por outras. Uma segunda coisa que podem olhar o meu exemplo e criticar é o seguinte: por que não, em vez de usar média simples, usar média ponderada? Será que alguns desses comportamentos não são mais associados com uma característica do que outros? Será que um determinado comportamento meu pode ser influenciado por uma característica específica, de forma que seja o componente principal, mesmo havendo várias características latentes que influenciam o comportamento? Exemplo, falar em público requer extroversão, mas pode requerer também várias outras características e que são diferentes das outras características que requerem abordar uma pessoa ou que requerem ser assertivo na discussão. Então essa discussão gerou um segundo ramo da literatura, que diferia dessa média simples dos primeiros instrumentos. Isso ainda não tem nada a ver com a discussão dos vieses, está certo? A gente passa por uma coisa aqui que tem a ver com análise fatorial, de componentes principais. Mas, quando eu chego na ideia de que várias características latentes podem afetar o mesmo comportamento, ainda assim não é o fim da história. Porque, eu posso ter dois tipos de estudo: um tipo de estudo onde eu só preciso estimar as cargas fatoriais e um outro exercício onde eu precise descobrir quais são esses “tetas”. Eu posso fazer uma análise fatorial exploratória que tenta descobrir quantas são as características de personalidade que o indivíduo tem. Ou eu já seu quantas são e só quero estimar quanto que cada comportamento é influenciado por esse monte de características de personalidade. Então, essa é a introdução. Tudo isso é a Teoria Psicométrica Clássica, a teoria clássica de testagem. Ela tem como ferramentas coisas como média, análise fatorial, correlações... Correlação desempenha um papel central e mais recentemente os modelos estruturais. Então, isso é usado bastante quando eu tento medir tanto as características não-cognitivas quanto as cognitivas. No caso das cognitivas, existe a teoria de psicometria moderna, que é a teoria de resposta ao item (TRI) e que faz um percurso bem diferente desse que eu falei. A gente está tentando ver se esse segundo ramo também pode ser usado para avaliar instrumentos que são low stakes, que não têm certo e errado. Alguma vez, vocês já estudaram teoria de resposta ao item ou TRI? Imagina que eu quero saber a resposta para um determinado item. Ou ele está certo ou está errado. O que eu vou fazer é tentar derivar implicitamente quanto você sabe de Matemática, baseado em qual foi o seu padrão de acertos e erros. Então, a equação fundamental é um pouco diferente. Dado implicitamente quanto você tem dessa habilidade, quanto de perguntas você consegue acertar? A sua chance de acertar depende de uma determinada variável, que é uma função de duas coisas: dessa mesma variável e do grau de dificuldade do item. Você vai ter uma chance maior de acertar um item fácil do que um item difícil. E, se você for um matemático, você vai ter uma chance maior de aceitar esse item. E eu vou tentar modelar isso da maneira mais simples que eu consigo imaginar, dizendo que tudo isso aqui depende da sua habilidade com Matemática e da dificuldade do item. E eu gostaria que isso fosse proporcional à sua habilidade e inversamente proporcional à dificuldade do item. Mas, eu queria que essa maneira de modelar tivesse algumas outras coisas que facilitam um bocado a minha interpretação futura. Eu gostaria que dificuldade e habilidade pudessem ser medidas com a mesma régua. Eu gostaria que essa probabilidade variasse entre 0 e 1. E que tivessem algumas propriedades importantes. Por exemplo, eu gostaria que sempre que a minha habilidade fosse zero, a chance de acertar seria zero. Sempre que a minha habilidade fosse igual ao grau de dificuldade do item, eu tivesse 50 por cento de chance de acertar. Aí, eu faço um truque. Uma coisa que todas as características têm, incluindo nota em prova e mais ainda os nossos instrumentos psicológicos, é que tipicamente esses instrumentos não são ancorados. Se eu só contasse para um de vocês que a nota de Matemática de um determinado colega foi três, você não aprende quase nada sobre ele. Você precisa criar artefatos para ancorá-las. Se as características, em princípio, não são ancoradas, uma das coisas que me ocorre é que a grande utilidade desses instrumentos todos é ordinal e não cardinal. É como utilidade. Eu consigo comparar que escolha me dá mais prazer, mas não consigo dizer qual é a quantidade de felicidade embutida em cada escolha. Da mesma maneira, isso aqui é um negócio que não é ancorado. Logo, a gente parte dessa ideia que que o máximo que se quer fazer é ordenar quem sabe mais Matemática e quem sabe menos Matemática. E, desde que seja verdade que elas possam continuar sendo medidas com a mesma régua, há um jeito de eu fazer uma transformação monotônica que torne isso aqui uma distribuição muito fácil de se trabalhar. Isso aqui é um Modelo de Rasch, de um parâmetro de TRI. Ele é diferente de um logit porque há dois parâmetros aqui para estimar. Se isso aqui fosse um logit comum,

iria ter problemas. Alguns problemas de modelos de escolha binária. Primeiro, que eu não consigo separar o intersept da média do erro. E segundo, que eu não consigo identificar a escala do modelo. Quais são as vantagens que eu tenho aqui em relação ao logit? Eu tenho duas fontes de variação que eu posso explorar! Se só houvesse uma pergunta de Matemática no meu instrumento e houvesse vários correspondentes, eu não iria conseguir estimar esse negócio, não iria conseguir separar os dois componentes. Se tudo que eu tivesse fosse uma única pergunta, o máximo que eu conseguiria seria identificar seria o intersept com mais propriedade e talvez pertencesse ao item e não ao indivíduo. Mas teria um pouco de dificuldade de estimar a habilidade.

28:52 ao Fim (Cartela)

Imagem: Ilustração de um mapa múndi em tom azul claro ao fundo. E, em primeiro plano, duas imagens de capítulos posteriores a esta aula com o cabeçalho “Veja Também” em azul escuro. No rodapé, o texto: “Conheça mais em www.redeitausocialdeavaliacao.org.br”.

Áudio: Trilha moderna percussiva.