Ir para conteúdo

Biblioteca

Encontro de Avaliadores

Encontro de Avaliadores



Testes de balanceamento em amostras estratificadas

Encontro de Avaliadores com Sergio Firpo (Cátedra Instituto Unibanco - Insper)

Ir para a transcrição do vídeo

Transcrição

00:00 a 00:08 (Vinheta de abertura)

Imagem: Vinheta de abertura. No cabeçalho, tarja retangular com degradê da esquerda para a direita, a partir da cor rosa até a cor laranja. No canto superior direito, a logomarca do Itaú Social. No rodapé, ilustrações de uma cidade composta de casas, prédios e árvores, cada elemento com uma tonalidade da cor laranja, ou mais clara ou mais escura. Na parte central da tela, fundo branco com os seguintes dizeres, escritos em azul escuro: “Encontro de Avaliadores”. O texto se dissolve, dando lugar ao texto seguinte: “Testes de balanceamento em amostras estratificadas”.

Áudio: trilha animada com guitarra e percussão.

00:09 a 8:05 (Sérgio Firpo, Cátedra Instituto Unibanco Insper)

Imagem: Sérgio Firpo, da Cátedra Instituto Unibanco Insper, está em pé, segurando um microfone e apresentando as telas de conteúdo para uma plateia, dentro de uma sala de aula.

Áudio: Iniciamos esse projeto há muito tempo. Trata-se de como proceder quando se tem um randomização estratificada e seu interesse é testar se as covariáveis ou as variáveis de pré-tratamento observáveis estão realmente balanceadas. Tínhamos um conjunto de dados reais, que nos motivou a analisar esta questão. Propusemos este trabalho como forma de fazer essa análise não como algo novo, mas sim como um lembrete de como o empiricismo deve proceder neste caso em que se tem uma randomização estratificada. O que demonstramos, basicamente, é que, se quisermos testar as propriedades de uma randomização, você deve tomar mais cuidados do que normalmente se toma. Em termos de notação, “X” é o vetor das covariáveis de pré-tratamento, “T” é um vetor que indica se alguém foi tratado ou não; “S“ é o vetor dos estratos. Assim, vamos dizer que temos vários estratos aqui e, dentro de cada estrato, há uma randomização. Então, se atiramos uma moeda, decidimos se dentro desse estrato alguém será tratado ou não; “Y” é resultado de interesse; “Ps” é a proporção de tratados no estrato “S”. Digamos que haja uma diferença entre os estratos. Vamos discutir que tipo de teste normalmente se realiza quando existe a mesma proporção ou a probabilidade de tratamento em todos os estratos. “S” significa o tamanho ou a proporção ou a importância desse estrato entre todos os outros estratos. Assim, se a randomização tiver sido apropriada, porque a randomização foi implementada dentro de cada estrato “S”, o resultado esperado seria este: em termos de média... claro que poderíamos ver outra coisa além da média... mas em termos de média, a média de “X” deveria ser igual entre as unidades controle e tratados para cada estrato “S”. Portanto, o que queremos testar é... por exemplo, quando vemos a diferença das médias, basicamente verificamos se a covariância entre “X” e “T”, em um dado estrato “S”, é zero. Mas se fizermos o teste considerando todo o vetor dos estratos, ou seja, tomando todos os estratos que se queria testar para ver isso... Não é que se queira fazer isso separadamente, ok? Queremos fazer isso considerando todo o vetor. Se quisermos fazer o teste considerando um vetor para verificar se esse vetor é zero ou não, o que se deve fazer? Basicamente temos que rodar uma regressão. E, em termos de regressão, aplicá-la a “X” sobre “T”, dummies para os estratos, interações entre os indicadores dos estratos e o dummy de tratamento, certo? E o que verificamos? Verificamos os coeficientes dessas interações. E fazemos um teste para ver se, juntos, são iguais a zero ou não. Porém, isso não é o que as pessoas fazem normalmente. O que as pessoas normalmente fazem? Contudo, mesmo sob a nova hipótese, isso pode não ser necessariamente igual a zero. Assim, sob a nova hipótese, este primeiro componente aqui será zero, porque, para cada estrato, isto será igual a zero. Se, por exemplo, a probabilidade de ser tratado for diferente em todo o estrato, então temos este componente aqui que pode não ser igual a zero. Então, se estivermos agrupando os dados, eles só terão validade no caso em que se sabe que não há diferença na proporção de população e na probabilidade de receber tratamento em todos os estratos. Assim, basicamente, seria possível fazer esta nova naive aqui porque este elemento seria zero. Mas, se isso for feito, qual seria o problema que poderia aparecer? Sabemos que sob a nova hipótese, isto aqui seria zero. Mas pode ser que, depois da nova, isto não seja zero. E por que isso? Porque o que se faz aqui é só obter a média das covariâncias. E esta média poderia ser tal que produz zero aqui. Suponha que, em um dado estrato, temos a covariância positiva. E no outro, temos uma covariância negativa. Quando obtermos as médias dessas covariâncias, o resultado será zero. Então, dizemos que não temos problema de balanceamento no conjunto de dados, quando, de fato, existe. Portanto, o problema aqui tem a ver com o poder do teste. Assim o que dizemos é, se tivermos diferentes probabilidades aqui, de ser tratados, podemos incluir um efeito fixo, podemos incluir dummies para o estrato... mas, ainda estaríamos usando um teste que poderia apresentar um pequeno problema. Quando se aplica o efeito fixo... e o que quero dizer com “efeito fixo” é a inclusão de dummies no estrato... ainda podemos ter este problema de baixo poder. Por isso, o que se deve dizer, na verdade, é testar todo o vetor sendo zero. Porque, aqui na álgebra, fica claro porque, quando se aplica o efeito fixo que está testando, há alguma média ponderada desta diferença aqui , que é zero. E as coisas podem cancelar um positivo por um “S” dado. Um positivo pode cancelar um negativo. Mas, quando se usa este teste de Chow, que é quando se considera o coeficiente de interação, sempre se chega a este quadrado aqui.

8:06 a 8:11 (Vinheta de Fechamento)

Imagem: Vinheta de fechamento. Tela retangular com degradê da esquerda para a direita, a partir da cor rosa até a cor laranja. Ao centro, a logomarca do Itaú Social. No rodapé, ilustrações de uma cidade composta de casas, prédios e árvores, cada elemento com uma tonalidade da cor laranja, ou mais clara ou mais escura.

Áudio: trilha animada com guitarra e percussão.