Quão ruim é usar OLS em vez de efeitos fixos quando você tem 7 anos de dados de painel. Pelo que entendi, o risco é que os coeficientes estejam correlacionados com o termo de erro, tornando as estimativas tendenciosas. Haverá alguma forma de endogeneidade. Isso ajudaria se eu incluísse manequins de ano na regressão OLS agrupada. Ainda não capturaria os efeitos da intercepção variável na dimensão individual, certo. Uma das minhas principais variáveis explicativas é significativa no nível 5 na regressão FE. No OLS agrupado é significativo no nível 0.001. Este resultado é insignificante ou ainda pode ser usado com a reserva de que é superestimado. Pergunto isso porque a maioria dos parâmetros estimados são fortemente significativos na regressão OLS combinada. Além disso, duas das minhas variáveis explicativas que são constantes caem na regressão FE. Embora sejam de interesse secundário, eles contribuem explicando bastante a variação na variável dependente. (A amostra não é congruente com um modelo de efeitos aleatórios). Existe alguma maneira de decidir qual modelo pode ser mais adequado. Se você conhece algumas coisas que eu devo ter em mente ao implementar os modelos, eu ficaria muito agradecido ao ouvir que eles pedissem 18 de junho 14 em 9: 47Stata: Análise de Dados e Software Estatístico Considere o Modelo de regressão linear, e vamos fingir que temos dois grupos de dados, grupo1 e grupo2. Podemos ter mais grupos, tudo o que se diz abaixo, generaliza para mais de dois grupos. Poderíamos estimar os modelos separadamente digitando ou poderíamos agrupar os dados e estimar um modelo único, de modo único. A diferença entre essas duas abordagens é que estamos restringindo a variação do residual para ser o mesmo nos dois grupos quando agrupamos os dados. Quando estimamos separadamente, nós estimamos Quando reunimos os dados, nós estimamos Se avaliamos esta equação para os grupos separadamente, obtemos N (0, sigma 2) para o grupo 1 N (0, sigma 2) para o grupo2. A diferença é que nós Agora restringiu a variância de u para o grupo1 para ser o mesmo que a variância de u para o grupo2. Se você realizar esta experiência com dados reais, você observará o seguinte: Você obterá os mesmos valores para os coeficientes de qualquer maneira. Você obterá diferentes erros padrão e, portanto, diferentes estatísticas de teste e intervalos de confiança. Se você é conhecido por ter a mesma variação nos dois grupos, os erros padrão obtidos a partir da regressão combinada são melhores se forem mais eficientes. Se as variâncias realmente são diferentes, no entanto, os erros padrão obtidos a partir da regressão agrupada estão errados. 2. Ilustração (veja o arquivo do-arquivo e o log com os resultados na seção 7) Eu criei um conjunto de dados (contendo dados inventados) em y. X1. E x2. O conjunto de dados tem 74 observações para o grupo 1 e outras 71 observações para o grupo 2. Usando esses dados, eu posso executar as regressões separadamente digitando ou posso executar o modelo agrupado digitando que fiz isso no Stata, e isso me permite resumir os resultados. Quando eu digitei o comando 1, obtive os seguintes resultados (erros padrão entre parênteses): e quando eu executei o comando 2, eu obtive quando eu executei o comando 3, eu obtive. A intercepção e os coeficientes em x1 e x2 em 3 são os mesmos que em 1, mas os erros padrão são diferentes. Além disso, se eu somar os coeficientes apropriados em 3, obtive os mesmos resultados que 2: Os coeficientes são os mesmos, estimados de qualquer maneira. (O fato de que os coeficientes em 3 estão um pouco fora daqueles em 2 é apenas porque eu não escrevi dígitos suficientes). Os erros padrão para os coeficientes são diferentes. Eu também escrevi o valor estimado de Var (u), o que é relatado como RMSE na saída de regressão Statarsquos. Em termos de desvio padrão, você tem o d. 15.528 no grupo 1, 6.8793 no grupo 2, e se restringirmos esses dois números muito diferentes para serem iguais, o agrupado s. d. É 12.096. 3. Armazenando dados sem restringir variância residual Podemos agrupar os dados e estimar uma equação sem restringir as variações residuais dos grupos para serem iguais. Anteriormente, nós digitamos e começamos exatamente da mesma maneira. Para isso, adicionamos no acima, a constante 3 que aparece duas vezes é 3 porque havia três coeficientes estimados em cada grupo (uma intercepção, um coeficiente para x1 e um coeficiente para x2). Se houvesse um número diferente de coeficientes estimados, esse número mudaria. Em qualquer caso, isso irá reproduzir exatamente os erros padrão relatados pela estimativa dos dois modelos separadamente. A vantagem é que agora podemos testar a igualdade de coeficientes entre as duas equações. Por exemplo, agora podemos ler imediatamente os resultados de regressão agrupados se o efeito de x1 é o mesmo nos grupos 1 e 2 (resposta: é bg2x10.) Porque bx1 é o efeito no grupo 1 e bx1bg2x1 é o efeito no grupo 2, então A diferença é bg2x1). E, usando o teste. Também podemos testar outras restrições. Por exemplo, se você quisesse provar a si mesmo que os resultados de 4 são os mesmos que digitar regress y x1 x2 se group2. Você poderia digitar 4. Ilustração Usando os dados inventados, eu fiz exatamente isso. Para recapitular, primeiro eu avaliei regressões separadas: e então corri a regressão variância-restrita, e então corri a regressão sem variante, apenas para lembrá-lo, aqui é o que os comandos 1 e 2 relataram: Aqui está o comando 4 relatado: Esses resultados são iguais a 1 e 2. (Não preste atenção ao RMSE relatado por regredir nesta última etapa, o RMSE relatado é o desvio padrão de nenhum dos dois grupos, mas é uma média ponderada, veja as Perguntas frequentes sobre isso, se você Se você deseja saber os erros padrão dos respectivos resíduos, olhe para trás na saída das instruções resumidas digitadas ao produzir a variável de ponderação.) Nota técnica: emsp Ao criar os pesos, nós digitamos e de forma semelhante para o grupo 2. O 3 que aparece no fator de normalização da amostra finita (r (N) -1) (r (N) -3) aparece porque existem três coeficientes por grupo sendo estimados. Se o nosso modelo possuísse menos ou mais coeficientes, esse número mudaria. Na verdade, o fator de normalização da amostra finita muda muito pouco. No trabalho real, eu teria ignorado e digitado, a menos que o número de observações em um dos grupos fosse muito pequeno. O fator de normalização foi incluído aqui para que 4 produza os mesmos resultados que 1 e 2. 5. A (falta de) importância de não restringir a variância Importa se restringir a variação Aqui, não importa muito. Por exemplo, se depois de testar se o grupo 2 é o mesmo que o grupo 1, obtemos Se, em vez disso, tivéssemos restringido as variâncias para serem iguais, estimando o modelo usando e depois repetido o teste. A estatística F relatada seria de 309,08. Se houvesse mais grupos, e as diferenças de variância eram ótimas entre os grupos, isso poderia se tornar mais importante. 6. Outra maneira de se ajustar ao modelo de modificação sem restrições do comando Statarsquos xtgls, painéis (het) (ver xtgls) se encaixa exatamente no modelo que descrevemos, a única diferença é que ele não faz todos os ajustes de amostra finita, então é Os erros padrão são apenas um pouco diferentes dos produzidos pelo método que acabamos de descrever. (Para ser claro, os xtgls, os painéis (het) não fazem o ajuste descrito na nota técnica acima, e não faz com que os ajustes de amostra finita se registem, então as variâncias são invariáveis normalizadas por N. O número de observações, Em vez de N - k. Observações menos número de coeficientes estimados.) De qualquer forma, para estimar xtgls, painéis (het). Você compartilha os dados como sempre, para estimar o modelo. O resultado de fazer isso com meus dados de ficção é Estes são os mesmos coeficientes que sempre vimos. Os erros padrão produzidos por xtgls, painéis (het) aqui são cerca de 2 menores que os produzidos por 4 e, em geral, serão um pouco menores porque xtgls, painéis (het) é um estimador assintoticamente baseado. Os dois estimadores são equivalentes assintoticamente, no entanto, e de fato rapidamente se tornam idênticos. O único cuidado que eu recomendaria não é usar xtgls, painéis (het) se o número de graus de liberdade (observações menos número de coeficientes) for inferior a 25 em qualquer um dos grupos. Então, a abordagem de OLS ponderada 4 é melhor (e você deve fazer o ajuste de amostra finita descrito na nota técnica acima). 7. Apêndice: resultados do do-file e log fornecidos acima 7.1 do-file O seguinte arquivo de arquivo, chamado uncv. do, foi usado. Até a linha que lê ldquoBEGINNING OF DEMONSTRATIONrsquo, o do-file está preocupado com a construção do conjunto de dados artificial para a demonstração: uncv. do O arquivo do-do mostrado em 7.1 produziu a seguinte saída: uncv. log
No comments:
Post a Comment