Wednesday 13 December 2017

Log it model in stata forex


3. Logit Models no Stata Stata possui vários comandos que podem ser usados ​​para ajustar os modelos de regressão logística por máxima verossimilhança. Os comandos básicos são logit para dados individuais e blogit para dados agrupados. Há também um comando logístico que apresenta os resultados em termos de rácios ímpares em vez de log-odds e pode produzir uma variedade de estatísticas de resumo e diagnóstico. Finalmente, pode-se caber um modelo de regressão logística como um caso especial de um modelo linear generalizado com Bernoulli ou erros binomiais e logit de links, usando o comando glm. Teremos ocasião de usar todos esses comandos, mas enfatizaremos os dois primeiros, usando o blogit para dados agrupados neste log e logit para dados individuais nos conjuntos de problemas. 3.3 A comparação de dois grupos Após as notas da aula, consideraremos a comparação de dois grupos e depois passaremos para mais de dois. Tabela 2 por 2 Considere os dados sobre o uso de anticoncepcionais pelo desejo de mais crianças na Tabela 3.2 (página 14 das notas). Podemos ler estes dados em Stata como 2 observações binomiais. Para tornar a vida mais fácil, vou inserir o desejo de mais filhos como uma variável dummy que leva o valor 1 para as mulheres que não querem mais filhos e 0 de outra forma Testando Homegeneity, comecemos por ajustar o modelo nulo. Com o blogite, você especifica o resultado em termos do número de sucessos e do denominador binomial, aqui usuários e n. A estimativa da constante é simplesmente o logit da proporção global usando a contracepção, digamos pyn. E o erro padrão é a raiz quadrada de 1y 1 (n-y). Você pode verificar estes resultados manualmente. Statas blogit não calcula o desvio do modelo, mas podemos obtê-lo manualmente, usando o previsão de obter contagens instaladas: então o desvio é 91,67 em uma d. f. Fornecendo provas amplas de que o modelo nulo não corresponde aos dados. Assim, rejeitamos a hipótese de que a probabilidade de contracepção é a mesma nos dois grupos. Experimente um método semelhante para calcular Pearsons chi-squared, você deve obter 92.64. Alternativamente, você pode ajustar o modelo usando glm. Que relata o desvio e Pearsons chi-squared por padrão. Faço isso silenciosamente e apenas relate os resultados armazenados correspondentes, e (desvio) para o desvio e e (desviancep) para a estatística de Pearsons. The Odds Ratio Deixe-nos agora ajustar o modelo com a necessidade de não mais crianças como preditor. Este modelo está saturado para este conjunto de dados, usando dois parâmetros para modelar duas probabilidades: a constante corresponde às probabilidades de conexão de contracepção entre quem quer mais filhos e o coeficiente de nomore é a diferença nas probabilidades de log entre os dois Grupos. Exponenciando esse coeficiente, obtemos um odds ratio de cerca de três. Ao contrário da crença popular, isso não significa que as mulheres que não querem mais filhos são três vezes mais propensas a usar a contracepção. Existem duas falhas nesta interpretação. Primeiro, e mais importante, é a probabilidade de usar contracepção entre as mulheres que não desejam mais crianças que são três vezes as mulheres que querem mais, e não a probabilidade, o que normalmente é entendido pela probabilidade. A interpretação seria aproximadamente correta se o evento em estudo fosse raro, porque se p é pequeno, então 1-p é próximo a um e o odds ratio é aproximadamente o mesmo que o risco relativo. Aqui, as proporções observadas são 0,454 e 0,225, e a proporção é 2,01, de modo que as mulheres que não querem mais filhos são duas vezes mais propensas a usar contracepção que as que querem mais. Em segundo lugar, mesmo que a probabilidade fosse triplicada, isso tornaria as mulheres três vezes mais prováveis, ou duas vezes mais prováveis, usar a contracepção, não três vezes mais provável. Neste caso, a probabilidade é dobrada e isso torna as mulheres duas vezes mais prováveis, e não duas vezes mais prováveis. Significado do teste A estatística z é conforme relatado na página 16 das notas. Deixe-nos quadrá-lo: Esta é a estatística de Walds chi-quadrado para a hipótese de que o coeficiente de nomore é zero, ou equivalentemente que o odds-ratio é um, e pode ser calculado mais simplesmente usando o comando Statas test: A estatística chi2 relatada por Stata Na segunda linha de saída é a razão de verossimilhança chi-squared comparando o modelo atual com o modelo nulo. Você pode explicar por que obtemos 91.67, o que é o desvio do modelo nulo. Dica: Qual é o desvio deste modelo. Uma terceira prova do efeito de querer não mais é dada pela estatística Qui-Carson Chi-quadrado, que calculamos anteriormente como 92.64. Isto é equivalente ao teste z padrão para comparar duas proporções se você usar a proporção agrupada para estimar o erro padrão. As três estatísticas são diferentes, mas são assintoticamente equivalentes. No nosso exemplo, eles também são de valor próximo e levam à mesma rejeição esmagadora da hipótese de que a probabilidade de usar a contracepção é a mesma nos dois grupos. Intervalos de confiança Stata é gentil o suficiente para nos dar um intervalo de confiança 95 para os coeficientes logit. Podemos converter o intervalo para o coeficiente de nomore em um IC de 95 para o odds ratio exponenciando os limites de confiança: uma maneira ainda mais fácil é digitar blogit ou. O comando blogit sem variáveis, como todos os comandos de estimativa, simplesmente recupera os resultados do último ajuste. A opção ou é curta para o dds-r atio e faz com que o Stata relate os coeficientes exponenciais. (Versões 12 e anteriores omitem a constante, mas o Stata 13 expõe-se também). Assim, as probabilidades de usar contracepção entre as mulheres que querem mais crianças são de 0,291 para uma, e para aqueles que não querem mais filhos são 2,85 vezes mais altos, ou 0,830 para um. O erro padrão do odds ratio é calculado pelo método delta, mas os limites de confiança são calculados exponenciando os limites na escala logit, não por adicionar e subtrair duas vezes o erro padrão ao odds ratio. Isso é feito porque a aproximação normal é mais precisa (e faz mais sentido) na escala logit, que não possui restrições de alcance. Exercício . Calcule o teste z convencional para comparar as proporções usando contracepção nos dois grupos e verifique se o quadrado coincide com a estatística de Pearsons chi-quadrado. Copie 2017 Germaacuten Rodriacuteguez, Universidade de PrincetonWelcome ao Instituto de Pesquisa e Educação Digital Stata Data Analysis Examples Logistics Regression Informação da versão: O código para esta página foi testado em Stata 12. A regressão logística, também chamada de modelo logit, é usada para modelar variáveis ​​de resultado dicotômicas . No modelo logit, as probabilidades de log do resultado são modeladas como uma combinação linear das variáveis ​​preditoras. Observe: O objetivo desta página é mostrar como usar vários comandos de análise de dados. Não abrange todos os aspectos do processo de pesquisa que os pesquisadores devem fazer. Em particular, não abrange a limpeza e verificação de dados, a verificação de premissas, o diagnóstico de modelo e as possíveis análises de acompanhamento. Exemplos de regressão logística Exemplo 1: Suponha que estamos interessados ​​nos fatores que influenciam se um candidato político ganha uma eleição. A variável resultado (resposta) é binária (01) ganha ou perde. As variáveis ​​preditoras de interesse são a quantidade de dinheiro gasto na campanha, a quantidade de tempo gasto fazendo campanha negativamente e se o candidato é ou não um titular. Exemplo 2: Um pesquisador está interessado em como as variáveis, como GRE (pontuação do Exame Grau de Pós-Graduação), GPA (nota média) e prestígio da instituição de graduação, fazem entrada na pós-graduação. A variável de resposta, admitida não admite, é uma variável binária. Descrição dos dados Para a análise de dados abaixo, vamos ampliar o Exemplo 2 sobre entrar na pós-graduação. Nós geramos dados hipotéticos, que podem ser obtidos no nosso site. Este conjunto de dados tem uma variável de resposta binária (resultado, dependente) chamada admitir. Existem três variáveis ​​preditoras: gre. Gpa e rank. Trataremos as variáveis ​​gre e gpa como contínuas. O ranking variável assume os valores de 1 a 4. Instituições com uma classificação de 1 têm o maior prestígio, enquanto aqueles com um ranking de 4 têm o menor. Os métodos de análise que você pode considerar abaixo são uma lista de alguns métodos de análise que você pode ter encontrado. Alguns dos métodos listados são bastante razoáveis, enquanto outros já caíram fora de favor ou têm limitações. Regressão logística, o foco desta página. Regressão Probit. A análise Probit produzirá resultados de regressão logística semelhante. A escolha do probit versus logit depende em grande parte das preferências individuais. Regressão OLS. Quando usado com uma variável de resposta binária, este modelo é conhecido como um modelo de probabilidade linear e pode ser usado como uma forma de descrever probabilidades condicionais. No entanto, os erros (isto é, os resíduos) do modelo de probabilidade linear violam os pressupostos de homosqueticidade e normalidade dos erros da regressão OLS, resultando em erros padrão inválidos e testes de hipóteses. Para uma discussão mais completa sobre estes e outros problemas com o modelo de probabilidade linear, veja Long (1997, pág. 38-40). Análise de função discriminante de dois grupos. Um método multivariado para variáveis ​​de resultado dicotômicas. Hotellings T 2. O resultado 01 é transformado na variável de agrupamento, e os preditores anteriores são transformados em variáveis ​​de resultado. Isso produzirá um teste geral de significância, mas não dará coeficientes individuais para cada variável, e não está claro até que ponto cada coeficiente de resposta é ajustado para o impacto dos outros fatores. Cronograma logístico Abaixo, usamos o comando logit para estimar um Modelo de regressão logística. O eu. Antes de classificação indica que a classificação é uma variável fator (ou seja, variável categórica) e que deve ser incluída no modelo como uma série de variáveis ​​indicadores. Observe que essa sintaxe foi introduzida no Stata 11. Na saída acima, primeiro vemos o registro de iteração, indicando a rapidez com que o modelo convergeu. A probabilidade de log (-229.25875) pode ser usada em comparações de modelos aninhados, mas não vamos mostrar um exemplo disso aqui. Também no topo da saída, vemos que todas as 400 observações em nosso conjunto de dados foram usadas na análise (menos observações teriam sido usadas se qualquer uma de nossas variáveis ​​tivesse valores faltantes). O índice de verossimilhança do qui-quadrado de 41,46 com um valor de p de 0,0001 nos diz que nosso modelo como um todo se encaixa significativamente melhor do que um modelo vazio (ou seja, um modelo sem preditores). Na tabela, vemos os coeficientes, seus erros padrão, a estatística z, os p-valores associados e o intervalo de confiança 95 dos coeficientes. Tanto Gre e Gpa são estatisticamente significativos, assim como as três variáveis ​​de indicadores para classificação. Os coeficientes de regressão logística dão a alteração nas probabilidades de log do resultado para um aumento de uma unidade na variável preditor. Por cada mudança de unidade em gre. As probabilidades de registro de admissão (versus não admissão) aumentam em 0,002. Para um aumento de uma unidade em gpa. As probabilidades de registro de serem admitidas na escola de pós-graduação aumentam em 0.804. As variáveis ​​de indicadores para classificação possuem uma interpretação ligeiramente diferente. Por exemplo, tendo frequentado uma instituição de graduação com classificação de 2, versus uma instituição com uma classificação de 1, diminui a probabilidade de admissão em 0.675. Podemos testar um efeito geral de classificação usando o comando de teste. Abaixo, vemos que o efeito geral da classificação é estatisticamente significativo. Também podemos testar hipóteses adicionais sobre as diferenças nos coeficientes para diferentes níveis de classificação. Abaixo, nós testamos que o coeficiente para o ranking 2 é igual ao coeficiente para o ranking 3. (Note que, se desejássemos estimar essa diferença, poderíamos fazê-lo usando o comando lincom.) Você também pode exponencializar os coeficientes e interpretá-los como probabilidades - índices. A Stata fará essa computação para você se você usar a opção ou, ilustrada abaixo. Você também pode usar o comando logístico. Agora, podemos dizer que por um aumento de uma unidade na gpa. As probabilidades de serem admitidos na escola de pós-graduação (versus não admitidas) aumentam em um fator de 2,23. Para obter mais informações sobre os índices de odds de interpretação, consulte nossa página de perguntas frequentes. Como interpreto os odds ratios na regressão logística. Você também pode usar probabilidades previstas para ajudá-lo a entender o modelo. Você pode calcular as probabilidades previstas usando o comando de margens, que foi introduzido em Stata 11. Abaixo usamos o comando de margens para calcular a probabilidade prevista de admissão em cada nível de classificação. Mantendo todas as outras variáveis ​​no modelo por seus meios. Para obter mais informações sobre o uso do comando de margens para calcular as probabilidades previstas, consulte nossa página Usando margens para probabilidades previstas. Na saída acima, vemos que a probabilidade prevista de ser aceito em um programa de pós-graduação é de 0,51 para as instituições de graduação de maior prestígio (rank1) e 0,18 para as instituições mais bem classificadas (rank4), segurando gre e gpa pelos seus meios. Abaixo, nós geramos as probabilidades previstas de valores de gre de 200 a 800 em incrementos de 100. Como não especificamos nem atmeans ou usado em (.) Para especificar valores com as demais variáveis ​​de preditores são mantidos, os valores na tabela são Probabilidades preditivas médias calculadas usando os valores da amostra das demais variáveis ​​preditoras. Por exemplo, para calcular a probabilidade média prevista quando gre 200, a probabilidade prevista foi calculada para cada caso, usando os valores dos casos de classificação e gpa. Com gre ajustado para 200. Na tabela acima, podemos ver que a probabilidade preditiva média de aceitação é de apenas 0,167 se o escore GRE for 200 e aumenta para 0,414 se o escore GRE for 800 (em média entre os valores de amostra de gpa e classificação ). Também pode ser útil usar gráficos de probabilidades previstas para entender e apresentar o modelo. Podemos também querer ver medidas de como o modelo se encaixa. Isso pode ser particularmente útil ao comparar modelos concorrentes. O comando de comando escrito pelo usuário produz uma variedade de estatísticas de ajuste. Você pode encontrar mais informações sobre fitstat digitando findit fitstat (consulte Como posso usar o comando findit para pesquisar programas e obter ajuda adicional para obter mais informações sobre como usar findit). Coisas a considerar Células vazias ou células pequenas: você deve verificar se há células vazias ou pequenas fazendo uma tabela cruzada entre preditores categóricos e a variável de resultados. Se uma célula tem muito poucos casos (uma célula pequena), o modelo pode tornar-se instável ou pode não ser executado. Separação ou quase separação (também chamada de previsão perfeita), condição em que o resultado não varia em alguns níveis das variáveis ​​independentes. Veja a nossa página FAQ: o que é completo ou quase completo na regressão do logisticprobit e como lidar com eles para obter informações sobre modelos com previsão perfeita. Tamanho da amostra: ambos os modelos logit e probit requerem mais casos do que a regressão OLS porque eles usam técnicas de estimação de máxima verossimilhança. Às vezes, é possível estimar modelos para resultados binários em conjuntos de dados com apenas um pequeno número de casos usando regressão logística exata (usando o comando exlogístico). Para obter mais informações, consulte nosso exemplo de análise de dados para regressão logística exata. Também é importante ter em mente que quando o resultado é raro, mesmo que o conjunto de dados geral seja grande, pode ser difícil estimar um modelo logit. Pseudo-R-quadrado: existem várias medidas diferentes de psuedo-R-quadrado. Todos tentam fornecer informações semelhantes às fornecidas pelo R-squared na regressão OLS no entanto, nenhuma delas pode ser interpretada exatamente como o R-quadrado na regressão OLS é interpretado. Para uma discussão de vários pseudo-R-squareds, veja Long e Freese (2006) ou nossa página de FAQs O que são pseudo R-squareds Diagnostics: O diagnóstico para regressão logística é diferente daqueles para regressão OLS. Para uma discussão sobre o diagnóstico do modelo para regressão logística, consulte Hosmer e Lemeshow (2000, Capítulo 5). Observe que os diagnósticos realizados para a regressão logística são semelhantes aos realizados para a regressão probit. Em Stata, os valores de 0 são tratados como um nível da variável de resultado, e todos os outros valores não faltantes são tratados como o segundo nível do resultado. Dados agrupados: às vezes as observações são agrupadas em grupos (por exemplo, pessoas dentro das famílias, estudantes dentro das salas de aula). Nesses casos, você pode querer ver nossa página na não-independência dentro dos clusters. Referências Hosmer, D. Lemeshow, S. (2000). Regressão Logística Aplicada (Segunda Edição). Nova York: John Wiley Sons, Inc. Long, J. Scott, Freese, Jeremy (2006). Modelos de regressão para variáveis ​​categóricas dependentes usando Stata (segunda edição). College Station, TX: Stata Press. Long, J. Scott (1997). Modelos de regressão para variáveis ​​categóricas e dependentes limitadas. Thousand Oaks, CA: Sage Publications. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia.

No comments:

Post a Comment