3. Logit Modèles dans Stata Stata a plusieurs commandes qui peuvent être utilisées pour adapter les modèles de régression logistique par le maximum de vraisemblance. Les commandes de base sont logit pour les données individuelles et blogit pour les données groupées. Il existe également une commande logistique qui présente les résultats en termes de ratios impairs plutôt que de log-odds et peut produire une variété de statistiques de synthèse et de diagnostic. Enfin, on peut mettre en place un modèle de régression logistique comme cas particulier d'un modèle linéaire généralisé avec Bernoulli ou erreurs binomiales et logit de lien, en utilisant la commande glm. Nous aurons l'occasion d'utiliser toutes ces commandes, mais nous mettrons l'accent sur les deux premières, en utilisant blogit pour les données groupées dans ce journal et logit pour les données individuelles dans les ensembles de problèmes. 3.3 La comparaison de deux groupes Après les notes de cours, nous envisagerons de comparer deux groupes et de passer ensuite à plus de deux. Tableau 2 par 2 Considérer les données sur l'utilisation de la contraception par le désir d'un plus grand nombre d'enfants sur le tableau 3.2 (page 14 des notes). Nous pouvons lire ces données dans Stata comme 2 observations binomiales. Pour rendre la vie plus facile, je vais entrer dans le désir de plus d'enfants comme une variable factice qui prend la valeur 1 pour les femmes qui ne veulent plus d'enfants et 0 autrement Testing Homegeneity nous laisser commencer par l'ajustement du modèle null. Avec blogit vous spécifiez le résultat en termes de nombre de succès et le dénominateur binomial, ici les utilisateurs et n. L'estimation de la constante est simplement le logit de la proportion globale en utilisant la contraception, disons pyn. Et l'erreur-type est la racine carrée de 1y 1 (n-y). Vous pouvez vérifier ces résultats à la main. Statas blogit ne calcule pas la déviance du modèle, mais on peut l'obtenir à la main en utilisant prédire pour obtenir des comptes équipés: Ainsi la déviance est de 91,67 sur un d. f. Fournissant une preuve suffisante que le modèle nul ne correspond pas aux données. Ainsi, nous rejetons l'hypothèse selon laquelle la probabilité d'utiliser la contraception est la même dans les deux groupes. Essayez une méthode similaire pour calculer Pearsons chi-squared, vous devriez obtenir 92.64. Alternativement, vous pouvez adapter le modèle en utilisant glm. Qui rapporte à la fois la déviance et Pearsons chi-squared par défaut. Ill faire ceci tranquillement et juste rapportent les résultats stockés correspondants, e (déviance) pour la déviance et e (déviancep) pour la statistique de Pearson. Le rapport de cotes Prenons maintenant le modèle avec le besoin de plus d'enfants comme prédicteur. Ce modèle est saturé pour cet ensemble de données, en utilisant deux paramètres pour modéliser deux probabilités: La constante correspond à la log-odds d'utiliser la contraception parmi whoen qui veulent plus d'enfants, et le coefficient de nomore est la différence de log-odds entre les deux groupes. Exponentiating ce coefficient nous obtenons un odds ratio d'environ trois. Contrairement à la croyance populaire, cela ne signifie pas que les femmes qui ne veulent plus d'enfants sont trois fois plus susceptibles d'utiliser la contraception. Il y a deux erreurs dans cette interprétation. Tout d'abord, et ce qui est plus important, c'est la probabilité d'utiliser la contraception chez les femmes qui ne veulent plus d'enfants qui sont trois fois celles des femmes qui veulent plus, pas la probabilité, ce qui est généralement compris par la vraisemblance. L'interprétation serait approximativement correcte si l'événement à l'étude était rare, parce que si p est petit alors 1-p est proche de un et le rapport de chance est approximativement le même que le risque relatif. Ici, les proportions observées sont 0,454 et 0,225, et le ratio est de 2,01, de sorte que les femmes qui ne veulent plus d'enfants sont deux fois plus susceptibles d'utiliser la contraception que ceux qui veulent plus. Deuxièmement, même si la probabilité était triplée, cela rendrait les femmes trois fois plus susceptibles, voire deux fois plus, d'utiliser la contraception, et pas trois fois plus de chances. Dans ce cas, la probabilité est doublée, ce qui rend les femmes deux fois plus susceptibles, et non deux fois plus susceptibles. Signification des tests La statistique z est comme indiqué à la page 16 des notes. Soit la statistique chi-squared de Walds pour l'hypothèse que le coefficient de nomore est nul, ou équivalent que le odds-ratio est un, et peut être calculé plus simplement en utilisant la commande Statas test: La statistique chi2 rapportée par Stata Dans la deuxième ligne de sortie est le coefficient de vraisemblance chi-squared comparant le modèle actuel avec le modèle nul. Pouvez-vous expliquer pourquoi nous obtenons 91,67, ce qui est la déviance du modèle nul? Quel indice de déviance de ce modèle? Un troisième test de l'effet du besoin n'est plus donné par la statistique chi-carré de Pearsons, que nous avons calculée plus tôt comme 92,64. Ceci équivaut au test z standard pour comparer deux proportions si vous utilisez la proportion regroupée pour estimer l'erreur-type. Les trois statistiques sont différentes, mais elles sont asymptotiquement équivalentes. Dans notre exemple, ils sont aussi proches en valeur et conduisent au même rejet accablant de l'hypothèse selon laquelle la probabilité d'utiliser la contraception est la même dans les deux groupes. Intervalle de confiance Stata a la bonté de nous donner un intervalle de confiance de 95 pour les coefficients logit. Nous pouvons convertir l'intervalle pour le coefficient de nomore en un CI de 95 pour le rapport de cotes en exposant les limites de confiance: Un moyen encore plus facile est de taper blogit, ou. La commande blogit sans aucune variable, comme toutes les commandes d'estimation, récupère simplement les résultats du dernier ajustement. L'option ou est courte pour o dds-r atio et provoque Stata à déclarer les coefficients exponentiated. (Les versions 12 et antérieures omettent la constante, mais Stata 13 l'expose aussi.) Donc, les chances d'utiliser la contraception chez les femmes qui veulent plus d'enfants sont de 0,291 à une, et pour ceux qui ne veulent pas d'enfants, elles sont 2,85 fois plus élevées, 0,830 à un. L'erreur-type du rapport de cotes est calculée par la méthode delta, mais les limites de confiance sont calculées en exponentiant les limites de l'échelle logit, et non en additionnant et en soustrayant deux fois l'erreur-type au rapport de cotes. Ceci est fait parce que l'approximation normale est plus précise (et a plus de sens) dans l'échelle logit, qui n'a aucune restriction de portée. Exercice. Calculer le test z conventionnel pour comparer les proportions en utilisant la contraception dans les deux groupes et vérifier que le carré coïncide avec la statistique chi-carré de Pearson. Copie 2017 Germaacuten Rodriacuteguez, Université de PrincetonBienvenue à l'Institut de recherche et d'éducation numériques Stata Exemples d'analyse de données Régression logistique Information sur la version: Le code de cette page a été testé dans Stata 12. La régression logistique est également utilisée pour modéliser les variables dichotomiques . Dans le modèle logit, les probabilités log du résultat sont modélisées comme une combinaison linéaire des variables prédictives. Remarque: Le but de cette page est de montrer comment utiliser diverses commandes d'analyse de données. Il ne couvre pas tous les aspects du processus de recherche que les chercheurs sont censés faire. En particulier, elle ne couvre pas le nettoyage et le contrôle des données, la vérification des hypothèses, le diagnostic du modèle et les analyses de suivi éventuelles. Exemples de régression logistique Exemple 1: Supposons que nous nous intéressions aux facteurs qui influent sur la victoire d'un candidat politique à une élection. La variable résultat (réponse) est binaire (01) gagnant ou perdant. Les variables prédictives d'intérêt sont le montant d'argent dépensé sur la campagne, le temps passé à faire campagne négativement et si oui ou non le candidat est un titulaire. Exemple 2: Un chercheur s'intéresse à la façon dont les variables telles que les notes GRE (Graduate Record Exam), GPA (moyenne pondérée) et le prestige de l'établissement de premier cycle, entraînent l'admission à l'école supérieure. La variable réponse, admitdont admit, est une variable binaire. Description des données Pour notre analyse de données ci-dessous, nous allons développer l'exemple 2 de l'obtention de diplôme d'études supérieures. Nous avons généré des données hypothétiques, qui peuvent être obtenues sur notre site Web. Cet ensemble de données a une réponse binaire (résultat, dépendante) variable appelée admettre. Il existe trois variables prédictives: gre. Gpa et le rang. Nous traiterons les variables gre et gpa comme continues. Le rang variable prend les valeurs 1 à 4. Les institutions ayant le rang 1 ont le plus grand prestige, tandis que celles ayant le rang 4 ont les plus faibles. Méthodes d'analyse que vous pourriez envisager Voici une liste de quelques méthodes d'analyse que vous avez pu rencontrer. Certaines des méthodes énumérées sont tout à fait raisonnables alors que d'autres sont tombés en faillite ou ont des limites. Régression logistique, le point de mire de cette page. Régression de Probit. L'analyse Probit produira des résultats similaires à la régression logistique. Le choix entre probit et logit dépend en grande partie des préférences individuelles. Régression des MCO. Lorsqu'il est utilisé avec une variable de réponse binaire, ce modèle est connu sous le nom de modèle de probabilité linéaire et peut être utilisé comme un moyen de décrire les probabilités conditionnelles. Cependant, les erreurs (c'est-à-dire les résidus) du modèle de probabilité linéaire violent les hypothèses d'homoscédasticité et de normalité des erreurs de la régression MCO, résultant en des erreurs-types invalides et des tests d'hypothèse. Pour une discussion plus approfondie de ces problèmes et d'autres avec le modèle de probabilité linéaire, voir Long (1997, p 38-40). Analyse de la fonction discriminante à deux groupes. Une méthode multivariée pour les variables dichotomiques. Le résultat 01 est transformé en variable de regroupement et les prédicteurs précédents sont transformés en variables de résultat. Cela produira un test global de signification mais ne donnera pas de coefficients individuels pour chaque variable et il n'est pas clair dans quelle mesure chaque quotpredictor ou quot est ajusté pour l'impact des autres prredictors. quot Régression logistique Ci-dessous nous utilisons la commande logit pour estimer un Modèle de régression logistique. Le i. Avant que le rang indique que le rang est une variable factorielle (c'est-à-dire une variable catégorielle) et qu'il doit être inclus dans le modèle sous la forme d'une série de variables indicatrices. Notez que cette syntaxe a été introduite dans Stata 11. Dans la sortie ci-dessus, nous voyons d'abord le journal d'itération, indiquant à quelle vitesse le modèle a convergé. La probabilité log (-229.25875) peut être utilisée dans les comparaisons de modèles imbriqués, mais nous ne montrerons pas un exemple de cela ici. En outre, nous voyons que les 400 observations de notre ensemble de données ont été utilisées dans l'analyse (moins d'observations auraient été utilisées si l'une de nos variables avait des valeurs manquantes). Le ratio de vraisemblance chi-carré de 41,46 avec une valeur de p de 0,0001 nous indique que notre modèle dans son ensemble s'ajuste nettement mieux qu'un modèle vide (c'est-à-dire un modèle sans prédicteurs). Dans le tableau, nous voyons les coefficients, leurs erreurs-types, la statistique z, les valeurs p associées et l'intervalle de confiance 95 des coefficients. Gre et gpa sont statistiquement significatifs, tout comme les trois variables indicatrices pour le rang. Les coefficients de régression logistique donnent le changement dans les probabilités log du résultat pour une augmentation d'une unité dans la variable prédictive. Pour chaque changement d'unité en gre. Les probabilités logarithmiques d'admission (versus non-admission) augmentent de 0,002. Pour une augmentation d'une unité en gpa. La probabilité logarithmique d'être admis aux études supérieures augmente de 0,804. Les variables indicatrices pour le rang ont une interprétation légèrement différente. Par exemple, après avoir fréquenté un établissement de premier cycle avec un grade de 2, par rapport à un établissement de rang 1, il diminue les probabilités d'admission de 0,675. Nous pouvons tester l'effet global du rang en utilisant la commande test. On voit ci-dessous que l'effet global du rang est statistiquement significatif. Nous pouvons également tester d'autres hypothèses sur les différences dans les coefficients pour différents niveaux de rang. Ci-dessous nous testons que le coefficient pour le rang 2 est égal au coefficient pour le rang 3. (Notez que si nous voulions estimer cette différence, nous pourrions le faire en utilisant la commande lincom.) Vous pouvez également exponentier les coefficients et les interpréter comme des cotes - ratios. Stata fera ce calcul pour vous si vous utilisez l'option ou, illustrée ci-dessous. Vous pouvez également utiliser la commande logistique. Maintenant, nous pouvons dire que pour une augmentation d'une unité en gpa. Les probabilités d'être admis à l'école supérieure (contre l'absence d'admission) augmentent d'un facteur de 2,23. Pour plus d'informations sur l'interprétation des odds ratios, consultez notre page FAQ Comment interpréter les odds ratios en régression logistique. Vous pouvez également utiliser les probabilités prédites pour vous aider à comprendre le modèle. Vous pouvez calculer les probabilités prédites à l'aide de la commande margins, qui a été introduite dans Stata 11. Ci-dessous, nous utilisons la commande margins pour calculer la probabilité d'admission prévue à chaque niveau de rang. En tenant toutes les autres variables dans le modèle à leurs moyens. Pour plus d'informations sur l'utilisation de la commande marges pour calculer les probabilités prédites, consultez notre page Utilisation des marges pour les probabilités prédites. Dans le résultat ci-dessus, nous voyons que la probabilité prédite d'être admis dans un programme d'études supérieures est de 0,51 pour les établissements de premier rang de prestige de premier rang (rang1), et de 0,18 pour les établissements de rang le plus bas (rang4), tenant gre et gpa à leurs moyens. Ci-dessous nous générons les probabilités prédites pour les valeurs de gre de 200 à 800 par incréments de 100. Comme nous n'avons pas spécifié ni atmeans ou utilisé à (.) Pour spécifier des valeurs avec les autres variables prédictives sont maintenues, les valeurs dans la table sont Les probabilités moyennes prédites calculées en utilisant les valeurs d'échantillonnage des autres variables prédictives. Par exemple, pour calculer la probabilité moyenne prédite lorsque gre 200, la probabilité prédite a été calculée pour chaque cas, en utilisant ce cas les valeurs de rang et gpa. Avec gre fixé à 200. Dans le tableau ci-dessus, nous pouvons voir que la probabilité prédite moyenne d'être accepté n'est que de 0,167 si le score de GRE est de 200 et augmente à 0,414 si le score de GRE est de 800 (moyenne des valeurs d'échantillon de gpa et de rang ). Il peut également être utile d'utiliser des graphiques de probabilités prédites pour comprendre et / ou présenter le modèle. Nous souhaitons peut-être aussi voir comment notre modèle s'intègre parfaitement. Cela peut être particulièrement utile lors de la comparaison de modèles concurrents. La commande utilisateur fitstat produit une variété de statistiques d'ajustement. Vous pouvez trouver plus d'informations sur fitstat en tapant findit fitstat (voir Comment puis-je utiliser la commande findit pour rechercher des programmes et obtenir de l'aide supplémentaire pour plus d'informations sur l'utilisation de findit). Points à considérer Cellules vides ou petites cellules: Vous devez vérifier les cellules vides ou petites en effectuant un tableau croisé entre les prédicteurs catégoriques et la variable de résultat. Si une cellule a très peu de cas (une petite cellule), le modèle peut devenir instable ou ne pas fonctionner du tout. Séparation ou quasi-séparation (également appelée prédiction parfaite), condition dans laquelle le résultat ne varie pas à certains niveaux des variables indépendantes. Voir notre page FAQ: Qu'est-ce que la séparation complète ou quasi-complète dans la régression logarithmique et comment pouvons-nous les traiter pour obtenir des informations sur les modèles avec une prédiction parfaite. Taille de l'échantillon: Les modèles logit et probit exigent plus de cas que la régression OLS car ils utilisent des techniques d'estimation du maximum de vraisemblance. Il est parfois possible d'estimer des modèles pour les résultats binaires dans des ensembles de données avec seulement un petit nombre de cas en utilisant la régression logistique exacte (en utilisant la commande exlogistique). Pour plus d'informations, voir notre exemple d'analyse de données pour une régression logistique exacte. Il est également important de garder à l'esprit que lorsque le résultat est rare, même si l'ensemble des données est important, il peut être difficile d'estimer un modèle logit. Pseudo-R-carré: Beaucoup de mesures différentes de psuedo-R-carré existent. Ils tentent tous de fournir des informations similaires à celles fournies par R-carré dans la régression OLS cependant, aucun d'eux ne peut être interprété exactement comme R-carré dans la régression OLS est interprété. Pour une analyse de divers pseudo-R-squared voir Long et Freese (2006) ou notre page FAQ Qu'est-ce que pseudo R-carré Diagnostics: Les diagnostics pour la régression logistique sont différents de ceux pour la régression OLS. Pour une analyse des modèles de diagnostic pour la régression logistique, voir Hosmer et Lemeshow (2000, chapitre 5). Notez que les diagnostics effectués pour la régression logistique sont semblables à ceux effectués pour la régression probit. Dans Stata, les valeurs de 0 sont traitées comme un niveau de la variable de résultat, et toutes les autres valeurs non manquantes sont traitées comme le deuxième niveau du résultat. Données regroupées: Parfois, les observations sont groupées en groupes (par exemple, les membres des familles, les élèves dans les salles de classe). Dans de tels cas, vous voudrez peut-être voir notre page sur la non-indépendance dans les grappes. Références Hosmer, D. Lemeshow, S. (2000). Régression logistique appliquée (deuxième édition). New York: John Wiley Sons, Inc. Long, J. Scott, Freese, Jeremy (2006). Modèles de régression pour les variables dépendantes catégoriques à l'aide de Stata (deuxième édition). College Station, TX: Stata Press. Long, J. Scott (1997). Modèles de régression pour variables catégorielles et dépendantes limitées. Thousand Oaks, Californie: Sage Publications. Le contenu de ce site Web ne doit pas être interprété comme un endossement d'un site Web particulier, d'un livre ou d'un produit logiciel par l'Université de Californie.
No comments:
Post a Comment