Einfluss Statistiken In Stata Forex

Influenzdiagnose Dieser Abschnitt behandelt die INFLUENCE-Option, die mehrere Einflussstatistiken erzeugt, und die PARTIAL-Option, die partielle Regressionshebelplots erzeugt. Die INFLUENCE-Option (in der MODEL-Anweisung) fordert die von Belsley, Kuh und Welsch (1980) vorgeschlagenen Statistiken auf, den Einfluss jeder Beobachtung auf die Schätzungen zu messen. Einflußreiche Beobachtungen sind diejenigen, die nach verschiedenen Kriterien einen großen Einfluss auf die Parameterschätzungen zu haben scheinen. Es sei b (i) die Parameterschätzwerte nach dem Löschen der i-ten Beobachtung let s (i) 2 die Varianzschätzung nach dem Löschen der i-ten Beobachtung sei X (i) die X-Matrix ohne die i-te Beobachtung sei die i-te Wert, der ohne Verwendung der i-ten Beobachtung vorhergesagt wird, sei der i-te Rest und sei hi die i-te Diagonale der Projektionsmatrix für 13 der Prädiktorraum, auch Hutmatrix genannt. Belsley, Kuh und Welsch schlagen einen Cutoff von 2 p n vor. Wobei n die Anzahl der zur Modellanpassung verwendeten Beobachtungen und p die Anzahl der Parameter im Modell ist. Beobachtungen mit h i - Werten oberhalb dieser Grenzfrequenz sollten untersucht werden. Für jede Beobachtung zeigt PROC REG zuerst den Rest, den studentisierten Restwert (RSTUDENT) und den h i. 13 Der studentisierte Rest-RSTUDENT unterscheidet sich geringfügig von STUDENT, da die Fehlerabweichung durch s (i) 2 ohne die i-te Beobachtung und nicht durch s 2 geschätzt wird. Zum Beispiel können Beobachtungen mit RSTUDENT größer als 2 im absoluten Wert etwas Aufmerksamkeit erfordern. Die COVRATIO-Statistik misst die Veränderung der Determinante der Kovarianzmatrix der Schätzungen durch Löschung der i-ten Beobachtung: Belsley, Kuh und Welsch legen nahe, dass Beobachtungen mit p die Anzahl der Parameter im Modell und n die Zahl von ist Beobachtungen verwendet, um das Modell passen, sind eine Untersuchung wert. Die DFFITS-Statistik ist ein skaliertes Maß für die Änderung des vorhergesagten Wertes für die i-te Beobachtung und 13 wird berechnet, indem die i-te Beobachtung gelöscht wird. Ein großer Wert zeigt an, dass die Beobachtung in der Umgebung des X-Raumes sehr einflussreich ist. Große Werte von DFFITS weisen auf einflussreiche Beobachtungen hin. Eine allgemeine Abgrenzung zu betrachten ist 2 ein von Belsley, Kuh und Welsch empfohlener, größenbereinigter Cutoff, wobei n und p wie oben definiert sind. Die DFFITS-Statistik ist den Köchen D sehr ähnlich. Definiert in Abschnitt 34Predicted und Restwerte34. Die DFBETAS-Statistiken sind die skalierten Maße der Änderung in jedem Parameter 13 Schätzung und werden durch Löschen der i-ten Beobachtung berechnet: Im allgemeinen bedeuten große Werte von DFBETAS Beobachtungen, die bei der Schätzung eines gegebenen Parameters einflussreich sind. Belsley, Kuh und Welsch empfehlen 2 als einen allgemeinen Cutoff-Wert, um einflussreiche Beobachtungen und einen größenangepassten Cutoff zu kennzeichnen. Abbildung 55.42 zeigt die von der INFLUENCE-Option für das Populationsbeispiel (Abschnitt 34Polynom-Regression34) erzeugten Tabellen. Siehe Abbildung 55.29 für die passende Regressionsgleichung. Die REG-Prozedur Abbildung 55.43: Regression mit der INFLUENCE-Option In Abbildung 55.42. Die Beobachtungen 16, 17 und 19 übersteigen den Grenzwert von 2 für RSTUDENT. Keine der Beobachtungen übersteigt den allgemeinen Cutoff von 2 für DFFITS oder den DFBETAS, aber die Beobachtungen 16, 17 und 19 übersteigen mindestens einen der größenangepassten Cutoffs für diese Statistiken. Die Beobachtungen 1 und 19 übersteigen den Cutoff für die Hutdiagonalen, und die Beobachtungen 1, 2, 16, 17 und 18 übersteigen die Cutoffs für COVRATIO. Zusammengenommen zeigen diese Statistiken, dass Sie zuerst auf die Beobachtungen 16, 17 und 19 und dann vielleicht die anderen Beobachtungen untersuchen sollten, die einen Cutoff überschritten haben. Die Option PARTIAL 13 Die Option PARTIAL in der MODEL-Anweisung erzeugt partielle Regression-Hebel-Plots. Diese Option erfordert die Verwendung der Option LINEPRINTER in der PROC REG-Anweisung, da hochauflösende Teilregressionsdiagramme derzeit nicht unterstützt werden. Ein Plot wird für jeden Regressor in dem vollen, aktuellen Modell erstellt. Beispielsweise werden Plots für Regressoren unter Verwendung von ADD-Anweisungen erzeugt, die nicht für Zwischenmodelle in den verschiedenen Modellauswahlverfahren, sondern nur für das Vollmodell erzeugt werden. Wenn Sie eine Modellselektionsmethode verwenden und das endgültige Modell nur eine Teilmenge der ursprünglichen Regressoren enthält, erzeugt die Option PARTIAL immer noch Plots für alle Regressoren im Vollmodell. Für einen gegebenen Regressor ist die partielle Regressionseffektkurve die Auftragung der abhängigen Variablen und des Regressors, nachdem sie orthogonal zu den anderen Regressoren im Modell gemacht worden sind. Diese können durch Auftragen der Residuen für die abhängige Variable gegen die Residuen für den ausgewählten Regressor erhalten werden, wobei die Residuen für die abhängige Variable mit dem ausgewählten Regressor ausgelassen werden und die Residuen für den ausgewählten Regressor aus einem Modell berechnet werden, in dem das Selektierte ausgewählt ist Regressor wird auf den verbleibenden Regressoren zurückgezogen. Eine zu den Punkten passende Linie hat eine Steigung, die der Parameterschätzung im Vollmodell entspricht. In dem Diagramm sind die Punkte durch die Anzahl der Wiederholungen markiert, die an einer Position erscheinen. Das Symbol wird verwendet, wenn es zehn oder mehr Wiederholungen gibt. Wenn eine ID-Anweisung angegeben wird, wird das linke nichtblankische Zeichen im Wert der ID-Variablen als Plot-Symbol verwendet. Die folgenden Aussagen verwenden die Fitnessdaten in Beispiel 55.1 mit der Option PARTIAL, um die partiellen Regressionshebelplots im OUTPUT-Fenster zu erzeugen. Die Plots sind nicht dargestellt. Die folgenden Aussagen erstellen eine der partiellen Regressionsdiagramme auf einem hochauflösenden Grafikgerät für die Fitnessdaten. Alle vier Plots (erzeugt durch Regressing Oxygen und eine der Variablen auf den verbleibenden Variablen) werden in Abbildung 55.43 dargestellt. Beachten Sie, dass die Int-Variable explizit hinzugefügt wird, um als Intercept-Term verwendet zu werden. Abbildung 55.44: Partielle Regression Leverage PlotsWillkommen für das Institut für digitale Forschung und Bildung Lektion 3 Logistische Regression Diagnostics HINWEIS: Diese Seite befindet sich noch im Aufbau. In den beiden vorangegangenen Kapiteln konzentrierten wir uns auf Fragen der logistischen Regressionsanalyse, wie zB die Erstellung von Interaktionsvariablen und die Interpretation der Ergebnisse unseres Logistikmodells. Damit unsere Analyse gültig ist, muss unser Modell die Annahmen der logistischen Regression erfüllen. Wenn die Annahmen der logistischen Regressionsanalyse nicht erfüllt sind, können Probleme wie z. B. Vorspannungskoeffizientenschätzungen oder sehr große Standardfehler für die logistischen Regressionskoeffizienten auftreten, und diese Probleme können zu ungültigen statistischen Schlüssen führen. Daher müssen wir, bevor wir unser Modell verwenden können, um eine statistische Schlussfolgerung zu machen, überprüfen, ob unser Modell ausreichend gut passt und auf einflussreiche Beobachtungen prüft, die Auswirkungen auf die Schätzungen der Koeffizienten haben. In diesem Kapitel werden wir uns darauf konzentrieren, wie Modellmodelle bewertet werden können, wie potentielle Probleme in unserem Modell diagnostiziert werden können und wie Beobachtungen identifiziert werden können, die signifikante Auswirkungen auf Modellanpassungen oder Parameterschätzungen haben. Lets beginnen mit einer Überprüfung der Annahmen der logistischen Regression. Die wahren Bedingungswahrscheinlichkeiten sind eine logistische Funktion der unabhängigen Variablen. Keine wichtigen Variablen werden weggelassen. Keine externen Variablen sind enthalten. Die unabhängigen Variablen werden fehlerfrei gemessen. Die Beobachtungen sind unabhängig. Die unabhängigen Variablen sind keine linearen Kombinationen voneinander. In diesem Kapitel werden wir weiterhin den Apilog-Dataset verwenden. 3.1 Spezifikationsfehler Wenn wir ein logistisches Regressionsmodell erstellen, gehen wir davon aus, dass die logit der Ergebnisvariablen eine lineare Kombination der unabhängigen Variablen ist. Dies betrifft zwei Aspekte, da es sich um die beiden Seiten unserer logistischen Regressionsgleichung handelt. Betrachten wir zunächst die Linkfunktion der Ergebnisvariablen auf der linken Seite der Gleichung. Wir gehen davon aus, dass die Logitfunktion (in logistischer Regression) die richtige Funktion ist. Zweitens nehmen wir auf der rechten Seite der Gleichung an, dass wir alle relevanten Variablen enthalten haben, dass wir keine Variablen enthalten haben, die nicht im Modell enthalten sein sollten, und die Logitfunktion ist eine lineare Kombination der Prädiktoren. Es könnte vorkommen, dass die Logitfunktion als Linkfunktion nicht die richtige Wahl ist oder die Beziehung zwischen dem Logit der Ergebnisvariablen und den unabhängigen Variablen nicht linear ist. In beiden Fällen haben wir einen Spezifikationsfehler. Die Fehlspezifikation der Verknüpfungsfunktion ist gewöhnlich nicht zu schwer, verglichen mit anderen alternativen Verknüpfungsfunktionsoptionen, wie z. B. Probit (basierend auf der Normalverteilung). In der Praxis geht es uns mehr darum, ob unser Modell alle relevanten Prädiktoren aufweist und ob die Linearkombination von ihnen ausreicht. Der Stata-Befehl linktest kann verwendet werden, um einen Spezifikationsfehler zu erkennen, und er wird nach dem Logit - oder Logikbefehl ausgegeben. Die Idee hinter linktest ist, dass, wenn das Modell richtig spezifiziert ist, sollte man nicht in der Lage, zusätzliche Prädiktoren, die statistisch signifikant, außer durch Zufall zu finden. Nach dem Regressionsbefehl (in unserem Fall logit oder logistic) verwendet linktest den linearen vorhergesagten Wert (Hut) und den linearen vorhergesagten Wert quadriert (Hatsq) als Prädiktoren, um das Modell neu zu erstellen. Der variable Hut sollte ein statistisch signifikanter Prädiktor sein, da er der vorhergesagte Wert aus dem Modell ist. Dies ist der Fall, es sei denn, das Modell ist vollständig missspezifiziert. Auf der anderen Seite, wenn unser Modell richtig spezifiziert wird, sollte variable Hatsq nicht viel Vorhersagekraft außer durch Zufall haben. Daher, wenn Hatsq ist signifikant, dann ist der Linktest signifikant. Dies bedeutet normalerweise, dass wir entweder die relevante Variable (s) weggelassen haben oder unsere Link-Funktion nicht korrekt spezifiziert ist. Nun sehen wir uns ein Beispiel an. In unserem api-Dataset haben wir eine Variable namens credml. Die für 707 Beobachtungen (Schulen) definiert ist, deren Anteil der Credentiallehrer im mittleren und unteren Bereich liegen. Für diese Subpopulation von Schulen, glauben wir, dass die Variablen yrrnd. Mahlzeiten und Credml sind leistungsstarke Prädiktoren für die Vorhersage, wenn eine Schule api Gäste ist hoch. So liefen wir den folgenden Befehl logit, gefolgt von dem Befehl linktest. Zuerst sehen wir in der Ausgabe des Logitbefehls, dass die drei Prädiktoren alle statistisch signifikanten Prädiktoren sind, und in dem folgenden linktest ist die Variable Hatsq signifikant (mit p-Wert 0,006). Dies bestätigt einerseits, dass wir sinnvolle Prädiktoren gewählt haben. Auf der anderen Seite sagt es uns, dass wir einen Spezifikationsfehler haben (da der linktest signifikant ist). Das erste, was zu tun, um die Situation zu beheben ist, um zu sehen, ob wir alle relevanten Variablen enthalten haben. Häufiger als nicht, dachten wir, dass wir alle Variablen enthalten hatten, aber wir haben die möglichen Wechselwirkungen zwischen einigen der Vorhersagevariablen übersehen. Dies kann bei unserem Modell der Fall sein. Daher versuchen wir, unserem Modell einen Interaktionsbegriff hinzuzufügen. Wir erstellen eine Interaktionsvariable ym yrrndmeals und fügen sie zu unserem Modell hinzu und versuchen den linktest erneut. Zuerst ist der Interaktionsterm mit p-Wert signifikant .015. Zweitens ist der Linktest nicht mehr signifikant. Dies ist ein Indiz dafür, dass wir den Interaktionsbegriff in das Modell aufnehmen sollten, und indem wir ihn einbeziehen, erhalten wir ein besseres Modell in Bezug auf die Modellspezifikation. Jetzt vergleichen wir die beiden Modelle, die wir gerade gebaut haben. Von der Ausgabe unseres ersten Logitbefehls haben wir die folgende Regressionsgleichung: logit (hiqual) 2.411226 - 1.185658 yrrnd -.0932877 Mahlzeiten .7415145 credml Dieses Modell hat nicht die Interaktion der Variablen yrrnd und Mahlzeiten. Daher ist die Wirkung der variablen Mahlzeiten gleich, unabhängig davon, ob eine Schule ein Schuljahr ist oder nicht. Auf der anderen Seite, im zweiten Modell, logit (hiqual) 2.668048 - 2.816989 yrrnd -.1014958 Mahlzeiten .7795476 credml .0459029 ym, ist die Wirkung der variablen Mahlzeiten unterschiedlich, je nachdem, ob eine Schule ein Jahr-um-Schule ist oder nicht . Genauer gesagt, wenn eine Schule nicht ein Jahr-um-Schule ist, ist die Wirkung der variablen Mahlzeiten -.1014958 auf logit der Ausgang Variable hiqual und die Wirkung ist -.1014958 .0459029 -.0555929 für ein Jahr-um-Schule. Dies macht Sinn, da ein Jahr-um-Schule hat in der Regel einen höheren Prozentsatz der Studenten auf freie oder ermäßigte Mahlzeiten als eine nicht-Jahr-um-Schule. Daher sind die variablen Mahlzeiten innerhalb des Schuljahres nicht mehr so ​​mächtig wie für eine allgemeine Schule. Dies erklärt uns, dass, wenn wir nicht unser Modell richtig angeben, die Wirkung der variablen Mahlzeiten mit Bias geschätzt werden könnte. Wir müssen bedenken, dass linkest ist einfach ein Werkzeug, das bei der Überprüfung unseres Modells hilft. Es hat seine Grenzen. Es ist besser, wenn wir eine Theorie im Auge haben, um unseren Modellbau zu begleiten, dass wir unser Modell gegen unsere Theorie überprüfen und dass wir unser Modell anhand unserer Theorie validieren. Lets Blick auf ein anderes Beispiel, wo der linktest nicht so gut funktioniert. Wir bauen ein Modell, um hiqual mit yrrnd und Auszeichnungen als Prädiktoren vorherzusagen. Beachten Sie, dass das Pseudo-R-Quadrat .076 ist, das auf der niedrigen Seite ist. Trotzdem führen wir die Leinwand. Und es erweist sich als sehr nicht signifikant (s.909). Es stellt sich heraus, dass Hatsq und Hut sind sehr korreliert mit Korrelation von -.9617, was eine nicht-signifikante Hatsq, da es nicht bieten viel neue Informationen über Hut selbst. Wir wissen, dass die variablen Mahlzeiten sehr viel mit der Ergebnisgröße zusammenhängen und dass wir sie in unserem Modell haben sollten. So führen wir ein weiteres Modell mit Mahlzeiten als zusätzlicher Prädiktor. Diesmal erweist sich die Leinwand als bedeutend. Welches ist das bessere Modell Wenn wir uns das Pseudo-R-Quadrat ansehen, geht es von 0,076 auf 0,5966. Wir werden definitiv mit dem zweiten Modell gehen. Dies sagt uns, dass der linktest ein begrenztes Werkzeug ist, um Spezifikationsfehler genau wie jedes andere Werkzeug zu erkennen. Es ist nützlich, uns zu helfen, zu erkennen, aber wir müssen unser bestes Urteil verwenden, wie immer. Wir haben früher gesehen, dass das Fehlen eines Interaktionsbegriffs ein Modellspezifikationsproblem verursachen könnte. Ähnlich könnten wir auch ein Modellspezifikationsproblem haben, wenn einige der Prädiktorvariablen nicht richtig transformiert sind. Zum Beispiel kann die Änderung einer abhängigen Variablen auf einem Prädiktor nicht linear sein, sondern nur der lineare Term wird als Prädiktor in dem Modell verwendet. Um dies zu adressieren, kann ein Stata-Programm mit dem Namen boxtid verwendet werden. Es ist ein benutzerdefiniertes Programm, das Sie über das Internet herunterladen können, indem Sie quot findit boxtid quot. Boxtid steht für das Box-Tidwell-Modell, das einen Prädiktor unter Verwendung von Energietransformationen transformiert und die beste Potenz für die Modellanpassung auf der Grundlage der maximalen Wahrscheinlichkeitsschätzung findet. Genauer gesagt wird ein Prädiktor x in B & sub1; B & sub2; xp umgewandelt, und das beste p wird unter Verwendung der maximalen Wahrscheinlichkeitsschätzung gefunden. Neben der Schätzung der Leistungstransformation schätzt boxtid auch exponentielle Transformationen ab, die als Energiefunktionen auf der exponentiellen Skala betrachtet werden können. Lets Blick auf ein anderes Modell, wo wir hiqaul von yrrnd und Mahlzeiten vorherzusagen. Nun beginnen mit einem Modell mit nur zwei Prädiktoren. Der Linktest ist signifikant, was auf Probleme mit der Modellspezifikation hinweist. Wir verwenden dann boxtid. Und es zeigt die beste Umwandlung der Prädiktor-Variablen, wenn nötig. Der Test der Nichtlinearität für die variablen Mahlzeiten ist statistisch signifikant mit p-Wert .005. Die Nullhypothese ist, dass die Vorhersagevariablen Mahlzeiten ein linearer Term oder äquivalent p1 1 sind. Sie zeigt aber, dass p1 optimal ist. Dies deutet auf eine Quadratwurzel-Transformation der variablen Mahlzeiten hin. So können versuchen, diesen Ansatz und ersetzen Sie die variablen Mahlzeiten mit der Quadratwurzel von sich selbst. Dies könnte im Einklang mit einer Theorie, dass die Wirkung der variablen Mahlzeiten am Ende abzuschwächen. Dies zeigt, dass manchmal das Logit der Ergebnisvariablen nicht eine lineare Kombination der Prädiktorvariablen ist, sondern eine lineare Kombination von transformierten Prädiktorvariablen, möglicherweise mit Interaktionstermen. Wir haben nur an der Oberfläche gekratzt, wie wir mit dem Problem der Spezifikationsfehler umgehen können. In der Praxis ist eine Kombination aus einem guten Griff der Theorie hinter dem Modell und einem Bündel von statistischen Werkzeugen, um Spezifikationsfehler und andere mögliche Probleme zu erkennen, notwendig, um uns durch Modellbau zu führen. Referenzen auf wo Sie mehr Informationen finden können und Beispiele 3.2 Güte-fit Wir haben aus unseren früheren Lehren gesehen, dass die statas-Ausgabe der logistischen Regression das Log-Likelihood-Chi-Quadrat und das Pseudo-R-Quadrat für das Modell enthält. Diese Maßnahmen, zusammen mit anderen, die wir auch in diesem Abschnitt zu diskutieren, geben uns eine allgemeine Maßstab, wie das Modell passt die Daten. Beginnen wir mit einem Modell, das wir vorher gezeigt haben. Das Log-Likelihood-Chi-Quadrat ist ein Omnibustest, um zu sehen, ob das Modell als Ganzes statistisch signifikant ist. Es ist das 2-fache der Differenz zwischen der Log-Wahrscheinlichkeit des aktuellen Modells und der Log-Wahrscheinlichkeit des Intercept-Only-Modells. Da Stata ihren Iterationsvorgang immer mit dem Intercept-Only-Modell startet, entspricht die Log-Wahrscheinlichkeit bei der oben gezeigten Iteration 0 der Log-Wahrscheinlichkeit des leeren Modells. Die vier Freiheitsgrade stammen aus den vier Vorhersagevariablen, die das aktuelle Modell besitzt. Ein Pseudo-R-Quadrat steht in einem etwas anderen Geschmack, fängt aber mehr oder weniger dasselbe ein, da es der Anteil der Veränderung in der Wahrscheinlichkeit ist. Es ist ein Pseudoquot R-Quadrat, weil es im Gegensatz zu dem R-Quadrat in OLS-Regression, wo R-Quadrat misst den Anteil der Varianz durch das Modell erklärt. Das Pseudo-R-Quadrat wird nicht als Varianz gemessen, da in der logistischen Regression die Varianz als Varianz der Standard-Logistikverteilung festgelegt ist. Allerdings ist es immer noch ein Anteil in Bezug auf die Log-Wahrscheinlichkeit. Wegen des Problems, dass es (was) niemals 1 sein wird, gab es viele Variationen dieses speziellen Pseudo-R-Quadrats. Wir sollten auch beachten, dass verschiedene Pseudo-R-Quadrate sehr unterschiedliche Einschätzungen von Modellen ergeben können und dass es keine einzige Version von pseduo R-Quadrat gibt, die von den meisten Datenanalytikern gegenüber anderen Versionen bevorzugt wird. Eine weitere häufig verwendete Test des Modells fit ist der Hosmer und Lemeshows Güte-von-fit-Test. Die Idee des Hosmer - und Lemeshows-Güte-Fit-Tests besteht darin, dass die vorhergesagte Frequenz und die beobachtete Frequenz eng zusammenpassen, und je mehr sie zusammenpassen, desto besser ist die Passform. Die Güte-Fit-Statistik von Hosmer-Lemeshow wird als Pearson-Chi-Quadrat aus der Kontingententabelle der beobachteten Frequenzen und der erwarteten Frequenzen berechnet. Ähnlich einem Test der Assoziation einer Zwei-Wege-Tabelle wird eine gute Passung, wie durch Hosmer - und Lemeshows-Test gemessen, einen großen p-Wert ergeben. Wenn es kontinuierliche Prädiktoren im Modell gibt, gibt es viele Zellen, die durch die Prädiktorvariablen definiert werden, wodurch eine sehr große Kontingenztabelle gebildet wird, die ein signifikantes Ergebnis mehr als oft ergeben würde. So besteht eine gängige Praxis darin, die durch die Prädiktorvariablen gebildeten Muster in 10 Gruppen zu kombinieren und eine Kontingenztabelle von 2 mal 10 zu bilden. Mit einem p-Wert von 0,33 können wir sagen, dass Hosmer - und Lemeshows-Güte-Test zeigt Dass unser Modell die Daten gut passt. Es gibt viele andere Modelle passend, wie AIC (Akaike Information Criterion) und BIC (Bayesian Information Criterion). Ein Befehl namens fitstat zeigt die meisten nach einem Modell an. Viele Male, fitstat wird verwendet, um Modelle zu vergleichen. Nehmen wir an, wir wollen das aktuelle Modell vergleichen, das den Interaktionsterm von yrrnd und Mahlzeiten mit einem Modell ohne den Interaktionsbegriff enthält. Wir können die fitsat Optionen verwenden und speichern, um Modelle zu vergleichen. Beachten Sie, dass fitstat nur verwendet werden sollte, um verschachtelte Modelle zu vergleichen. Der erste Fitstat zeigt und speichert die Anpassungsstatistik für das größere Modell, und der zweite verwendet die gespeicherten Informationen, um sie mit dem aktuellen Modell zu vergleichen. Das Ergebnis unterstützt das Modell ohne Interaktion über das Modell mit der Interaktion, aber nur schwach. Auf der anderen Seite haben wir bereits gezeigt, dass der Interaktionszeitraum signifikant ist. Aber wenn wir genauer hinschauen, können wir sehen, dass ihr Koeffizient ziemlich klein im Logitmaßstab ist und sehr nahe bei 1 im Quotenverhältnis ist. Daher ist die inhaltliche Bedeutung der Interaktion, die statistisch signifikant ist, möglicherweise nicht so prominent wie sie aussieht. 3.3 Multicollinearität Multicollinearität (oder Collinearity for short) tritt auf, wenn zwei oder mehr unabhängige Variablen im Modell näherungsweise durch eine Linearkombination von anderen unabhängigen Variablen im Modell bestimmt werden. Zum Beispiel würden wir ein Problem mit Multikollinearität haben, wenn wir beide Höhen gemessen in Zoll und Höhe in Fuß in dem gleichen Modell gemessen. Der Grad der Multikollinearität kann variieren und kann unterschiedliche Auswirkungen auf das Modell haben. Wenn eine perfekte Kollinearität auftritt, dh wenn eine unabhängige Variable eine perfekte lineare Kombination der anderen ist, ist es unmöglich, eine einzigartige Schätzung von Regressionskoeffizienten mit allen unabhängigen Variablen im Modell zu erhalten. Was Stata in diesem Fall ist, um eine Variable fallen, die eine perfekte lineare Kombination der anderen ist, so dass nur die Variablen, die nicht genau lineare Kombinationen von anderen in das Modell, um eine einzigartige Schätzung der Regressionskoeffizienten zu gewährleisten. Zum Beispiel können wir künstlich eine neue Variable namens perli als die Summe von yrrnd und Mahlzeiten erstellen. Beachten Sie, dass der einzige Zweck dieses Beispiels und die Erstellung der Variable perli ist zu zeigen, was Stata, wenn perfekte Collinearity auftritt. Beachten Sie, dass Stata eine Notiz aussendet und uns informiert, dass die Variable yrrnd aus dem Modell aufgrund der Kollinearität fallen gelassen wurde. Wir können nicht annehmen, dass die Variable, die Stata aus dem Modell fällt, die Variable "quotcorrectquot" ist, um aus dem Modell wegzulassen, wir müssen uns auf die Theorie verlassen, um festzustellen, welche Variable ausgelassen werden soll. Moderate Multicollinearität ist ziemlich häufig, da jede Korrelation zwischen den unabhängigen Variablen ein Hinweis auf die Kollinearität ist. Wenn eine starke Multikollinearität auftritt, neigen die Standardfehler für die Koeffizienten dazu, sehr groß (aufgeblasen) zu sein, und manchmal können die geschätzten logistischen Regressionskoeffizienten sehr unzuverlässig sein. Wir betrachten folgendes Beispiel. In diesem Modell wird die abhängige Variable hiqual sein. Und die Prädiktorvariablen umfassen avged. Yrrnd Mahlzeiten . Voll. Und die Wechselwirkung zwischen yrrnd und voll, yxfull. Nach dem Log-Verfahren führen wir auch einen Fitness-Test durch. Beachten Sie, dass die Güte-von-fit-Test zeigt, dass insgesamt unser Modell passt ziemlich gut. Dennoch merken die ungeraden Verhältnis und Standardfehler für die Variable yrrnd unglaublich hoch sind. Anscheinend ging etwas schief. Eine direkte Ursache für das unglaublich große ungerade Verhältnis und sehr großen Standardfehler ist die Multicollinearität unter den unabhängigen Variablen. Wir können ein Programm namens collin verwenden, um die Multikollinearität zu erkennen. Sie können das Programm von der ATS-Website der Stata-Programme für Lehre und Forschung herunterladen. (Findit-Tag) Alle Maßnahmen in der obigen Ausgabe sind Massnahmen der Stärke der Wechselbeziehungen zwischen den Variablen. Zwei häufig verwendete Maßnahmen sind Toleranz (ein Indikator dafür, wie viel Kollinearität eine Regressionsanalyse tolerieren kann) und VIF (v ariance i nflation f actor - ein Indikator, wie viel der Inflation des Standardfehlers durch Kollinearität verursacht werden könnte). Die Toleranz für eine bestimmte Variable ist 1 minus R 2, die sich aus der Regression der anderen Variablen dieser Variablen ergibt. Der entsprechende VIF ist einfach 1 Toleranz. Sind alle Variablen orthogonal zueinander, also völlig unkorreliert, sind sowohl die Toleranz als auch VIF gleich 1. Wenn eine Variable sehr eng mit einer anderen Variablen verknüpft ist, geht die Toleranz auf 0, und Die Varianz Inflation wird sehr groß. Zum Beispiel, in der Ausgabe oben, sehen wir, dass die Toleranz und VIF für die Variable yxfull 0,0291 bzw. 34,34 ist. Wir können diese Ergebnisse reproduzieren, indem wir die entsprechende Regression. Beachten Sie, dass die R 2 ist .9709. Daher beträgt die Toleranz 1-.9709 .0291. Der VIF ist 1,0291 34,36 (wobei der Unterschied zwischen 34,34 und 34,36 Rundungsfehler ist). Als Faustregel gilt eine Toleranz von 0,1 oder weniger (äquivalent VIF von 10 oder mehr). Nun haben wir gesehen, welche Toleranz und VIF-Messung und wir haben überzeugt, dass es ein ernstes Kollinearitätsproblem gibt, was wir dagegen tun. Beachten Sie, dass in der obigen Regression die Variablen full und yrrnd die einzigen signifikanten Prädiktoren und der Koeffizient für yrrnd sind es ist sehr groß. Dies liegt daran, dass oftmals, wenn wir einen Interaktionsbegriff zu schaffen, schaffen wir auch einige Kollinearität Problem. Dies ist in der Ausgabe der Korrelation unten zu sehen. Eine Möglichkeit zur Festsetzung des Kollinearitätsproblems besteht darin, die Variable voll zu zentrieren, wie unten gezeigt. Wir verwenden den Befehl sum, um den Mittelwert der Variablen full zu erhalten. Und erzeugen dann eine neue Variable namens fullc. Der voll ist, abzüglich seines Mittelwerts. Als nächstes erzeugen wir die Interaktion von yrrnd und fullc. Genannt yxfc. Schließlich führen wir den Befehl logit mit fullc und yxfc als Prädiktoren statt voll und yxfull aus. Denken Sie daran, dass, wenn Sie eine zentrierte Variable als Prädiktor verwenden, sollten Sie alle notwendigen Interaktionsbegriffe mit der zentrierten Version dieser Variable (anstelle der nicht beanspruchten Version) erstellen. Wir zeigen die Korrelationsmatrix vor und nach der Zentrierung an und bemerken, wie stark sich die Zentrierung verändert hat. (Wo liegen diese Korrelationsmatrizen) Die Zentrierung der Variablen full hat in diesem Fall das Problem der Kollinearität behoben, und unser Modell passt insgesamt gut zusammen. Die Variable yrrnd ist nicht mehr ein signifikanter Prädiktor, sondern der Interaktionsbegriff zwischen yrrnd und full ist. Durch die Möglichkeit, alle Prädiktoren in unserem Modell beizubehalten, wird es leicht für uns sein, den Effekt jedes der Prädiktoren zu interpretieren. Diese Zentrierungsmethode ist ein Spezialfall einer Transformation der Variablen. Transformation der Variablen ist das beste Mittel für Multicollinearity, wenn es funktioniert, da wir keine Variablen aus unserem Modell verlieren. Aber die Wahl der Transformation ist oft schwierig zu machen, mit Ausnahme der direkten wie der Zentrierung. Es wäre eine gute Wahl, wenn die Transformation in Bezug auf die Modellierung sinnvoll ist, da wir die Ergebnisse interpretieren können. (Was wäre eine gute Wahl sein Ist dieser Satz redundant) Andere häufig vorgeschlagene Abhilfen gehören das Löschen von einigen der Variablen und zunehmende Stichprobengröße, um mehr Informationen zu erhalten. Das erste ist nicht immer eine gute Option, da es zu einem missspezifischen Modell führen könnte, und die zweite Option ist nicht immer möglich. Wir verweisen unsere Leser auf Berry und Feldman (1985, S. 46-50) für eine ausführlichere Erörterung von Heilmitteln für Kollinearität. Titel des Buches oder Artikels 3.4 Einflussreiche Beobachtungen Bisher haben wir gesehen, wie potenzielle Probleme im Modellbau erkannt werden können. Wir konzentrieren uns jetzt auf die Erfassung von potenziellen Beobachtungen, die einen signifikanten Einfluss auf das Modell haben. Es gibt mehrere Gründe, die wir brauchen, um einflussreiche Beobachtungen zu entdecken. Erstens könnten dies Dateneingabefehler sein. Zweitens können einflussreiche Beobachtungen für uns selbst von Interesse sein, damit wir studieren können. Auch können einflussreiche Datenpunkte die Regressionsschätzung schlecht verschieben. (Im nicht klar, was das bedeutet) In OLS-Regression haben wir mehrere Arten von Residuen und Einfluss Maßnahmen, die uns helfen, zu verstehen, wie jede Beobachtung verhält sich im Modell, wie wenn die Beobachtung ist zu weit weg von den anderen Beobachtungen , Oder wenn die Beobachtung zu viel Einfluss auf die Regressionsgeraden hat. Ähnliche Techniken wurden für logistische Regression entwickelt. Pearson-Residuen und seine standardisierte Version ist eine Art von Rest. Pearson-Residuen sind definiert als die standardisierte Differenz zwischen der beobachteten Frequenz und der vorhergesagten Frequenz. Sie messen die relativen Abweichungen zwischen den beobachteten und den eingepassten Werten. Abweichungsrest ist eine andere Art von Rest. Es misst die Unstimmigkeit zwischen den Maxima der beobachteten und der angepassten Log-Likelihood-Funktionen. Da die logistische Regression das Maximum-Likelihood-Prinzip verwendet, besteht das Ziel in der logistischen Regression darin, die Summe der Abweichungsresiduen zu minimieren. Daher ist dieser Rest parallel zum Rohrest in der OLS-Regression, wobei das Ziel darin besteht, die Summe der quadrierten Residuen zu minimieren. Eine andere Statistik, die manchmal als Hutdiagonale bezeichnet wird, da sie technisch die Diagonale der Hutmatrix ist, misst die Hebelwirkung einer Beobachtung. Es wird auch manchmal die Pregibon-Hebelwirkung genannt. Diese drei Statistiken, Pearson-Rest-, Abweichungsrest - und Pregibon-Hebel werden als die drei grundlegenden Bausteine ​​für die logistische Regressionsdiagnose betrachtet. Diese wollen wir immer inspizieren. Sie können von Stata nach dem Logit - oder Logistikbefehl abgerufen werden. Eine gute Möglichkeit, sie zu betrachten, ist, sie entweder gegen die vorhergesagten Wahrscheinlichkeiten oder einfach für Fallzahlen zu zeichnen. Sehen wir sie an einem Beispiel. Wir verwenden weiterhin das Modell, das wir in unserem letzten Abschnitt gebaut haben, wie unten gezeigt. Nun erhalten Sie sowohl die standardisierten Pearson-Residuen und Abweichung Residuen und plotten sie gegen die vorhergesagten Wahrscheinlichkeiten. Es scheint mehr als nur die Parzellen der Pearson-Residuen und Abweichungsresiduen zu geben. Auch könnte es hilfreich sein, einen Kommentar in dem Code, der das Diagramm beschreibt, zu haben, zum Beispiel eine Auftragung von Pearson-Resten gegenüber vorhergesagten Wahrscheinlichkeiten. Wie Sie sehen können, haben wir mit diesen Statistiken zwei Arten von Diagrammen erstellt: die Diagramme der Statistik gegen die vorhergesagten Werte und die Diagramme dieser Statistiken gegen die Index-ID (sie wird daher auch als Index-Plot bezeichnet) Der Grundstücke vermitteln grundsätzlich die gleichen Informationen. Die Datenpunkte scheinen sich stärker auf Indexplots zu verteilen, was es leichter macht, den Index für die extremen Beobachtungen zu sehen. Was wir aus diesen Parametern sehen, sehen wir einige Beobachtungen, die weit von den meisten anderen Beobachtungen entfernt sind. Dies sind die Punkte, die besondere Aufmerksamkeit brauchen. Zum Beispiel hat die Beobachtung mit der Schulnummer 1403 einen sehr hohen Pearson - und Abweichungsrest. Das beobachtete Ergebnis hiqual ist 1, aber die vorhergesagte Wahrscheinlichkeit ist sehr, sehr niedrig (was bedeutet, dass das Modell voraussagt, dass das Ergebnis 0 ist). Dies führt zu großen Resten. Aber beachten Sie, dass die Beobachtung 1403 ist nicht so schlimm in Bezug auf die Hebelwirkung. Das heißt, daß, indem wir diese besondere Beobachtung nicht einschließen, unsere logistische Regressionschätzung nicht zu viel von dem Modell unterscheidet, das diese Beobachtung enthält. Lets Liste der hervorragendsten Beobachtungen auf der Grundlage der Grafiken. Was findet man in jeder Beobachtung Was macht sie von den anderen ab? Beobachtung mit snum 1402 hat einen großen Hebelwert. Der Prozentsatz der vollberechtigten Lehrer ist 36. Wenn wir die Verteilung der Vollständigkeit mit der Detailoption betrachten, haben wir festgestellt, dass 36 Prozent wirklich niedrig sind, da der Cutoff-Punkt für die untere 5 61 ist. Auf der anderen Seite ist ihr api-Score Ist ziemlich hoch mit api00 761. Dies ist ein wenig entgegen unserer Intuition, dass mit dem niedrigen Prozentsatz der vollberechtigten Lehrer, dass die Schule eine schlechte Performance-Schule sein sollte. Now lets compare the logistic regression with this observation and without it to see how much impact it has on our regression coefficient estimates. We see that this single observation changes the variable yxfc from being significant to not significant, and the variable yrrnd from not significant to almost significant. (Can we say quotalmost significant Give the p-values instead yrrnd would be stat sig if our alpha level was .06) This one single observation has a huge leverage on the regression model. How about the other two observations You may want to compare the logistic regression analysis with the observation included and without the observation just as we have done here. One thing we notice is that avged is 5 for observation with snum 1819, the highest possible. This means that every students family has some graduate school education. This sounds too good to be true. This may well be a data entry error. This may well be the reason why this observation stands out so much from the others. This leads us to inspect our data set more carefully. We can list all the observations with perfect avged . There are three schools with a perfect avged score. It is very unlikely that the average education for any of the schools would reach a perfect score of 5. The observation with snum 3098 and the observation with snum 1819 seem more unlikely than the observation with snum 1081, though, since their api scores are very low. In any case, it seems that we should double check the data entry here. What do we want to do with these observations It really depends. Sometimes, we may be able to go back to correct the data entry error. Sometimes we may have to exclude them. Regression diagnostics can help us to find these problems, but they dont tell us exactly what to do about them. So far, we have seen the basic three diagnostic statistics: the Pearson residual, the deviance residual and the leverage (the hat value). They are the basic building blocks in logistic regression diagnostics. There are other diagnostic statistics that are used for different purposes. One important aspect of diagnostics is to identify observations with substantial impact on either the chi-square fit statistic or the deviance statistic. For example, we may want to know how much change in either the chi-square fit statistic or in the deviance statistic a single observation would cause. This leads to the dx2 and dd statistics. dx2 stands for the difference of chi-squares and dd stands for the difference of deviances. In Stata, we can simply use the predict command after the logit or logistic command to create these variables, as shown below. We can then visually inspect them. It is worth noticing that, first of all, these statistics are only one-step approximation of the difference, not quite the exact difference, since it would be computationally too extensive to obtain exact difference for every observation. (Im not clear about what a quotone-stepquot approximation is) Secondly, Stata does all the diagnostic statistics for logistic regression using covariate patterns. Each observation will have exactly the same diagnostic statistics as all of the other observations in the same covariate pattern. Perhaps give the variables names that are different than the options, just to avoid confusion. The observation with snum 1403 is obviously substantial in terms of both chi-square fit and the deviance fit statistic. For example, in the first plot, we see that dx2 is about 216 for this observation and below 100 for the rest of the observations. This means that when this observation is excluded from our analysis, the Pearson chi-square fit statistic will decrease by roughly 216. In the second plot, the observation with snum 1403 will increase the deviance about 11. We can run two analysis and compare their Pearson chi-squares to see if this is the case. It is not precisely 216. (Umm, in most cases, 171 isnt considered to be anywhere near 216. Is this really a good example) This is because of one-step approximation. We can also look at the difference between deviances in a same way. Since the deviance is simply 2 times the log likelihood, we can compute the difference of deviances as 2 times the difference in log likelihoods. When could it happen that an observation has great impact on fit statistics, but not too much impact on parameter estimates This is actually the case for the observation with snum 1403, because its leverage is not very large. Notice that the observation with snum 1403 has a fairly large residual. This means that the values for the independent variables of the observation are not in an extreme region, but the observed outcome for this point is very different from the predicted value. From the list of the observation below, we see that the percent of students receiving free or reduced-priced meals is about 100 percent, the avged score is 2.19, and it is a year-around school. All things considered, we wouldnt expect that this school is a high performance school. But its api score is 808, which is very high. With information on school number and district number, we can find out to which school this observation corresponds. It turns out that this school is Kelso Elementary School in Inglewood that has been doing remarkably well. One can easily find many interesting articles about the school. Therefore, regression diagnostics help us to recognize those schools that are of interest to study by themselves. The last type of diagnostic statistics is related to coefficient sensitivity. It concerns how much impact each observation has on each parameter estimate. Similar to OLS regression, we also have dfbetas for logistic regression. A program called ldfbeta is available for download (findit tag) . Like other diagnostic statistics for logistic regression, ldfbeta also uses one-step approximation. Unlike other logistic regression diagnostics in Stata, ldfbeta is at the individual observation level, instead of at the covariate pattern level. After either the logit or logistic command, we can simply issue the ldfbeta command. It can be used without any arguments, and in that case, dfbeta is calculated for each predictor. It will take some time since it is somewhat computationally intensive. Or we can specify a variable, as shown below. For example, suppose that we want to know how each individual observation affects the parameter estimate for the variable meals . There is another statistic called Pregibons dbeta which is provides summary information of influence on parameter estimates of each individual observation (more precisely each covariate pattern). dbeta is very similar to Cooks D in ordinary linear regression. This is more commonly used since it is much less computationally intensive. We can obtain dbeta using the predict command after the logit or logistic command. We have seen quite a few logistic regression diagnostic statistics. Now how large does each one have to be, to be considered influential First of all, we always have to make our judgment based on our theory and our analysis. Secondly, there are some rule-of-thumb cutoffs when the sample size is large. These are shown below. When the sample size is large, the asymptotic distribution of some of the measures would follow some standard distribution. That is why we have these cutoff values, and why they only apply when the sample size is large enough. Usually, we would look at the relative magnitude of a statistic an observation has compared to others. That is, we look for data points that are farther away from most of the data points. 3.5 Common Numerical Problems with Logistic Regression In this section, we are going to discuss some common numeric problems with logistic regression analysis. When we have categorical predictor variables, we may run into a quotzero-cellsquot problem. Sehen wir uns ein Beispiel an. In the data set hsb2 . we have a variable called write for writing scores. For the purpose of illustration, we dichotomize this variable into two groups as a new variable called hw . Notice that one group is really small. With respect to another variable, ses . the crosstabulation shows that some cells have very few observations, and, in particular, the cell with hw 1 and ses low, the number of observations is zero. This will cause a computation issue when we run the logistic regression using hw as the dependent variable and ses as the predictor variable, as shown below. Notice that it takes more iterations to run this simple model and at the end, there is no standard error for the dummy variable Ises2 . Stata also issues a warning at the end. So what has happened The 47 failures in the warning note correspond to the observations in the cell with hw 0 and ses 1 as shown in the crosstabulation above. It is certain that the outcome will be 0 if the variable ses takes the value of 1 since there are no observations in the cell with hw 1 and ses 1. Although ses seems to be a good predictor, the empty cell causes the estimation procedure to fail. In fact, the odds ratio of each of the predictor variables is going to the roof: What do we do if a similar situation happens to our real-world data analysis Two obvious options are available. One is to take this variable out of the regression model. It might not be a good option, but it could help in verifying the problem. The other option is to collapse across some of the categories to increase the cell size. For example, we can collapse the two lower categories of the variable ses into one category. Here is a trivial example of perfect separation. Recall that our variable hw is created based on the writing score. So what happens when we use the variable write to predict hw . Of course, we will have a perfect prediction with hw 1 if and only if write gt67. Therefore, if we try to run this logit model in Stata, we will not see any estimates but simply a message: This is a very contrived example for the purpose of illustration. 3.6 Summary of Useful Commands linktest--performs a link test for model specification, in our case to check if logit is the right link function to use. This command is issued after the logit or logistic command. lfit--performs goodness-of-fit test, calculates either Pearson chi-square goodness-of-fit statistic or Hosmer-Lemeshow chi-square goodness-of-fit depending on if the group option is used. fitstat -- is a post-estimation command that computes a variety of measures of fit. lsens -- graphs sensitivity and specificity versus probability cutoff. lstat -- displays summary statistics, including the classification table, sensitivity, and specificity. lroc -- graphs and calculates the area under the ROC curve based on the model. listcoef--lists the estimated coefficients for a variety of regression models, including logistic regression. predict dbeta -- Pregibon delta beta influence statistic predict deviance -- deviance residual predict dx2 -- Hosmer and Lemeshow change in chi-square influence statistic predict dd -- Hosmer and Lemeshow change in deviance statistic predict hat -- Pregibon leverage predict residual -- Pearson residuals adjusted for the covariate pattern predict rstandard -- standardized Pearson residuals adjusted for the covariate pattern ldfbeta -- influence of each individual observation on the coefficient estimate ( not adjusted for the covariate pattern) graph with weightsomevariable option scatlog--produces scatter plot for logistic regression. boxtid--performs power transformation of independent variables and performs nonlinearity test. References Berry, W. D. and Feldman, S. (1985) Multiple Regression in Practice. Sage University Paper Series on Quantitative Applications in the Social Sciences, 07-050. Beverly Hill, CA: Sage. Pregibon, D. (1981) Logistic Regression Diagnostics, Annals of Statistics, Vol. 9, 705-724. Long and Freese, Regression Models for Categorical Dependent Variables Using Stata, 2nd Edition. Menard, S. (1995) Applied Logistic Regression Analysis. Sage University Paper Series on Quantitative Applications in the Social Sciences, 07-106. Thousand Oaks, CA: Sage.


Comments

Popular Posts