Multiple Regressionsanalyse mit SPSS Statistics

Veröffentlicht in: Articles | 0

Einführung

Multiple Regression ist eine Erweiterung der einfachen linearen Regression. Es wird verwendet, wenn wir den Wert einer Variablen basierend auf dem Wert von zwei oder mehr anderen Variablen vorhersagen möchten. Die Variable, die wir vorhersagen möchten, wird als abhängige Variable (oder manchmal als Ergebnis -, Ziel-oder Kriteriumsvariable) bezeichnet., Die Variablen, mit denen wir den Wert der abhängigen Variablen vorhersagen, werden als unabhängige Variablen (oder manchmal als Prädiktor -, Erklärungs-oder Regressorvariablen) bezeichnet.

Sie können beispielsweise mehrere Regressionen verwenden, um zu verstehen, ob die Prüfungsleistung basierend auf Revisionszeit, Testangst, Vorlesungsbesuch und Geschlecht vorhergesagt werden kann. Alternativ können Sie mehrere Regressionen verwenden, um zu verstehen, ob der tägliche Zigarettenkonsum basierend auf der Rauchdauer, dem Alter, dem Beginn des Rauchens, dem Rauchertyp, dem Einkommen und dem Geschlecht vorhergesagt werden kann.,

Mit der multiplen Regression können Sie auch die Gesamtanpassung (Varianz erklärt) des Modells und den relativen Beitrag jedes der Prädiktoren zur erklärten Gesamtvarianz bestimmen. Zum Beispiel möchten Sie vielleicht wissen, wie viel von der Variation der Prüfungsleistung durch Revisionszeit, Testangst, Vorlesungsbesuch und Geschlecht „als Ganzes“ erklärt werden kann, aber auch durch den „relativen Beitrag“ jeder unabhängigen Variablen zur Erklärung der Varianz.,

Diese Kurzanleitung zeigt Ihnen, wie Sie mehrere Regressionen mithilfe von SPSS-Statistiken durchführen und die Ergebnisse dieses Tests interpretieren und melden können. Bevor wir Ihnen dieses Verfahren vorstellen, müssen Sie jedoch die verschiedenen Annahmen verstehen, die Ihre Daten erfüllen müssen, damit eine mehrfache Regression zu einem gültigen Ergebnis führt. Wir diskutieren diese Annahmen als nächstes.,

SPSS-Statistiken

Annahmen

Wenn Sie Ihre Daten mithilfe mehrerer Regressionen analysieren möchten, müssen Sie im Rahmen des Prozesses sicherstellen, dass die zu analysierenden Daten tatsächlich mithilfe mehrerer Regressionen analysiert werden können. Sie müssen dies tun, da es nur dann angemessen ist, mehrere Regressionen zu verwenden, wenn Ihre Daten acht Annahmen „übertreffen“, die für mehrere Regressionen erforderlich sind, um ein gültiges Ergebnis zu erhalten., In der Praxis fügt die Überprüfung auf diese acht Annahmen Ihrer Analyse nur etwas mehr Zeit hinzu, sodass Sie bei der Analyse auf einige weitere Schaltflächen in der SPSS-Statistik klicken und ein wenig mehr über Ihre Daten nachdenken müssen, aber es ist keine schwierige Aufgabe.

Bevor wir Ihnen diese acht Annahmen vorstellen, wundern Sie sich nicht, wenn bei der Analyse Ihrer eigenen Daten mithilfe von SPSS-Statistiken eine oder mehrere dieser Annahmen verletzt werden (dh nicht erfüllt werden)., Dies ist nicht ungewöhnlich, wenn Sie mit realen Daten arbeiten, anstatt mit Lehrbuchbeispielen, die Ihnen oft nur zeigen, wie Sie mehrere Regressionen durchführen, wenn alles gut geht! Aber keine Sorge. Selbst wenn Ihre Daten bestimmte Annahmen nicht erfüllen, gibt es oft eine Lösung, um dies zu überwinden. Schauen wir uns zunächst diese acht Annahmen an:

  • Annahme #1: Ihre abhängige Variable sollte auf einer kontinuierlichen Skala gemessen werden (dh sie ist entweder eine Intervall-oder Verhältnisvariable)., Beispiele für Variablen, die dieses Kriterium erfüllen, sind Revisionszeit (gemessen in Stunden), Intelligenz (gemessen anhand des IQ-Scores), Prüfungsleistung (gemessen von 0 bis 100), Gewicht (gemessen in kg) und so weiter. Mehr über Intervall-und Verhältnisvariablen erfahren Sie in unserem Artikel: Variablentypen. Wenn Ihre abhängige Variable auf einer ordinalen Skala gemessen wurde, müssen Sie eine ordinale Regression anstelle einer multiplen Regression durchführen. Beispiele für ordinale Variablen sind Likert-Elemente (z., ein 7-Punkt-Skala von „Stimme sehr zu“ bis „Stimme überhaupt nicht zu“), unter anderem auch der Rangfolge der Kategorien (z.B., einer 3-Punkte-Skala zu erklären, wie viel ein Kunde mochte ein Produkt, das Spektrum reicht von „Nicht sehr viel“ zu „ja, eine Menge“).
  • Annahme #2: Sie haben zwei oder mehr unabhängige Variablen, die entweder kontinuierlich (dh eine Intervall-oder Verhältnisvariable) oder kategorisch (dh eine ordinale oder nominale Variable) sein können. Beispiele für kontinuierliche und ordinale Variablen finden Sie in der obigen Aufzählung. Beispiele für nominale Variablen sind Geschlecht (z. B. 2 Gruppen: männlich und weiblich), ethnische Zugehörigkeit (z.,, 3 gruppen: Kaukasischen, African American und Hispanic), körperliche aktivität ebene (zb 4 gruppen: sitzende, niedrigen, moderate und hohe), beruf (zb 5 gruppen: chirurg, arzt, krankenschwester, zahnarzt, therapeut), und so weiter. Auch hier erfahren Sie mehr über Variablen in unserem Artikel: Variablentypen. Wenn eine Ihrer unabhängigen Variablen dichotom ist und als moderierende Variable betrachtet wird, müssen Sie möglicherweise eine dichotome Moderatorenanalyse durchführen.
  • Annahme #3: Sie sollten Unabhängigkeit von Beobachtungen haben (dh,, unabhängigkeit von Residuen), die Sie einfach mit der Durbin-Watson-Statistik überprüfen können, die ein einfacher Test ist, der mit SPSS-Statistiken ausgeführt wird. Wir erklären, wie Sie das Ergebnis der Durbin-Watson-Statistik interpretieren und Ihnen das erforderliche SPSS-Statistikverfahren in unserem erweiterten Handbuch zur multiplen Regression zeigen.
  • Annahme #4: Es muss eine lineare Beziehung zwischen (a) der abhängigen Variablen und jeder Ihrer unabhängigen Variablen und (b) der abhängigen Variablen und den unabhängigen Variablen insgesamt bestehen., Es gibt zwar eine Reihe von Möglichkeiten, nach diesen linearen Beziehungen zu suchen, Wir empfehlen jedoch, Scatterplots und partielle Regressionsdiagramme mithilfe von SPSS-Statistiken zu erstellen und diese Scatterplots und partiellen Regressionsdiagramme dann visuell auf Linearität zu überprüfen. Wenn die in Ihren Scatterplots und partiellen Regressionsdiagrammen angezeigte Beziehung nicht linear ist, müssen Sie entweder eine nichtlineare Regressionsanalyse durchführen oder Ihre Daten „transformieren“, was Sie mithilfe von SPSS-Statistiken tun können., In unserem erweiterten Handbuch zur multiplen Regression zeigen wir Ihnen, wie Sie: (a) Scatterplots und partielle Regressionsdiagramme erstellen, um die Linearität bei der Durchführung mehrerer Regressionen mithilfe von SPSS-Statistiken zu überprüfen; (b) verschiedene Scatterplot-und partielle Regressionsdiagrammergebnisse interpretieren; und (c) Ihre Daten mithilfe von SPSS-Statistiken transformieren, wenn Sie keine linearen Beziehungen zwischen Ihren Variablen haben.
  • Annahme #5: Ihre Daten müssen Homoskedastizität zeigen, wobei die Varianzen entlang der Linie der besten Anpassung ähnlich bleiben, wenn Sie sich entlang der Linie bewegen., Weitere Informationen darüber, was dies bedeutet und wie Sie die Homoskedastizität Ihrer Daten beurteilen können, finden Sie in unserem erweiterten Leitfaden zur multiplen Regression. Wenn Sie Ihre eigenen Daten analysieren, müssen Sie die studentisierten Residuen gegen die nicht standardisierten vorhergesagten Werte zeichnen. In unserem erweiterten Leitfaden zur multiplen Regression erklären wir: (a) Testen der Homoskedastizität mithilfe von SPSS-Statistiken; (b) einige der Dinge, die Sie bei der Interpretation Ihrer Daten berücksichtigen müssen; und (c) mögliche Möglichkeiten, mit Ihrer Analyse fortzufahren, wenn Ihre Daten dieser Annahme nicht entsprechen.,
  • Annahme # 6: Ihre Daten dürfen keine Multikollinearität aufweisen, die auftritt, wenn Sie zwei oder mehr unabhängige Variablen haben, die stark miteinander korreliert sind. Dies führt zu Problemen mit dem Verständnis, welche unabhängige Variable zu der in der abhängigen Variablen erläuterten Varianz beiträgt, sowie zu technischen Problemen bei der Berechnung eines multiplen Regressionsmodells., Daher zeigen wir Ihnen in unserem erweiterten Handbuch zur multiplen Regression: (a) Wie Sie mithilfe von SPSS-Statistiken durch eine Inspektion von Korrelationskoeffizienten und Toleranz – /VIF-Werten die Multikollinearität ermitteln und (b) wie Sie diese Korrelationskoeffizienten und Toleranz – /VIF-Werte interpretieren, damit Sie feststellen können, ob Ihre Daten diese Annahme erfüllen oder verletzen.
  • Annahme # 7: Es sollte keine signifikanten Ausreißer, hohe Hebelpunkte oder sehr einflussreiche Punkte geben., Ausreißer, Hebelwirkung und Einflusspunkte sind verschiedene Begriffe, die verwendet werden, um Beobachtungen in Ihrem Datensatz darzustellen, die in gewisser Weise ungewöhnlich sind, wenn Sie eine Multiple Regressionsanalyse durchführen möchten. Diese unterschiedlichen Klassifikationen ungewöhnlicher Punkte spiegeln die unterschiedlichen Auswirkungen auf die Regressionslinie wider. Eine Beobachtung kann als mehr als eine Art ungewöhnlicher Punkt klassifiziert werden. Alle diese Punkte können sich jedoch sehr negativ auf die Regressionsgleichung auswirken, die zur Vorhersage des Werts der abhängigen Variablen basierend auf den unabhängigen Variablen verwendet wird., Dies kann die von SPSS Statistics erzeugte Ausgabe ändern und die Vorhersagegenauigkeit Ihrer Ergebnisse sowie die statistische Signifikanz verringern. Glücklicherweise können Sie bei Verwendung von SPSS-Statistiken zum Ausführen mehrerer Regressionen für Ihre Daten mögliche Ausreißer, hohe Hebelpunkte und sehr einflussreiche Punkte erkennen., In unserem erweiterten Handbuch zur multiplen Regression zeigen wir Ihnen: (a) wie Sie Ausreißer mithilfe von „casewise Diagnostics“ und „studentized deleted Residuals“ erkennen, was Sie mithilfe von SPSS-Statistiken tun können, und einige der Optionen besprechen, die Sie haben, um mit Ausreißern umzugehen; (b) mithilfe von SPSS-Statistiken nach Hebelpunkten suchen und besprechen, was Sie tun sollten, wenn Sie welche haben; und (c) anhand eines als Cook ‚ s Distance bekannten Einflussmaßes nach Einflusspunkten in SPSS-Statistiken suchen, bevor Sie einige praktische Ansätze zur Behandlung einflussreicher Punkte in der SPSS-Statistik vorstellen, die Sie möglicherweise haben.,
  • Annahme #8: Schließlich müssen Sie überprüfen, ob die Residuen (Fehler) ungefähr normal verteilt sind (wir erklären diese Begriffe in unserem erweiterten Handbuch zur multiplen Regression). Zwei gängige Methoden zur Überprüfung dieser Annahme umfassen die Verwendung: (a) ein Histogramm (mit einer überlagerten Normalkurve) und ein normales P-P-Diagramm; oder (b) ein normales Q-Q-Diagramm der studentisierten Residuen., In unserem erweiterten Handbuch zur multiplen Regression zeigen wir Ihnen erneut: (a) wie Sie diese Annahme mithilfe von SPSS-Statistiken überprüfen können, unabhängig davon, ob Sie ein Histogramm (mit überlagerter Normalkurve) und ein normales P-P-Diagramm oder ein normales Q-Q-Diagramm verwenden. (b) Erklären Sie, wie diese Diagramme interpretiert werden. und (c) bieten Sie eine mögliche Lösung, wenn Ihre Daten diese Annahme nicht erfüllen.

Sie können Annahmen überprüfen #3, #4, #5, #6, #7 und #8 mit SPSS-Statistiken. Annahmen #1 und #2 sollten zuerst überprüft werden, bevor Sie zu Annahmen übergehen#3, #4, #5, #6, #7 und #8., Denken Sie daran, dass die Ergebnisse, die Sie beim Ausführen mehrerer Regressionen erhalten, möglicherweise nicht gültig sind, wenn Sie die statistischen Tests für diese Annahmen nicht korrekt ausführen. Aus diesem Grund widmen wir Ihnen eine Reihe von Abschnitten unseres erweiterten Leitfadens für mehrere Regressionen, damit Sie dies richtig machen können. Sie können sich über unsere erweiterten Inhalte als Ganzes auf unserer Seite Features: Übersicht informieren oder genauer gesagt erfahren, wie wir beim Testen von Annahmen auf unserer Seite Features: Annahmen helfen.,

Im Abschnitt Prozedur veranschaulichen wir die SPSS-Statistikprozedur zur Durchführung einer multiplen Regression unter der Annahme, dass keine Annahmen verletzt wurden. Zuerst stellen wir das Beispiel vor, das in diesem Handbuch verwendet wird.

SPSS-Statistik

Beispiel

Ein Gesundheitsforscher möchte „VO2max“, einen Indikator für Fitness und Gesundheit, vorhersagen können. Normalerweise, um dieses Verfahren durchzuführen erfordert teure Laborgeräte und erfordert, dass eine individuelle Übung zu ihrem Maximum (d. H., bis sie mehr trainieren können aufgrund körperlicher Erschöpfung)., Dies kann Personen, die nicht sehr aktiv/fit sind, und Personen, bei denen ein höheres Risiko für Krankheiten besteht (z. B. ältere untaugliche Personen), aufschieben. Aus diesen Gründen war es wünschenswert, einen Weg zu finden, den VO2max einer Person basierend auf Attributen vorherzusagen, die einfacher und kostengünstiger gemessen werden können. Zu diesem Zweck rekrutierte ein Forscher 100 Teilnehmer, um einen maximalen VO2max-Test durchzuführen, zeichnete aber auch ihr „Alter“, „Gewicht“, „Herzfrequenz“ und „Geschlecht“auf. Herzfrequenz ist der Durchschnitt der letzten 5 Minuten einer 20 Minute, viel einfacher, geringere Arbeitsbelastung Radfahren Test., Das Ziel des Forschers ist es, VO2max basierend auf diesen vier Attributen vorhersagen zu können: Alter, Gewicht, Herzfrequenz und Geschlecht.

SPSS-Statistik

Setup in der SPSS-Statistik

In der SPSS-Statistik haben wir sechs Variablen erstellt: (1) VO2max, das ist die maximale aerobe Kapazität; (2) Alter, das ist das Alter des Teilnehmers; (3) Gewicht, das ist das Gewicht des Teilnehmers (technisch gesehen ist es ihre „Masse“); (4) heart_rate, das ist die Herzfrequenz des Teilnehmers; (5) Geschlecht, das ist das Geschlecht des Teilnehmers; und (6) caseno, das ist die Fallnummer., Die caseno-Variable wird verwendet, um Ihnen die Beseitigung von Fällen (z. B. „signifikanten Ausreißern“, „High Leverage Points“ und „sehr einflussreichen Punkten“) zu erleichtern, die Sie bei der Überprüfung auf Annahmen identifiziert haben. In unserem erweiterten Handbuch zur Mehrfachregression zeigen wir Ihnen, wie Sie Daten korrekt in SPSS-Statistiken eingeben, um eine Mehrfachregression auszuführen, wenn Sie auch nach Annahmen suchen. Sie können mehr über unsere erweiterten Daten-Setup-Inhalte auf unserer Seite Features: Daten-Setup erfahren. Alternativ finden Sie in unserem generischen“ Quick Start “ – Handbuch: Eingabe von Daten in SPSS-Statistiken.,

SPSS-Statistiken

Testverfahren in SPSS-Statistiken

Die folgenden sieben Schritte zeigen Ihnen, wie Sie Ihre Daten mithilfe mehrerer Regressionen in SPSS-Statistiken analysieren können, wenn keine der acht Annahmen im vorherigen Abschnitt, Annahmen, verletzt wurde. Am Ende dieser sieben Schritte zeigen wir Ihnen, wie Sie die Ergebnisse Ihrer multiplen Regression interpretieren können., Wenn Sie Hilfe suchen, um sicherzustellen, dass Ihre Daten den Annahmen entsprechen #3, #4, #5, #6, #7 8, die bei Verwendung mehrerer Regressionen erforderlich sind und mit SPSS-Statistiken getestet werden können, erfahren Sie mehr in unserem erweiterten Handbuch (weitere Informationen finden Sie auf unserer Seite Funktionen: Übersicht).

  1. Klicken Sie auf Analysieren > Regression > Linear… im Hauptmenü, wie unten gezeigt:

    Veröffentlicht mit schriftlicher Genehmigung von SPSS Statistics, IBM Corporation.,

    Hinweis: Keine Sorge, Sie wählen Analyze > Regression > Linear… im Hauptmenü oder dass die Dialogfelder in den folgenden Schritten den Titel haben, Lineare Regression. Sie haben keinen Fehler gemacht. Sie sind an der richtigen Stelle, um die Multiple Regression durchzuführen. Dies ist nur der Titel, den SPSS Statistics gibt, auch wenn eine Prozedur mit mehreren Regressionen ausgeführt wird.,

  2. Das Dialogfeld Lineare Regression wird unten angezeigt:

    Veröffentlicht mit schriftlicher Genehmigung von SPSS Statistics, IBM Corporation.,

  3. Übertragen Sie die abhängige Variable VO2max in die abhängige: Box und die unabhängigen Variablen Alter, Gewicht, Herzfrequenz und Geschlecht in die unabhängige(n) Box mit den Schaltflächen (alle anderen Felder können ignoriert werden):

    Veröffentlicht mit schriftlicher Genehmigung aus SPSS Statistics, IBM Corporation.,

    Hinweis: Bei einer standardmäßigen Mehrfachregression sollten Sie die Schaltflächen und ignorieren, da sie für die sequentielle (hierarchische) Mehrfachregression gelten. Die Option Method: muss auf dem Standardwert . Wenn aus irgendeinem Grund nicht ausgewählt ist, müssen Sie die Methode ändern: zurück zu . Die – Methode ist der Name, den SPSS Statistics der Standardregressionsanalyse gibt.,

  4. Klicken Sie auf die Schaltfläche . Das Dialogfeld Lineare Regression: Statistik wird wie folgt angezeigt:

    Veröffentlicht mit schriftlicher Genehmigung von SPSS Statistics, IBM Corporation.

  5. Wählen Sie zusätzlich zu den standardmäßig ausgewählten Optionen Konfidenzintervalle im Bereich-Regressionskoeffizienten-aus und lassen Sie die Option Level(%): bei „95“., Sie erhalten den folgenden Bildschirm:

    Veröffentlicht mit schriftlicher Genehmigung von SPSS Statistics, IBM Corporation.

  6. Klicken Sie auf die Schaltfläche . Sie werden in das Dialogfeld Lineare Regression zurückgegeben.
  7. Klicken Sie auf die Schaltfläche . Dadurch wird die Ausgabe generiert.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.