Analiza regresji wielokrotnej przy użyciu statystyk SPSS

wpis w: Articles | 0

wprowadzenie

regresja wielokrotna jest rozszerzeniem prostej regresji liniowej. Jest on używany, gdy chcemy przewidzieć wartość zmiennej na podstawie wartości dwóch lub więcej innych zmiennych. Zmienna, którą chcemy przewidzieć, nazywana jest zmienną zależną(lub czasami zmienną wyniku, celu lub kryterium)., Zmienne, których używamy do przewidywania wartości zmiennej zależnej, nazywane są zmiennymi niezależnymi (lub czasami zmiennymi predykcyjnymi, objaśniającymi lub regresorowymi).

na przykład, można użyć wielokrotnej regresji, aby zrozumieć, czy wydajność egzaminu można przewidzieć na podstawie czasu rewizji, lęku testowego, frekwencji na wykładzie i płci. Alternatywnie można użyć wielokrotnej regresji, aby zrozumieć, czy można przewidzieć dzienne spożycie papierosów na podstawie czasu trwania palenia, wieku, w którym rozpoczęto palenie, rodzaju palacza, dochodu i płci.,

regresja wielokrotna pozwala również określić ogólne dopasowanie (wyjaśniono wariancję) modelu i względny udział każdego z predyktorów w wyjaśniono całkowitą wariancję. Na przykład, możesz chcieć wiedzieć, ile zmienności w wydajności egzaminu można wyjaśnić przez czas rewizji, lęk testowy, frekwencja wykładów i płeć „jako całość”, ale także „względny wkład” każdej zmiennej niezależnej w Wyjaśnienie wariancji.,

Ten przewodnik „Szybki start” pokazuje, jak przeprowadzić regresję wielokrotną za pomocą statystyk SPSS, a także zinterpretować i zgłosić wyniki tego testu. Zanim jednak zapoznamy Cię z tą procedurą, musisz zrozumieć różne założenia, które muszą spełniać Twoje dane, aby regresja wielokrotna dała prawidłowy wynik. Następnie omówimy te założenia.,

Statystyka SPSS

założenia

gdy zdecydujesz się na analizę danych za pomocą wielokrotnej regresji, część procesu polega na sprawdzeniu, czy dane, które chcesz przeanalizować, mogą być rzeczywiście analizowane za pomocą wielokrotnej regresji. Musisz to zrobić, ponieważ właściwe jest użycie regresji wielokrotnej tylko wtedy, gdy Twoje dane „przechodzą” osiem założeń, które są wymagane do wielokrotnej regresji, aby dać prawidłowy wynik., W praktyce sprawdzenie tych ośmiu założeń po prostu dodaje trochę więcej czasu do analizy, wymagając kliknięcia kilku dodatkowych przycisków w statystykach SPSS podczas wykonywania analizy, a także zastanowienia się trochę więcej o danych, ale nie jest to trudne zadanie.

zanim przedstawimy Ci te osiem założeń, nie zdziw się, jeśli podczas analizy własnych danych za pomocą statystyk SPSS, jedno lub więcej z tych założeń zostanie naruszone (tzn. nie zostanie spełnione)., Nie jest to rzadkością podczas pracy z rzeczywistymi danymi, a nie podręcznikowymi przykładami, które często pokazują tylko, jak przeprowadzić wielokrotną regresję, gdy wszystko idzie dobrze! Jednak nie martw się. Nawet wtedy, gdy dane nie spełniają pewnych założeń, często istnieje rozwiązanie, aby to przezwyciężyć. Po pierwsze, spójrzmy na te osiem założeń:

  • założenie #1: twoja zmienna zależna powinna być mierzona w skali ciągłej (tzn. jest to zmienna interwałowa lub proporcyjna)., Przykłady zmiennych, które spełniają to kryterium, obejmują czas weryfikacji (mierzony w godzinach), inteligencję( mierzony przy użyciu wyniku IQ), wydajność egzaminu (mierzony od 0 do 100), wagę (mierzony w kg), i tak dalej. Więcej informacji na temat Zmiennych interwałowych i współczynnikowych można znaleźć w naszym artykule: typy zmiennych. Jeśli zmienna zależna została zmierzona na skali porządkowej, będziesz musiał przeprowadzić regresję porządkową, a nie regresję wielokrotną. Przykładami zmiennych porządkowych są pozycje Likerta (np.,, 7-punktowa skala od „zdecydowanie zgadzam się” do „zdecydowanie nie zgadzam się”), między innymi sposoby rankingu kategorii (np. 3-punktowa skala wyjaśniająca, jak bardzo klient lubi produkt, począwszy od „nie bardzo” do „tak, dużo”).
  • założenie # 2: masz dwie lub więcej niezależnych zmiennych, które mogą być ciągłe (np. zmienna interwałowa lub proporcyjna) lub kategoryczne (np. zmienna porządkowa lub nominalna). Przykłady zmiennych ciągłych i porządkowych można znaleźć w powyższej podpunkcie. Przykładami zmiennych nominalnych są Płeć (np. 2 grupy: męska i żeńska), pochodzenie etniczne( np.,, 3 grupy: Kaukaska, afroamerykańska i hiszpańska), poziom aktywności fizycznej (np. 4 grupy: siedzący tryb życia, niski, umiarkowany i wysoki), zawód (np. 5 grup: chirurg, lekarz, pielęgniarka, dentysta, terapeuta) i tak dalej. Więcej informacji na temat Zmiennych znajdziesz w naszym artykule: typy zmiennych. Jeśli jedna z Twoich niezależnych zmiennych jest dychotomiczna i jest uważana za zmienną moderacyjną, być może będziesz musiał przeprowadzić analizę moderatora dychotomicznego.
  • założenie #3: Należy mieć niezależność obserwacji (tj.,, niezależność pozostałości), które można łatwo sprawdzić za pomocą statystyki Durbin-Watson, która jest prostym testem do uruchomienia za pomocą statystyk SPSS. Wyjaśniamy, jak interpretować wynik Statystyki Durbina-Watsona, a także przedstawiamy wymaganą procedurę statystyki SPSS w naszym rozszerzonym przewodniku regresji wielokrotnej.
  • założenie # 4: musi istnieć liniowa zależność między (A) zmienną zależną i każdą z Twoich niezależnych zmiennych oraz (b) zmienną zależną i zmiennymi niezależnymi łącznie., Chociaż istnieje wiele sposobów, aby sprawdzić te relacje liniowe, sugerujemy tworzenie wykresów rozproszonych i wykresów regresji częściowej za pomocą statystyk SPSS, a następnie wizualnie sprawdzanie tych wykresów rozproszonych i wykresów regresji częściowej w celu sprawdzenia liniowości. Jeśli relacja wyświetlana na wykresach punktowych i wykresach regresji częściowej nie jest liniowa, będziesz musiał przeprowadzić nieliniową analizę regresji lub „przekształcić” swoje dane, co możesz zrobić za pomocą statystyk SPSS., W naszym rozszerzonym przewodniku regresji wielokrotnej pokazujemy, jak: (A) tworzyć wykresy rozproszone i wykresy regresji częściowej w celu sprawdzenia liniowości podczas przeprowadzania regresji wielokrotnej za pomocą statystyk SPSS; (b) interpretować różne wyniki Wykresów rozproszonych i regresji częściowej; oraz (c) przekształcać dane za pomocą statystyk SPSS, jeśli nie masz liniowych relacji między zmiennymi.
  • założenie # 5: Twoje dane muszą pokazywać homoscedasticity, czyli gdzie wariancje wzdłuż linii najlepszego dopasowania pozostają podobne, gdy poruszasz się wzdłuż linii., Wyjaśniamy więcej o tym, co to oznacza i jak ocenić homoscedastyczność danych w naszym rozszerzonym przewodniku regresji wielokrotnej. Podczas analizy własnych danych, trzeba będzie wykreślić studentized pozostałości przed niestandardowych przewidywanych wartości. W naszym rozszerzonym przewodniku regresji wielokrotnej wyjaśniamy: (a) jak przetestować homoscedastyczność za pomocą statystyk SPSS; (b) niektóre rzeczy, które musisz wziąć pod uwagę podczas interpretacji danych; oraz (c) możliwe sposoby kontynuowania analizy, jeśli dane nie spełniają tego założenia.,
  • założenie # 6: Twoje dane nie mogą wykazywać wielokolinearności, która występuje, gdy masz dwie lub więcej niezależnych zmiennych, które są ze sobą silnie skorelowane. Prowadzi to do problemów ze zrozumieniem, która zmienna niezależna przyczynia się do wariancji wyjaśnionej w zmiennej zależnej, a także problemów technicznych w obliczaniu modelu regresji wielokrotnej., Dlatego w naszym rozszerzonym przewodniku regresji wielokrotnej pokazujemy: (a) jak używać statystyk SPSS do wykrywania wielokolinearności poprzez kontrolę współczynników korelacji i wartości tolerancji/VIF; oraz (b) jak interpretować te współczynniki korelacji i wartości tolerancji/VIF, aby można było określić, czy dane spełniają lub naruszają to założenie.
  • założenie # 7: nie powinno być znaczących odstających, wysokich punktów dźwigni lub bardzo wpływowych punktów., Odstające, dźwignia i wpływowe punkty to różne terminy używane do reprezentowania obserwacji w zestawie danych, które są w jakiś sposób nietypowe, gdy chcesz przeprowadzić analizę regresji wielokrotnej. Te różne klasyfikacje nietypowych punktów odzwierciedlają różny wpływ, jaki mają na linię regresji. Obserwację można sklasyfikować jako więcej niż jeden rodzaj nietypowego punktu. Jednak wszystkie te punkty mogą mieć bardzo negatywny wpływ na równanie regresji, które jest używane do przewidywania wartości zmiennej zależnej na podstawie zmiennych niezależnych., Może to zmienić wyniki generowane przez statystyki SPSS i zmniejszyć predykcyjną dokładność wyników, a także istotność statystyczną. Na szczęście, korzystając ze statystyk SPSS do uruchamiania wielokrotnej regresji danych, można wykryć możliwe odstające wartości, wysokie punkty dźwigni finansowej i bardzo wpływowe punkty., W naszym rozszerzonym przewodniku regresji wielokrotnej: (a) pokażemy, jak wykrywać odstające wartości za pomocą „casewise diagnostics” i „studentized deleted residuals”, które możesz zrobić za pomocą statystyk SPSS, i omówimy niektóre z opcji, które masz w celu radzenia sobie z odstającymi; (b) Sprawdź punkty dźwigni za pomocą statystyk SPSS i omówimy, co powinieneś zrobić, jeśli masz takie; oraz (c) sprawdź wpływowe punkty w statystykach SPSS za pomocą miary wpływu znanej jako odległość Cooka, przed przedstawieniem niektórych praktycznych podejść w statystykach SPSS, aby poradzić sobie z wpływowymi punktami, które możesz mieć.,
  • założenie # 8: na koniec musisz sprawdzić, czy pozostałości (błędy) są w przybliżeniu rozkładane normalnie (wyjaśniamy te terminy w naszym rozszerzonym przewodniku regresji wielokrotnej). Dwie wspólne metody, aby sprawdzić to założenie to za pomocą: (a) histogram (z nałożoną krzywą normalną) i normalny Wykres P-P; lub (b) normalny Wykres Q-Q studentized residuals., Ponownie w naszym rozszerzonym przewodniku regresji wielokrotnej: (a) pokażemy, jak sprawdzić to założenie za pomocą statystyk SPSS, czy używasz histogramu (z nałożoną krzywą normalną) i normalnego wykresu P-P lub normalnego wykresu Q-Q; (b) wyjaśnimy, jak interpretować te diagramy; i (c) dostarczymy możliwe rozwiązanie, jeśli dane nie spełniają tego założenia.

Możesz sprawdzić założenia #3, #4, #5, #6, #7 i # 8 za pomocą statystyk SPSS. Założenia #1 i #2 należy najpierw sprawdzić, zanim przejdziemy do założeń #3, #4, #5, #6, #7 i #8., Pamiętaj tylko, że jeśli nie uruchomisz testów statystycznych na tych założeniach poprawnie, wyniki uzyskane podczas uruchamiania regresji wielokrotnej mogą nie być poprawne. Dlatego poświęcamy kilka sekcji naszego rozszerzonego przewodnika regresji wielokrotnej, aby pomóc ci to zrobić. Możesz dowiedzieć się o naszych ulepszonych treściach jako całości na naszej stronie funkcje: PRZEGLĄD, a dokładniej, dowiedzieć się, jak pomagamy w testowaniu założeń na naszej stronie Funkcje: założenia.,

w sekcji procedura zilustrujemy procedurę statystyki SPSS do wykonania regresji wielokrotnej przy założeniu, że żadne założenia nie zostały naruszone. Po pierwsze, przedstawiamy przykład, który jest używany w tym przewodniku.

statystyki SPSS

przykład

badacz zdrowia chce być w stanie przewidzieć „VO2max”, wskaźnik sprawności i zdrowia. Normalnie, aby wykonać tę procedurę wymaga drogiego sprzętu laboratoryjnego i wymaga, że indywidualne ćwiczenia do ich maksimum (to znaczy, aż mogą dłużej kontynuować ćwiczenia z powodu wyczerpania fizycznego)., Może to zniechęcić osoby, które nie są bardzo aktywne/sprawne i osoby, które mogą być bardziej narażone na zły stan zdrowia (np. starsze osoby niezdolne do pracy). Z tych powodów pożądane było znalezienie sposobu przewidywania VO2max danej osoby na podstawie atrybutów, które można zmierzyć łatwiej i taniej. W tym celu badacz zwerbował 100 uczestników do wykonania maksymalnego testu VO2max, ale także zarejestrował ich „wiek”,” wagę”,” tętno „i”płeć”. Tętno to średnia z ostatnich 5 minut z 20 minut, znacznie łatwiejszego, niższego obciążenia rowerem testu., Celem badacza jest możliwość przewidywania VO2max na podstawie tych czterech atrybutów: wieku, wagi, tętna i płci.

statystyki SPSS

Konfiguracja w statystykach SPSS

w statystykach SPSS stworzyliśmy sześć zmiennych: (1) VO2max, który jest maksymalną wydolnością tlenową; (2) wiek, który jest wiekiem uczestnika; (3) waga, która jest wagą uczestnika (technicznie jest to ich „masa”); (4) heart_rate, który jest tętnem uczestnika; (5) płeć, która jest płcią uczestnika; oraz (6) caseno, czyli numer sprawy., Zmienna caseno służy do łatwego eliminowania przypadków (np.” znaczące odstające”,” wysokie punkty dźwigni „i” wysoce wpływowe punkty”), które zostały zidentyfikowane podczas sprawdzania założeń. W naszym ulepszonym przewodniku regresji wielokrotnej pokazujemy, jak poprawnie wprowadzić dane do statystyk SPSS, aby uruchomić regresję wielokrotną, gdy sprawdzasz również założenia. Więcej informacji na temat naszej rozszerzonej zawartości konfiguracji danych można znaleźć na stronie funkcje: Konfiguracja danych. Alternatywnie, zobacz nasz ogólny przewodnik „Szybki start”: wprowadzanie danych w statystykach SPSS.,

statystyki SPSS

procedura testowa w statystyce SPSS

siedem poniższych kroków pokazuje, jak analizować dane za pomocą regresji wielokrotnej w statystyce SPSS, gdy żaden z ośmiu założeń w poprzedniej sekcji, założenia, nie został naruszony. Na końcu tych siedmiu kroków pokażemy, jak interpretować wyniki regresji wielokrotnej., Jeśli szukasz pomocy, aby upewnić się, że Twoje dane spełniają założenia #3, #4, #5, #6, #7 i # 8, które są wymagane podczas korzystania z regresji wielokrotnej i mogą być testowane za pomocą statystyk SPSS, możesz dowiedzieć się więcej w naszym ulepszonym przewodniku (zobacz naszą stronę funkcje: Przegląd, aby dowiedzieć się więcej).

  1. kliknij >regresja> liniowa… w menu głównym, jak pokazano poniżej:

    opublikowane za pisemną zgodą SPSS Statistics, IBM Corporation.,

    uwaga: nie martw się, że wybierasz Analizuj >regresja> liniowa… w menu głównym lub że okna dialogowe w kolejnych krokach mają tytuł, regresja liniowa. Nie popełniłeś błędu. Jesteś we właściwym miejscu, aby przeprowadzić procedurę wielokrotnej regresji. Jest to tylko tytuł, który daje SPSS Statistics, nawet podczas uruchamiania procedury wielokrotnej regresji.,

  2. zostanie wyświetlone okno dialogowe regresji liniowej poniżej:

    opublikowane za pisemną zgodą SPSS Statistics, IBM Corporation.,

  3. Przenieś zmienną zależną, VO2max, do pola Dependent:, A zmienne niezależne, wiek, Waga, współczynnik serca i Płeć do pola Independent(s):, używając przycisków, jak pokazano poniżej (wszystkie pozostałe pola mogą być ignorowane):

    opublikowane za pisemną zgodą SPSS Statistics, IBM Corporation.,

    Uwaga: w przypadku standardowej regresji wielokrotnej należy zignorować przyciski I, ponieważ są one przeznaczone do sekwencyjnej (hierarchicznej) regresji wielokrotnej. Opcja Method: musi być zachowana przy domyślnej wartości, która wynosi . Jeśli z jakiegoś powodu nie jest zaznaczone, musisz zmienić metodę: wróć do . Metoda jest nazwą nadaną przez statystyki SPSS standardowej analizie regresji.,

  4. kliknij przycisk . Zostanie wyświetlone okno dialogowe regresja liniowa: Statystyka, jak pokazano poniżej:

    opublikowane za pisemną zgodą SPSS Statistics, IBM Corporation.

  5. oprócz opcji, które są domyślnie wybrane, wybierz przedziały ufności w obszarze –współczynniki regresji– pozostawiając opcję poziom(%): na poziomie „95”., Zostanie wyświetlony następujący ekran:

    opublikowany za pisemną zgodą SPSS Statistics, IBM Corporation.

  6. kliknij przycisk. Zostaniesz przekierowany do okna dialogowego regresji liniowej.
  7. kliknij przycisk . To wygeneruje wyjście.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *