introduktion
Multiple regression är en förlängning av enkel linjär regression. Den används när vi vill förutsäga värdet av en variabel baserat på värdet av två eller flera andra variabler. Variabeln vi vill förutsäga kallas den beroende variabeln (eller ibland utfallet, mål eller kriterium variabel)., Variablerna vi använder för att förutsäga värdet av den beroende variabeln kallas de oberoende variablerna(eller ibland prediktorn, förklarande eller regressorvariabler).
Du kan till exempel använda flera regression för att förstå om tentamensprestanda kan förutsägas baserat på revisionstid, test ångest, föreläsning närvaro och kön. Alternativt kan du använda flera regression för att förstå om daglig cigarettkonsumtion kan förutsägas baserat på rökning varaktighet, ålder när började röka, rökare typ, inkomst och kön.,
Multiple regression låter dig också bestämma modellens övergripande passform (varians förklaras) och det relativa bidraget från var och en av prediktörerna till den totala variansen förklaras. Till exempel, Du kanske vill veta hur mycket av variationen i examen prestanda kan förklaras av revisionstid, test ångest, föreläsning närvaro och kön ”som helhet”, men också ”relativa bidrag” av varje oberoende variabel för att förklara variansen.,
den här snabbstartsguiden visar hur du utför flera regressioner med hjälp av SPSS-Statistik, samt tolkar och rapporterar resultaten från detta test. Men innan vi introducerar dig till denna procedur måste du förstå de olika antaganden som dina data måste uppfylla för att flera regressioner ska ge dig ett giltigt resultat. Vi diskuterar dessa antaganden nästa.,
SPSS Statistik
antaganden
När du väljer att analysera dina data med hjälp av flera regression, en del av processen innebär kontroll för att se till att de data du vill analysera faktiskt kan analyseras med hjälp av flera regression. Du måste göra detta eftersom det bara är lämpligt att använda flera regression om dina data ”passerar” åtta antaganden som krävs för flera regression för att ge dig ett giltigt resultat., I praktiken lägger kontrollen av dessa åtta antaganden bara lite mer tid till din analys, vilket kräver att du klickar på några fler knappar i SPSS-statistiken när du utför din analys, samt tänka lite mer om dina data, men det är inte en svår uppgift.
innan vi introducerar dig till dessa åtta antaganden, bli inte förvånad om, när du analyserar dina egna data med hjälp av SPSS-Statistik, en eller flera av dessa antaganden bryts (dvs. inte uppfylls)., Detta är inte ovanligt när man arbetar med verkliga data snarare än lärobok exempel, som ofta bara visar dig hur man utför flera regression när allt går bra! Men oroa dig inte. Även när dina data misslyckas vissa antaganden, det finns ofta en lösning för att övervinna detta. Låt oss först ta en titt på dessa åtta antaganden:
- antagande #1: DIN beroende variabel ska mätas i kontinuerlig skala (dvs det är antingen ett intervall eller Förhållande variabel)., Exempel på variabler som uppfyller detta kriterium är revisionstid (mätt i timmar), intelligens (mätt med IQ-poäng), provprestanda (mätt från 0 till 100), vikt (mätt i kg) och så vidare. Du kan läsa mer om intervallvariabler och kvotvariabler i vår artikel: typer av variabler. Om din beroende variabel mättes på en ordinär skala måste du utföra ordinär regression snarare än multipel regression. Exempel på ordningsvariabler är Likert-poster (t. ex.,, en 7-gradig skala från ”starkt överens” till ”starkt oense”), bland andra sätt att rangordna kategorier (t.ex. en 3-gradig skala som förklarar hur mycket en kund tyckte om en produkt, som sträcker sig från ”inte så mycket” till ”ja, mycket”).
- antagande # 2: du har två eller flera oberoende variabler, som kan vara antingen kontinuerliga (dvs ett intervall eller Förhållande variabel) eller kategoriska (dvs en ordinär eller nominell variabel). För exempel på kontinuerliga och ordinära variabler, se punkten ovan. Exempel på nominella variabler är kön (t. ex. 2 grupper: manligt och kvinnligt), etnicitet (t. ex.,, 3 grupper: kaukasiska, afroamerikanska och latinamerikanska), fysisk aktivitetsnivå (t.ex. 4 grupper: stillasittande, låg, måttlig och hög), yrke (t. ex. 5 grupper: kirurg, läkare, sjuksköterska, tandläkare, terapeut), och så vidare. Återigen kan du lära dig mer om variabler i vår artikel: typer av variabler. Om en av dina oberoende variabler är dikotom och anses vara en modererande variabel, kan du behöva köra en Dikotomös moderatoranalys.
- antagande # 3: Du bör ha oberoende av observationer (dvs.,, oberoende av residualer), som du enkelt kan kontrollera med Durbin-Watson statistik, vilket är ett enkelt test för att köra med hjälp av SPSS Statistik. Vi förklarar hur man tolkar resultatet av Durbin-Watson-statistiken, samt visar dig det SPSS-Statistikförfarande som krävs, i vår förbättrade multiple regression guide.
- antagande #4: Det måste finnas ett linjärt samband mellan (A) den beroende variabeln och var och en av dina oberoende variabler, och (B) den beroende variabeln och de oberoende variablerna kollektivt., Även om det finns ett antal sätt att kontrollera för dessa linjära relationer, föreslår vi att skapa scatterplots och partiella regressionsdiagram med hjälp av SPSS-Statistik, och sedan visuellt inspektera dessa scatterplots och partiella regressionsdiagram för att kontrollera efter linearitet. Om förhållandet som visas i dina scatterplots och partiella regressionsdiagram inte är linjära måste du antingen köra en icke-linjär regressionsanalys eller” omvandla ” dina data, vilket du kan göra med SPSS-Statistik., I vår förbättrade multipla regressionsguide visar vi dig hur du: (A) skapar scatterplots och partiella regressionsdiagram för att kontrollera linjäritet när du utför flera regressioner med hjälp av SPSS-Statistik; (b) tolkar olika scatterplot och partiella regressionsdiagramresultat; och (c) omvandlar dina data med SPSS-Statistik om du inte har linjära relationer mellan dina variabler.
- antagande #5: dina data måste visa homoscedasticitet, vilket är där varianterna längs linjen med bästa passform förblir likartade när du rör dig längs linjen., Vi förklarar mer om vad detta innebär och hur man bedömer homoscedasticiteten hos dina data i vår förbättrade multiple regression guide. När du analyserar dina egna data måste du rita de studentiserade residualerna mot de ostandardiserade förutspådda värdena. I vår förbättrade multipla regressionsguide förklarar vi: (a) Hur man testar för homoscedasticitet med hjälp av SPSS-Statistik; (b) några av de saker du behöver tänka på när du tolkar dina data; och (c) möjliga sätt att fortsätta med din analys om dina data inte uppfyller detta antagande.,
- antagande #6: dina data får inte visa multicollinearitet, vilket inträffar när du har två eller flera oberoende variabler som är mycket korrelerade med varandra. Detta leder till problem med att förstå vilken oberoende variabel som bidrar till variansen som förklaras i den beroende variabeln, liksom tekniska problem vid beräkning av en multipel regressionsmodell., Därför visar vi dig i vår förbättrade multiple regression guide: (a) hur du använder SPSS-Statistik för att upptäcka för multicollinearitet genom en inspektion av korrelationskoefficienter och toleransvärden/VIF; och (b) hur du tolkar dessa korrelationskoefficienter och toleransvärden/VIF så att du kan avgöra om dina data uppfyller eller bryter mot detta antagande.
- antagande #7: Det bör inte finnas några signifikanta outliers, höga hävstångspunkter eller mycket inflytelserika punkter., Outliers, hävstångseffekt och inflytelserika punkter är olika termer som används för att representera observationer i din datauppsättning som på något sätt är ovanliga när du vill utföra en multipel regressionsanalys. Dessa olika klassificeringar av ovanliga punkter återspeglar de olika effekter de har på regressionslinjen. En observation kan klassificeras som mer än en typ av ovanlig punkt. Alla dessa punkter kan dock ha en mycket negativ effekt på regressionsekvationen som används för att förutsäga värdet av den beroende variabeln baserat på de oberoende variablerna., Detta kan ändra utdata som SPSS Statistik producerar och minska prediktiva noggrannheten i dina resultat samt den statistiska betydelsen. Lyckligtvis, när du använder SPSS-Statistik för att köra flera regression på dina data, kan du upptäcka eventuella outliers, höga hävstångspunkter och mycket inflytelserika punkter., I vår förbättrade multipla regressionsguide visar vi: (a) hur du upptäcker outliers med hjälp av ”casewise diagnostics” och ”studentized deleted residuals”, som du kan göra med SPSS-Statistik, och diskuterar några av de alternativ du har för att hantera outliers; (b) kontrollera hävstångspunkter med hjälp av SPSS-Statistik och diskutera vad du ska göra om du har några; och (C) kontrollera inflytelserika punkter i SPSS-Statistik med hjälp av ett mått av inflytande som kallas Cooks avstånd, innan du presenterar några praktiska tillvägagångssätt i SPSS-Statistik för att hantera eventuella inflytelserika punkter du kan ha.,
- antagande # 8: Slutligen måste du kontrollera att residuals (fel) är ungefär normalt fördelade (vi förklarar dessa termer i vår förbättrade multiple regression guide). Två vanliga metoder för att kontrollera detta antagande inkluderar användning av: (a) ett histogram (med en överlagrad normal kurva) och en Normal P-P Handlingen; eller (b) en Normal Q-Q-Plot av studentized restprodukter., Igen, i vår förbättrade multipel regression guide kommer vi att: (a) visa dig hur du kan kontrollera detta antagande med hjälp av SPSS Statistics, oavsett om du använder ett histogram (med överlagrade normala kurvan) och Normal P-P Tomten, eller Normala Q-Q-Plot, b) förklara hur man tolkar dessa diagram; och (c) ge en möjlig lösning om dina data inte uppfyller detta antagande.
Du kan kontrollera antaganden #3, #4, #5, #6, #7 och # 8 använder SPSS Statistik. Antaganden # 1 och #2 bör kontrolleras först innan de går vidare till antaganden #3, #4, #5, #6, #7 och # 8., Kom bara ihåg att om du inte kör de statistiska testerna på dessa antaganden korrekt, kan resultaten du får när du kör flera regression inte vara giltiga. Det är därför vi ägnar ett antal delar av vår förbättrade flera regressionsguide för att hjälpa dig att få det rätt. Du kan ta reda på om vårt förbättrade innehåll som helhet på våra funktioner: översiktssida, eller mer specifikt, lära oss hur vi hjälper till med att testa antaganden om våra funktioner: antaganden sida.,
i avsnittet procedur illustrerar vi SPSS-Statistikproceduren för att utföra en multipel regression förutsatt att inga antaganden har kränkts. Först introducerar vi exemplet som används i den här guiden.
SPSS Statistik
exempel
en hälsoforskare vill kunna förutsäga ”VO2max”, en indikator på fitness och hälsa. Normalt, för att utföra denna procedur kräver dyra laboratorieutrustning och kräver att en enskild övning till sitt maximum (dvs tills de längre kan fortsätta att utöva på grund av fysisk utmattning)., Detta kan skjuta upp de personer som inte är särskilt aktiva / lämpliga och de personer som kan ha högre risk för ohälsa (t.ex. äldre olämpliga ämnen). Av dessa skäl har det varit önskvärt att hitta ett sätt att förutsäga en persons VO2max baserat på attribut som kan mätas lättare och billigt. För detta ändamål rekryterade en forskare 100 deltagare för att utföra ett maximalt VO2max-test, men registrerade också deras ”ålder”, ”vikt”, ”hjärtfrekvens” och ”kön”. Hjärtfrekvens är genomsnittet av de senaste 5 minuterna av en 20-minut, mycket lättare, lägre arbetsbelastningscykeltest., Forskarens mål är att kunna förutsäga VO2max baserat på dessa fyra attribut: ålder, vikt, hjärtfrekvens och kön.
SPSS-Statistik
inställning i SPSS-Statistik
i SPSS-Statistik skapade vi sex variabler: (1) VO2max, vilket är den maximala aeroba kapaciteten; (2) ålder, vilket är deltagarens ålder; (3) vikt, vilket är deltagarens vikt (tekniskt är det deras ”massa”); (4) heart_rate, vilket är deltagarens hjärtfrekvens; (5) kön, vilket är deltagarens kön; och (6) caseno, vilket är fallet nummer., Caseno-variabeln används för att göra det enkelt för dig att eliminera fall (t.ex. ”signifikanta outliers”, ”höga hävstångspunkter” och ”mycket inflytelserika punkter”) som du har identifierat när du kontrollerar antaganden. I vår enhanced multiple regression guide visar vi dig hur du korrekt anger data i SPSS-Statistik för att köra en multipel regression när du också kontrollerar antaganden. Du kan lära dig mer om vårt förbättrade innehåll för datainställning på vår sida för funktioner: datainställning. Alternativt, se vår generiska,” Snabbstart ” guide: ange Data i SPSS Statistik.,
SPSS Statistik
testförfarande i SPSS Statistik
de sju stegen nedan visar hur du analyserar dina data med hjälp av flera regression i SPSS Statistik när ingen av de åtta antagandena i föregående avsnitt, antaganden, har kränkts. I slutet av dessa sju steg visar vi dig hur du tolkar resultaten från din multipla regression., Om du letar efter hjälp för att se till att dina data uppfyller antaganden #3, #4, #5, #6, #7 och # 8, som krävs när du använder flera regression och kan testas med hjälp av SPSS-Statistik, kan du lära dig mer i vår förbättrade guide (se våra funktioner: översiktssida för att lära dig mer).
- Klicka på Analysera> Regression> linjär… på huvudmenyn, som visas nedan:
publicerad med skriftligt tillstånd från SPSS Statistics, IBM Corporation.,
Obs! oroa dig inte för att du väljer analysera > Regression > linjär… på huvudmenyn eller att dialogrutorna i stegen som följer har titeln, linjär Regression. Du har inte gjort ett misstag. Du är på rätt plats för att utföra flera regressionsförfarandet. Detta är bara den titel som SPSS Statistik ger, även när du kör en multipel regressionsförfarande.,
- Du kommer att presenteras med dialogrutan linjär Regression nedan:
publicerad med skriftligt tillstånd från SPSS Statistics, IBM Corporation.,
- överför den beroende variabeln, VO2max, till den beroende: rutan och de oberoende variablerna, ålder, vikt, heart_rate och kön till den Oberoende(s): rutan, med hjälp av knapparna, som visas nedan (alla andra rutor kan ignoreras):
publicerad med skriftligt tillstånd från SPSS Statistik, IBM Corporation.,
Obs: För en standard multipel regression bör du ignorera knapparna och eftersom de är för sekventiell (hierarkisk) multipel regression. Metoden: alternativet måste hållas vid standardvärdet, vilket är . Om du av någon anledning inte har valt måste du ändra metod: tillbaka till . Metoden är namnet som ges av SPSS-Statistik till standardregressionsanalys.,
- Klicka på knappen . Du kommer att presenteras med rutan linjär Regression: statistics dialog, som visas nedan:
publicerad med skriftligt tillstånd från SPSS Statistics, IBM Corporation.
- förutom de alternativ som väljs som standard, Välj konfidensintervall i –Regressionskoefficienterna– området lämnar nivån(%): alternativet vid ”95”., Du kommer att sluta med följande skärm:
publicerad med skriftligt tillstånd från SPSS Statistics, IBM Corporation.
- Klicka på knappen. Du kommer att returneras till rutan linjär Regressionsdialog.
- Klicka på knappen. Detta kommer att generera utdata.
Lämna ett svar