Inleiding
meervoudige regressie is een uitbreiding van eenvoudige lineaire regressie. Het wordt gebruikt wanneer we de waarde van een variabele willen voorspellen op basis van de waarde van twee of meer andere variabelen. De variabele die we willen voorspellen wordt de afhankelijke variabele (of soms, de uitkomst, doel of criterium variabele) genoemd., De variabelen die we gebruiken om de waarde van de afhankelijke variabele te voorspellen worden de onafhankelijke variabelen genoemd (of soms de voorspeller, verklarende of regressor variabelen).
u kunt bijvoorbeeld meerdere regressie gebruiken om te begrijpen of de examenprestaties kunnen worden voorspeld op basis van revisietijd, angst voor de test, collegebezoek en geslacht. Afwisselend, kunt u meerdere regressie gebruiken om te begrijpen of de dagelijkse sigarettenconsumptie kan worden voorspeld op basis van het roken duur, leeftijd wanneer begonnen met roken, roker type, inkomen en geslacht.,
Met meervoudige regressie kunt u ook de Algemene fit (variantie uitgelegd) van het model en de relatieve bijdrage van elk van de voorspellers aan de totale variantie uitgelegd bepalen. Bijvoorbeeld, je zou willen weten hoeveel van de variatie in examenprestaties kan worden verklaard door revisietijd, test angst, collegebezoek en geslacht “als geheel”, maar ook de “relatieve bijdrage” van elke onafhankelijke variabele in het verklaren van de variantie.,
deze snelstartgids laat u zien hoe u meerdere regressie kunt uitvoeren met behulp van SPSS-statistieken, en hoe u de resultaten van deze test kunt interpreteren en rapporteren. Voordat we u echter in kennis stellen van deze procedure, moet u de verschillende aannames begrijpen waaraan uw gegevens moeten voldoen om meerdere regressie te krijgen om u een geldig resultaat te geven. We bespreken deze veronderstellingen vervolgens.,
SPSS statistieken
aannames
wanneer u ervoor kiest om uw gegevens te analyseren met behulp van meervoudige regressie, bestaat een deel van het proces uit het controleren om er zeker van te zijn dat de gegevens die u wilt analyseren daadwerkelijk kunnen worden geanalyseerd met behulp van meervoudige regressie. U moet dit doen omdat het alleen geschikt is om meerdere regressie te gebruiken als uw gegevens acht veronderstellingen “passeren” die nodig zijn voor meerdere regressie om u een geldig resultaat te geven., In de praktijk, het controleren van deze acht veronderstellingen voegt gewoon een beetje meer tijd om uw analyse, waarbij u om te klikken op een paar meer knoppen in SPSS statistieken bij het uitvoeren van uw analyse, evenals denken een beetje meer over uw gegevens, maar het is niet een moeilijke taak.
voordat we u kennis laten maken met deze acht aannames, wees dan niet verbaasd als bij het analyseren van uw eigen gegevens met behulp van SPSS-statistieken, een of meer van deze aannames wordt geschonden (d.w.z. niet wordt voldaan)., Dit is niet ongewoon bij het werken met real-world data in plaats van leerboek voorbeelden, die vaak alleen laten zien hoe je meerdere regressie uit te voeren wanneer alles goed gaat! Echter, maak je geen zorgen. Zelfs wanneer uw gegevens niet voldoen aan bepaalde veronderstellingen, is er vaak een oplossing om dit te overwinnen. Laten we eerst eens kijken naar deze acht aannames:
- aanname #1: Je afhankelijke variabele moet gemeten worden op een continue schaal (dat wil zeggen, het is ofwel een interval of ratio variabele)., Voorbeelden van variabelen die aan dit criterium voldoen zijn revisietijd (gemeten in uren), intelligentie (gemeten met behulp van IQ-score), examenprestaties (gemeten van 0 tot 100), gewicht (gemeten in kg), enzovoort. U kunt meer te weten komen over interval en ratio variabelen in ons artikel: Types of Variable. Als uw afhankelijke variabele op een ordinale schaal werd gemeten, moet u ordinale regressie uitvoeren in plaats van meervoudige regressie. Voorbeelden van ordinale variabelen zijn Likert items (bijv.,, een 7-puntsschaal van ” strongly agree “tot” strongly agree”), onder andere manieren om categorieën te rangschikken (bijvoorbeeld een 3-puntsschaal die uitlegt hoeveel een klant van een product hield, variërend van “niet erg veel” tot “ja, veel”).
- aanname # 2: U hebt twee of meer onafhankelijke variabelen, die ofwel continu (d.w.z. een interval-of ratio-variabele) of categorisch (d.w.z. een ordinale of nominale variabele) kunnen zijn. Voor voorbeelden van continue en ordinale variabelen, zie de bullet hierboven. Voorbeelden van nominale variabelen zijn geslacht (bijv., 2 groepen: man en vrouw), etniciteit (bijv.,, 3 groepen: Kaukasisch, Afro-Amerikaans en Latijns-Amerikaans), fysieke activiteit niveau (bijv., 4 groepen: sedentair, laag, matig en hoog), beroep (bijv., 5 groepen: chirurg, Arts, Verpleegkundige, tandarts, therapeut), enzovoort. Nogmaals, u kunt meer te weten komen over variabelen in ons artikel: Types of Variable. Als een van uw onafhankelijke variabelen dichotoom is en wordt beschouwd als een modererende variabele, moet u mogelijk een dichotoom moderator analyse uitvoeren.
- aanname # 3: U moet onafhankelijk zijn van waarnemingen (d.w.z.,, onafhankelijkheid van reststoffen), die u eenvoudig kunt controleren met behulp van de Durbin-Watson statistiek, die een eenvoudige test is om uit te voeren met behulp van SPSS statistieken. We leggen uit hoe u het resultaat van de Durbin-Watson-statistiek kunt interpreteren en tonen u de vereiste SPSS-Statistiekprocedure in onze uitgebreide multiple regression guide.
- aanname # 4: Er moet een lineaire relatie zijn tussen (a) de afhankelijke variabele en elk van uw onafhankelijke variabelen, en (B) de afhankelijke variabele en de onafhankelijke variabelen gezamenlijk., Hoewel er een aantal manieren zijn om te controleren op deze lineaire relaties, raden we aan om scatterplots en partiële regressiepercelen te maken met behulp van SPSS-statistieken, en deze scatterplots en partiële regressiepercelen visueel te inspecteren om te controleren op lineariteit. Als de relatie weergegeven in uw scatterplots en gedeeltelijke regressie plots zijn niet lineair, moet u ofwel uitvoeren van een niet-lineaire regressie analyse of” transformeren ” uw gegevens, die u kunt doen met behulp van SPSS statistieken., In onze uitgebreide multiple regression guide laten we u zien hoe u: (a) scatterplots en partiële regressiediagrammen maakt om lineariteit te controleren bij het uitvoeren van meerdere regressie met behulp van SPSS-statistieken; (b) verschillende scatterplot-en partiële regressiediagrammen interpreteert; en (c) uw gegevens transformeert met behulp van SPSS-statistieken als u geen lineaire relaties tussen uw variabelen hebt.
- aanname # 5: uw gegevens moeten homoscedasticiteit tonen, waarbij de varianties langs de lijn van best fit gelijk blijven als u langs de lijn beweegt., We leggen meer uit over wat dit betekent en hoe u de homoscedasticiteit van uw gegevens kunt beoordelen in onze uitgebreide multiple regression guide. Wanneer u uw eigen gegevens analyseert, moet u de studentenresiduen plotten tegen de niet-standaard voorspelde waarden. In onze uitgebreide multiple regression guide leggen we uit: (a) Hoe te testen op homoscedasticiteit met behulp van SPSS-statistieken; (b) een aantal dingen waarmee u rekening moet houden bij het interpreteren van uw gegevens; en (c) mogelijke manieren om door te gaan met uw analyse als uw gegevens niet aan deze aanname voldoen.,
- aanname # 6: Uw gegevens mogen geen multicollineariteit tonen, wat optreedt wanneer u twee of meer onafhankelijke variabelen hebt die sterk met elkaar gecorreleerd zijn. Dit leidt tot problemen met het begrijpen welke onafhankelijke variabele bijdraagt aan de variantie uitgelegd in de afhankelijke variabele, evenals technische problemen bij het berekenen van een multiple regression model., Daarom tonen we u in onze uitgebreide multiple regression guide: (a) hoe u SPSS-statistieken kunt gebruiken om multicollineariteit te detecteren door middel van een inspectie van correlatiecoëfficiënten en tolerantie/VIF-waarden; en (b) hoe u deze correlatiecoëfficiënten en tolerantie/VIF-waarden kunt interpreteren, zodat u kunt bepalen of uw gegevens voldoen aan of in strijd zijn met deze aanname.
- aanname # 7: Er mogen geen significante uitschieters, hoge hefboompunten of zeer invloedrijke punten zijn., Uitschieters, hefboomwerking en invloedrijke punten zijn verschillende termen die worden gebruikt om waarnemingen in uw dataset weer te geven die op een bepaalde manier ongebruikelijk zijn wanneer u een meervoudige regressie-analyse wilt uitvoeren. Deze verschillende classificaties van ongebruikelijke punten weerspiegelen de verschillende impact die ze hebben op de regressielijn. Een waarneming kan worden geclassificeerd als meer dan één type ongewoon punt. Al deze punten kunnen echter een zeer negatief effect hebben op de regressievergelijking die wordt gebruikt om de waarde van de afhankelijke variabele te voorspellen op basis van de onafhankelijke variabelen., Dit kan de output veranderen die SPSS-statistieken produceren en de voorspellende nauwkeurigheid van uw resultaten en de statistische significantie verminderen. Gelukkig, bij het gebruik van SPSS statistieken om meerdere regressie uit te voeren op uw gegevens, kunt u mogelijke uitschieters, hoge leverage punten en zeer invloedrijke punten te detecteren., In onze uitgebreide, meervoudige regressie-gids, hebben we: (a) u tonen hoe te detecteren uitschieters met “casewise diagnostics” en “studentized verwijderd residu ‘s”, die je kunt doen met behulp van SPSS Statistics, en bespreken enkele van de opties die u hebt om te gaan met uitschieters; (b) controleer voor leverage punten met behulp van SPSS Statistics en bespreken wat u moet doen als u; en (c) controleer voor invloedrijke punten in SPSS Statistics met behulp van een maatregel van invloed bekend als de Cook ‘ s Afstand, voor de presentatie van een aantal praktische benaderingen in SPSS Statistics om te gaan met een invloedrijke punten die u zou kunnen hebben.,
- aanname # 8: tot slot moet je controleren of de reststoffen (fouten) ongeveer normaal verdeeld zijn (we leggen deze termen uit in onze uitgebreide multiple regression guide). Twee gemeenschappelijke methoden om deze aanname te controleren omvatten het gebruik van: a) een histogram (met een bovenliggende normale kromme) en een normaal P-P-Plot; of b) een normaal Q-Q-Plot van de bestudeerde reststoffen., Nogmaals, in onze uitgebreide multiple regression guide: (a) laten we u zien hoe u deze aanname kunt controleren met behulp van SPSS-statistieken, of u een histogram (met gesuperponeerde normale curve) en normale P-P Plot, of normale Q-Q Plot gebruikt; (b) uitleggen hoe u deze diagrammen moet interpreteren; en (c) een mogelijke oplossing bieden als uw gegevens niet aan deze aanname voldoen.
u kunt aannames controleren #3, #4, #5, #6, #7 en # 8 met behulp van SPSS statistieken. Aannames # 1 en # 2 moeten eerst worden gecontroleerd, voordat op aannames wordt overgegaan#3, #4, #5, #6, #7 en nummer 8., Vergeet niet dat als u de statistische tests op deze aannames niet correct uitvoert, de resultaten die u krijgt bij het uitvoeren van meerdere regressie mogelijk niet geldig zijn. Dit is de reden waarom we wijden een aantal secties van onze verbeterde multiple regression guide om u te helpen dit goed te krijgen. U kunt meer te weten komen over onze uitgebreide content als geheel op onze pagina Features: Overview, of meer specifiek, leren hoe we helpen met het testen van veronderstellingen op onze pagina Features: veronderstellingen.,
in de paragraaf Procedure illustreren we de SPSS-Statistiekenprocedure om een meervoudige regressie uit te voeren, ervan uitgaande dat er geen aannames zijn geschonden. Eerst introduceren we het voorbeeld dat in deze gids wordt gebruikt.
SPSS statistieken
voorbeeld
een gezondheidsonderzoeker wil “VO2max”, een indicator van geschiktheid en gezondheid, kunnen voorspellen. Normaal, om deze procedure uit te voeren vereist dure laboratoriumapparatuur en vereist dat een individuele oefening tot hun maximum (dat wil zeggen, totdat ze langer kunnen blijven oefenen als gevolg van fysieke uitputting)., Dit kan afschrikken die individuen die niet erg actief/fit en die individuen die een hoger risico van slechte gezondheid kunnen zijn (bijv., oudere ongeschikte proefpersonen). Om deze redenen, is het wenselijk geweest om een manier te vinden om VO2max van een individu te voorspellen op basis van attributen die gemakkelijker en goedkoper kunnen worden gemeten. Hiertoe rekruteerde een onderzoeker 100 deelnemers om een maximale VO2max-test uit te voeren, maar noteerde ook hun “leeftijd”, “gewicht”, “hartslag” en “geslacht”. Hartslag is het gemiddelde van de laatste 5 minuten van een 20 minuten, veel gemakkelijker, lagere werkbelasting cycli test., Het doel van de onderzoeker is om VO2max te kunnen voorspellen op basis van deze vier kenmerken: leeftijd, gewicht, hartslag en geslacht.
SPSS-statistieken
Setup in SPSS-statistieken
in SPSS-statistieken hebben we zes variabelen gecreëerd: (1) VO2max, de maximale aerobe capaciteit; (2) Leeftijd, de leeftijd van de deelnemer; (3) gewicht, het gewicht van de deelnemer (technisch gezien is het hun “massa”); (4) hartsnelheid, de hartslag van de deelnemer; (5) Geslacht, het geslacht van de deelnemer; en (6) caseno dat is het zaaknummer., De caseno variabele wordt gebruikt om het u gemakkelijk te maken om gevallen te elimineren (bijvoorbeeld “significante uitschieters”, “hoge hefboompunten” en “zeer invloedrijke punten”) die u hebt geïdentificeerd bij het controleren op aannames. In onze uitgebreide multiple regression guide laten we u zien hoe u gegevens correct invoert in SPSS-statistieken om een meervoudige regressie uit te voeren wanneer u ook controleert op aannames. U kunt meer te weten komen over onze uitgebreide data setup inhoud op onze Features: Data Setup pagina. Afwisselend, zie onze Algemene,” quick start ” gids: het invoeren van gegevens in SPSS statistieken.,
SPSS-statistieken
testprocedure in SPSS-statistieken
De Zeven Stappen hieronder laten u zien hoe u uw gegevens kunt analyseren met behulp van meervoudige regressie in SPSS-statistieken wanneer geen van de acht veronderstellingen in het vorige deel, veronderstellingen, is geschonden. Aan het einde van deze zeven stappen laten we je zien hoe je de resultaten van je meervoudige regressie kunt interpreteren., Als u op zoek bent naar hulp om ervoor te zorgen dat uw gegevens voldoen aan aannames #3, #4, #5, #6, #7 en # 8, die vereist zijn bij het gebruik van meerdere regressie en kan worden getest met behulp van SPSS-statistieken, kunt u meer informatie vinden in onze uitgebreide gids (zie onze functies: overzichtspagina voor meer informatie).
- klik op Analyseren > regressie > lineair… in het hoofdmenu:
gepubliceerd met schriftelijke toestemming van SPSS Statistics, IBM Corporation.,
opmerking: maak je geen zorgen dat je analyseer > regressie > lineair selecteert… op het hoofdmenu of dat de dialoogvensters in de stappen die volgen hebben de titel, lineaire regressie. Je hebt geen fout gemaakt. U bent op de juiste plaats om de meervoudige regressieprocedure uit te voeren. Dit is slechts de titel die SPSS statistieken geeft, zelfs bij het uitvoeren van een meervoudige regressieprocedure.,
- u krijgt het dialoogvenster lineaire regressie hieronder te zien:
gepubliceerd met schriftelijke toestemming van SPSS Statistics, IBM Corporation.,
- de Overdracht van de afhankelijke variabele, VO2max, in de Afhankelijke vak en de onafhankelijke variabelen, leeftijd, gewicht, heart_rate en geslacht in de Independent(s): doos, met behulp van de knoppen, zoals hieronder weergegeven (alle andere vakken kunnen worden genegeerd):
Gepubliceerd met schriftelijke toestemming van SPSS Statistics, IBM Corporation.,
opmerking: voor een standaard meervoudige regressie dient u de knoppen en te negeren, net als voor opeenvolgende (hiërarchische) meervoudige regressie. De optie methode: moet op de standaardwaarde worden gehouden, die is. Als, Om welke reden dan ook, niet is geselecteerd, moet u de methode wijzigen: terug naar . De methode is de naam die door SPSS-statistieken wordt gegeven aan de standaard regressieanalyse.,
- klik op de knop . U krijgt het dialoogvenster lineaire regressie: statistieken te zien, zoals hieronder weergegeven:
gepubliceerd met schriftelijke toestemming van SPSS Statistics, IBM Corporation.
- naast de opties die standaard zijn geselecteerd, selecteert u betrouwbaarheidsintervallen in het gebied-regressiecoëfficiënten-waarbij de optie niveau(%): op “95”wordt gelaten., U krijgt het volgende scherm:
gepubliceerd met schriftelijke toestemming van SPSS Statistics, IBM Corporation.
- klik op de knop. U wordt teruggestuurd naar het dialoogvenster lineaire regressie.
- klik op de knop. Dit zal de output genereren.
Geef een reactie