Introduzione
La regressione multipla è un’estensione della regressione lineare semplice. Viene utilizzato quando vogliamo prevedere il valore di una variabile in base al valore di due o più altre variabili. La variabile che vogliamo prevedere è chiamata variabile dipendente (o, a volte, la variabile risultato, target o criterio)., Le variabili che stiamo usando per prevedere il valore della variabile dipendente sono chiamate variabili indipendenti (o talvolta variabili predittive, esplicative o regressor).
Ad esempio, è possibile utilizzare la regressione multipla per capire se le prestazioni dell’esame possono essere previste in base al tempo di revisione, all’ansia del test, alla frequenza delle lezioni e al genere. In alternativa, è possibile utilizzare la regressione multipla per capire se il consumo giornaliero di sigarette può essere previsto in base alla durata del fumo, all’età in cui ha iniziato a fumare, al tipo di fumatore, al reddito e al sesso.,
La regressione multipla consente inoltre di determinare l’adattamento complessivo (varianza spiegata) del modello e il contributo relativo di ciascuno dei predittori alla varianza totale spiegata. Ad esempio, potresti voler sapere quanta parte della variazione delle prestazioni dell’esame può essere spiegata dal tempo di revisione, dall’ansia del test, dalla frequenza delle lezioni e dal genere “nel suo complesso”, ma anche dal “contributo relativo” di ciascuna variabile indipendente nello spiegare la varianza.,
Questa guida “quick start” mostra come eseguire la regressione multipla utilizzando le statistiche SPSS, oltre a interpretare e riportare i risultati di questo test. Tuttavia, prima di presentarti questa procedura, devi comprendere le diverse ipotesi che i tuoi dati devono soddisfare affinché la regressione multipla ti dia un risultato valido. Discutiamo queste ipotesi dopo.,
Statistiche SPSS
Ipotesi
Quando si sceglie di analizzare i dati utilizzando la regressione multipla, parte del processo comporta il controllo per assicurarsi che i dati che si desidera analizzare possano effettivamente essere analizzati utilizzando la regressione multipla. È necessario farlo perché è opportuno utilizzare la regressione multipla solo se i dati “passano” otto ipotesi necessarie per la regressione multipla per ottenere un risultato valido., In pratica, il controllo di queste otto ipotesi aggiunge solo un po ‘più di tempo alla tua analisi, richiedendo di fare clic su alcuni altri pulsanti nelle statistiche SPSS quando esegui l’analisi, oltre a pensare un po’ di più ai tuoi dati, ma non è un compito difficile.
Prima di presentarvi queste otto ipotesi, non stupitevi se, durante l’analisi dei vostri dati utilizzando le statistiche SPSS, una o più di queste ipotesi viene violata (cioè non soddisfatta)., Questo non è raro quando si lavora con dati del mondo reale piuttosto che con esempi di libri di testo, che spesso mostrano solo come eseguire la regressione multipla quando tutto va bene! Tuttavia, non preoccuparti. Anche quando i tuoi dati falliscono determinate ipotesi, c’è spesso una soluzione per superare questo. Per prima cosa, diamo un’occhiata a queste otto ipotesi:
- Ipotesi #1: la tua variabile dipendente dovrebbe essere misurata su una scala continua (cioè, è una variabile intervallo o rapporto)., Esempi di variabili che soddisfano questo criterio includono il tempo di revisione (misurato in ore), l’intelligenza (misurata utilizzando il punteggio IQ), le prestazioni dell’esame (misurate da 0 a 100), il peso (misurato in kg) e così via. Puoi saperne di più sulle variabili di intervallo e rapporto nel nostro articolo: Tipi di variabili. Se la variabile dipendente è stata misurata su una scala ordinale, sarà necessario eseguire la regressione ordinale anziché la regressione multipla. Esempi di variabili ordinali includono elementi Likert (ad esempio,, una scala a 7 punti da” fortemente d’accordo “a” fortemente in disaccordo”), tra gli altri modi di classificare le categorie (ad esempio, una scala a 3 punti che spiega quanto un cliente ha apprezzato un prodotto, che va da” Non molto “a”Sì, molto”).
- Ipotesi #2: Hai due o più variabili indipendenti, che possono essere continue (cioè una variabile intervallo o rapporto) o categoriali (cioè una variabile ordinale o nominale). Per esempi di variabili continue e ordinali, vedere il punto sopra. Esempi di variabili nominali includono il genere (ad esempio, 2 gruppi: maschio e femmina), l’etnia (ad esempio,, 3 gruppi: caucasico, afroamericano e ispanico), livello di attività fisica (ad esempio, 4 gruppi: sedentario, basso, moderato e alto), professione (ad esempio, 5 gruppi: chirurgo, medico, infermiere, dentista, terapeuta), e così via. Ancora una volta, puoi saperne di più sulle variabili nel nostro articolo: Tipi di variabili. Se una delle tue variabili indipendenti è dicotomica e considerata una variabile moderatrice, potrebbe essere necessario eseguire un’analisi del moderatore dicotomico.
- Ipotesi # 3: dovresti avere l’indipendenza delle osservazioni (cioè,, indipendenza dei residui), che si può facilmente controllare utilizzando la statistica Durbin-Watson, che è un semplice test da eseguire utilizzando le statistiche SPSS. Spieghiamo come interpretare il risultato della statistica Durbin-Watson, oltre a mostrarvi la procedura di statistica SPSS richiesta, nella nostra guida avanzata alla regressione multipla.
- Ipotesi #4: deve esserci una relazione lineare tra (a) la variabile dipendente e ciascuna delle variabili indipendenti e (b) la variabile dipendente e le variabili indipendenti collettivamente., Mentre ci sono un certo numero di modi per verificare queste relazioni lineari, suggeriamo di creare grafici a dispersione e grafici di regressione parziale utilizzando le statistiche SPSS e quindi ispezionare visivamente questi grafici a dispersione e grafici di regressione parziale per verificare la linearità. Se la relazione visualizzata nei grafici a dispersione e nei grafici di regressione parziale non è lineare, dovrai eseguire un’analisi di regressione non lineare o “trasformare” i tuoi dati, cosa che puoi fare usando le statistiche SPSS., Nella nostra guida avanzata alla regressione multipla, ti mostriamo come: (a) creare grafici a dispersione e grafici di regressione parziale per verificare la linearità durante l’esecuzione di regressioni multiple utilizzando le statistiche SPSS; (b) interpretare diversi risultati del grafico a dispersione e di regressione parziale; e (c) trasformare i tuoi dati utilizzando le statistiche SPSS se non hai relazioni lineari tra le variabili.
- Ipotesi #5: i tuoi dati devono mostrare homoscedasticity, che è dove le varianze lungo la linea di best fit rimangono simili mentre ti muovi lungo la linea., Spieghiamo di più su cosa significa questo e su come valutare l’omoscedasticità dei tuoi dati nella nostra guida alla regressione multipla avanzata. Quando si analizzano i propri dati, sarà necessario tracciare i residui studentizzati rispetto ai valori previsti non standardizzati. Nella nostra guida avanzata alla regressione multipla, spieghiamo: (a) come testare l’omoscedasticità utilizzando le statistiche SPSS; (b) alcune delle cose che dovrai considerare quando interpreterai i tuoi dati; e (c) possibili modi per continuare con la tua analisi se i tuoi dati non soddisfano questa ipotesi.,
- Ipotesi #6: i tuoi dati non devono mostrare multicollinearità, che si verifica quando hai due o più variabili indipendenti che sono altamente correlate tra loro. Ciò porta a problemi nella comprensione di quale variabile indipendente contribuisce alla varianza spiegata nella variabile dipendente, nonché a problemi tecnici nel calcolo di un modello di regressione multipla., Pertanto, nella nostra guida avanzata alla regressione multipla, ti mostriamo: (a) come utilizzare le statistiche SPSS per rilevare la multicollinearità attraverso un’ispezione dei coefficienti di correlazione e dei valori di tolleranza/VIF; e (b) come interpretare questi coefficienti di correlazione e valori di tolleranza/VIF in modo da poter determinare se i tuoi dati soddisfano o violano questa ipotesi.
- Presupposto # 7: non ci dovrebbero essere valori anomali significativi, punti di leva elevati o punti altamente influenti., Valori anomali, leva e punti influenti sono termini diversi utilizzati per rappresentare osservazioni nel set di dati che sono in qualche modo insoliti quando si desidera eseguire un’analisi di regressione multipla. Queste diverse classificazioni di punti insoliti riflettono il diverso impatto che hanno sulla linea di regressione. Un’osservazione può essere classificata come più di un tipo di punto insolito. Tuttavia, tutti questi punti possono avere un effetto molto negativo sull’equazione di regressione che viene utilizzata per prevedere il valore della variabile dipendente in base alle variabili indipendenti., Ciò può modificare l’output prodotto da SPSS Statistics e ridurre l’accuratezza predittiva dei risultati e la significatività statistica. Fortunatamente, quando si utilizzano le statistiche SPSS per eseguire più regressioni sui dati, è possibile rilevare possibili valori anomali, punti di leva elevati e punti altamente influenti., Nel nostro migliorata più di regressione guida, abbiamo: (a) mostrare come rilevare valori anomali utilizzando “casewise diagnostica” e “studentizzati eliminati residui”, che si può fare utilizzando SPSS Statistics, e discutere alcune delle opzioni che si hanno per affrontare con valori anomali; (b) verificare punti di leva utilizzando SPSS Statistics e discutere di ciò che si dovrebbe fare se avete qualsiasi; e (c) verificare che non influente punti in SPSS Statistics utilizzando una misura di influenza noto come Cuoco a Distanza, prima di presentare alcuni approcci pratici in SPSS Statistics per affrontare qualsiasi influenti punti si potrebbe avere.,
- Ipotesi # 8: Infine, è necessario verificare che i residui (errori) siano approssimativamente distribuiti normalmente (spieghiamo questi termini nella nostra guida alla regressione multipla avanzata). Due metodi comuni per verificare questa ipotesi includono l’utilizzo di: (a) un istogramma (con una curva normale sovrapposta) e un grafico P-P normale; o (b) un grafico Q-Q normale dei residui studentizzati., Ancora una volta, nella nostra guida avanzata alla regressione multipla, noi: (a) ti mostriamo come controllare questa ipotesi usando le statistiche SPSS, se usi un istogramma (con curva normale sovrapposta) e un grafico P-P normale o un grafico Q-Q normale; (b) spieghi come interpretare questi diagrammi; e (c) fornisci una possibile soluzione se i tuoi dati non soddisfano questa ipotesi.
È possibile verificare le ipotesi #3, #4, #5, #6, #7 e # 8 utilizzando le statistiche SPSS. Le ipotesi # 1 e #2 dovrebbero essere controllate prima, prima di passare alle ipotesi #3, #4, #5, #6, #7 e #8., Basta ricordare che se non si eseguono correttamente i test statistici su queste ipotesi, i risultati ottenuti durante l’esecuzione di regressione multipla potrebbero non essere validi. Questo è il motivo per cui dedichiamo una serie di sezioni della nostra guida avanzata regressione multipla per aiutarvi a ottenere questo diritto. Puoi trovare informazioni sui nostri contenuti avanzati nel loro complesso nella nostra pagina Caratteristiche: Panoramica o, più specificamente, scopri come aiutiamo a testare le ipotesi nella nostra pagina Caratteristiche: ipotesi.,
Nella sezione, Procedura, illustriamo la procedura SPSS Statistics per eseguire una regressione multipla supponendo che nessuna ipotesi sia stata violata. Innanzitutto, introduciamo l’esempio utilizzato in questa guida.
SPSS Statistics
Esempio
Un ricercatore di salute vuole essere in grado di prevedere “VO2max”, un indicatore di fitness e salute. Normalmente, per eseguire questa procedura richiede costose attrezzature di laboratorio e richiede che un singolo esercizio al loro massimo (cioè, fino a quando non possono continuare a esercitare a causa di esaurimento fisico)., Questo può rimandare quegli individui che non sono molto attivi / in forma e quegli individui che potrebbero essere a più alto rischio di problemi di salute (ad esempio, soggetti anziani non idonei). Per questi motivi, è stato auspicabile trovare un modo per predire il VO2max di un individuo basato su attributi che possono essere misurati in modo più semplice ed economico. A tal fine, un ricercatore ha reclutato 100 partecipanti per eseguire un test VO2max massimo, ma ha anche registrato la loro “età”, “peso”, “frequenza cardiaca” e “genere”. La frequenza cardiaca è la media degli ultimi 5 minuti di un test di ciclismo di 20 minuti, molto più semplice e più basso., L’obiettivo del ricercatore è quello di essere in grado di prevedere VO2max in base a questi quattro attributi: età, peso, frequenza cardiaca e sesso.
SPSS Statistics
Installazione in SPSS Statistics
In SPSS Statistics, abbiamo creato sei variabili: (1) VO2max, che è la massima capacità aerobica; (2) l’età, che è l’età del partecipante; (3) il peso, che è il partecipante peso (tecnicamente, questo è il loro ‘massa’); (4) heart_rate, che è il partecipante frequenza cardiaca; (5) di genere, che è il partecipante di genere; e (6) caseno, che è il numero del caso., La variabile caseno viene utilizzata per semplificare l’eliminazione dei casi (ad esempio, “valori anomali significativi”, “punti di leva elevati” e “punti altamente influenti”) identificati durante il controllo delle ipotesi. Nella nostra guida avanzata di regressione multipla, ti mostriamo come inserire correttamente i dati nelle statistiche SPSS per eseguire una regressione multipla quando stai anche controllando le ipotesi. Puoi conoscere il nostro contenuto di configurazione dei dati migliorato nella nostra pagina Caratteristiche: Configurazione dei dati. In alternativa, consulta la nostra guida generica “quick start”: inserimento dei dati nelle statistiche SPSS.,
SPSS Statistics
Procedura di test in SPSS Statistics
I sette passaggi seguenti mostrano come analizzare i dati utilizzando la regressione multipla in SPSS Statistics quando nessuna delle otto ipotesi nella sezione precedente, Supposizioni, è stata violata. Alla fine di questi sette passaggi, ti mostriamo come interpretare i risultati della tua regressione multipla., Se stai cercando aiuto per assicurarti che i tuoi dati soddisfino le ipotesi #3, #4, #5, #6, #7 e # 8, che sono necessari quando si utilizza la regressione multipla e possono essere testati utilizzando le statistiche SPSS, si può imparare di più nella nostra guida avanzata (vedere le nostre caratteristiche: Pagina panoramica per saperne di più).
- Fare clic su Analizza> Regressione> Lineare… nel menu principale, come mostrato di seguito:
Pubblicato con il permesso scritto di SPSS Statistics, IBM Corporation.,
Nota: non preoccuparti che stai selezionando Analizza >Regressione> Lineare… nel menu principale o che le finestre di dialogo nei passaggi che seguono hanno il titolo, Regressione lineare. Non hai commesso un errore. Sei nel posto giusto per eseguire la procedura di regressione multipla. Questo è solo il titolo che SPSS Statistics dà, anche quando si esegue una procedura di regressione multipla.,
- Ti verrà presentata la finestra di dialogo di regressione lineare qui sotto:
Pubblicato con il permesso scritto di SPSS Statistics, IBM Corporation.,
- Trasferire la variabile dipendente, VO2max, il Dipendente: box e le variabili indipendenti, l’età, il peso, heart_rate, il sesso, l’Indipendente(s): scatola, utilizzando il tag pulsanti, come mostrato di seguito (tutte le altre caselle possono essere ignorati):
Pubblicato con il permesso scritto da SPSS Statistics, IBM Corporation.,
Nota: Per una regressione multipla standard è necessario ignorare i pulsanti e così come lo sono per la regressione multipla sequenziale (gerarchica). L’opzione Metodo: deve essere mantenuta al valore predefinito, che è . Se, per qualsiasi motivo, non è selezionato, è necessario modificare il Metodo: torna a . Il metodo è il nome dato dalle statistiche SPSS all’analisi di regressione standard.,
- Fare clic sul pulsante . Ti verrà presentata la finestra di dialogo Regressione lineare: Statistiche, come mostrato di seguito:
Pubblicato con il permesso scritto di SPSS Statistics, IBM Corporation.
- Oltre alle opzioni selezionate per impostazione predefinita, selezionare Intervalli di confidenza nell’area –Coefficienti di regressione– lasciando l’opzione Level(%): a “95”., Si finirà con la seguente schermata:
Pubblicato con il permesso scritto di SPSS Statistics, IBM Corporation.
- Fare clic sul pulsante . Si ritorna alla finestra di dialogo Regressione lineare.
- Fare clic sul pulsante. Questo genererà l’output.
Lascia un commento