Introduction
la régression Multiple est une extension de la régression linéaire simple. Il est utilisé lorsque nous voulons prédire la valeur d’une variable en fonction de la valeur de deux ou plusieurs autres variables. La variable que nous voulons prédire est appelée la variable dépendante (ou parfois, la variable résultat, cible ou critère)., Les variables que nous utilisons pour prédire la valeur de la variable dépendante sont appelées les variables indépendantes (ou parfois, les variables prédictives, explicatives ou régressives).
par exemple, vous pouvez utiliser la régression multiple pour comprendre si les performances des examens peuvent être prédites en fonction du temps de révision, de l’anxiété des tests, de la fréquentation des cours et du sexe. Alternativement, vous pouvez utiliser la régression multiple pour comprendre si la consommation quotidienne de cigarettes peut être prédite en fonction de la durée du tabagisme, de l’âge au moment de commencer à fumer, du type de Fumeur, du revenu et du sexe.,
la régression Multiple permet également de déterminer l’ajustement global (variance expliquée) du modèle et la contribution relative de chacun des prédicteurs à la variance totale expliquée. Par exemple, vous voudrez peut-être savoir dans quelle mesure la variation des performances des examens peut être expliquée par le temps de révision, l’anxiété des tests, la fréquentation des conférences et le sexe « dans son ensemble », mais aussi la « contribution relative » de chaque variable indépendante pour expliquer la variance.,
Ce guide de « démarrage rapide » vous montre comment effectuer une régression multiple à l’aide des statistiques SPSS, ainsi que d’interpréter et de rapporter les résultats de ce test. Cependant, avant de vous présenter cette procédure, vous devez comprendre les différentes hypothèses que vos données doivent respecter pour que la régression multiple vous donne un résultat valide. Nous discutons ensuite de ces hypothèses.,
statistiques SPSS
hypothèses
lorsque vous choisissez d’analyser vos données à l’aide de la régression multiple, une partie du processus consiste à vérifier que les données que vous souhaitez analyser peuvent réellement être analysées à l’aide de la régression multiple. Vous devez le faire car il n’est approprié d’utiliser la régression multiple que si vos données « passent » huit hypothèses requises pour la régression multiple pour vous donner un résultat valide., En pratique, la vérification de ces huit hypothèses ajoute juste un peu plus de temps à votre analyse, vous obligeant à cliquer sur quelques boutons supplémentaires dans les statistiques SPSS lors de l’exécution de votre analyse, ainsi que de penser un peu plus sur vos données, mais ce n’est pas une tâche difficile.
avant de vous présenter ces huit hypothèses, ne soyez pas surpris si, lors de l’analyse de vos propres données à l’aide des statistiques SPSS, une ou plusieurs de ces hypothèses sont violées (c’est-à-dire non respectées)., Cela n’est pas rare lorsque vous travaillez avec des données réelles plutôt que des exemples de manuels, qui ne vous montrent souvent comment effectuer une régression multiple que lorsque tout se passe bien! Cependant, ne vous inquiétez pas. Même lorsque vos données échouent à certaines hypothèses, il existe souvent une solution pour surmonter cela. Tout d’abord, examinons ces huit hypothèses:
- hypothèse #1: Votre variable dépendante doit être mesurée sur une échelle continue (c’est-à-dire qu’il s’agit d’une variable d’intervalle ou de rapport)., Les exemples de variables qui répondent à ce critère comprennent le temps de révision (mesuré en heures), l’intelligence (mesurée à l’aide du score de QI), la performance à l’examen (mesurée de 0 à 100), le poids (mesuré en kg), etc. Vous pouvez en savoir plus sur les variables d’intervalle et de rapport dans notre article: Types de Variable. Si votre variable dépendante a été mesurée sur une échelle ordinale, vous devrez effectuer une régression ordinale plutôt qu’une régression multiple. Des exemples de variables ordinales incluent les éléments de Likert (par exemple,, une échelle de 7 points allant de « fortement d’accord » à « fortement en désaccord »), entre autres façons de classer les catégories (par exemple, une échelle de 3 points expliquant combien un client a aimé un produit, allant de » pas beaucoup « à »Oui, beaucoup »).
- hypothèse # 2: vous avez deux variables indépendantes ou plus, qui peuvent être continues (c’est-à-dire une variable d’intervalle ou de rapport) ou catégorielles (c’est-à-dire une variable ordinale ou nominale). Pour des exemples de variables continues et ordinales, voir la puce ci-dessus. Des exemples de variables nominales comprennent le sexe (p. ex., 2 groupes: hommes et femmes), l’ethnicité (p. ex.,, 3 groupes: Caucasien, Afro-Américain et hispanique), niveau d’activité physique (par exemple, 4 groupes: sédentaire, faible, modéré et élevé), profession (par exemple, 5 groupes: chirurgien, médecin, infirmière, dentiste, thérapeute), et ainsi de suite. Encore une fois, vous pouvez en savoir plus sur les variables dans notre article: Types de Variable. Si l’une de vos variables indépendantes est dichotomique et considérée comme une variable modératrice, vous devrez peut-être exécuter une analyse de modérateur dichotomique.
- hypothèse # 3: vous devriez avoir l’indépendance des observations (c’est-à-dire,, indépendance des résidus), que vous pouvez facilement vérifier en utilisant la statistique Durbin-Watson, qui est un test simple à exécuter en utilisant les statistiques SPSS. Nous expliquons comment interpréter le résultat de la statistique de Durbin-Watson, ainsi que la procédure de statistiques SPSS requise, dans notre guide amélioré de régression multiple.
- Hypothèse N ° 4: Il doit y avoir une relation linéaire entre la variable dépendante et chacun de vos variables indépendantes, et (b) la variable dépendante et les variables indépendantes collectivement., Bien qu’il existe plusieurs façons de vérifier ces relations linéaires, nous suggérons de créer des diagrammes de dispersion et des diagrammes de régression partielle à l’aide des statistiques SPSS, puis d’inspecter visuellement ces diagrammes de dispersion et ces diagrammes de régression partielle pour vérifier la linéarité. Si la relation affichée dans vos diagrammes de dispersion et vos diagrammes de régression partielle n’est pas linéaire, vous devrez soit exécuter une analyse de régression non linéaire, soit « transformer » vos données, ce que vous pouvez faire en utilisant les statistiques SPSS., Dans notre guide amélioré de régression multiple, nous vous montrons comment: (a) créer des diagrammes de dispersion et des diagrammes de régression partielle pour vérifier la linéarité lors de la réalisation d’une régression multiple à l’aide de statistiques SPSS; (b) interpréter différents résultats de diagrammes de dispersion et de régression partielle; et (c) transformer vos données à l’aide de statistiques SPSS
- hypothèse #5: vos données doivent montrer l’homoscédasticité, c’est-à-dire où les variances le long de la ligne de meilleur ajustement restent similaires lorsque vous vous déplacez le long de la ligne., Nous expliquons plus en détail ce que cela signifie et comment évaluer l’homoscédasticité de vos données dans notre guide amélioré de régression multiple. Lorsque vous analysez vos propres données, vous devrez tracer les résidus studentized par rapport aux valeurs prédites non normalisées. Dans notre guide amélioré de régression multiple, nous expliquons: (a) comment tester l’homoscédasticité à l’aide des statistiques SPSS; (B) certaines des choses que vous devrez prendre en compte lors de l’interprétation de vos données; et (c) les moyens possibles de poursuivre votre analyse si vos données ne répondent pas à cette hypothèse.,
- hypothèse # 6: vos données ne doivent pas montrer de multicollinéarité, ce qui se produit lorsque vous avez deux variables indépendantes ou plus qui sont fortement corrélées les unes avec les autres. Cela entraîne des problèmes de compréhension de la variable indépendante qui contribue à la variance expliquée dans la variable dépendante, ainsi que des problèmes techniques dans le calcul d’un modèle de régression multiple., Par conséquent, dans notre guide de régression multiple amélioré, nous vous montrons: (a) comment utiliser les statistiques SPSS pour détecter la multicollinéarité grâce à une inspection des coefficients de corrélation et des valeurs de tolérance/VIF; et (b) comment interpréter ces coefficients de corrélation et ces valeurs de tolérance/VIF afin que vous puissiez déterminer si vos données respectent ou enfreignent cette hypothèse.
- hypothèse #7: Il ne devrait pas y avoir de valeurs aberrantes significatives, de points de levier élevés ou de points très influents., Les valeurs aberrantes, l’effet de levier et les points d’influence sont différents termes utilisés pour représenter des observations dans votre ensemble de données qui sont en quelque sorte inhabituelles lorsque vous souhaitez effectuer une analyse de régression multiple. Ces différentes classifications de points inhabituels reflètent l’impact différent qu’elles ont sur la droite de régression. Une observation peut être classée comme plus d’un type de point inhabituel. Cependant, tous ces points peuvent avoir un effet très négatif sur l’équation de régression qui est utilisée pour prédire la valeur de la variable dépendante en fonction des variables indépendantes., Cela peut modifier la sortie produite par les statistiques SPSS et réduire la précision prédictive de vos résultats ainsi que la signification statistique. Heureusement, lorsque vous utilisez les statistiques SPSS pour exécuter une régression multiple sur vos données, vous pouvez détecter d’éventuelles valeurs aberrantes, des points de levier élevés et des points très influents., Dans notre guide de régression multiple amélioré, nous: (a) vous montrons comment détecter les valeurs aberrantes à l’aide de « diagnostics casewise » et de « résidus supprimés studentized », ce que vous pouvez faire à l’aide des statistiques SPSS, et discutons de certaines des options dont vous disposez pour traiter les valeurs aberrantes; (b) vérifiez les points de levier à l’aide des statistiques SPSS et discutez de ce que vous devriez faire si vous en avez; et (c) vérifiez les points d’influence dans les statistiques SPSS à l’aide d’une mesure d’influence connue sous le nom de distance de Cook, avant de présenter quelques approches pratiques dans les statistiques SPSS pour traiter les points d’influence que vous pourriez avoir.,
- hypothèse # 8: enfin, vous devez vérifier que les résidus (erreurs) sont à peu près normalement distribués (nous expliquons ces termes dans notre guide de régression multiple amélioré). Deux méthodes courantes pour vérifier cette hypothèse comprennent: (a) un histogramme (avec une courbe normale superposée) et un tracé P-P Normal; ou (b) un tracé Q-Q Normal des résidus studentized., Encore une fois, dans notre guide de régression multiple amélioré, nous: (a) vous montrons comment vérifier cette hypothèse à l’aide des statistiques SPSS, que vous utilisiez un histogramme (avec courbe normale superposée) et un tracé P-P Normal, ou un tracé Q-Q Normal; (b) expliquons comment interpréter ces diagrammes; et (c) fournissez une solution possible si vos données ne répondent pas
Vous pouvez vérifier les hypothèses #3, #4, #5, #6, #7 et #8 en utilisant les statistiques SPSS. Les hypothèses # 1 et # 2 doivent être vérifiées en premier, avant de passer aux hypothèses #3, #4, #5, #6, #7 et #8., Rappelez-vous simplement que si vous n’exécutez pas correctement les tests statistiques sur ces hypothèses, les résultats que vous obtenez lors de l’exécution de la régression multiple peuvent ne pas être valides. C’est pourquoi nous consacrons un certain nombre de sections de notre guide de régression multiple amélioré pour vous aider à y parvenir. Vous pouvez en savoir plus sur notre contenu amélioré dans son ensemble sur notre page Fonctionnalités: Aperçu, ou plus précisément, apprendre comment nous aidons à tester les hypothèses sur notre page Fonctionnalités: hypothèses.,
dans la section, Procédure, nous illustrons la procédure statistique SPSS pour effectuer une régression multiple en supposant qu’aucune hypothèse n’a été violée. Tout d’abord, nous présentons l’exemple utilisé dans ce guide.
statistiques SPSS
exemple
un chercheur en santé veut pouvoir prédire « VO2max », un indicateur de forme physique et de santé. Normalement, pour effectuer cette procédure nécessite un équipement de laboratoire coûteux et nécessite qu’un exercice individuel à leur maximum (c.-à-d., jusqu’à ce qu’ils puissent plus longtemps continuer à faire de l’exercice en raison de l’épuisement physique)., Cela peut rebuter les personnes qui ne sont pas très actives/en forme et les personnes qui pourraient être plus à risque de mauvaise santé (p. ex., les sujets plus âgés inaptes). Pour ces raisons, il a été souhaitable de trouver un moyen de prédire le VO2max d’un individu en fonction d’attributs pouvant être mesurés plus facilement et à moindre coût. À cette fin, un chercheur a recruté 100 participants pour effectuer un test VO2max maximum, mais a également enregistré leur « âge », leur « poids », leur « fréquence cardiaque » et leur « sexe ». La fréquence cardiaque est la moyenne des 5 dernières minutes d’un test de cyclisme de 20 minutes, beaucoup plus facile et moins chargé., L’Objectif du chercheur est de pouvoir prédire VO2max en fonction de ces quatre attributs: l’âge, le poids, la fréquence cardiaque et le sexe.
statistiques SPSS
configuration dans les statistiques SPSS
dans les statistiques SPSS, nous avons créé six variables: (1) VO2max, qui est la capacité aérobie maximale; (2) age, qui est l’âge du participant; (3) weight, qui est le poids du participant (techniquement, c’est leur « masse »); (4) heart_rate, qui est la fréquence cardiaque caseno, qui est le numéro de cas., La variable caseno est utilisée pour vous permettre d’éliminer facilement les cas (par exemple, « valeurs aberrantes significatives », « points de levier élevés » et « points très influents ») que vous avez identifiés lors de la vérification des hypothèses. Dans notre guide de régression multiple amélioré, nous vous montrons comment saisir correctement les données dans les statistiques SPSS pour exécuter une régression multiple lorsque vous recherchez également des hypothèses. Vous pouvez en apprendre davantage sur notre contenu amélioré de configuration des données sur notre page Fonctionnalités: configuration des données. Vous pouvez également consulter notre guide générique de « démarrage rapide »: saisie de données dans les statistiques SPSS.,
statistiques SPSS
procédure de Test dans les statistiques SPSS
Les sept étapes ci-dessous vous montrent comment analyser vos données en utilisant la régression multiple dans les statistiques SPSS lorsqu’aucune des huit hypothèses de la section précédente, hypothèses, n’a été violée. À la fin de ces sept étapes, nous vous montrons comment interpréter les résultats d’une régression multiple., Si vous cherchez de l’aide pour vous assurer que vos données répondent aux hypothèses #3, #4, #5, #6, #7 et # 8, qui sont nécessaires lors de l’utilisation de la régression multiple et peuvent être testés à l’aide des statistiques SPSS, vous pouvez en savoir plus dans notre guide amélioré (voir notre page Fonctionnalités: Aperçu pour en savoir plus).
- Cliquez sur Analyser > Régression > Linéaire… dans le menu principal, comme indiqué ci-dessous:
publié avec l’autorisation écrite de SPSS Statistics, IBM Corporation.,
Note: Ne vous inquiétez pas que vous êtes en sélectionnant Analyser > Régression > Linéaire… dans le menu principal ou que les boîtes de dialogue dans les étapes qui suivent ont le titre, régression linéaire. Vous n’avez pas fait une erreur. Vous êtes au bon endroit pour effectuer la procédure de régression multiple. C’est juste le titre que les statistiques SPSS donnent, même lors de l’exécution d’une procédure de régression multiple.,
- La boîte de dialogue de régression linéaire ci-dessous vous sera présentée:
publié avec l’autorisation écrite de SPSS Statistics, IBM Corporation.,
- transférez la variable dépendante, VO2max, dans la boîte Dependent: et les variables indépendantes, age, weight, heart_rate et gender dans la boîte Independent(s):, en utilisant les boutons, comme indiqué ci-dessous (toutes les autres boîtes peuvent être ignorées):
publié avec L’autorisation écrite de SPSS Statistics, IBM Corporation.,
Remarque: Pour une régression multiple standard, vous devez ignorer les boutons Et comme pour la régression multiple séquentielle (hiérarchique). La méthode: option doit être conservée à la valeur par défaut, qui est . Si, pour une raison quelconque, n’est pas sélectionné, vous devez changer de méthode: retour à . La méthode est le nom donné par les statistiques SPSS à l’analyse de régression standard.,
- Cliquez sur le le bouton. La boîte de dialogue régression linéaire: statistiques vous sera présentée, comme indiqué ci-dessous:
publié avec l’autorisation écrite de SPSS Statistics, IBM Corporation.
- En plus des options sélectionnées par défaut, sélectionnez intervalles de confiance dans la zone –coefficients de régression en laissant L’option Level(%): à « 95 »., Vous vous retrouverez avec l’écran suivant:
publié avec l’autorisation écrite de SPSS Statistics, IBM Corporation.
- Cliquez sur le le bouton. Vous serez renvoyé à la boîte de dialogue de régression linéaire.
- Cliquez sur le le bouton. Cela générera la sortie.
Laisser un commentaire