maintenant, si les deux mesures statistiques, la moyenne et la médiane, sont utilisées pour décrire l’emplacement d’un ensemble de données, qu’en est-il des avantages et des inconvénients?
comme mentionné ci-dessus, la moyenne est la mesure la plus couramment utilisée des deux. De plus, c’est la base de nombreuses méthodes statistiques avancées.
Par exemple, la moyenne est nécessaire pour calculer l’écart type, qui est la plus importante mesure pour évaluer la variabilité dans un ensemble de données., Et il est également nécessaire pour de nombreuses procédures de test statistiques, par exemple pour le test T.
Mais alors, quels sont les avantages de la médiane?
pour illustrer cela, nous revenons aux cinq valeurs de pression artérielle systolique utilisées précédemment:
142, 124, 121, 151, 132.
nous supposons que 151 est une valeur correcte, mais qu’une défaillance du périphérique conduit à la fausse mesure de 171. Voyons ce qui arrive à la moyenne et à la médiane?,
la moyenne des cinq valeurs résultantes est maintenant de 138 au lieu de 134, comme calculé à partir des données d’origine, montrant ainsi un effet considérable de la mesure incorrecte.
Pour en déduire la médiane, nous trier les données par taille:
121, 124, 132, 142, 171.
comme précédemment, la valeur 132 est au centre de la ligne de données, de sorte que la médiane n’est pas modifiée par la fausse mesure.
C’est pourquoi la médiane est appelée « robuste aux valeurs aberrantes », alors que la moyenne est « sensible aux valeurs aberrantes ».,
« Biaisée” des distributions
un Autre avantage de la médiane, associé à ce genre de robustesse, peut être vu dans « biaisée” des distributions.
Un exemple d’une telle distribution dans le contexte d’une étude observationnelle est le temps écoulé depuis l’apparition d’une maladie particulière. Dans de nombreux cas, la date du diagnostic est proche du moment de la déclaration, c’est à dire au niveau ou juste quelques jours avant la visite initiale. Cependant, le groupe d’étude comprend souvent également des patients qui souffrent de la maladie depuis de nombreuses années.,
Si nous calculons la moyenne des intervalles de temps individuels depuis l’apparition de la maladie, de telles valeurs ont un impact énorme, ce qui rend la moyenne plus grande que la distribution réelle des données ne le suggère.
La bonne nouvelle est que les valeurs aberrantes n’ont pas un tel effet sur la médiane. Par conséquent, ici, la médiane donne une image plus réaliste des données.
Laisser un commentaire