als nu zowel statistische metingen, het gemiddelde als de mediaan, worden gebruikt om de locatie van een reeks gegevens te beschrijven, hoe zit het dan met voor-en nadelen?
zoals hierboven vermeld, is het gemiddelde de meest gebruikte maat van de twee. Bovendien is het de basis van vele geavanceerde statistische methoden.
Het gemiddelde is bijvoorbeeld nodig om de standaardafwijking te berekenen, de meest prominente maatstaf om de variabiliteit in een reeks gegevens te beoordelen., En het is ook nodig voor vele statistische testprocedures, bijvoorbeeld voor de t-test.
maar wat zijn dan de voordelen van de mediaan?
om dit te illustreren keren we terug naar de vijf systolische bloeddrukwaarden die eerder werden gebruikt:
142, 124, 121, 151, 132.
we gaan ervan uit dat 151 een correcte waarde is, maar dat een apparaatstoring leidt tot de foutieve meting van 171. Laten we eens kijken wat er gebeurt met mean en median?,
Het gemiddelde van de resulterende vijf waarden is nu 138 in plaats van 134, zoals berekend op basis van de oorspronkelijke gegevens, waardoor een aanzienlijk effect van de onjuiste meting wordt aangetoond.
om de mediaan af te leiden, Sorteren we de gegevens opnieuw op grootte:
121, 124, 132, 142, 171.
zoals voorheen bevindt de waarde 132 zich in het midden van de gegevensrij, zodat de mediaan feitelijk ongewijzigd blijft door de foutieve meting.
daarom wordt de mediaan “robuust tegen uitschieters” genoemd, terwijl het gemiddelde eigenlijk “gevoelig is voor uitschieters”.,
” Scheve “distributies
een ander voordeel van de mediaan, geassocieerd met dit soort robuustheid, kan worden gezien in” scheve ” distributies.
een voorbeeld voor een dergelijke verdeling in de context van een observationele studie is de tijd sinds het begin van een bepaalde ziekte. In veel gevallen ligt de datum van de diagnose dicht bij het tijdstip van de melding, dat wil zeggen op of slechts een paar dagen vóór het baseline-bezoek. De studiegroep omvat echter vaak ook patiënten die al vele jaren aan de ziekte lijden.,
als we het gemiddelde van de individuele tijdspanne sinds het begin van de ziekte berekenen, hebben zulke grote waarden een enorme impact, waardoor het gemiddelde groter is dan de feitelijke verdeling van de gegevens suggereert.
het goede nieuws is dat de uitschieters niet zo ‘ n effect hebben op de mediaan. Daarom geeft de mediaan hier een realistischer beeld van de gegevens.
Geef een reactie