Nyní, když oba statistické opatření, průměr a medián, jsou použity k popisu umístění souboru údajů, co výhody a nevýhody?
jak je uvedeno výše, průměr je běžněji používaným měřítkem těchto dvou. Navíc je základem mnoha pokročilých statistických metod.
například průměr je potřebný pro výpočet směrodatné odchylky,což je nejvýznamnější opatření k posouzení variability v souboru dat., A je také potřeba pro mnoho statistických zkušebních postupů, např. pro T-test.
ale jaké jsou výhody mediánu?
pro ilustraci se vrátíme k pěti dříve používaným hodnotám systolického krevního tlaku:
142, 124, 121, 151, 132.
předpokládáme, že 151 je správná hodnota, ale že selhání zařízení vede k falešnému měření 171. Uvidíme, co bude znamenat a medián?,
průměr výsledných pěti hodnot je nyní 138 místo 134, jak se vypočítává z původních údajů, což ukazuje značný účinek nesprávného měření.
Chcete-li odvodit medián, data znovu třídíme podle velikosti:
121, 124, 132, 142, 171.
stejně jako dříve je hodnota 132 ve středu řádku dat, takže medián je ve skutečnosti nezměněn falešným měřením.
proto se medián nazývá „robustní proti odlehlým hodnotám“, zatímco průměr je ve skutečnosti“citlivý na odlehlé hodnoty“.,
„Asymetrické“ distribuce
Další výhodou mediánu, spojené s tímto druhem robustnost, může být viděn v „asymetrické“ distribucí.
příkladem takové distribuce v kontextu observační studie je doba od nástupu určité nemoci. V mnoha případech se datum diagnózy blíží době hlášení,tj. Studijní skupina však často zahrnuje také pacienty, kteří trpí onemocněním po mnoho let.,
pokud vypočítáme průměr jednotlivých časových rozpětí od nástupu onemocnění, tak velké hodnoty mají obrovský dopad, takže průměr je větší, než by naznačovalo skutečné rozdělení dat.
dobrou zprávou je, že odlehlé hodnoty nemají takový vliv na medián. Proto zde medián poskytuje realističtější obraz dat.
Napsat komentář