oppilaani kysyi tänään miten tulkita AIC (Akaike Tiedot
– Kriteerit) tilastotieto mallin valinta. Päädyimme soimaan joitakin R
koodi osoittaa, miten laskea AIC yksinkertainen GLM (general
lineaarinen malli). Ajattelen aina, että jos ymmärtää
statistiikan derivoinnin, on paljon helpompi muistaa, miten sitä käytetään.,
nyt jos googletat AIC: n derivoinnin, törmäät todennäköisesti
lot of mathiin. Mutta periaatteet eivät todellakaan ole niin monimutkaisia. Joten tässä
me sopivat joitakin yksinkertaisia GLMs, sitten johtaa keino valita ”paras”
Yksi.
Siirry loppuun, jos haluat vain mennä yli perusperiaatteet.
Ennen kuin voimme ymmärtää, AIC, vaikka, meidän täytyy ymmärtää
tilastolliset menetelmät todennäköisyydet.,
Selittää todennäköisyydet
Sano, että sinulla on joitakin tietoja, jotka ovat normaalisti jakautunut keskiarvo 5
ja sd 3
:
set.seed(126)n <- 50 #sample sizea <- 5sdy <- 3y <- rnorm(n, mean = a, sd = sdy)hist(y)
Nyt haluamme arvioida joitakin parametreja väestöstä, joka y
oli
näytteet, kuten sen keskiarvo ja standardi devaiation (jonka tiedämme täällä
5 ja 3, mutta todellisessa maailmassa et tiedä, että).
aiomme käyttää frequentist tilastoja näiden parametrien arvioimiseksi.,
filosofisesti tämä tarkoittaa sitä, että uskomme, että
jokaiselle parametrille on olemassa ”yksi todellinen arvo”, ja havaitut tiedot syntyvät tästä todellisesta
arvosta.
m1 <- glm(y ~ 1, family = "gaussian")sm1 <- summary(m1)
– arvion keskiarvo on tallennettu täällä coef(m1)
=4.38, arvioitu
varianssi täällä sm1$dispersion
= 5.91, tai SD – sqrt(sm1$dispersion)
=2.43. Ollaksemme täysin selvillä tarkensimme myös, että uskomme
– datan seuraavan normaalia (eli ”Gaussin”) jakautumista.,
– Emme vain sovi GLM-R kysyä arvioida siepata parametri (~1
),
, joka on yksinkertaisesti keskiarvo y
. Saamme myös selville arvio SD
(= $\sqrt varianssi$) luulisi sen ylilyönti käyttää GLM
– arvion keskiarvo ja SD, kun me voisi vain laskea niitä suoraan.
huomaa nyt hyvin, että R arvioi myös joitakin muita määriä, kuten
jäännöspoikkeama ja AIC-tilasto.
saatat myös olla tietoinen siitä, että poikkeavuus on mallikelpoisuuden mitta,
paljolti neliöiden summien kaltainen., Huomaa myös, että AIC: n arvo on
epäilyttävän lähellä poikkeamaa. Oudosta nimestään huolimatta poikkeaman taustalla olevat käsitteet
ovat melko yksinkertaisia.
kuten edellä sanoin, tarkkailemme tietoja, jotka syntyvät
– populaatiosta, jolla on yksi todellinen keskiarvo ja yksi todellinen SD. Koska tiedämme, että on
arviot näistä määristä, jotka määritellään todennäköisyysjakauman, emme
voisi myös arvioida todennäköisyyttä mitataan uusi arvo y
sanoa = 7.,
Voit tehdä tämän, yksinkertaisesti kytke arvioidut arvot yhtälöön
normaali jakelu ja pyytää suhteellinen todennäköisyys 7
. Olemme
onko tämä R-toiminto dnorm
sdest <- sqrt(sm1$dispersion)dnorm(7, mean = coef(m1), sd = sdest)## 0.09196167
Virallisesti, tämä on suhteellinen todennäköisyys arvo 7 koska
– arvojen keskiarvo ja SD, että me arvioitu (=4.8 ja 2.39
vastaavasti, jos käytät samaa random seed kuin minä).,
saatat kysyä, miksi todennäköisyys on suurempi kuin 1, varmasti,, koska se tulee
mistä todennäköisyysjakauma, pitäisi olla <1. No, normaali
jakelu on jatkuva, mikä tarkoittaa, että se kuvaa infinte asetettu
mahdolliset y
arvot, joten todennäköisyys tahansa arvo on nolla.
suhteellista todennäköisyyttä toisaalta voidaan käyttää
todennäköisyyden laskemiseen vaihteluvälillä
.,
joten saatat ymmärtää, että kaikkien tietojen todennäköisyyden laskeminen
olisi järkevä tapa mitata, kuinka hyvin ”mallimme” (vain keskiarvo ja
SD tässä) sopii dataan.
Tässä on, mitä todennäköisyys näyttää:
plot(y, dnorm(y, mean = coef(m1), sd = sdest), ylab = "Likelihood")
Se on vain normaali jakelu.
Jos haluat tehdä tämän, mieti, miten laskisit
– toistuvien (riippumattomien) tapahtumien todennäköisyyden. Sanoa, että mahdollisuus, minä ratsastaa minun pyörä työtä
tiettynä päivänä on 3/5 ja mahdollisuus sataa on 161/365 (kuten
Vancouver!,), silloin mahdollisuus, että ratsastan sateessa, on 3/5 *
161/365 = noin 1/4, joten parhaiten käytän takkia, jos Ratsastan Vancouverissa.
Me voimme tehdä saman todennäköisyydet, yksinkertaisesti moninkertaistaa todennäköisyys
kunkin y
arvo ja meillä on yhteensä todennäköisyys. Tämä on
hyvin pieni luku, koska me moninkertaistamme paljon pieniä lukuja jokaisella
muulla., Joten yksi temppu käytämme on summa log likelihoods sen sijaan,
, joka saadaan kertomalla heille:
y_lik <- dnorm(y, mean = coef(m1), sd = sdest, log = TRUE)sum(y_lik)## -114.8636
suurempi (vähemmän negatiivinen) todennäköisyyttä meidän tietoja, koska
malli on arvioiden mukaan, ”parempi” malli sopii aineistoon. Myös poikkeavuus on
laskettu todennäköisyys ja vääristymiä pienempiä arvoja
ilmoitetaan lähempänä fit-mallin tiedot.
parametrin arvoja, jotka antavat meille pienin arvo
-log-todennäköisyys, kutsutaan suurimman uskottavuuden estimaatit.,
Vertaamalla vaihtoehtoisia hypoteeseja todennäköisyydet
Nyt sanoa, että olemme mittaukset ja kaksi muuttujien, x1
ja x2
joko
, joka mielestämme saattaa vaikuttaa y:
a <- 5b <- 3n <- 100x1 <- rnorm(n)x2 <- rnorm(n)sdy <- 1y <- a + b*x1 + rnorm(n, sd = sdy)par(mfrow = c(1,2))plot(x1, y)plot(x2, y)
x1 on syy y, mutta x2 ei vaikuta y. Miten me valita,
mikä hypoteesi on todennäköisin?, No yksi tapa olisi verrata mallit
eri muuttujien yhdistelmiä:
m1 <- glm(y ~ x1)m2 <- glm(y ~ x2)m3 <- glm(y ~ x1 + x2)
Nyt meillä on sopiva linja-y, niin meidän arvion keskiarvo on nyt
line of best fit, se vaihtelee arvo x1. Visualisoida tämän:
plot(x1, y)lines(x1, predict(m1))
predict(m1)
antaa line of best fit, eli keskiarvo y
koska kaikilla x1 arvo., Sitten käyttää ennustamaan saada todennäköisyydet jokaiselle
malli:
todennäköisyys m1
on suurempi kuin m2
, joka on järkevää, koskam2
on ”väärennös” kovariaatin se. Todennäköisyys m3
(joka on
molemmat x1 ja x2) on aavistuksen suurempi kuin todennäköisyys m1
,
joten meidän pitäisi arvioida, että malli antaa lähes yhtä hyvä edustus
tietoja?,
Koska todennäköisyys on vain hieman suurempi, lisäksi x2
on selittää vain pieni määrä varianssi tiedot. Mutta missä
vedät rajan X2: n sisältämisen ja poissulkemisen välillä? Törmäät
vastaavaan ongelmaan, jos käytät R^2: ta mallivalikoimassa.
Joten mitä jos me rangaista todennäköisyys, määrä paramaters me
on arvioida sopivaksi malli? Sitten, jos me ovat enemmän muuttujien
(ja arvioimme, lisää rinne parametrit) vain ne, jotka tilin
paljon vaihtelua voittaa rangaistus.,
Mitä haluamme tilasto, joka auttaa meitä valitsemaan yksinkertaisin
malli.
AIC mittana nuukuus
Yksi tapa, jolla voimme rangaista todennäköisyyttä, jonka parametrien määrä on
lisää määrä se, että on verrannollinen määrä parametreja.
Ensin kerrotaan log-todennäköisyys, -2, niin, että se on positiivinen,
ja pienemmät arvot osoittavat tarkemmin sopivat.
LLm1 <- sum(dnorm(y, mean = predict(m1), sd = sqrt(sm1$dispersion), log = TRUE))-2*LLm1## 251.2428
Miksi sen -2 ei -1, en muista tarkkaan, mutta luulen, että vain historiallinen
syistä.,
sitten lisätään 2*k, jossa k on arvioitujen parametrien määrä.
-2*LLm1 + 2*3## 257.2428
Esimerkiksi m1
on olemassa kolme parametrit, yksi viesti, yksi rinne ja yksi
keskihajonta. Nyt lasketaan AIC kaikille kolmelle mallille:
näemme, että model 1: ssä on alin AIC ja siksi eniten
parsimonious fit. Model 1 päihittää nyt model 3: n, jolla oli hieman
suurempi todennäköisyys, mutta ylimääräisen kovariaatin takia on korkeampi
rankkarikin.,
AIC perusperiaatteet
yhteenvetona, perusperiaatteet, jotka ohjaavat käyttö AIC ovat:
-
Alempi osoittaa enemmän nuuka mallia, suhteessa malliin fit
suurempi AIC. -
Se on suhteellinen mitta, malli nuukuus, niin se vain on
eli jos vertaamme AIC vaihtoehtoisia hypoteeseja (= eri
mallit tiedot). -
voimme verrata sisäkkäisiä malleja. Voisimme esimerkiksi verrata
lineaarista ei-lineaariseen malliin., -
vertailut pätevät vain malleihin, jotka sopivat samaan vasteeseen
Tiedot (eli y-arvot). -
Mallin valinta suoritettiin AIC tulee valita sama malli kuin
leave-one-out cross validation (jos jätämme pois yksi datapiste
ja fit malli, sitten arvioida sen sopivuus kyseiseen kohtaan) suurten
otoskoot. -
AIC: hen ei kannata verrata liikaa malleja., Voit ajaa
osaksi samoja ongelmia useita malli vertailu kuten
p-arvot, että et voisi sattumalta löytää malli
pienin AIC, se ei ole todella parhaiten sopiva malli. -
Kun käytät AIC saatat päätyä useita malleja, jotka
suorittaa samalla tavalla toisiinsa. Sinulla on siis samanlaiset todisteet
eri vaihtoehtoisten hypoteesien painot. Yllä olevassa esimerkissä m3
on oikeastaan suunnilleen yhtä hyvä kuin m1. -
olisi oikea pienten otoskokojen jos käytät AIC
pieni otoskoko, käyttämällä AICc tilastotieto.,
Olettaen, että sataa koko päivän, mikä on kohtuullista, että Vancouver.
Vastaa