Bootstrapping (statistics)

tässä osiossa on luettelo viittauksista, niihin liittyvistä lukemista tai ulkoisista linkeistä, mutta sen lähteet ovat edelleen epäselviä, koska siitä puuttuvat inline-sitaatit. Auta parantamaan tätä osiota ottamalla käyttöön tarkempia lainauksia., (Kesäkuu 2012) (Oppia, miten ja milloin poistaa tämä malli viesti)

univariate ongelmia, se on yleensä hyväksyttävää resample yksittäisten havaintojen korvaaminen (”tapaus resampling” alla) toisin kuin subsampling, jossa rs on ilman vaihto ja on voimassa alle paljon heikompi ehtoja verrattuna bootstrap. Pienissä näytteissä voitaisiin suosia parametrista bootstrap-lähestymistapaa. Muissa ongelmissa suositaan todennäköisesti sileää Bootstrapia.

regressio-ongelmien hoitoon on saatavilla useita muita vaihtoehtoja.,

Tapauksessa resamplingEdit

Bootstrap on yleensä hyödyllinen arvioitaessa jakelu tunnusluku (esim. keskiarvo, varianssi) ilman normaalia teoria (esim. z-arvo, t-statistic). Bootstrap on kätevä, kun ei ole analyyttinen muodossa tai normaali teoria auttaa arvio jakelu tilastot kiinnostaa, koska bootstrap-menetelmiä voi soveltaa kaikkein satunnaisia määriä, esim., suhde varianssi ja keskiarvo. On olemassa ainakin kaksi tapaa suorittaa case resampling.

Monte Carlon algoritmi case resamplingille on melko yksinkertainen., Ensinnäkin, me resample tietojen vaihto, ja koko resample on oltava yhtä suuri kuin koko alkuperäinen data set. Silloin koron tilasto lasketaan nollasta ensimmäisestä vaiheesta. Toistamme tätä rutiinia monta kertaa saadaksemme tarkemman arvion tilaston Bootstrap-jakaumasta.
”tarkka” versio tapauspalautukselle on samanlainen,mutta luettelemme tyhjentävästi kaikki mahdolliset tiedot. Tämä voi olla laskennallisesti kallista, koska on yhteensä (2 n-1 n) = (2 n − 1)! ei ! (n-1)!, {\displaystyle {\binom {2n-1}{n}}={\frac {(2n-1)!{n!(n-1)!}}} eri resamples, jossa n on koko joukko. Siten n = 5, 10, 20, 30 on 126, 92378, 6.89 × 1010 ja 5.91 × 1016 eri resamples vastaavasti.

otoskeskiarvon

jakauman arvioimiseksi harkitaan kolikkovalintakoetta. Heitetään kolikkoa ja kirjataan, laskeeko se kruunaa vai häntää. Olkoon X = x1, x2, …, x10 10 havaintoja kokeen. xi = 1 Jos I th kääntää päät, ja 0 muuten., Normaalista teoria, voimme käyttää t-statistic arvioida jakelu näytteen keskiarvo,

x = 1 10 ( x 1 + x 2 + ⋯ + x-10 ) . {\displaystyle {\bar {x}}={\frac {1}{10}}(x_{1}+x_{2}+\cdots +x_{10}).}

sen Sijaan, käytämme bootstrap, erityisesti jos resampling, saada jakeluun x {\displaystyle {\bar {x}}} . Me ensin nollata tiedot saada bootstrap resample. Esimerkki ensimmäisen resample voisi näyttää tältä X1* = x2, x1, x10, x10, x3, x4, x6, x7, x1-x9. On olemassa joitakin kaksoiskappaleita, koska bootstrap resample tulee näytteenotosta korvaamalla tiedot., Myös mittauspisteiden määrä bootstrap resample on yhtä suuri mittauspisteiden määrä meidän alkuperäisiä havaintoja. Sitten lasketaan keskiarvo tämän resample ja saada ensimmäinen bootstrap keskiarvo: μ1*. Toistamme tämän prosessin saadakseen toisen resample X2* ja laskea toisen bootstrap keskiarvo μ2*. Jos toistamme tämän 100 kertaa, meillä on μ1*, μ2*,…, μ100*. Tämä edustaa otoskeskiarvon empiiristä bootstrap-jakaumaa. Tästä empiirisestä jakaumasta voidaan johtaa bootstrap-luottamusväli hypoteesitestausta varten.,

RegressionEdit

regressio ongelmia, jos resampling viittaa yksinkertainen järjestelmä resampling yksittäisissä tapauksissa – usein rivien tiedot. Regressio-ongelmien osalta tämä yksinkertainen järjestelmä on usein hyväksyttävä niin kauan kuin tietojoukko on melko suuri. Menetelmä on kuitenkin avoin kritiikille.

regressio ongelmia, selittävät muuttujat ovat usein korjata tai ainakin havaittu enemmän valvontaa kuin vastemuuttuja. Myös selittävien muuttujien kirjo määrittelee niistä saatavilla olevat tiedot., Tämän vuoksi tapausten uusiminen tarkoittaa, että jokainen bootstrap-näyte menettää joitakin tietoja. Sen vuoksi olisi harkittava vaihtoehtoisia bootstrap-menettelyjä.

Bayes bootstrapEdit

Tasainen bootstrapEdit

f ^ s ( x ) = 1 n s ∑ i = 1 n K ( x − X i s ) , {\displaystyle {\hat {f\,}}_{s}(x)={1 \over nh}\sum _{i=1}^{n}K\left({x-X_{i} \over h}\right),} F ^ s ( x ) = ∫ − ∞ x f ^ s ( t ) d t . {\displaystyle {\hat {F\,}}_{s}(x)=\int _{-\infty }^{x}{\hat {f}}_{s}(t)\,dt.,}

Parametrinen bootstrapEdit

Resampling residualsEdit

Toinen lähestymistapa bootstrapping regressio ongelmia on resample jäännökset. Menetelmä etenee seuraavasti.

tällä järjestelmällä on se etu, että se säilyttää tiedot selittävissä muuttujissa. Herää kuitenkin kysymys, mitkä residuaalit voidaan uudelleenparrata. Raa ’ at residuaalit ovat yksi vaihtoehto; toinen on studentisoidut residuaalit (lineaarisessa regressiossa)., Vaikka on olemassa argumentteja hyväksi käyttäen studentized jäännökset; käytännössä se usein tekee vähän eroa, ja se on helppo vertailla tuloksia sekä järjestelmiä.

Gaussin prosessi regressio bootstrapEdit

Kun tiedot ovat ajallisesti korreloivat, suoraviivainen bootstrapping tuhoaa luonnostaan korrelaatiot. Tässä menetelmässä käytetään Gaussin prosessin regressiota (GPR) sopimaan probabilistiseen malliin, josta replikaatit voidaan sitten vetää. GPR on Bayesilainen epälineaarinen regressiomenetelmä., Gaussin prosessi (GP) on kokoelma satunnaismuuttujia, ja mikä tahansa äärellinen määrä, joka on yhteinen Gaussian (normaali) jakauma. GP määritellään keskiarvofunktiolla ja kovarianssifunktiolla, jotka määrittelevät satunnaismuuttujien kunkin äärellisen kokoelman keskiarvovektorit ja kovarianssimatriisit.

Regressio malli:

y ( x ) = f ( x ) + ε , ε ∼ N ( 0 , σ 2 ) , {\displaystyle y(x)=f(x)+\varepsilon ,\ \ \varepsilon \sim – {\mathcal {N}}(0,\sigma ^{2}),} ε {\displaystyle \varepsilon } on melua aikavälillä.

Gaussin process prior:

oleta F ( x ) ∼ G P ( m , k ) ., {\displaystyle f(x)\sim – {\mathcal {GP}}(m,k).} Sitten y ( x ) ∼ G P ( m , l), {\displaystyle y(x)\sim – {\mathcal {GP}}(m,l)} ,

Gaussin prosessi, taka:

Mukaan GP ennen, emme voi saada

∼ N ( m 0 , K 0 ) {\displaystyle \sim – {\mathcal {N}}(m_{0},K_{0})} ,

Anna x1*,…,xs* toinen äärellinen kokoelma muuttujia, se on selvää, että

⊺ ∼ N ( ( m 0 m ∗ ) ( K 0-K ∗ K ∗ ⊺ K ∗ ∗ ) ) {\displaystyle ^{\intercal }\sim – {\mathcal {N}}({\binom {m_{0}}{m_{*}}}{\begin{pmatrix}K_{0}&K_{*}\\K_{*}^{\intercal }&K_{**}\end{pmatrix}})} ,

Mukaan yhtälöitä edellä, lähdöt y ovat myös yhteisesti jaettu mukaan monimuuttuja Gaussin., Näin,

⊺ ∣ ( ⊺ = y ) ∼ N ( m viesti , K post ) , {\displaystyle ^{\intercal }\mid (^{\intercal }=y)\sim – {\mathcal {N}}(m_{\text{viesti}},K_{\text{viesti}}),}

Wild bootstrapEdit

villi bootstrap, ehdotti alun perin Wu (1986), sopii kun malli näyttelyitä heteroskedasticity. Idea on, kuten jäljellä bootstrap, jättää regressors niiden näytteen arvo, mutta resample vastemuuttuja perusteella residuaalit arvoja., Se on jokaisen jäljitellä, yksi laskee uuden y {\displaystyle y} perustuu

y ∗ = y ^ i + ε ^ i v i {\displaystyle y_{i}^{*}={\widehat {y\,}}_{i}+{\widehat {\varepsilon \,}}_{i}v_{en}}

niin residuaalit ovat satunnaisesti kerrottuna satunnaismuuttuja v i {\displaystyle v_{en}}, jonka keskiarvo on 0 ja varianssi 1. Useimmat jakaumat v i {\displaystyle v_{i}} (mutta ei Mammen on), tämä menetelmä olettaa, että ”totta” jäljellä oleva jakauma on symmetrinen ja voi tarjota etuja yksinkertaisia jäljellä näytteenotto pienempiä otoskokoja., Eri muotoja käytetään satunnaismuuttujan v i {\displaystyle v_{en}} , kuten

standardoidun normaalijakauman

jakelu ehdotti Ns (1993).,

v i = { − ( 5 − 1 ) / 2 todennäköisyydellä ( 5 + 1 ) / ( 2 5 ) , ( 5 + 1 ) / 2 todennäköisyydellä ( 5 − 1 ) / ( 2 5 ) {\displaystyle v_{en}={\begin{tapauksissa}-({\sqrt {5}}-1)/2&{\text{todennäköisyys }}({\sqrt {5}}+1)/(2{\sqrt {5}}),\\({\sqrt {5}}+1)/2&{\text{todennäköisyys }}({\sqrt {5}}-1)/(2{\sqrt {5}})\end{tapauksissa}}} Noin, Mammen jakelu on: v i = { − 0.6180 (0 yksikköä’ paikka), jossa todennäköisyys 0.7236 , + 1.6180 (1 majoitusyksikön paikka), jossa todennäköisyys 0.2764. {\displaystyle v_{i} = {\begin{cases}-0.,6180\quad {\text{(0 yksikköä’ paikka)}}&{\text{todennäköisyys }}0.7236,\\+1.6180\quad {\text{(1 majoitusyksikön paikka)}}&{\text{todennäköisyys }}0.2764.\end{tapauksissa}}}

Tai yksinkertaisempi jakelu, joka liittyy Rademacher jakelu:

v i = { − 1 todennäköisyydellä 1 / 2 , + 1 todennäköisyydellä 1 / 2. {\displaystyle v_{en}={\begin{tapauksissa}-1&{\text{todennäköisyys }}1/2,\\+1&{\text{todennäköisyys }}1/2.,\end{tapauksissa}}}

Lohkon bootstrapEdit

lohko bootstrap käytetään, kun tietoja tai virheitä mallissa, ovat korreloi. Tällöin yksinkertainen tapaus tai jäännöspalautus epäonnistuu, koska se ei pysty toistamaan korrelaatiota tiedoissa. Block bootstrap yrittää jäljitellä korrelaatiota uudelleentäyttämällä datalohkojen sisällä. Block Bootstrapia on käytetty pääasiassa ajassa korreloivien tietojen (eli aikasarjojen) kanssa, mutta sitä voidaan käyttää myös avaruudessa korreloivien tietojen kanssa tai ryhmien kesken (ns.,

Aika-sarja: Yksinkertainen lohko bootstrapEdit

Vuonna (yksinkertainen) lohko bootstrap, muuttuja korko on jaettu ei-päällekkäiset lohkot.

Aika-sarja: Liikkuva lohko bootstrapEdit

moving block bootstrap, käyttöön Künsch (1989), tiedot on jaettu n − b + 1 päällekkäisten lohkojen pituus b: Havainto 1, b-lohko 1, huomautus 2 b + 1 lohko 2, jne. Sitten näistä n-b + 1-lohkoista n / b-lohkot arvotaan sattumanvaraisesti korvaamalla. Sitten yhdenmukaistaa nämä n / b lohkojen järjestyksessä ne poimittiin, antaa bootstrap havaintoja.,

Tämä bootstrap toimii riippuvainen tiedot, kuitenkin, bootstrapped havaintoja ei ole enää paikallaan rakentaminen. Mutta, osoitettiin, että vaihtelemalla satunnaisesti lohkon pituus voi välttää tämän ongelman. Tämä menetelmä tunnetaan paikallaan bootstrap. Muut asiaan liittyvät muutokset liikkuvat lohko bootstrap ovat Markovian bootstrap ja paikallaan bootstrap-menetelmä, joka vastaa seuraavien lohkojen perusteella, keskihajonta matching.,

Aika-sarja: Enintään entropia bootstrapEdit

Vinod (2006) esittelee menetelmän, jonka kenkiin aikasarja dataa maksimaalisen entropian periaatteita, jotka täyttävät Ergodic lause, jonka keskiarvo-säilyttäminen ja massa-säilyttää rajoitteet. On R-paketti, meboot, joka hyödyntää menetelmää, joka on sovelluksia econometrics ja tietojenkäsittelytiede.

Klusteritiedot: block bootstrapEdit

Klusteritiedot kuvaavat tietoja, joissa havaitaan useita havaintoja yksikköä kohti. Tämä voisi olla monien yritysten tarkkailemista monissa osavaltioissa tai oppilaiden tarkkailemista monissa luokissa., Tällöin korrelaatiorakenne yksinkertaistuu, ja yleensä oletetaan, että tiedot korreloivat ryhmän/klusterin sisällä, mutta riippumattomia ryhmien/klustereiden välillä. Rakenne estää bootstrap saadaan helposti (jos lohko vain vastaa-ryhmä), ja yleensä vain ryhmät ovat resampled, kun havainnot ryhmissä eivät muutu. Cameron ym. (2008) käsittelee tätä lineaarisen regression klusteroituihin virheisiin.

Bootstrapping (statistics) (Suomi)