Bootstrapping (statistikk)

Dette avsnittet inneholder en liste over referanser, i slekt å lese eller eksterne lenker, men dens kilder er fortsatt uklart fordi det mangler inline sitater. Vennligst hjelp til med å forbedre denne delen ved å innføre mer presise sitater., (Juni 2012) (Lære hvordan og når til å fjerne denne malen melding)

I univariate problemer, det er vanligvis akseptabelt å oppdatere den enkelte observasjoner med erstatning («case resampling» nedenfor) i motsetning til subsampling, der resampling er uten erstatning, og er gyldig i henhold mye svakere vilkår i forhold til bootstrap. I små prøver, en parametriske bootstrap tilnærming kan være å foretrekke. For andre problemer, en jevn bootstrap vil trolig være å foretrekke.

For regresjon problemer, ulike andre alternativer er tilgjengelige.,

Tilfellet resamplingEdit

Bootstrap er generelt nyttig for å anslå fordelingen av en statistikk (f.eks. gjennomsnitt, varians) uten å bruke vanlig teori (f.eks. z-statistikk, t-statistikk). Bootstrap kommer i hendig når det ikke er analytisk eller normal teori for å hjelpe anslå fordelingen av statistikk av interesse, siden bootstrap metoder kan brukes til de fleste tilfeldig mengder, f.eks., forholdet mellom varians og mener. Det er minst to måter å utføre tilfelle resampling.

Monte Carlo algoritme for saken resampling er ganske enkel., For det første, vi oppdatere dataene med utskifting, og størrelsen på oppdater må være lik størrelsen på den originale datasettet. Deretter statistikk av interesse er beregnet fra resample fra første trinn. Vi gjentar denne rutinen mange ganger for å få en mer presis beregning av Bootstrap-fordelingen av statistikken.
«nøyaktig» versjon for saken resampling er lik, men vi uttømmende lister opp alle mulige resample av datasettet. Dette kan være i beregninger dyrt som det er en total av ( 2 n − 1 n ) = ( 2 n − 1 ) ! n ! ( n − 1 ) !, {\displaystyle {\binom {2n-1}{n}}={\frac {(2n-1)!}{n!(n-1)!}}} forskjellige resamples, der n er størrelsen på datasettet. Dermed for n = 5, 10, 20, 30 det er 126, 92378, 6.89 × 1010 og 5.91 × 1016 forskjellige resamples henholdsvis.

Estimere fordelingen av prøven meanEdit

Vurdere en mynt-flipping eksperiment. Vi kaster en mynt, og ta opp om det lander krone eller mynt. La X = x1, x2, …, x10 være 10 observasjoner fra eksperimentet. xi = 1 hvis jeg th flip lander hoder, og 0 ellers., Fra normal teori, kan vi bruke t-statistikk for å anslå fordelingen av utvalgsgjennomsnittet,

x = 1 10 ( x 1 + x 2 + ⋯ + x 10 ) . {\displaystyle {\bar {x}}={\frac {1}{10}}(x_{1}+x_{2}+\cdots +x_{10}).}

i Stedet bruker vi bootstrap, spesielt tilfelle resampling, å utlede fordelingen av x {\displaystyle {\bar {x}}} . Vi første resample data for å få en bootstrap oppdatere. Et eksempel på det første resample kan se ut som dette X1* = x2, x1, x10 mini, x10, x3, x4, x6, x7, x1, x9. Det er noen duplikater siden en bootstrap oppdatere kommer fra prøvetaking med erstatning fra data., Også antall datapunkt i en bootstrap resample er lik antall datapunkter i vår originale observasjoner. Da vi beregne gjennomsnittet av denne oppdatere og få den første bootstrap mener: μ1*. Vi gjenta denne prosessen for å få den andre oppdatere X2*, og beregne den andre bootstrap mener μ2*. Hvis vi gjentar dette 100 ganger, så har vi μ1*, μ2*, …, μ100*. Dette representerer en empirisk bootstrap-fordelingen av utvalgsgjennomsnittet. Fra denne empiriske fordelingen, kan man utlede en bootstrap konfidensintervall for formålet av hypotesetesting.,

RegressionEdit

I regresjon problemer, sak resampling refererer til den enkle ordningen av resampling enkelte saker – ofte rader av et datasett. For regresjon problemer, så lenge dataene er ganske stor, er dette enkle ordningen er ofte akseptabelt. Men metoden er åpne for kritikk.

I regresjon problemer, forklarende variabler er ofte løst, eller i det minste observert med mer kontroll enn det som responsvariabel. Også, omfanget av den forklarende variabler definerer tilgjengelig informasjon fra dem., Derfor, for å oppdatere tilfeller betyr at hver bootstrap eksempel vil miste noe informasjon. Som sådan, alternativ bootstrap prosedyrer bør vurderes.

Bayesiansk bootstrapEdit

Glatt bootstrapEdit

f ^ h ( x ) = 1 n h ∑ i = 1 n K ( x − X i t ) , {\displaystyle {\hat {f\,}}_{h}(x)={1 \over nh}\sum _{i=1}^{n}K\left({x-X_{i} \over h}\right),} F ^ h ( x ) = ∫ − ∞ x f ^ t ( t ) d t . {\displaystyle {\hat {F\,}}_{h}(x)=\int _{-\infty }^{x}{\hat {f}}_{h}(t)\,dt.,}

Parametrisk bootstrapEdit

Resampling residualsEdit

en Annen tilnærming til bootstrapping i regresjon problemer er å oppdatere restene. Metoden fortsetter som følger.

Denne ordningen har den fordelen at den beholder informasjonen i den forklarende variabler. Men, et spørsmål som oppstår som restene til å oppdatere. Raw-restene er en mulighet, en annen er studentized rester (i lineær regresjon)., Selv om det er argumenter i favør av å bruke studentized rester; i praksis er det ofte gjør liten forskjell, og det er lett å sammenligne resultatene av begge ordninger.

Gaussian prosessen regresjon bootstrapEdit

Når data er timelig korrelert, grei bootstrapping ødelegger den iboende sammenhenger. Denne metoden bruker Gaussisk prosess regresjon (GPR) til å passe en probabilistisk modell som replikater kan da bli trukket. GPR er en Bayesiansk ikke-lineær regresjon metode., En Gaussisk prosess (GP) er en samling av tilfeldige variabler, og noen bestemt antall som har en felles Gaussisk (normal) distribusjon. En GP er definert av en gjennomsnittlig funksjon og en covariance funksjon, som angir mener vektorer og covariance matriser for hver endelig samling av tilfeldige variabler.

regresjonsmodell:

y ( x ) = f ( x ) + ε , ε ∼ N ( 0 , σ 2 ) , {\displaystyle y(x)=f(x)+\varepsilon ,\ \ \varepsilon \sim – {\mathcal {N}}(0,\sigma ^{2}),} ε {\displaystyle \varepsilon } er en støy sikt.

Gaussian prosessen før:

Anta at f ( x ) ∼ G P ( m , k ) ., {\displaystyle f(x)\sim – {\mathcal {GP}}(m,k).} Deretter y ( x ) ∼ G P ( m , l ) {\displaystyle y(x)\sim – {\mathcal {GP}}(m,l)} ,

Gaussisk prosess posterior:

Ifølge for å GP før vi kan få

∼ N ( m-0 , K 0 ) {\displaystyle \sim – {\mathcal {N}}(m_{0},K_{0})}

La x1*,…,,xs* være en endelig samling av variabler, er det åpenbart at

⊺ ∼ N ( ( m 0 m ∗ ) ( K 0 K ∗ K ∗ ⊺ K ∗ ∗ ) ) {\displaystyle ^{\intercal }\sim – {\mathcal {N}}({\binom {m_{0}}{m_{*}}}{\begin{pmatrix}K_{0}&K_{*}\\K_{*}^{\intercal }&K_{**}\end{pmatrix}})}

Ifølge for å likningene ovenfor, utganger y er også i fellesskap fordelt i henhold til en multivariat Gaussian., Dermed

⊺ ∣ ( ⊺ = y ) ∼ N ( m-post , K innlegget ) , {\displaystyle ^{\intercal }\mid (^{\intercal }=y)\sim – {\mathcal {N}}(m_{\text{innlegget}},K_{\text{innlegget}}),}

Ville bootstrapEdit

The wild bootstrap, opprinnelig foreslått av Wu (1986), er godt egnet når modellen utstillinger heteroskedasticity. Ideen er, som rester av bootstrap, til å forlate regressors på prøven deres verdi, men å resample responsvariabel basert på restene verdier., Det vil si at for hver replikere, en regner ut en ny y {\displaystyle y} basert på

y jeg ∗ = y ^ i + ε ^ jeg v i {\displaystyle y_{i}^{*}={\widehat {y\,}}_{i}+{\widehat {\varepsilon \,}}_{i}v_{i}}

så restene er tilfeldig multiplisert med en tilfeldig variabel v i {\displaystyle v_{i}} med middelverdi 0 og varians 1. For de fleste distribusjoner av v i {\displaystyle v_{i}} (men ikke Mammen s), denne metoden forutsetter at den ‘sanne’ gjenværende fordelingen er symmetrisk og kan tilby fordeler over enkle gjenværende prøvetaking for eksempel mindre størrelser., Ulike former er brukt for tilfeldig variabel v i {\displaystyle v_{i}} , som f.eks.

standard normalfordeling

En fordeling som er foreslått av Mammen (1993).,

v i = { − ( 5 − 1 ) / 2 med sannsynlighet ( 5 + 1 ) / ( 2 5 ) , ( 5 + 1 ) / 2 med sannsynlighet ( 5 − 1 ) / ( 2 5 ) {\displaystyle v_{i}={\begin{tilfeller}-({\sqrt {5}}-1)/2&{\text{med sannsynlighet }}({\sqrt {5}}+1)/(2{\sqrt {5}}),\\({\sqrt {5}}+1)/2&{\text{med sannsynlighet }}({\sqrt {5}}-1)/(2{\sqrt {5}})\end{tilfeller}}} Ca, Mammen fordeling er: v i = { − 0.6180 (med 0 i enhetenes sted) med sannsynlighet 0.7236 , + 1.6180 (med en 1 i enhetenes sted) med sannsynlighet 0.2764. {\displaystyle v_{i}={\begin{tilfeller}-0.,6180\quad {\text{(med 0 i enhetenes sted)}}&{\text{med sannsynlighet }}0.7236,\\+1.6180\quad {\text{(med en 1 i enhetenes sted)}}&{\text{med sannsynlighet }}0.2764.\end{tilfeller}}}

Eller enklere distribusjon, knyttet til Rademacher distribusjon:

v i = { − 1 med sannsynlighet 1 / 2 , + 1 med sannsynlighet 1 / 2. {\displaystyle v_{i}={\begin{tilfeller}-1&{\text{med sannsynlighet }}1/2,\\+1&{\text{med sannsynlighet }}1/2.,\end{tilfeller}}}

Blokker bootstrapEdit

– blokken bootstrap brukes når data, eller feil i en modell, er korrelert. I dette tilfellet, en enkel sak eller gjenværende resampling vil mislykkes, så det er ikke i stand til å gjenskape sammenheng i dataene. Blokker-bootstrap prøver å gjenskape korrelasjon ved resampling inne blokker av data. Blokker-bootstrap har blitt brukt hovedsakelig med data korrelert i tid (dvs. gang-serien), men kan også brukes med data korrelert i verdensrommet, eller blant grupper (såkalte cluster data).,

Tid serien: Enkel blokk bootstrapEdit

I (enkel) blokk bootstrap den variable av interesse er delt inn i ikke-overlappende blokker.

serie: Flytte blokker for bootstrapEdit

I det glidende blokk bootstrap, introdusert av Künsch (1989), data er delt inn i n − b + 1 overlappende blokker av lengden b: Observasjon 1 til b vil bli blokk 1, observasjon 2-b + 1 vil være i blokk 2, osv. Så fra disse n − b + 1 blokker, n/b-blokker vil bli trukket tilfeldig med erstatning. Deretter justere disse n/b blokker i den rekkefølgen de ble plukket ut, vil gi bootstrap observasjoner.,

Dette bootstrap fungerer med avhengige data, men bootstrapped observasjoner vil ikke være i ro lenger ved bygging. Men, det viste seg at det varierende tilfeldig blokken lengde kan unngå dette problemet. Denne metoden er kjent som den stasjonære bootstrap. Andre beslektede modifikasjoner av flytte blokker for bootstrap er Markovian bootstrap og en stasjonær bootstrap metoden som samsvarer med påfølgende kvartaler basert på standard avvik matching.,

serie: Maksimal entropi bootstrapEdit

Vinod (2006), presenterer en metode som bootstraps time series-data ved hjelp av maksimal entropi prinsipper tilfredsstillende Ergodisk teorem med bety-å bevare og masse-å bevare begrensninger. Det er en R-pakken, meboot, som benytter metoden, som har programmer i økonometri og informatikk.

Klynge data: blokk bootstrapEdit

Klynge data som beskriver data hvor mange observasjoner som per enhet er observert. Dette kan være å observere mange bedrifter i mange stater, eller å observere elevene i mange klasser., I slike tilfeller korrelasjon struktur er forenklet, og gjør man som regel anta at data er korrelert innen en gruppe/cluster, men uavhengige mellom grupper/klynger. Strukturen i blokk bootstrap er lett skaffes (der bare et kvartal tilsvarer gruppe), og vanligvis bare de grupper som er resampled, mens observasjoner i grupper, beholdes uendret. Cameron et al. (2008) beskriver dette for samlet feil i lineær regresjon.