Bootstrapping (statistik) (Dansk)

posted in: Articles | 0

dette afsnit indeholder en liste over referencer, relateret læsning eller eksterne links, men dets kilder forbliver uklare, fordi det mangler indbyggede citater. Hjælp med at forbedre dette afsnit ved at introducere mere præcise citater., (Juni 2012) (Lære, hvordan og hvornår for at fjerne denne skabelon besked)

I enkelt problemer, er det normalt acceptabelt, at resample de enkelte observationer med udskiftning (“case resampling” nedenfor) i modsætning til subsampling, hvor resampling er uden erstatning og er gyldigt i henhold meget svagere forhold til bootstrap. I små prøver kan en parametrisk bootstrap-tilgang foretrækkes. For andre problemer vil en glat bootstrap sandsynligvis blive foretrukket.

for regressionsproblemer er forskellige andre alternativer tilgængelige.,

Case resamplingEdit

Bootstrap er generelt anvendelige til at vurdere fordelingen af en statistik (fx middelværdi, varians) uden at bruge den normale teori (fx z-statistik, t-statistik). Bootstrap er praktisk, når der ikke er nogen analytisk form eller normal teori til at hjælpe med at estimere fordelingen af statistikkerne af interesse, da bootstrap-metoder kan gælde for de fleste tilfældige mængder, f.eks. Der er mindst to måder at udføre case resampling på.

  1. Monte Carlo-algoritmen til case resampling er ret simpel., Først resample vi dataene med udskiftning, og størrelsen af resample skal være lig med størrelsen af det oprindelige datasæt. Derefter beregnes statistikken af interesse fra resample fra det første trin. Vi gentager denne rutine mange gange for at få et mere præcist skøn over Bootstrap-distributionen af statistikken.
  2. den’ nøjagtige ‘ version til case resampling er ens, men vi opregner udtømmende alle mulige resample af datasættet. Dette kan være beregningsmæssigt dyrt, da der er i alt (2 n-1 n) = (2 n-1)! n ! (n-1)!, {\displaystyle {\binom {2n-1}{n}}={\frac {(2n-1)!} {n!(n-1)!}}} forskellige resamples, hvor n er størrelsen af datasættet. Således for n = 5, 10, 20, 30 der er 126, 92378, 6.89 × 1010 og 5.91 × 1016 forskellige resamples hhv.

estimering af fordelingen af prøven meanEdit

overvej en mønt-spejlvende eksperiment. Vi vender mønten og registrerer, om den lander plat eller krone. Lad = =11 ,22, … ,1010 være 10 observationer fra eksperimentet. 1i = 1 hvis jeg TH flip lander hoveder, og 0 ellers., Fra normal teori kan vi bruge t-statistik til at estimere fordelingen af prøvemidlet,

= = 1 10 (. 1+. 2 + ⋯ + 10 10). {\displaystyle {\bar {x}}={\frac {1}{10}}(x_{1}+x_{2}+\cdots +x_{10}).}

i stedet bruger vi bootstrap, specifikt case resampling, til at udlede distributionen af {{\displaystyle {\bar {.}}}. Vi geneksempler først dataene for at få en bootstrap-resample. Et eksempel på den første resample kan se sådan ud11 * = .2, .1, .10, .10, .3, .4, .6, .7, .1, .9. Der er nogle dubletter, da en bootstrap-resample kommer fra prøveudtagning med udskiftning fra dataene., Også antallet af datapunkter i en bootstrap resample er lig med antallet af datapunkter i vores oprindelige observationer. Derefter beregner vi gennemsnittet af denne resample og får den første bootstrap-middelværdi: μ1*. Vi gentager denne proces for at opnå den anden resample22* og beregne den anden bootstrap middel μ2*. Hvis vi gentager dette 100 gange, så har vi μ1* ,22*, …, μ100*. Dette repræsenterer en empirisk bootstrap fordeling af prøve middelværdi. Fra denne empiriske distribution kan man udlede et Bootstrap-konfidensinterval med henblik på hypotesetestning.,

RegressionEdit

i regressionsproblemer refererer case resampling til det enkle skema med resampling af individuelle tilfælde – ofte rækker af et datasæt. For regressionsproblemer, så længe datasættet er ret stort, er denne enkle ordning ofte acceptabel. Metoden er dog åben for kritik.

i regressionsproblemer er de forklarende variabler ofte rettet eller i det mindste observeret med mere kontrol end responsvariablen. Rækkevidden af de forklarende variabler definerer også de tilgængelige oplysninger fra dem., Derfor, at resample tilfælde betyder, at hver bootstrap prøve vil miste nogle oplysninger. Som sådan bør alternative bootstrap-procedurer overvejes.

Bayesian bootstrapEdit

glat bootstrapEdit

f ^ H ( = ) = 1 n h i i=1 n k ( hat − i i h ) , {\displaystyle {\hat {f\,}}_{h}(right)={1 \over nh}\sum _{i = 1}^{n}k\venstre ({{-__{i} \over h}\højre),} F ^ h ( = ) = – − – F F ^ H ( t ) d t . det er en god id., at du har brug for at vide mere om det.,}

Parametrisk bootstrapEdit

Resampling residualsEdit

en Anden tilgang til bootstrapping i regression problemer er at resample residualer. Metoden fortsætter som følger.

denne ordning har den fordel, at den bevarer oplysningerne i de forklarende variabler. Der opstår dog et spørgsmål om, hvilke rester der skal resample. Rå rester er en mulighed; en anden er studentizeded rester (i lineær regression)., Selv om der er argumenter for at anvende studentizeded residuals; i praksis, det ofte gør lidt forskel, og det er let at sammenligne resultaterne af begge ordninger.

Gaussisk procesregression bootstrapEdit

Når data er midlertidigt korrelerede, ødelægger ligetil bootstrapping de iboende korrelationer. Denne metode bruger Gauss procesregression (GPR) til at passe til en probabilistisk model, hvorfra replikater derefter kan trækkes. GPR er en bayesisk ikke-lineær regressionsmetode., En Gauss proces (GP) er en samling af tilfældige variabler, og enhver begrænset antal som har en fælles Gauss (normal) fordeling. En GP er defineret ved en gennemsnitlig funktion og en kovariansfunktion, som angiver de gennemsnitlige vektorer og kovariansmatricer for hver endelig samling af de tilfældige variabler.

regressionsmodel:

y (() = f (.)+,,, N n(0, 2 2), {\displaystyle y (.)=f (.)+\varepsilon, \ \ \varepsilon \sim {\mathcal {N}} (0,\sigma ^{2}),} ε {\displaystyle \varepsilon } er et støjudtryk.

Gaussisk proces før:

Antag f ( ∼ ) ∼ G P ( M , k ) ., {\displaystyle F (\) \sim {\mathcal {GP}} (m,k).} Så er y ( x ) ∼ G P ( m , l ) {\displaystyle y(x)\sim {\mathcal {GP}}(m,l)}

den Gaussiske proces posterior:

Ifølge for at GP før, vi kan få

∼ N ( m, 0 , K 0 ) {\displaystyle \sim {\mathcal {N}}(m_{0},K_{0})} ,

Lad x1*,…,,xs* være en begrænset samling af variabler, er det indlysende, at

⊺ ∼ N ( ( m 0 m ∗ ) ( K 0 K ∗ K ∗ ⊺ K ∗ ∗ ) ) {\displaystyle ^{\intercal }\sim {\mathcal {N}}({\binom {m_{0}}{m_{*}}}{\begin{pmatrix}K_{0}&K_{*}\\K_{*}^{\intercal }&K_{**}\end{pmatrix}})} ,

Ifølge ligningerne ovenfor, output y er også fællesskab, fordeles i henhold til en multivariat Gaussisk., Således,

⊺ ∣ ( ⊺ = y ) ∼ N ( m post , K post ) , {\displaystyle ^{\intercal }\mid (^{\intercal }=y)\sim {\mathcal {N}}(m_{\text{indlæg}},K_{\text{indlæg}}),}

Vilde bootstrapEdit

Den vilde bootstrap, som oprindelig blev foreslået af Wu (1986), er velegnet, når modellen udviser heteroskedasticity. Ideen er, ligesom den resterende bootstrap, at forlade regressorerne til deres prøveværdi, men at resample responsvariablen baseret på restværdierne., Det vil sige, at man for hver replikat beregner en ny y {\displaystyle y} baseret på

Y I = =Y ^ i + ^ ^i V i {\displaystyle y_{i} ^ {*} = {\wididehat {y\,}}_{i}+{\displidehat {\varepsilon\,}} _{i}v_{i}}

så restprodukterne ganges tilfældigt med en tilfældig variabel v i {\displaystyle v_{i}} med Middel 0 og varians 1. For de fleste distributioner af v i {\displaystyle v_{jeg}} (men ikke s Mammen), denne metode forudsætter, at den “sande” resterende fordelingen er symmetrisk og kan tilbyde fordele i forhold til simple resterende prøver til mindre stikprøvestørrelser., Forskellige former anvendes for den tilfældige variabel v i {\displaystyle v_{i}} , såsom

  • standard normal fordeling
  • udlodning foreslået af Mammen (1993).,

v i = { − ( 5 − 1 ) / 2 med sandsynlighed ( 5 + 1 ) / ( 2 5 ) , ( 5 + 1 ) / 2 med sandsynlighed ( 5 − 1 ) / ( 2 5 ) {\displaystyle v_{i}={\begin{cases}-({\sqrt {5}}-1)/2&{\text{med sandsynlighed }}({\sqrt {5}}+1)/(2{\sqrt {5}}),\\({\sqrt {5}}+1)/2&{\text{med sandsynlighed }}({\sqrt {5}}-1)/(2{\sqrt {5}})\end{cases}}} Omkring Mammen er distribution er: v i = { − 0.6180 (med et 0 i enheder”) med sandsynlighed 0.7236 , + 1.6180 (med en 1 i enheder”) med sandsynlighed 0.2764. {\displaystyle v_{i}={\begin{cases}-0.,6180\quad {\text{(med et 0 i de enheder, der er’ plads)}}&{\text{med sandsynlighed }}0.7236,\\+1.6180\quad {\text{(med en 1-i-enhederne sted)}}&{\text{med sandsynlighed }}0.2764.\end{cases}}}

  • Eller enklere distribution, der er knyttet til Rademacher distribution:

v i = { − 1 med sandsynlighed 1 / 2 , + 1 med sandsynlighed 1 / 2. {\displaystyle v_{i}={\begin{cases}-1&{\text{med sandsynlighed }}1/2,\\+1&{\text{med sandsynlighed }}1/2.,\ end{cases}}}

Block bootstrapEdit

block bootstrap bruges, når dataene eller fejlene i en model er korrelerede. I dette tilfælde vil en simpel sag eller resterende resampling mislykkes, da den ikke er i stand til at replikere korrelationen i dataene. Block bootstrap forsøger at replikere korrelationen ved at resample inde i blokke af data. Blokken bootstrap er hovedsageligt blevet brugt med data korreleret i tid (dvs.tidsserier), men kan også bruges med data korreleret i rummet eller blandt grupper (såkaldte klyngedata).,

tidsserier: Simple block bootstrapEdit

i (simple) block bootstrap er variablen af interesse opdelt i ikke-overlappende blokke.

tidsserier: Flytning blok bootstrapEdit

I den bevægelige klods bootstrap, der blev indført ved Künsch (1989), data er opdelt i n − b + 1 overlappende blokke af længde b: Observation 1 til b vil blive blok 1, observation 2 til b + 1, blok 2, osv. Derefter trækkes n/b-blokke tilfældigt fra disse n-b + 1-blokke med udskiftning. Så tilpasse disse n / b blokke i den rækkefølge, de blev plukket, vil give bootstrap observationer.,

denne bootstrap fungerer med afhængige data, men de bootstrapped observationer vil ikke være stationære længere ved konstruktion. Men det blev vist, at varierende tilfældigt bloklængden kan undgå dette problem. Denne metode er kendt som den stationære bootstrap. Andre relaterede ændringer af den bevægelige blok bootstrap er Markovian bootstrap og en stationær bootstrap metode, der matcher efterfølgende blokke baseret på standardafvigelse matching.,

tidsserier: maksimal entropi bootstrapEdit

Vinod (2006), præsenterer en metode, der bootstraps tidsseriedata ved hjælp af maksimale entropiprincipper, der opfylder Ergodic-sætningen med middelbevarende og massebeskyttende begrænsninger. Der er en R-pakke, meboot, der bruger metoden, som har applikationer inden for økonometri og datalogi.cluster data: block bootstrapEdit

Cluster data beskriver data, hvor mange observationer pr.enhed observeres. Dette kunne observere mange virksomheder i mange stater, eller observere studerende i mange klasser., I sådanne tilfælde forenkles korrelationsstrukturen, og man antager normalt, at data er korreleret inden for en gruppe/klynge, men uafhængig mellem grupper/klynger. Strukturen af blokken bootstrap opnås let (hvor blokken bare svarer til gruppen), og normalt er kun grupperne resampled, mens observationerne i grupperne forbliver uændrede. Cameron et al. (2008) diskuterer dette for grupperede fejl i lineær regression.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *