Bootstrapping (statistics)

det här avsnittet innehåller en lista med referenser, relaterad läsning eller externa länkar, men dess källor är fortfarande oklara eftersom det saknar inline citat. Vänligen bidra till att förbättra detta avsnitt genom att införa mer exakta citat., (Juni 2012) (lär dig hur och när du ska ta bort det här mallmeddelandet)

i univariate-problem är det vanligtvis acceptabelt att sampla de enskilda observationerna med ersättning (”case resampling” nedan) till skillnad från subsampling, där omsampling är utan ersättning och gäller under mycket svagare förhållanden jämfört med bootstrap. I små prover kan en parametrisk bootstrap-metod föredras. För andra problem kommer en jämn bootstrap sannolikt att föredras.

för regressionsproblem finns olika andra alternativ tillgängliga.,

Case resamplingEdit

Bootstrap är i allmänhet användbart för att uppskatta fördelningen av en statistik (t.ex. medelvärde, varians) utan att använda normal teori (t. ex. Z-statistik, t-statistik). Bootstrap kommer till nytta när det inte finns någon analytisk form eller normal teori för att uppskatta fördelningen av statistiken av intresse, eftersom bootstrap-metoderna kan tillämpas på de flesta slumpmässiga kvantiteter, t.ex. förhållandet mellan varians och medelvärde. Det finns minst två sätt att utföra fall omsampling.

Monte Carlo-algoritmen för fallåtersampling är ganska enkel., Först samplar vi om data med ersättning, och storleken på provet måste vara lika med storleken på den ursprungliga datauppsättningen. Då beräknas statistik av intresse från provet från det första steget. Vi upprepar denna rutin många gånger för att få en mer exakt uppskattning av statistikens Bootstrap-fördelning.
den ”exakta” versionen för omsampling av kundcase är liknande, men vi räknar uttömmande alla möjliga sampling av datauppsättningen. Detta kan vara beräknings dyrt eftersom det finns totalt (2 n – 1 n) = (2 n − 1)! n ! ( n − 1 ) !, {\displaystyle {\binom {2n-1}{n}}={\frac {(2n-1)!}{n!(n-1)!}}} olika samplingar, där n är storleken på datamängden. Således för N = 5, 10, 20, 30 finns 126, 92378, 6.89 × 1010 respektive 5.91 × 1016 olika omsampler.

uppskatta fördelningen av provet meanEdit

överväga ett myntflippningsexperiment. Vi vänder myntet och spelar in om det landar huvuden eller svansar. Låt X = x1, x2,…, X10 vara 10 observationer från experimentet. xi = 1 om i th flip landar huvuden, och 0 annars., Från normal teori kan vi använda T-statistik för att uppskatta fördelningen av provmedelvärdet,

x = 1 10 ( x 1 + x 2 + trip + x 10 ) . {\displaystyle {\bar {x}}={\frac {1}{10}}(x_{1}+x_{2}+\cdots +x_{10}).}

istället använder vi bootstrap, specifikt case resampling ,för att härleda fördelningen av X {\displaystyle {\bar {x}}}. Vi samplar först om data för att få en bootstrap resample. Ett exempel på det första provet kan se ut så här X1 * = x2, x1, x10, x10, x3, x4, x6, x7, x1, x9. Det finns några dubbletter eftersom en bootstrap resample kommer från provtagning med ersättning från data., Även antalet datapunkter i en bootstrap resample är lika med antalet datapunkter i våra ursprungliga observationer. Då beräknar vi medelvärdet av detta sampling och får det första bootstrap-medelvärdet: μ1*. Vi upprepar denna process för att erhålla det andra samplet X2* och beräkna det andra bootstrap mean μ2*. Om vi upprepar detta 100 gånger har vi μ1*, μ2*,…, μ100*. Detta representerar en empirisk bootstrap fördelning av prov medelvärde. Från denna empiriska fördelning kan man härleda ett bootstrap-konfidensintervall för hypotesprovning.,

RegressionEdit

i regressionsproblem hänvisar case resampling till det enkla systemet för omsampling av enskilda fall – ofta rader av en datauppsättning. För regressionsproblem, så länge datauppsättningen är ganska stor, är detta enkla system ofta acceptabelt. Metoden är dock öppen för kritik.

i regressionsproblem är de förklarande variablerna ofta fasta, eller åtminstone observerade med mer kontroll än svarsvariabeln. Dessutom definierar intervallet för de förklarande variablerna den information som finns tillgänglig från dem., Därför, för att sampla fall innebär att varje bootstrap prov kommer att förlora viss information. Som sådan bör alternativa bootstrap-förfaranden övervägas.

Bayesian bootstrapEdit

Smooth bootstrapEdit

f ^ h (x ) = 1 n h i = 1 N K (x-x i h), {\displaystyle {\hat {f\,}} _ {h} (x)={1 \ över nh} \ sum _{i = 1}^{n}k \ left ({X-x_{i} \över h}\right),} f ^ h ( x) = ordförande {\displaystyle {\hat {f\,}} _ {h} (x)=\int _{-\infty }^{x}{\hat {f}}_{h} (t)\,dt.,}

parametrisk bootstrapEdit

Omsampling residualsEdit

ett annat sätt att bootstrapping i regressionsproblem är att sampla residuals. Metoden fortsätter enligt följande.

detta system har fördelen att det behåller informationen i de förklarande variablerna. En fråga uppstår emellertid om vilka residualer som ska samplas om. Raw residuals är ett alternativ; en annan är studentized residuals (i linjär regression)., Även om det finns argument för att använda studentized residuals; i praktiken gör det ofta liten skillnad, och det är lätt att jämföra resultaten av båda systemen.

Gaussisk processregression bootstrapEdit

När data är temporärt korrelerade förstör okomplicerad bootstrapping de inneboende korrelationerna. Denna metod använder Gaussisk processregression (GPR) för att passa en probabilistisk modell från vilken replikat sedan kan ritas. GPR är en bayesisk icke-linjär regressionsmetod., En Gaussisk process (GP) är en samling av slumpmässiga variabler, och alla ändliga antal som har en gemensam Gaussisk (normal) fördelning. En GP definieras av en medelfunktion och en kovariansfunktion, som anger medelvektorer och kovariansmatriser för varje ändlig samling av de slumpmässiga variablerna.

regressionsmodell:

y ( x ) = F ( X ) + ε , ε n ( 0 , σ 2 ) , {\displaystyle y(x)=f(x)+\varepsilon ,\ \ \varepsilon \sim {\mathcal {n}}(0,\sigma ^{2}),} ε {\displaystyle \varepsilon } är en brusperiod.

Gaussisk process tidigare:

Antag f ( x) g p ( m , k ) ., {\displaystyle f(x)\sim – {\mathcal {GP}}(m,k).} Sedan y ( x) g p(m , l ) {\displaystyle y(x)\sim {\mathcal {GP}} (m,l)},

den gaussiska processen posterior:

enligt GP prior kan vi få

n ( m 0, K 0 ) {\displaystyle \sim {\mathcal {n}}(m_{0}, k_{0})},

låt x1*,…,xs* vara en annan ändlig samling av variabler, det är uppenbart att

⊺ ∼ N (m 0 m ∗ ) ( K 0 K ∗ K ∗ ⊺ K ∗ ∗ ) ) {\displaystyle ^{\intercal }\sim – {\mathcal {N}}({\binom {m_{0}}{m_{*}}}{\begin{pmatrix}K_{0}&K_{*}\\K_{*}^{\intercal }&K_{**}\end{pmatrix}})} ,

Enligt ekvationerna ovan, utgångar y är också gemensamt och fördelas efter en multivariat Gaussian., Alltså,

⊺ ∣ ( ⊺ = y ) ∼ N ( m efter , K-post ) , {\displaystyle ^{\intercal }\mitten (^{\intercal }=y)\sim – {\mathcal {N}}(m_{\text{post}},K_{\text{post}}),}

Vilda bootstrapEdit

Den vilda bootstrap, som föreslogs ursprungligen av Wu (1986), passar när modellen uppvisar heteroskedasticitet. Tanken är, som den återstående bootstrap, att lämna regressorer till deras provvärde, men att sampla svarsvariabeln baserat på residuals värden., Det vill säga för varje replikat beräknar man en ny y {\displaystyle y} baserat på

y i = y ^ I + ε ^ i v i {\displaystyle y_{i}^{*}={\widehat {y\,}}_{i}+{\widehat {\varepsilon\,}} _{i}v_{i}}

så residualerna multipliceras slumpmässigt med en slumpmässig variabel V I {\displaystyle v_{i}} med medelvärde 0 och varians 1. För de flesta distributioner av v i {\displaystyle v_{i}} (men inte mammens) förutsätter denna metod att den ”sanna” restfördelningen är symmetrisk och kan erbjuda fördelar jämfört med enkel restprovtagning för mindre provstorlekar., Olika former används för den slumpmässiga variabeln V i {\displaystyle v_{i}}, till exempel

standard normalfördelning

en distribution som föreslagits av mamma (1993).,

V i = { − ( 5 − 1 ) / 2 med Sannolikhet ( 5 + 1 ) / ( 2 5 ) , ( 5 + 1 ) / 2 med Sannolikhet ( 5 − 1 ) / ( 2 5 ) {\displaystyle v_{i}={\begin{cases}-({\sqrt {5}}-1)/2&{\text{med Sannolikhet }} ({\sqrt {5}}+1)/(2{\sqrt {5}}),\\({\sqrt {5}}+1)/2&{\text{with probability }} ({\sqrt {5}}-1)/(2{\sqrt {5}}) \ end{cases}}} ungefär är mammens fördelning: V i = {- 0.6180 (med en 0 på enhetens plats) med Sannolikhet 0.7236 , + 1.6180 (med en 1 på enhetens plats) med Sannolikhet 0.2764. {\displaystyle v_{i}={\begin{ärenden}-0.,6180 \ quad {\text {(med en 0 på enhetens plats)}}&{\text{med Sannolikhet }}0.7236,\\+1.6180\quad {\text {(med en 1 på enhetens plats)}}&{\text{med Sannolikhet }}0.2764.\ end{cases}}}

eller den enklare distributionen, kopplad till Rademacher − distributionen:

V i = {- 1 med sannolikhet 1 / 2 , + 1 med sannolikhet 1 / 2. {\displaystyle v_{i}={\begin{cases}-1&{\text{with probability }}1/2,\\+1&{\text{with probability }}1/2.,\ end{cases}}}

blockera bootstrapEdit

block bootstrap används när data eller fel i en modell är korrelerade. I det här fallet kommer ett enkelt fall eller resterande omsampling att misslyckas, eftersom det inte kan replikera korrelationen i data. Blocket bootstrap försöker replikera korrelationen genom att sampla inuti block av data. Block bootstrap har främst använts med data korrelerade i tid (dvs tidsserier) men kan också användas med data korrelerade i rymden, eller bland grupper (så kallade klusterdata).,

time series: Simple block bootstrapEdit

i (simple) block bootstrap delas variabeln av intresse i icke överlappande block.

tidsserier: Moving block bootstrapEdit

i moving block bootstrap, introducerad av Künsch (1989), data delas upp i n − B + 1 överlappande block av Längd b: Observation 1 till b kommer att vara block 1, observation 2 till B + 1 kommer att vara block 2, etc. Sedan från dessa n − B + 1-block kommer n/B-block att dras slumpmässigt med ersättning. Sedan justera dessa n / B block i den ordning de plockades, kommer att ge Bootstrap observationer.,

denna bootstrap fungerar med beroende data, men de bootstrapped observationerna kommer inte att vara stationära längre genom konstruktion. Men det visades att varierande slumpmässigt blocklängden kan undvika detta problem. Denna metod är känd som den stationära bootstrap. Andra relaterade ändringar av det rörliga blocket bootstrap är Markovian bootstrap och en stationär bootstrap metod som matchar efterföljande block baserat på standardavvikelse matchning.,

tidsserier: maximal entropi bootstrapEdit

Vinod (2006), presenterar en metod som bootstraps tidsseriedata med hjälp av maximala entropi principer som uppfyller ergodisk sats med medelbevarande och massbevarande begränsningar. Det finns ett r-paket, meboot, som använder metoden, som har applikationer inom ekonometri och datavetenskap.

Klusterdata: block bootstrapEdit

Klusterdata beskriver data där många observationer per enhet observeras. Detta kan observera många företag i många stater, eller observera studenter i många klasser., I sådana fall förenklas korrelationsstrukturen, och man antar vanligtvis att data är korrelerade inom en grupp / kluster, men oberoende mellan grupper/kluster. Strukturen hos block bootstrap erhålls lätt (där blocket bara motsvarar gruppen), och vanligtvis är endast grupperna omplacerade, medan observationerna inom grupperna lämnas oförändrade. Cameron et al. (2008) diskuterar detta för grupperade fel i linjär regression.