Bootstrapping (statistieken)

deze sectie bevat een lijst met referenties, gerelateerde lectuur of externe links, maar de bronnen blijven onduidelijk omdat er geen inline citaties zijn. Help dit gedeelte te verbeteren door preciezere citaten in te voeren., (Juni 2012) (leer hoe en wanneer dit sjabloonbericht moet worden verwijderd)

In univariate problemen is het meestal aanvaardbaar om de individuele waarnemingen opnieuw te sampleen met vervanging (“case resampling” hieronder) in tegenstelling tot subsampling, waarbij resampling zonder vervanging is en geldig is onder veel zwakkere omstandigheden in vergelijking met de bootstrap. In kleine voorbeelden, een parametrische bootstrap aanpak kan de voorkeur hebben. Voor andere problemen, een soepele bootstrap zal waarschijnlijk de voorkeur hebben.

voor regressieproblemen zijn verschillende andere alternatieven beschikbaar.,

Case resamplingEdit

Bootstrap is over het algemeen nuttig voor het schatten van de verdeling van een statistiek (bijvoorbeeld gemiddelde, variantie) zonder gebruik te maken van normale theorie (bijvoorbeeld z-statistiek, t-statistiek). Bootstrap is handig als er geen analytische vorm of normale theorie om te helpen schatten van de verdeling van de statistieken van belang, omdat bootstrap methoden kunnen gelden voor de meeste willekeurige hoeveelheden, bijvoorbeeld de verhouding van variantie en gemiddelde. Er zijn ten minste twee manieren om case resampling uit te voeren.

het Monte Carlo-algoritme voor het opnieuw bemonsteren van gevallen is vrij eenvoudig., Ten eerste, we resample de gegevens met vervanging, en de grootte van de resample moet gelijk zijn aan de grootte van de oorspronkelijke dataset. Vervolgens wordt de statistiek van belang berekend uit de resample van de eerste stap. We herhalen deze routine vele malen om een nauwkeuriger schatting van de Bootstrap distributie van de statistiek te krijgen.
de ‘exacte’ versie voor case resampling is vergelijkbaar, maar we somden alle mogelijke resamples van de dataset uitputtend op. Dit kan berekenend duur zijn aangezien er een totaal van (2 n-1 n) = (2 n − 1)! n ! (n-1)!, {\displaystyle {\binom {2n-1}{n}}={\frac {(2n-1)!{n!(n-1)!}}} verschillende resamples, waarbij n de grootte van de dataset is. Dus voor n = 5, 10, 20, 30 zijn er respectievelijk 126, 92378, 6,89 × 1010 en 5,91 × 1016 verschillende resamples.

het schatten van de verdeling van het gemiddelde van de steekproef

overweeg een experiment met het omgooien van munten. We tossen de munt en registreren of het kop of munt landt. Zij x = x1, x2,…, x10 zijn 10 waarnemingen van het experiment. xi = 1 als de i th flip landt hoofden, en 0 anders., Uit de normale theorie kunnen we t-statistiek gebruiken om de verdeling van het steekproefgemiddelde te schatten,

x = 1 10 ( x 1 + x 2 + ⋯ + x 10 ) . {\displaystyle {\bar {x}}={\frac {1}{10}} (x_{1}+x_{2}+\cdots +x_{10}).}

in plaats daarvan gebruiken we bootstrap, specifiek case resampling, om de verdeling van x {\displaystyle {\bar {x}}} af te leiden . We resamplen eerst de gegevens om een bootstrap resample te verkrijgen. Een voorbeeld van de eerste resample zou er zo uit kunnen zien X1* = x2, x1, x10, x10, x3, x4, x6, x7, x1, x9. Er zijn enkele duplicaten omdat een bootstrap resample afkomstig is van sampling met vervanging van de gegevens., Ook het aantal datapunten in een bootstrap resample is gelijk aan het aantal datapunten in onze oorspronkelijke waarnemingen. Dan berekenen we het gemiddelde van deze resample en verkrijgen we het eerste bootstrap gemiddelde: μ1*. We herhalen dit proces om de tweede resample X2* te verkrijgen en het tweede bootstrap gemiddelde μ2 * te berekenen. Als we dit 100 keer herhalen, dan hebben we μ1*, μ2*,…, μ100*. Dit vertegenwoordigt een empirische bootstrap verdeling van steekproefgemiddelde. Uit deze empirische distributie kan men een bootstrap betrouwbaarheidsinterval afleiden voor het testen van hypothesen.,

Regressiebewerking

bij regressieproblemen verwijst de resampling van gevallen naar het eenvoudige schema van het resampling van individuele gevallen-vaak rijen van een gegevensverzameling. Voor regressieproblemen is, zolang de gegevensverzameling vrij groot is, dit eenvoudige schema vaak aanvaardbaar. De methode staat echter open voor kritiek.

bij regressieproblemen zijn de verklarende variabelen vaak vast, of in ieder geval waargenomen met meer controle dan de responsvariabele. Het bereik van de verklarende variabelen bepaalt ook de informatie die beschikbaar is van hen., Daarom betekent resample cases dat elke bootstrap sample wat informatie zal verliezen. Als zodanig, alternatieve bootstrap procedures moeten worden overwogen.

Bayesian bootstrapEdit

Smooth bootstrapEdit

f ^ h ( x ) = 1 n h ∑ i = 1 N K ( x − X i h ) , {\displaystyle {\hat {f\,}}_{h}(x)={1 \over nh}\sum _{i=1}^{N}K\left({x-X_{i} \over h}\right),} F ^ H ( x ) = ∫ − ∞ x F ^ H ( T ) D T . {\displaystyle {\hat {F\,}}_{h} (x)=\int _{-\infty }^{x}{\hat {f}}_{h}(t)\, dt.,}

parametrische bootstrapEdit

resampling residualsEdit

een andere benadering van bootstrapping in regressieproblemen is het resampleen van reststoffen. De methode gaat als volgt te werk.

dit schema heeft het voordeel dat de informatie in de verklarende variabelen behouden blijft. Er rijst echter de vraag welke reststoffen opnieuw moeten worden bemonsterd. Ruwe reststoffen zijn één optie; een andere is studented reststoffen (in lineaire regressie)., Hoewel er argumenten zijn die pleiten voor het gebruik van studentenresiduen, maakt dit in de praktijk vaak weinig uit en is het gemakkelijk om de resultaten van beide regelingen te vergelijken.

gaussiaanse procesregressie bootstrapEdit

wanneer gegevens tijdelijk gecorreleerd zijn, vernietigt eenvoudig bootstrappen de inherente correlaties. Deze methode maakt gebruik van Gaussian process regression (GPR) om te passen in een probabilistisch model waaruit replicaten kunnen worden getrokken. GPR is een Bayesiaanse niet-lineaire regressiemethode., Een Gaussiaans proces (GP) is een verzameling van willekeurige variabelen, waarvan elk eindig aantal een gezamenlijke Gaussiaanse (normale) verdeling heeft. Een GP wordt gedefinieerd door een gemiddelde functie en een covariantiefunctie, die de gemiddelde vectoren en covariantiematrices specificeren voor elke eindige verzameling van de willekeurige variabelen.

regressiemodel:

y ( x)=f ( x) + ε , ε N N ( 0 , σ 2), {\displaystyle y(x) = f(x)+\varepsilon ,\ \ \varepsilon \sim {\mathcal {n}}(0,\sigma ^{2}),} ε {\displaystyle \varepsilon } is een ruisterm.

Gaussiaans proces voorafgaand:

neem aan dat f ( x ) ∼ G P ( m , k ) ., {\displaystyle f (x) \Sim {\mathcal {GP}}(m,k).} Dan y (x ) ∼ G P (m , l ) {\displaystyle y (x)\Sim {\mathcal {GP}} (m, l)},

het Gaussiaanse proces posterior:

volgens GP prior kunnen we

∼ n ( m 0, K 0) {\displaystyle \sim {\mathcal {N}}(m_{0}, K_{0})},

laten x1*,…,xs* een andere eindige verzameling van variabelen, het is duidelijk dat

⊺ ∼ N ( ( m 0 m ∗ ) ( K 0 K ∗ K ∗ ⊺ K ∗ ∗ ) ) {\displaystyle ^{\intercal }\sim {\mathcal {N}}({\binom {m_{0}}{m_{*}}}{\begin{pmatrix}K_{0}&K_{*}\\K_{*}^{\intercal }&K_{**}\end{pmatrix}})} ,

Volgens de vergelijkingen boven de uitgangen y zijn ook gezamenlijk verdeeld op basis van een multivariate Gaussiaans., Dus

⊺ ∣ (⊺=y ) ∼ n ( m Post , k Post ) , {\displaystyle ^{\intercal }\mid (^{\intercal }=y)\sim {\mathcal {n}}(M_{\text{post}},K_{\text{post}}),}

Wild Bootstrapedit

De Wild Bootstrap, oorspronkelijk voorgesteld door Wu (1986), is geschikt wanneer het model heteroskedasticiteit vertoont. Het idee is, net als de rest bootstrap, om de regressoren op hun monsterwaarde te laten, maar om de responsvariabele opnieuw te sampleen op basis van de restwaarden., Dat wil zeggen dat men voor elk replicaat een nieuwe y {\displaystyle y} berekent op basis van

y i ∗ = y ^ i + ε ^ i v i {\displaystyle y_{i}^{*}={\widehat {y\,}}_{i}+{\widehat {\varepsilon\,}} _{i}v_{i}}

zodat de reststoffen willekeurig worden vermenigvuldigd met een willekeurige variabele v i {\displaystyle v_{i}} met gemiddelde 0 en variantie 1. Voor de meeste distributies van V i {\displaystyle v_{i}} (maar niet die van Mammen) gaat deze methode ervan uit dat de ‘ware’ residuele verdeling symmetrisch is en voordelen kan bieden ten opzichte van eenvoudige residuele bemonstering voor kleinere monstergroottes., Verschillende vormen worden gebruikt voor de willekeurige variabele v i {\displaystyle v_{i}}, zoals

De standaard normale verdeling

een verdeling voorgesteld door Mammen (1993).,

v i = { − ( 5 − 1 ) / 2 met kans ( 5 + 1 ) / ( 2 5 ) , ( 5 + 1 ) / 2 met kans ( 5 − 1 ) / ( 2 5 ) {\displaystyle v_{i}={\begin{cases}-({\sqrt {5}}-1)/2&{\text{met kans }}({\sqrt {5}}+1)/(2{\sqrt {5}}),\\({\sqrt {5}}+1)/2&{\text{met kans }}({\sqrt {5}}-1)/(2{\sqrt {5}})\end{cases}}} Ongeveer, Mammen de verdeling is: v i = { − 0.6180 (met een 0 in de eenheden plaats) met kans 0.7236 , + 1.6180 (met een 1 in de eenheden plaats) met kans 0.2764. {\displaystyle v_{i}={\begin{cases}-0.,6180 \ quad {\text {(met een 0 op de plaats van de eenheden)}}&{\text{Met waarschijnlijkheid }}0.7236,\\ + 1.6180 \ quad {\text {(met een 1 op de plaats van de eenheden)}}&{\text{Met waarschijnlijkheid }}0.2764.\ end{cases}}}

of de eenvoudiger distributie, gekoppeld aan de Rademacher distributie:

v i = {- 1 met kans 1/2, + 1 met kans 1/2. {\displaystyle v_{i}={\begin{cases}-1&{\text{with probability }} 1/2,\\ + 1&{\text{with probability }} 1/2.,\ end{cases}}}

Block bootstrapEdit

De block bootstrap wordt gebruikt wanneer de gegevens, of de fouten in een model, gecorreleerd zijn. In dit geval zal een eenvoudig geval of residuele resampling mislukken, omdat het niet in staat is om de correlatie in de gegevens te repliceren. De blok bootstrap probeert de correlatie te repliceren door resampling binnen blokken van gegevens. De block bootstrap is voornamelijk gebruikt met data gecorreleerd in de tijd (dat wil zeggen tijdreeksen) maar kan ook worden gebruikt met data gecorreleerd in de ruimte, of tussen groepen (zogenaamde cluster data).,

tijdreeks: Simple block bootstrapEdit

In de (simple) block bootstrap wordt de variabele van belang opgesplitst in niet-overlappende blokken.

tijdreeks: bewegende blok bootstrapEdit

in de bewegende blok bootstrap, geïntroduceerd door Künsch (1989), worden gegevens opgesplitst in n − b + 1 overlappende blokken van lengte b: waarneming 1 tot b zal blok 1 zijn, waarneming 2 tot b + 1 zal blok 2 zijn, enz. Vervolgens worden uit deze N − b + 1 blokken n/b blokken willekeurig getekend met vervanging. Dan het uitlijnen van deze N / b blokken in de volgorde waarin ze zijn gekozen, zal de bootstrap observaties geven.,

deze bootstrap werkt met afhankelijke data, echter, de Bootstrap observaties zullen niet meer stil staan door de constructie. Maar er werd aangetoond dat het willekeurig variëren van de bloklengte dit probleem kan voorkomen. Deze methode staat bekend als de stationaire bootstrap. Andere gerelateerde wijzigingen van de moving block bootstrap zijn de Markovian bootstrap en een stationaire bootstrap methode die overeenkomt met de volgende blokken op basis van standaardafwijking matching.,

tijdreeks: maximale entropie bootstrapEdit

Vinod (2006), presenteert een methode die tijdreekgegevens bootstrapt met behulp van maximale entropieprincipes die voldoen aan de Ergodische stelling met gemiddelde-bewarings-en massa-bewaringsbeperkingen. Er is een R-pakket, meboot, dat de methode gebruikt, die toepassingen in Econometrie en informatica heeft.

Clustergegevens: block bootstrapEdit

Clustergegevens beschrijven gegevens waarin veel waarnemingen per eenheid worden waargenomen. Dit kan het observeren van veel bedrijven in vele staten, of het observeren van studenten in vele klassen., In dergelijke gevallen, wordt de correlatiestructuur vereenvoudigd, en men maakt gewoonlijk de veronderstelling dat gegevens binnen een groep/cluster worden gecorreleerd, maar onafhankelijk tussen groepen/clusters. De structuur van de blok bootstrap is gemakkelijk te verkrijgen (waar het blok alleen overeenkomt met de groep), en meestal worden alleen de groepen opnieuw bemonsterd, terwijl de waarnemingen binnen de groepen ongewijzigd blijven. Cameron et al. (2008) bespreekt dit voor geclusterde fouten in lineaire regressie.