Bootstrapping (statisztika)

ez a szakasz tartalmazza a hivatkozások listáját, a kapcsolódó olvasást vagy a külső linkeket, de forrásai továbbra sem tisztázottak, mert nincsenek inline hivatkozások. Kérjük, segítsen javítani ezt a részt pontosabb hivatkozások bevezetésével., (2012 június) (Megtanulják, hogyan kell eltávolítani ezt a sablont üzenet)

A univariate problémák, általában elfogadható, hogy resample az egyes megfigyelések csere (“ügy resampling,” alább) ellentétben subsampling, a resampling, ami nélkül a csere, illetve érvényes alatt sokkal gyengébb feltételek képest a bootstrap. Kis mintákban előnyben részesíthető egy parametrikus bootstrap megközelítés. Más problémák esetén a sima bootstrap valószínűleg előnyös lesz.

regressziós problémák esetén számos más alternatíva áll rendelkezésre.,

Case resamplingEdit

a Bootstrap általában hasznos egy statisztika (pl. átlag, variancia) eloszlásának becsléséhez normál elmélet (pl. z-statisztika, t-statisztika) használata nélkül. A Bootstrap akkor hasznos, ha nincs olyan analitikai forma vagy normál elmélet, amely segítené az érdeklődésre számot tartó statisztikák eloszlásának becslését, mivel a bootstrap módszerek a legtöbb véletlenszerű mennyiségre alkalmazhatók, például a variancia és az átlag arányára. Az eset újramintázásának legalább két módja van.

Az eset újramintázására szolgáló Monte Carlo algoritmus meglehetősen egyszerű., Először újrapéldázzuk az adatokat cserével, az újrapélda méretének meg kell egyeznie az eredeti adatkészlet méretével. Ezután az érdeklődés statisztikáját az első lépés újrapéldájából számítják ki. Sokszor megismételjük ezt a rutint, hogy pontosabb becslést kapjunk a statisztika Bootstrap eloszlásáról.
az “exact” verzió az eset újramintázásához hasonló, de kimerítően felsoroljuk az adatkészlet minden lehetséges újrapéldáját. Ez számításilag drága lehet, mivel összesen (2 n-1 n) = (2 n − 1) van ! n ! (n-1)!, {\displaystyle {\binom_2n-1}{n}} = {\frac {(2n-1)!} {n!(n-1)!}}} különböző újrapéldák, ahol n az adatkészlet mérete. Így n = 5 , 10, 20, 30 esetében 126, 92378, 6, 89 × 1010, illetve 5, 91 × 1016 különböző újrapéldák vannak.

A minta eloszlásának Becsléseszerkesztés

fontolja meg egy érme-essek kísérletet. Megfordítjuk az érmét, és rögzítjük, hogy fej vagy írás. Legyen X = x1, x2,…, x10 10 megfigyelés a kísérletből. xi = 1 ha az i-edik flip leszáll fejek, és 0 egyébként., A normál elmélet alapján t-statisztikát használhatunk a minta átlagos eloszlásának becslésére,

x = 1 10 ( x 1 + x 2 + ⋯ + x 10 ) . {\displaystyle {\bar {x}} = {\frac {1}{10}}} (x_{1} + x_{2} + \ cdots + x_{10}).}

ehelyett a bootstrap-ot, különösen az eset újracsomagolását használjuk az x {\displaystyle {\bar {x}}}} eloszlásának levezetéséhez . Először újrapéldázzuk az adatokat, hogy bootstrap resample-t kapjunk. Az első újrapélda példája így néz ki: X1 * = x2, x1, x10, x10, x3, x4, x6, x7, x1, x9. Vannak másolatok, mivel a bootstrap resample az adatokból történő mintavételből származik., A bootstrap resample adatpontjainak száma megegyezik az eredeti megfigyeléseink adatpontjainak számával. Ezután kiszámítjuk ennek az újrapéldának az átlagát, és megkapjuk az első bootstrap átlagot: μ1*. Megismételjük ezt a folyamatot, hogy megkapjuk a második X2 * resample-t, majd kiszámoljuk a második Bootstrap-ot μ2*. Ha megismételjük ezt 100-szor, akkor van μ1*, μ2*,…, μ100*. Ez a minta átlagának empirikus bootstrap eloszlását jelenti. Ebből az empirikus eloszlásból levezethető egy bootstrap konfidencia intervallum a hipotézis tesztelése céljából.,

RegressionEdit

regressziós problémák esetén az eset újramintázása az egyes esetek újramintázásának egyszerű sémájára utal-gyakran egy adatkészlet soraira. Regressziós problémák esetén, Amíg az adatkészlet meglehetősen nagy, ez az egyszerű rendszer gyakran elfogadható. A módszer azonban nyitott a kritikára.

regressziós problémák esetén a magyarázó változókat gyakran rögzítik, vagy legalább a válaszváltozónál nagyobb kontroll mellett figyelik meg. A magyarázó változók tartománya meghatározza a tőlük rendelkezésre álló információkat is., Ezért az esetek újragondolása azt jelenti, hogy minden bootstrap minta elveszít néhány információt. Mint ilyen, alternatív bootstrap eljárásokat kell figyelembe venni.

Bayesian bootstrapEdit

Smooth bootstrapEdit

F ^ h ( x ) = 1 n h ∑ i = 1 N K ( x − X i h ) , {\displaystyle {\hat {f\,}_{h} (x)={1 \over nh}\sum _{I=1}^{n} k\left({x-X_{i} \over h}\right),} F ^ H ( x ) = ∫ − ∞ x f ^ h ( t ) d t . ez a módszer lehetővé teszi, hogy a felhasználó a lehető legelőnyösebb helyzetben legyen.,}

parametrikus bootstrapEdit

resampling residualsEdit

a regressziós problémák bootstrappingjának másik megközelítése a maradványok újrapéldálása. A módszer a következőképpen folytatódik.

ennek a sémának az az előnye, hogy megtartja az információkat a magyarázó változókban. Felmerül azonban a kérdés, hogy mely maradványokat kell újrapéldázni. A nyers maradványok az egyik lehetőség; a másik a studentizált maradványok (lineáris regresszióban)., Bár vannak érvek amellett, hogy a studentized residuals; a gyakorlatban, gyakran kevés különbség, és könnyű összehasonlítani az eredményeket mindkét rendszerek.

Gaussian process regression bootstrapEdit

amikor az adatok temporálisan korrelálnak, az egyszerű bootstrapping elpusztítja a benne rejlő korrelációkat. Ez a módszer Gauss-folyamat regressziót (GPR) használ, hogy illeszkedjen egy valószínűségi modellhez, amelyből a másolatok rajzolhatók. A GPR egy Bayes-féle nemlineáris regressziós módszer., A Gauss-folyamat (GP) véletlenszerű változók gyűjteménye, amelyek véges száma közös Gauss (normál) eloszlással rendelkezik. A GP-t egy átlagos függvény és egy kovarianciafunkció határozza meg, amely meghatározza a véletlenszerű változók minden véges gyűjteményéhez tartozó átlagos vektorokat és kovarianciás mátrixokat.

regressziós modell:

y (x) = f (x) + ε, ε ∼ N(0, σ 2), {\displaystyle y(x)=f(x)+\varepsilon, \ \ varepsilon \sim {\mathcal {n}}} (0, \sigma ^{2}),} ε {\displaystyle\varepsilon} egy zaj kifejezés.

Gaussian process prior:

tegyük fel , hogy f ( x ) ∼ G P ( m, k ) ., {\displaystyle f (x) \ sim {\mathcal {GP}}} (m, k).} Akkor y ( x ) ∼ G P ( m , l ) {\displaystyle y(x)\sim {\mathcal {GP}}},

a Gaussiai folyamat posterior:

a GP prior szerint

∼ N(m 0, K 0) {\displaystyle \sim {\mathcal {n}}} (m_{0}, k_{0})}},

Let x1*,…,,xs* legyen egy másik véges változók gyűjteménye, nyilvánvaló, hogy

n n ( ( m 0 m ∗ ) ( k 0 K ∗ K ∗ ⊺ K∗ ∗)) {\displaystyle ^{\intercal }\SIM {\mathcal {n}}} ({\binom {m_{0}}}} {m_ {m_ {*}}}}}}} {\begin{pmatrix} k_ {0}&k_ {*}\\k_ {*}^{\intercal} &k_ {*}\end {pmatrix}}})},

a fenti egyenletek szerint az y kimeneteket egy többváltozós gaussian szerint is közösen osztják el., Így

⊺ ∣ (⊺=y) n n (m post , K Post), {\displaystyle ^{\intercal }\mid (^{\intercal }=y)\sim {\mathcal {n}}} (m_{\text{post}}, k_ {text{post}}),}

Wild Bootstrapedit

a vad Bootstrap, amelyet eredetileg Wu (1986) javasolt, akkor alkalmazható, ha a modell heteroskedasticitást mutat. Az ötlet az, mint a maradék bootstrap, hogy a regresszorokat a mintaértékükön hagyják, de a response változót a residuals értékek alapján újrapéldálják., Ez azt jelenti, hogy minden egyes ismétlésnél egy új y {\displaystyle y} – t számítunk

y i ∗ = y ^ i + ε ^ i v i {\displaystyle y_{i}^{*}={\widehat {y\,}}_{i}+{\widehat {\varepsilon\,} _{i} v_{i}}}}

alapján, így a maradványok véletlenszerűen szorozódnak egy v i {\displaystyle v_{I}} átlagos 0 és variancia 1. A legtöbb disztribúció v i {\displaystyle v_{i}} (de nem Mammen van), ez a módszer feltételezi, hogy a “valódi” maradék eloszlás szimmetrikus, illetve kínál előnye az egyszerű, passzív mintavételi kisebb méretben kapható., A v i {\displaystyle v_{i}} véletlen változóhoz különböző formákat használnak, mint például a

standard normal distribution

a Mammen (1993) által javasolt Eloszlás.,

v i = { − ( 5 − 1 ) / 2 a valószínűség ( 5 + 1 ) / ( 2 5 ) , ( 5 + 1 ) / 2 a valószínűség ( 5 − 1 ) / ( 2 5 ) {\displaystyle v_{i}={\begin{esetekben}-({\sqrt {5}}-1)/2&{\text{valószínűséggel }}({\sqrt {5}}+1)/(2{\sqrt {5}}),\\({\sqrt {5}}+1)/2&{\text{valószínűséggel }}({\sqrt {5}}-1)/(2{\sqrt {5}})\end{esetekben}}} Körülbelül, Mammen az eloszlás: v i = { − 0.6180 (a 0 az egység’ hely), a valószínűsége annak, 0.7236 , + 1.6180 (egy 1 egység’ hely), a valószínűsége annak, 0.2764. {\displaystyle v_{I} = {\begin{cases}-0.,6180\quad {\text{(0-val az egységek helyén)}}} &{\text{valuity }}} 0.7236,\\ + 1.6180 \ quad {\text {(A 1 az egységek helyén)}}}&{\text{valuity}} 0.2764.\ end{cases}}}

vagy az egyszerűbb Eloszlás, amely a Rademacher eloszláshoz kapcsolódik:

v i = {- 1 valószínűséggel 1 / 2, + 1 valószínűséggel 1 / 2. {\displaystyle v_{I} = {\begin{cases}-1&{\text{valuity }}} 1/2,\ + 1&{\text{valuity }}} 1/2.,\ end{cases}}}

Block bootstrapEdit

a blokk bootstrap akkor használható, ha az adatok vagy a modell hibái korrelálnak. Ebben az esetben egy egyszerű eset vagy maradék újramintázás sikertelen lesz, mivel nem képes megismételni az adatok korrelációját. A blokk bootstrap megpróbálja megismételni a korrelációt az adatblokkok belsejében történő újramintázással. A blokk bootstrap elsősorban az időben Korrelált adatokkal (azaz idősorokkal) használható, de felhasználható a térben Korrelált adatokkal vagy csoportok között (úgynevezett klaszteradatok) is.,

idősor: egyszerű blokk bootstrapEdit

a (egyszerű) blokk bootstrap, a változó érdeklődés oszlik nem átfedő blokkok.

Idő sorozat: Mozgó blokk bootstrapEdit

a mozgó blokk bootstrap által bevezetett Künsch (1989), adatok oszlik n − b + 1 átfedő blokkok hossza b: 1. Megfigyelés, hogy b lesz blokk 1, megfigyelés 2 b + 1 blokk 2, stb. Ezután ezekből az n-b + 1 blokkokból az n/b blokkokat véletlenszerűen kell kivonni a cserével. Ezután ezeket az n/b blokkokat a kiválasztott sorrendbe igazítva a bootstrap megfigyeléseit adja meg.,

Ez a bootstrap függő adatokkal működik,azonban a bootstrapped megfigyelések építéskor már nem állnak meg. De kimutatták, hogy véletlenszerűen változtatva a blokk hossza elkerülheti ezt a problémát. Ez a módszer az úgynevezett helyhez kötött bootstrap. A moving block bootstrap további kapcsolódó módosításai a Markovian bootstrap és egy álló bootstrap módszer, amely megfelel a következő blokkoknak a standard deviation matching alapján.,

idősorok: Maximum entropy bootstrapEdit

Vinod (2006), bemutat egy módszert, amely a bootstraps idősorok adatait maximális entrópia elvekkel kielégíti az ergodikus tételt az átlagmegőrző és tömegmegőrző korlátokkal. Van egy R csomag, a meboot, amely a módszert használja, amely az ökonometriai és számítástechnikai alkalmazásokkal rendelkezik.

Cluster data: block bootstrapEdit

Cluster data olyan adatokat ír le, ahol egységenként sok megfigyelés figyelhető meg. Ez lehet megfigyelni sok cég sok államban, vagy megfigyelése diákok sok osztályban., Ilyen esetekben a korrelációs struktúra egyszerűsödik, és általában azt feltételezzük, hogy az adatok egy csoporton/klaszteren belül korrelálnak, de függetlenek a csoportok/klaszterek között. A blokk bootstrap szerkezete könnyen megszerezhető (ahol a blokk csak a csoportnak felel meg), általában csak a csoportokat újraszámítják, míg a csoportokon belüli megfigyelések változatlanok maradnak. Cameron et al. (2008) tárgyalja ezt a fürtözött hibák lineáris regresszió.