Bootstrapping (statistiky)

Tato sekce obsahuje seznam odkazů, související čtení nebo externí odkazy, ale jeho zdroje zůstávají nejasné, protože postrádá inline citací. Prosím, pomozte zlepšit tuto sekci zavedením přesnější citace., (Červen 2012) (Učit se, jak a kdy odstranit tuto šablonu zprávy)

V jednorozměrných problémů, je to obvykle přijatelné pro převzorkování jednotlivých pozorování s náhradou („případ převzorkování“ níže) na rozdíl od subsampling, ve kterém převzorkování je bez výměny a je platná v rámci mnohem slabší podmínky, v porovnání s bootstrap. U malých vzorků může být preferován parametrický přístup bootstrap. Pro další problémy bude pravděpodobně preferován hladký bootstrap.

pro regresní problémy jsou k dispozici různé další alternativy.,

Případě resamplingEdit

Bootstrap je obecně užitečné pro odhad rozdělení statistiky (např. průměr, rozptyl), bez použití normální teorie (např. z-statistika, t-statistika). Bootstrap se hodí, když neexistuje analytická forma nebo normální teorie, která by pomohla odhadnout rozdělení statistik zájmu, protože metody bootstrap se mohou vztahovat na většinu náhodných veličin,např. Existují nejméně dva způsoby provedení převzorkování případů.

algoritmus Monte Carlo pro případ převzorkování je poměrně jednoduchý., Nejprve převzorkujeme data výměnou a velikost převzorkování se musí rovnat velikosti původní datové sady. Pak se statistika zájmu vypočítá z převzorkování od prvního kroku. Tuto rutinu opakujeme mnohokrát, abychom získali přesnější odhad distribuce Bootstrap statistiky.
„přesná“ verze pro případ převzorkování je podobná, ale vyčerpávajícím způsobem vyčíslujeme všechny možné převzorkování datové sady. To může být výpočetně drahé, protože existuje celkem ( 2 n – 1 n) = (2 n − 1 ) ! n ! (n-1)!, {\displaystyle {\binom {2n-1}{n}}={\frac {(2n-1)!}{n!(n-1)!}}} různé převzorky, kde n je velikost datové sady. Tak pro n = 5, 10, 20, 30 existují 126, 92378, 6.89 × 1010 a 5.91 × 1016 různé převzorky.

odhad distribuce vzorku meanEdit

zvažte experiment s obracením mincí. Hodíme minci a zaznamenáme, zda přistane hlavou nebo ocasem. Nechť x = x1, x2, …, x10 bude 10 pozorování z experimentu. xi = 1 v případě, že i TH flip přistane hlavy, a 0 jinak., Z normální teorie můžeme pomocí T-statistiky odhadnout rozložení průměru vzorku,

x = 1 10 ( x 1 + x 2 + ⋯ + x 10 ) . {\displaystyle {\bar {X}} = {\frac {1}{10}} (x_{1} + x_{2}+ \ cdots + x_{10}).}

místo toho používáme bootstrap, konkrétně případ převzorkování, odvodit distribuci x {\displaystyle {\bar {X}}}. Nejprve převzorkujeme data, abychom získali převzorkování bootstrap. Příklad prvního převzorkování může vypadat takto X1 * = x2, x1, x10, x10, x3, x4, x6, x7, x1, x9. Existují některé duplikáty, protože Bootstrap převzorek pochází z odběru vzorků s výměnou z dat., Také počet datových bodů v Bootstrap převzorkování se rovná počtu datových bodů v našich původních pozorování. Poté vypočítáme průměr tohoto převzorkování a získáme první bootstrap průměr: μ1*. Tento proces opakujeme, abychom získali druhý resample X2* a vypočítali druhý Bootstrap průměr μ2*. Pokud to opakujeme 100krát, máme μ1*, μ2*, …, μ100*. To představuje empirické bootstrap rozdělení vzorku střední. Z této empirické distribuce lze odvodit interval spolehlivosti bootstrap za účelem testování hypotéz.,

RegressionEdit

v regresních problémech se případové převzorkování týká jednoduchého schématu převzorkování jednotlivých případů-často řádků datové sady. Pro regresní problémy, pokud je datová sada poměrně velká, je tato jednoduchá schéma často přijatelná. Metoda je však otevřená kritice.

při regresních problémech jsou vysvětlující proměnné často fixovány nebo alespoň pozorovány s větší kontrolou než proměnná odezvy. Rozsah vysvětlujících proměnných také definuje informace, které jsou od nich k dispozici., Proto, aby převzorkovat případy znamená, že každý vzorek bootstrap ztratí nějaké informace. Jako takový by měly být zváženy alternativní postupy bootstrap.

Bayesovské bootstrapEdit

Hladké bootstrapEdit

f ^ h ( x ) = 1 n h ∑ i = 1 n K ( x − X i h ) , {\displaystyle {\hat {f\,}}_{h}(x)={1 \over nh}\sum _{i=1}^{n}K\left({x-X_{i} \over h}\right),} F ^ h ( x ) = ∫ − ∞ x f ^ h ( t ) d t . {\displaystyle {\hat {F\,}}_{h}(x)=\int _{-\infty }^{x}{\hat {f}}_{h}(t)\,dt.,}

Parametric bootstrapEdit

Resampling residualsEdit

dalším přístupem k bootstrappingu v regresních problémech je převzorkování reziduí. Metoda probíhá následovně.

tato schéma má tu výhodu, že uchovává informace ve vysvětlujících proměnných. Vyvstává však otázka, které zbytky je třeba převzorkovat. Raw zbytky jsou jednou z možností; další je studentized zbytky (v lineární regrese)., Ačkoli existují argumenty ve prospěch použití studentizovaných reziduí; v praxi to často dělá malý rozdíl a je snadné porovnat výsledky obou schémat.

Gaussian process regression bootstrapEdit

když jsou data časově korelována, přímé bootstrapping ničí inherentní korelace. Tato metoda používá Gaussian process regression (GPR), aby se vešly pravděpodobnostní model, ze kterého pak mohou být čerpány replikáty. GPR je Bayesovská nelineární regresní metoda., Gaussovský proces (GP) je sbírka náhodných proměnných a jakýkoli konečný počet z nich má společnou Gaussovu (normální) distribuci. GP je definována střední funkcí a kovarianční funkcí, která specifikuje střední vektory a kovarianční matice pro každou konečnou sbírku náhodných proměnných.

Regrese model:

y ( x ) = f ( x ) + ε , ε ∼ N ( 0 , σ 2 ) , {\displaystyle y(x)=f(x)+\varepsilon ,\ \ \varepsilon \sim {\mathcal {N}}(0,\sigma ^{2}),} ε {\displaystyle \varepsilon } je hluk termín.

gaussovský proces prior:

Předpokládejme f (x ) ∼ G P (m, K)., {\displaystyle f (x) \sim {\mathcal {GP}}(m,k).}, Potom y ( x ) ∼ G P ( m , l ) {\displaystyle y(x)\sim {\mathcal {GP}}(m,l)} ,

Gaussian process zadní:

Podle GP předchozího, dostaneme

∼ N ( m, 0 , K 0 ) {\displaystyle \sim {\mathcal {N}}(m_{0},K_{0})} ,

Nechť x1*,…,,xs* být ještě konečný kolekce proměnných, je zřejmé, že

⊺ ∼ N ( ( m 0 m ∗ ) ( K, 0 K ∗ K ∗ ⊺ K ∗ ∗ ) ) {\displaystyle ^{\intercal }\sim {\mathcal {N}}({\binom {m_{0}}{m_{*}}}{\begin{pmatrix}a K_{0}&K_{*}\\K_{*}^{\intercal }&K_{**}\end{pmatrix}})} ,

Podle výše uvedených rovnic, výstupy y jsou také společně rozděleny podle vícerozměrné Gaussovo., Tak,

⊺ ∣ ( ⊺ = y ) ∼ N ( m post , K post,) , {\displaystyle ^{\intercal }\mid (^{\intercal }=y)\sim {\mathcal {N}}(m_{\text{post}},K_{\text{post}}),}

Divoké bootstrapEdit

divoké bootstrap, navrhované původně Wu (1986), je vhodné, když model vykazuje heteroskedasticity. Myšlenka je, stejně jako zbytkový bootstrap, nechat regresory na jejich vzorkové hodnotě, ale převzorkovat proměnnou odezvy na základě hodnot reziduí., To znamená, že pro každé opakování, one vypočítá novou y {\displaystyle y} na základě

y i ∗ = y ^ i + ε ^ jsem v já {\displaystyle y_{i}^{*}={\widehat {y\,}}_{i}+{\widehat {\varepsilon \,}}_{i}v_{i}}

takže zbytky jsou náhodně násobí náhodné proměnné v já {\displaystyle v_{i}} s tím 0 a rozptyl 1. Pro většinu distribucí v já {\displaystyle v_{i}} (ale ne Mammen je), tato metoda předpokládá, že „pravda“ zbytkové rozdělení je symetrické a může nabídnout výhody oproti jednoduché zbytkových vzorků pro menší velikosti vzorku., Různé formy jsou používány pro náhodné proměnné v já {\displaystyle v_{i}} , jako

standardní normální rozdělení

distribuční navrhl Mammen (1993).,

v. i = { − ( 5 − 1 ) / 2 s pravděpodobností ( 5 + 1 ) / ( 2 5 ) , ( 5 + 1 ) / 2 s pravděpodobností ( 5 − 1 ) / ( 2 5 ) {\displaystyle v_{i}={\begin{případů}-({\sqrt {5}}-1)/2&{\text{s pravděpodobností }}({\sqrt {5}}+1)/(2{\sqrt {5}}),\\({\sqrt {5}}+1)/2&{\text{s pravděpodobností }}({\sqrt {5}}-1)/(2{\sqrt {5}})\end{případů}}} Přibližně, Mammen je distribuce je: v i = { − 0.6180 (s 0 na místě jednotek místo) s pravděpodobností 0.7236 , + 1.6180 (s 1 na jednotky. místo) s pravděpodobností 0.2764. {\displaystyle v_{I}={\begin{cases}-0.,6180\quad {\text{(s 0 na místě jednotek místo)}}&{\text{s pravděpodobností }}0.7236,\\+1.6180\quad {\text{(s 1 na jednotky‘)}}&{\text{s pravděpodobností }}0.2764.\end{případů}}}

Nebo jednodušší distribuci, souvisí s Rademacher distribuce:

v i = { − 1 s pravděpodobností 1 / 2 , + 1 s pravděpodobností 1 / 2. {\displaystyle v_{i}={\begin{případů}-1&{\text{s pravděpodobností }}1/2,\\+1&{\text{s pravděpodobností }}1/2.,\end{cases}}}}

Block bootstrapEdit

blok bootstrap se používá, když jsou data nebo chyby v modelu korelovány. V tomto případě selže jednoduchý případ nebo zbytkové převzorkování, protože není schopen replikovat korelaci v datech. Blok bootstrap se snaží replikovat korelaci převzorkováním uvnitř bloků dat. Blok bootstrap byl použit především s daty v korelaci v čase (tj. časové řady), ale může být také použit s daty v korelaci v prostoru, nebo mezi skupinami (tzv. cluster data).,

časové řady: Simple block bootstrapEdit

v (jednoduchém) bloku bootstrap je proměnná zájmu rozdělena na nepřekrývající se bloky.

Časové řady: Pohybující se blok bootstrapEdit

V pohybující se blok bootstrap, zavedené Künsch (1989), data jsou rozdělena do n − b + 1 překrývající se bloky délky b: Pozorování 1. b bude blok 1, pozorování 2 b + 1, blok 2, atd. Pak z těchto bloků n − b + 1 budou bloky n/b náhodně kresleny výměnou. Poté zarovnání těchto bloků n / b v pořadí, v jakém byly vybrány, poskytne pozorování bootstrap.,

Tento bootstrap pracuje se závislými daty, nicméně bootstrapped pozorování již nebude stacionární konstrukcí. Ukázalo se však, že náhodná změna délky bloku může tomuto problému zabránit. Tato metoda je známá jako stacionární bootstrap. Dalšími souvisejícími úpravami pohyblivého bloku bootstrap jsou markovian bootstrap a stacionární metoda bootstrap, která odpovídá následným blokům na základě shody se standardní odchylkou.,

Časové řady: Maximální entropie bootstrapEdit

Vinod (2006), představuje metodu, která svépomocí časové řady dat pomocí maximální entropie zásady splňující Ergodické věta s tím-zachování a hmotnost-zachování omezení. K dispozici je balíček R, meboot, který využívá metodu, která má aplikace v ekonometrii a informatice.

Cluster data: block bootstrapEdit

Cluster data popisují data, kde je pozorováno mnoho pozorování na jednotku. To by mohlo být pozorování mnoha firem v mnoha státech, nebo pozorování studentů v mnoha třídách., V takových případech je korelační struktura zjednodušena a obvykle se předpokládá, že data jsou korelována ve skupině/klastru, ale nezávislá mezi skupinami/klastry. Struktura bloku bootstrap je snadno získat (kde blok odpovídá skupině), a obvykle, pouze skupiny jsou převzorkování, zatímco pozorování v rámci skupiny jsou ponechány beze změny. Cameron et al. (2008) pojednává o tom pro seskupené chyby v lineární regresi.