Bootstrapping (statistics)

Ta sekcja zawiera listę odnośników, powiązanych lektur lub linków zewnętrznych, ale jej źródła pozostają niejasne, ponieważ brakuje w niej cytatów inline. Proszę o pomoc w ulepszeniu tej sekcji poprzez wprowadzenie bardziej precyzyjnych cytowań., (Czerwiec 2012) (dowiedz się, jak i kiedy usunąć ten Komunikat szablonu)

w przypadku problemów jednowymiarowych, Zwykle dopuszczalne jest ponowne próbkowanie poszczególnych obserwacji za pomocą zamiennika (poniżej”case resampling”) w przeciwieństwie do podsamplingu, w którym ponowne próbkowanie jest bez zastępowania i jest ważne w znacznie słabszych warunkach w porównaniu z bootstrap. W małych próbkach preferowane może być parametryczne podejście bootstrap. W przypadku innych problemów preferowany będzie gładki bootstrap.

w przypadku problemów z regresją dostępne są różne inne alternatywy.,

Case resamplingEdit

Bootstrap jest ogólnie przydatny do szacowania rozkładu statystyki (np. średnia, wariancja) bez użycia teorii normalnej (np. z-statystyka, t-statystyka). Bootstrap jest przydatny, gdy nie ma formy analitycznej lub normalnej teorii, aby pomóc oszacować rozkład statystyk zainteresowania, ponieważ metody bootstrap mogą stosować się do większości losowych wielkości, np. stosunek wariancji i średniej. Istnieją co najmniej dwa sposoby ponownego próbkowania sprawy.

algorytm Monte Carlo do resamplingu przypadków jest dość prosty., Po pierwsze, ponownie próbkujemy dane z wymianą, a rozmiar próby musi być równy rozmiarowi oryginalnego zestawu danych. Następnie statystyka zainteresowania jest obliczana z próby z pierwszego kroku. Powtarzamy tę procedurę wiele razy, aby uzyskać dokładniejsze oszacowanie rozkładu Bootstrap statystyki.
wersja 'dokładna' dla resamplingu przypadków jest podobna, ale wyczerpująco wyliczamy każdą możliwą resampling zbioru danych. Może to być kosztowne obliczeniowo, ponieważ istnieje w sumie ( 2 n-1 n ) = ( 2 N − 1 ) ! n ! (n-1)!, {\displaystyle {\binom {2n-1} {n}}={\frac {(2n-1)!{n!(n-1)!}}} różne próbki, gdzie n jest wielkością zbioru danych. Tak więc dla n = 5, 10, 20, 30 istnieją odpowiednio 126, 92378, 6,89 × 1010 i 5,91 × 1016 różne resamply.

Rzucamy monetą i zapisujemy, czy wyląduje orzeł czy reszka. Niech X = x1, X2, …, x10 będzie 10 obserwacjami z eksperymentu. xi = 1 Jeśli I TH wywróci głowy, a 0 w przeciwnym razie., Z normalnej teorii, możemy użyć t-statystyka oszacować rozkład próbki średniej, x = 1 10 (x 1 + x 2 + ⋯ + x 10). {\displaystyle {\bar {x}}={\frac {1} {10}} (x_{1}+x_{2} + \ cdots + x_{10}).}

zamiast tego używamy bootstrap, w szczególności case resampling, aby uzyskać rozkład x {\displaystyle {\bar {x}}}. Najpierw ponownie próbkujemy dane, aby uzyskać próbkę bootstrap. Przykład pierwszej próby może wyglądać tak: X1* = x2, x1, x10, x10, x3, x4, x6, x7, x1, x9. Istnieje kilka duplikatów, ponieważ próbka bootstrap pochodzi z próbkowania z zamianą danych., Również liczba punktów danych w próbce bootstrap jest równa liczbie punktów danych w naszych pierwotnych obserwacjach. Następnie obliczamy średnią z tej próby i otrzymujemy pierwszą średnią bootstrap: μ1*. Powtarzamy ten proces, aby uzyskać drugą próbkę X2* i obliczyć drugą średnią Bootstrap μ2*. Jeśli powtórzymy to 100 razy, to mamy μ1*, μ2*, …, μ100*. Stanowi to empiryczny rozkład Bootstrap średniej próbki. Z tego rozkładu empirycznego można uzyskać przedział ufności bootstrap w celu testowania hipotez.,

RegressionEdit

w problemach regresji, case resampling odnosi się do prostego schematu ponownego próbkowania pojedynczych przypadków – często wierszy zbioru danych. W przypadku problemów z regresją, o ile zbiór danych jest dość duży, ten prosty schemat jest często akceptowalny. Metoda ta jest jednak otwarta na krytykę.

w problemach regresji zmienne objaśniające są często stałe lub przynajmniej obserwowane z większą kontrolą niż zmienna odpowiedzi. Ponadto zakres zmiennych objaśniających określa informacje z nich dostępne., Dlatego ponowne próbkowanie przypadków oznacza, że każda próbka bootstrap straci pewne informacje. W związku z tym należy rozważyć alternatywne procedury bootstrap.

Bayesian bootstrapEdit

Smooth Bootstrapedit

f ^ h ( x ) = 1 n h ∑ i = 1 N K ( x − X i H ) , {\displaystyle {\hat {f\,}_{H} (x)={1 \over NH}\sum _{i=1}^{n} k\left({x-X_{i} \over h}\right),} F ^ h ( x ) = ∫ − ∞ x F ^ H ( T ) D T . {\displaystyle {\hat {F\,}_{h} (x)= \ int _{- \infty} ^{x} {\hat {f}}_{h} (t)\,dt.,}

parametryczny bootstrapEdit

Resampling residualsEdit

innym podejściem do bootstrapowania w problemach regresji jest ponowne próbkowanie pozostałości. Metoda przebiega w następujący sposób.

Ten schemat ma tę zaletę, że zachowuje informacje w zmiennych objaśniających. Pojawia się jednak pytanie, które pozostałości należy ponownie zbadać. Surowe pozostałości są jedną opcją; inną jest studentized residuals (w regresji liniowej)., Mimo, że istnieją argumenty przemawiające za wykorzystaniem studentized residuals; w praktyce, to często robi niewielką różnicę, i to jest łatwe do porównania wyników obu systemów.

regresja procesu Gaussa bootstrapedytuj

gdy dane są czasowo skorelowane, proste bootstrapowanie niszczy nieodłączne korelacje. Metoda ta wykorzystuje regresję procesu Gaussa (GPR), aby dopasować model probabilistyczny, z którego można następnie narysować replikaty. GPR jest bayesowską metodą regresji nieliniowej., Proces Gaussa (GP) jest zbiorem zmiennych losowych, a każda skończona liczba z których ma wspólny rozkład Gaussa (normalny). GP jest zdefiniowana przez funkcję średnią i funkcję kowariancji, które określają średnie wektory i macierze kowariancji dla każdego skończonego zbioru zmiennych losowych.

model regresji:

y ( x ) = f ( X ) + ε , ε ∼ N ( 0 , σ 2 ) , {\displaystyle y(x)=f(x)+\varepsilon ,\ \ \varepsilon \sim {\mathcal {N}}(0,\sigma ^{2}),} ε {\displaystyle \varepsilon } jest terminem szumu.

proces Gaussa przed:

Załóżmy, że f ( x ) ∼ G P (m , k ) ., {\właściwości styl wyświetlania wartości f (x)\SIM {\mathcal {GP}} (R, K).} Następnie R ( X ) ∼ R n ( r , l ) {\właściwości styl wyświetlania wartość m(x)\SIM {\mathcal {GP}}(M,L)} , proces Gaussa z tyłu: przez GP się, otrzymujemy

∼ N ( M 0 , gdzie k 0 ) {\właściwości styl wyświetlania wartość \sim {\mathcal {N}}(jeśli{0},K_{0})} ,

niech X1*….,,xs* być innym skończonym zbiorem zmiennych, jest oczywiste, że

⊺ ∼ n ( ( m 0 m ∗ ) ( k 0 K ∗ K ∗ ⊺ K∗ ∗)) {\displaystyle ^{\intercal }\sim {\mathcal {N}}({\binom {M_{0}}{M_{*}}}{\begin{pmatrix}K_{0}&K_ {*}\K_ {*}^{\intercal }&K_ {**}\end{pmatrix}})},

zgodnie z powyższymi równaniami wyjścia y są również wspólnie rozłożone według wielowymiarowego Gaussa., Tak więc

⊺ ∣ (⊺=y) n n ( m Post, K Post), {\displaystyle ^{\intercal }\mid (^{\intercal }=y)\sim {\mathcal {n}}(M_{\text{post}}, k_{\text{post}}),}

Wild Bootstrapedit

Wild Bootstrap, zaproponowany pierwotnie przez WU (1986), jest odpowiedni, gdy model heteroskedastyczność. Ideą jest, podobnie jak resztkowy bootstrap, pozostawienie regresorów na wartości próbki, ale ponowne próbkowanie zmiennej odpowiedzi na podstawie wartości pozostałości., Oznacza to, że dla każdego replikatu oblicza się nowy y {\displaystyle y} na podstawie

y i ∗ = y ^ i + ε ^ I v i {\displaystyle y_{i}^{*}={\widehat {y\,}_{i}+{\widehat {\varepsilon\,}} _{i} v_{i}}

tak więc pozostałości są losowo mnożone przez zmienną losową v i {\displaystyle v_{i} ze średnią 0 i wariancją 1. Dla większości rozkładów v i {\displaystyle v_{i}} (ale nie Mammena), metoda ta zakłada, że 'prawdziwy' rozkład resztkowy jest symetryczny i może oferować przewagę nad prostym próbkowaniem resztkowym dla mniejszych rozmiarów próbek., Różne formy są używane dla zmiennej losowej v i {\displaystyle v_{i}}, np.

standardowy rozkład normalny

rozkład zaproponowany przez Mammena (1993).,

v i = { − ( 5 − 1 ) / 2 z prawdopodobieństwem ( 5 + 1 ) / ( 2 5 ) , ( 5 + 1 ) / 2 z prawdopodobieństwem ( 5 − 1 ) / ( 2 5 ) {\displaystyle v_ {i}={\begin{cases}-({\sqrt {5}} -1) / 2& {\text{z prawdopodobieństwem }} ({\sqrt{5}}+1)/(2{\sqrt {5}}),\\({\sqrt {5}}+1)/2&{\text{z prawdopodobieństwem }} ({\sqrt{5}}-1)/(2{\sqrt {5}})\end{cases}}} w przybliżeniu rozkład Mammena wynosi: v i = − – 0,6180 (z 0 w miejscu jednostek) z prawdopodobieństwem 0,7236 , + 1,6180 (z 1 w miejscu jednostek) z prawdopodobieństwem 0,2764. {\displaystyle v_ {i}={\begin{cases} -0.,6180\quad {\text{(z 0 w miejscu jednostek)}}&{\text{z prawdopodobieństwem }}0.7236,\\+1.6180\quad {\text{(z 1 w miejscu jednostek)}}&{\text{z prawdopodobieństwem }}0.2764.\end{cases}}}

lub prostszy rozkład związany z rozkładem Rademachera:

v i = − – 1 z prawdopodobieństwem 1 / 2, + 1 z prawdopodobieństwem 1 / 2. {\displaystyle v_ {i}={\begin{cases} -1&{\text{z prawdopodobieństwem }}1/2,\\+1& {\text{z prawdopodobieństwem }}1/2.,\end{cases}}}

block bootstrapEdit

Block Bootstrap jest używany, gdy dane lub błędy w modelu są skorelowane. W takim przypadku prosty przypadek lub szczątkowe ponowne próbkowanie nie powiedzie się, ponieważ nie jest w stanie odtworzyć korelacji w danych. Blok bootstrap próbuje replikować korelację poprzez ponowne próbkowanie wewnątrz bloków danych. Block bootstrap jest używany głównie z danymi skorelowanymi w czasie (tj. szeregami czasowymi), ale może być również używany z danymi skorelowanymi w przestrzeni lub między grupami (tzw. dane klastrowe).,

szereg czasowy: prosty blok bootstrapedytuj

w (prostym) bloku Bootstrap zmienna zainteresowania jest podzielona na nie nakładające się bloki.

szereg czasowy: ruchomy blok bootstrapEdit

w ruchomym bloku Bootstrap, wprowadzonym przez Künscha (1989), dane są podzielone na n − B + 1 nakładające się bloki o długości b: obserwacja 1 do B będzie blokiem 1, obserwacja 2 do b + 1 będzie blokiem 2, itd. Następnie z tych bloków n − b + 1, bloki n/b będą losowane losowo z wymianą. Następnie wyrównanie tych bloków n / b w kolejności, w jakiej zostały wybrane, da obserwacje bootstrap.,

Ten bootstrap działa z danymi zależnymi, jednak obserwacje Bootstrap nie będą już stacjonarne przez konstrukcję. Ale wykazano, że różna losowo długość bloku może uniknąć tego problemu. Metoda ta jest znana jako stacjonarny bootstrap. Inne powiązane modyfikacje ruchomego bloku bootstrap to Markovian bootstrap i stacjonarna metoda Bootstrap, która dopasowuje kolejne bloki na podstawie dopasowania odchylenia standardowego.,

Time series: Maximum entropy bootstrapEdit

Vinod (2006), przedstawia metodę, która uruchamia dane szeregów czasowych z wykorzystaniem zasad maksymalnej entropii spełniających twierdzenie Ergodyczne z ograniczeniami zachowującymi średnią i zachowującymi masę. Istnieje pakiet r, meboot, który wykorzystuje metodę, która ma zastosowania w Ekonometrii i Informatyki.

dane klastra: block bootstrapEdit

dane klastra opisują dane, w których obserwuje się wiele obserwacji na jednostkę. Może to być obserwacja wielu firm w wielu stanach lub obserwacja studentów w wielu klasach., W takich przypadkach struktura korelacji jest uproszczona i zwykle zakłada się, że dane są skorelowane w ramach grupy / klastra, ale niezależne między grupami / klastrami. Struktura bloku bootstrap jest łatwo uzyskana (gdzie blok odpowiada tylko grupie) i zwykle tylko grupy są ponownie próbkowane, podczas gdy obserwacje wewnątrz grup pozostają niezmienione. Cameron et al. (2008) omawia to dla klastrowych błędów w regresji liniowej.

Bootstrapping (statistics) (Polski)