Bootstrapping (Statistik)

Dieser Abschnitt enthält eine Liste von Referenzen, verwandte Lesen oder externe Links, aber seine Quellen bleiben unklar, weil es Inline-Zitate fehlt. Bitte helfen Sie, diesen Abschnitt zu verbessern, indem Sie genauere Zitate einführen., (Juni 2012) (Erfahren Sie, wie und wann Sie diese Vorlagenmeldung entfernen)

Bei univariaten Problemen ist es normalerweise akzeptabel, die einzelnen Beobachtungen mit Ersatz („case resampling“ unten) im Gegensatz zu Subsampling, bei dem das Resampling ersatzlos ist und unter viel schwächeren Bedingungen als beim Bootstrap gültig ist. In kleinen Stichproben könnte ein parametrischer Bootstrap-Ansatz bevorzugt werden. Bei anderen Problemen wird wahrscheinlich ein reibungsloser Bootstrap bevorzugt.

Für Regressionsprobleme stehen verschiedene andere Alternativen zur Verfügung.,

Case resamplingEdit

Bootstrap ist im Allgemeinen nützlich, um die Verteilung einer Statistik (z. B. Mittelwert, Varianz) ohne Verwendung der Normaltheorie (z. B. z-Statistik, t-Statistik) zu schätzen. Bootstrap ist praktisch, wenn es keine analytische Form oder normale Theorie gibt, um die Verteilung der interessierenden Statistiken abzuschätzen, da Bootstrap-Methoden auf die meisten zufälligen Größen angewendet werden können, z. B. das Verhältnis von Varianz und Mittelwert. Es gibt mindestens zwei Möglichkeiten, die Fallwiederabtastung durchzuführen.

Der Monte-Carlo-Algorithmus für Case Resampling ist recht einfach., Zuerst messen wir die Daten mit Replacement neu, und die Größe des Resamples muss der Größe des ursprünglichen Datensatzes entsprechen. Dann wird die Statistik von Interesse aus dem Resample aus dem ersten Schritt berechnet. Wir wiederholen diese Routine viele Male, um eine genauere Schätzung der Bootstrap-Verteilung der Statistik zu erhalten.
Die‘ exakte ‚ Version für Case Resampling ist ähnlich, aber wir zählen jedes mögliche Resampling des Datensatzes erschöpfend auf. Dies kann rechnerisch teuer sein, da es insgesamt ( 2 n-1 n) = (2 n − 1) gibt ! n ! ( n − 1 ) !, {\displaystyle {\binom {2n-1}{n}}={\frac {(2n-1)!}{n!(n-1)!}}} verschiedene resamples, wobei n die Größe des Datensatzes ist. Somit gibt es für n = 5, 10, 20, 30 126, 92378, 6,89 × 1010 bzw. 5,91 × 1016 verschiedene Resamples.

Schätzung der Verteilung der Stichprobenmittelwerte

Betrachten Sie ein Coin-Flipping-Experiment. Wir drehen die Münze um und zeichnen auf, ob sie Kopf oder Zahl landet. Let X = x1, x2, …, x10 10 Beobachtungen aus dem experiment. xi = 1, wenn der i-ten Flip Köpfe landet, und 0 sonst., Aus der normalen Theorie können wir die t-Statistik verwenden, um die Verteilung des Stichprobenmittelwerts zu schätzen,

x = 1 10 ( x 1 + x 2 + ⋯ + x 10 ) . {\displaystyle {\bar {x}}={\frac {1}{10}}(x_{1}+x_{2}+\cdot \ prod_ +x_{10}).}

Stattdessen verwenden wir Bootstrap, insbesondere Case Resampling, um die Verteilung von x {\displaystyle {\bar {x}}} abzuleiten . Wir messen zuerst die Daten neu, um ein Bootstrap-Resample zu erhalten. Ein Beispiel für die erste resample könnte wie folgt Aussehen X1* = x2, x1, x10, x10, x3, x4, x6, x7, x1, x9. Es gibt einige Duplikate, da ein Bootstrap-Resample aus dem Sampling mit Ersatz aus den Daten stammt., Auch die Anzahl der Datenpunkte in einem Bootstrap-Resample entspricht der Anzahl der Datenpunkte in unseren ursprünglichen Beobachtungen. Dann berechnen wir den Mittelwert dieses Resamples und erhalten den ersten Bootstrap-Mittelwert: μ1*. Wir wiederholen diesen Vorgang, um das zweite Resample X2* zu erhalten und den zweiten Bootstrap-Mittelwert μ2*zu berechnen. Wenn wir dies 100 Mal wiederholen, haben wir μ1*, μ2*,…, μ100*. Dies stellt eine empirische bootstrap-Verteilung der Stichprobe-Mittelwert. Aus dieser empirischen Verteilung kann man ein Bootstrap-Konfidenzintervall zum Zwecke des Hypothesentests ableiten.,

RegressionEdit

Bei Regressionsproblemen bezieht sich das Case Resampling auf das einfache Schema des Resampling einzelner Fälle-oft Zeilen eines Datensatzes. Bei Regressionsproblemen ist dieses einfache Schema oft akzeptabel, solange der Datensatz ziemlich groß ist. Die Methode ist jedoch offen für Kritik.

Bei Regressionsproblemen werden die erklärenden Variablen häufig behoben oder zumindest mit mehr Kontrolle als die Antwortvariable beobachtet. Außerdem definiert der Bereich der erklärenden Variablen die aus ihnen verfügbaren Informationen., Daher bedeutet das Resample von Fällen, dass jedes Bootstrap-Sample einige Informationen verliert. Daher sollten alternative Bootstrap-Verfahren in Betracht gezogen werden.

Bayes-bootstrapEdit

Glatte bootstrapEdit

f ^ h ( x ) = 1 n h ∑ i = 1 n K ( x − X i h) {\displaystyle {\hat {f\,}}_{h}(x)={1 \over nh}\sum _{i=1}^{n}K\left({x-X_{i} \over h}\right),} F ^ h ( x ) = ∫ − ∞ x f ^ h ( t ) d t . {\displaystyle {\hat {F\,}}_{h}(x)=\int _{-\infty }^{x}{\hat {f}}_{h}(t)\,dt.,}

Parametric bootstrapEdit

Resampling residualsEdit

Ein weiterer Ansatz zum Bootstrapping bei Regressionsproblemen besteht darin, Residuen neu zu messen. Die Methode verläuft wie folgt.

Dieses Schema hat den Vorteil, dass es die Informationen in den erklärenden Variablen beibehält. Es stellt sich jedoch die Frage, welche Residuen neu abgetastet werden sollen. Rohe Residuen sind eine Option; eine andere sind studentisierte Residuen (in linearer Regression)., Obwohl es Argumente für die Verwendung studentischer Residuen gibt; In der Praxis macht es oft wenig Unterschied, und es ist einfach, die Ergebnisse beider Systeme zu vergleichen.

Gaußsche Prozessregression bootstrapEdit

Wenn Daten zeitlich korreliert sind, zerstört einfaches Bootstrapping die inhärenten Korrelationen. Diese Methode verwendet die Gaußsche Prozessregression (GPR), um ein probabilistisches Modell anzupassen, aus dem dann Replikate gezogen werden können. GPR ist eine bayesische nichtlineare Regressionsmethode., Ein Gaußscher Prozess (GP) ist eine Sammlung von Zufallsvariablen, von denen jede endliche Anzahl eine gemeinsame Gaußsche (Normal -) Verteilung hat. Ein GP wird durch eine mittlere Funktion und eine Kovarianzfunktion definiert, die die mittleren Vektoren und Kovarianzmatrizen für jede endliche Sammlung der Zufallsvariablen angeben.

Regression-Modell:

y ( x ) = f ( x ) + ε , ε ∼ N ( 0 , σ 2 ) , {\displaystyle y(x)=f(x)+\varepsilon ,\ \ \varepsilon \sim {\mathcal {N}}(0,\sigma ^{2}),} ε {\displaystyle \varepsilon } ist ein Geräusch Begriff.

Gaußscher Prozess vor:

davon aus f ( x ) ∼ G P ( m , k ) ., {\displaystyle f(x)\sim {\mathcal {GP}}(m,k).} Dann y (x ) ∼ G P (m, l ) {\displaystyle y (x)\sim {\mathcal {GP}} (m,l)},

der Gaußsche Prozess posterior:

Nach GP prior können wir

∼ N ( m 0 , K 0 ) {\displaystyle \sim {\mathcal {N}}(m_{0},K_{0})} ,

Let x1*,…,xs* weitere endliche Sammlung von Variablen, es ist offensichtlich, dass

⊺ ∼ N (m 0, m ∗ ) ( K 0 K ∗ K ∗ ⊺ K ∗ ∗ ) ) {\displaystyle ^{\intercal }\sim {\mathcal {N}}({\binom {m_{0}}{m_{*}}}{\begin{pmatrix}K_{0}&K_{*}\\K_{*}^{\intercal }&K_{**}\end{pmatrix}})} ,

Nach den obigen Gleichungen die Ausgänge y sind auch gemeinsam verteilt nach einem multivariaten Gauß., So,

⊺ ∣ ( ⊺ = y ) ∼ N ( m post-K post ) , {\displaystyle ^{\intercal }\mid^{\intercal }=y)\sim {\mathcal {N}}(m_{\text{post}},K_{\text{post}}),}

Wild bootstrapEdit

Das wilde bootstrap, ursprünglich vorgeschlagen von Wu (1986), ist geeignet, wenn das Modell Exponate heteroskedasticity. Die Idee ist, wie der restliche Bootstrap, die Regressoren bei ihrem Beispielwert zu belassen, aber die Antwortvariable basierend auf den Residuenwerten neu zu messen., Das heißt, für jedes Replikat berechnet man ein neues y {\displaystyle y} basierend auf

y i ∗ = y ^ i + ε ^ i v i {\displaystyle y_{i}^{*}={\widehat {y\,}}_{i}+{\widehat {\varepsilon\,}} _{i}v_{i}}

So werden die Residuen zufällig mit einer Zufallsvariablen v i {\displaystyle v_{i}} mit dem Mittelwert 0 und varianz 1. Bei den meisten Verteilungen von v i {\displaystyle v_{i}} (aber nicht von Mammen) geht diese Methode davon aus, dass die „wahre“ Restverteilung symmetrisch ist und Vorteile gegenüber einer einfachen Restabtastung für kleinere Stichprobengrößen bieten kann., Für die Zufallsvariable v i {\displaystyle v_{i}} werden verschiedene Formen verwendet, wie z. B.

Die Standardnormalverteilung

Eine von Mammen (1993) vorgeschlagene Verteilung.,

v i = { − ( 5 − 1 ) / 2 mit Wahrscheinlichkeit ( 5 + 1 ) / ( 2 5 ) , ( 5 + 1 ) / 2 mit Wahrscheinlichkeit ( 5 − 1 ) / ( 2 5 ) {\displaystyle v_{i}={\begin{5} – ({\sqrt {5}}-1) / 2&{\text{mit Wahrscheinlichkeit }}({\sqrt {5}}+1)/(2{\sqrt {5}}),\\({\sqrt {5}}+1)/2&{\text{mit Wahrscheinlichkeit }}({\sqrt {5}}-1)/(2{\sqrt {5}})\end{cases}}} Ungefähr ist Mammens Verteilung: v i = {- 0.6180 (mit einer 0 an der Stelle der Einheiten) mit der Wahrscheinlichkeit 0.7236 , + 1.6180 (mit einer 1 an der Stelle der Einheiten) mit der Wahrscheinlichkeit 0.2764. {\displaystyle v_{i}={\begin{Fälle}-0.,6180\quad {\text {(mit einer 0 an der Stelle der Einheiten)}}&{\text{mit Wahrscheinlichkeit }}0.7236,\\+1.6180\quad {\text{(mit einer 1 an der Stelle der Einheiten)}}&{\text{mit Wahrscheinlichkeit }}0.2764.\ end{cases}}}

Oder die einfachere Verteilung, verknüpft mit der Rademacher-Verteilung:

v i = {- 1 mit Wahrscheinlichkeit 1 / 2, + 1 mit Wahrscheinlichkeit 1 / 2. {\displaystyle v_{i}={\begin{cases}-1&{\text{mit Wahrscheinlichkeit }}1/2,\\+1&{\text{mit Wahrscheinlichkeit }}1/2.,\end{cases}}}

Block bootstrapEdit

Der Block Bootstrap wird verwendet, wenn die Daten oder die Fehler in einem Modell korreliert sind. In diesem Fall schlägt ein einfacher Fall oder Restresampling fehl, da die Korrelation in den Daten nicht repliziert werden kann. Der Block Bootstrap versucht, die Korrelation durch Resampling innerhalb von Datenblöcken zu replizieren. Der Block Bootstrap wurde hauptsächlich mit Daten verwendet, die in der Zeit korreliert sind (dh Zeitreihen), kann aber auch mit Daten verwendet werden, die im Raum oder zwischen Gruppen korreliert sind (sogenannte Clusterdaten).,

Zeitreihe: Einfacher Block bootstrapEdit

Im (einfachen) Block Bootstrap wird die interessierende Variable in nicht überlappende Blöcke aufgeteilt.

Zeitreihe: Moving block bootstrapEdit

In dem von Künsch (1989) eingeführten Moving Block Bootstrap werden die Daten in n − b + 1 überlappende Blöcke der Länge b aufgeteilt: Beobachtung 1 bis b sind Block 1, Beobachtung 2 bis b + 1 sind Block 2 usw. Dann werden aus diesen n − b + 1 Blöcken n/b Blöcke zufällig mit Ersatz gezeichnet. Wenn Sie diese n/b-Blöcke dann in der Reihenfolge ausrichten, in der sie ausgewählt wurden, erhalten Sie die Bootstrap-Beobachtungen.,

Dieser Bootstrap arbeitet mit abhängigen Daten, die Bootstrap-Beobachtungen sind jedoch nicht mehr statisch. Es wurde jedoch gezeigt, dass das zufällige Variieren der Blocklänge dieses Problem vermeiden kann. Diese Methode wird als stationärer Bootstrap bezeichnet. Andere verwandte Modifikationen des Moving Block Bootstrap sind der Markovian Bootstrap und eine stationäre Bootstrap-Methode, die nachfolgenden Blöcken basierend auf Standardabweichung Matching entspricht.,

Time series: Maximum entropy bootstrapEdit

Vinod (2006) stellt eine Methode vor, die Zeitreihendaten mithilfe von Maximum entropy Principles bootet, die den ergodischen Satz mit mittleren und massenerhaltenden Einschränkungen erfüllen. Es gibt ein R-Paket, meboot, das die Methode verwendet, die Anwendungen in der Ökonometrie und Informatik hat.

Clusterdaten: Block bootstrapEdit

Clusterdaten beschreiben Daten, bei denen viele Beobachtungen pro Einheit beobachtet werden. Dies könnte viele Firmen in vielen Staaten beobachten oder Studenten in vielen Klassen beobachten., In solchen Fällen wird die Korrelationsstruktur vereinfacht, und man geht normalerweise davon aus, dass Daten innerhalb einer Gruppe/eines Clusters korreliert sind, jedoch unabhängig zwischen Gruppen/Clustern. Die Struktur des Block-Bootstrap ist leicht zu erhalten (wobei der Block nur der Gruppe entspricht), und normalerweise werden nur die Gruppen neu formatiert, während die Beobachtungen innerhalb der Gruppen unverändert bleiben. Cameron et al. (2008) diskutiert dies für Clusterfehler in der linearen Regression.