Bootstrapping (estadísticas)

esta sección incluye una lista de referencias, lecturas relacionadas o enlaces externos, pero sus fuentes no están claras porque carece de Citas en línea. Por favor, ayude a mejorar esta sección introduciendo citas más precisas., (Junio de 2012) (Aprenda cómo y cuándo eliminar este mensaje de plantilla)

en problemas univariados, generalmente es aceptable remuestrear las observaciones individuales con reemplazo («remuestreo de casos» a continuación) a diferencia del submuestreo, en el que el remuestreo es sin reemplazo y es válido en condiciones mucho más débiles en comparación con el bootstrap. En muestras pequeñas, se podría preferir un enfoque de arranque paramétrico. Para otros problemas, es probable que se prefiera un bootstrap suave.

para problemas de regresión, hay varias otras alternativas disponibles.,

sustitución de Casoseditar

Bootstrap es generalmente útil para estimar la distribución de una estadística (por ejemplo, media, varianza) sin usar la teoría normal (por ejemplo, estadística z, estadística t). Bootstrap es útil cuando no hay forma analítica o teoría normal para ayudar a estimar la distribución de las estadísticas de interés, ya que los métodos de bootstrap pueden aplicarse a la mayoría de las cantidades aleatorias, por ejemplo, la relación de varianza y media. Hay al menos dos formas de realizar el remuestreo de casos.

El algoritmo de Monte Carlo para el remuestreo de casos es bastante simple., En primer lugar, hemos de remuestrear los datos con reemplazo, y el tamaño de las muestras debe ser igual al tamaño del conjunto de datos original. A continuación, la estadística de interés se calcula a partir de la remuestreación del primer paso. Repetimos esta rutina muchas veces para obtener una estimación más precisa de la distribución Bootstrap de la estadística.
la versión ‘exacta’ para el remuestreo de casos es similar, pero enumeramos exhaustivamente cada posible remuestreo del conjunto de datos. Esto puede ser computacionalmente caro ya que hay un total de ( 2 n − 1 n ) = ( 2 n − 1 ) ! n ! (n-1)!, {\displaystyle {\binom {2n-1}{n}}={\frac {(2n-1)!¡n!(n-1)!}}} diferentes muestras, donde n es el tamaño del conjunto de datos. Por lo tanto para n = 5, 10, 20, 30 hay 126, 92378, 6.89 × 1010 y 5.91 × 1016 muestras diferentes respectivamente.

estimar la distribución de la media muestraleditar

considere un experimento de volteo de monedas. Lanzamos la moneda y registramos si cae cara o cruz. Sea X = x1, x2,…, x10 10 observaciones del experimento. xi = 1 si el I th flip aterriza cabezas, y 0 de lo contrario., A partir de la teoría normal, podemos utilizar la estadística t para estimar la distribución de la media muestral,

x = 1 10 (x 1 + x 2 + ⋯ + x 10 ) . {\displaystyle {\bar {x}}={\frac {1}{10}}(x_{1}+x_{2}+\cdots +x_{10}).}

en su lugar, usamos bootstrap, específicamente el remuestreo de casos, para derivar la distribución de x {\displaystyle {\bar {x}}} . Primero nos remuestrear los datos para obtener una de remuestreo bootstrap. Un ejemplo del primer resample podría verse como este X1 * = x2, x1, x10, x10, x3, x4, x6, x7, x1, x9. Hay algunos duplicados ya que un remuestreo de bootstrap proviene del muestreo con reemplazo de los datos., También el número de puntos de datos en una resample bootstrap es igual al número de puntos de datos en nuestras observaciones originales. Luego calculamos la media de este remuestreo y obtenemos la primera media de bootstrap: μ1*. Repetimos este proceso para obtener el segundo resample X2* y calcular la segunda media de bootstrap μ2*. Si repetimos esto 100 veces, entonces tenemos μ1*, μ2*,…, μ100*. Esto representa una distribución Bootstrap empírica de la media muestral. A partir de esta distribución empírica, se puede derivar un intervalo de confianza bootstrap con el propósito de probar hipótesis.,

RegressionEdit

en problemas de regresión, el remuestreo de casos se refiere al esquema simple de remuestreo de casos individuales, a menudo filas de un conjunto de datos. Para problemas de regresión, siempre y cuando el conjunto de datos sea bastante grande, este esquema simple a menudo es aceptable. Sin embargo, el método está abierto a críticas.

en problemas de regresión, las variables explicativas son a menudo fijas, o al menos observadas con más control que la variable de respuesta. Además, el rango de las variables explicativas define la información disponible de ellas., Por lo tanto, remuestrear casos significa que cada muestra de bootstrap perderá alguna información. Como tal, deben considerarse procedimientos alternativos de bootstrap.

Bayesiano bootstrapEdit

Suave bootstrapEdit

f ^ h ( x ) = 1 n h ∑ i = 1 n K ( x − X i h ) , {\displaystyle {\hat {f\,}}_{h}(x)={1 \over nh}\sum _{i=1}^{n}K\left({x-X_{i} \over h}\derecho)} F ^ h ( x ) = ∫ − ∞ x f ^ h ( t ) d t . {\displaystyle {\hat {F\,}}_{h}(x)=\int _{-\infty }^{x}{\hat {f}}_{h}(t)\,dt.,}

parametric bootstrapEdit

Remampling residualsEdit

otro enfoque para el bootstrap en problemas de regresión es remuestrear residuos. El método procede de la siguiente manera.

Este esquema tiene la ventaja de que retiene la información en las variables explicativas. Sin embargo, se plantea la cuestión de qué residuos volver a muestrear. Los residuos crudos son una opción; Otra son los residuos estudiados (en regresión lineal)., Aunque hay argumentos a favor del uso de residuos estudiados, en la práctica, a menudo hace poca diferencia, y es fácil comparar los resultados de ambos esquemas.

gaussian process regression bootstrapEdit

Cuando los datos están correlacionados temporalmente, el bootstrapping directo destruye las correlaciones inherentes. Este método utiliza la regresión de proceso gaussiano (GPR) para ajustarse a un modelo probabilístico del que se pueden extraer réplicas. GPR es un método de regresión no lineal Bayesiano., Un proceso gaussiano (GP) es una colección de variables aleatorias, y cualquier número finito de los cuales tienen una distribución gaussiana conjunta (normal). Un GP se define por una función media y una función de covarianza, que especifican los vectores medios y matrices de covarianza para cada colección finita de las variables aleatorias.

modelo de Regresión:

y ( x ) = f ( x ) + ε , ε ∼ N ( 0 , σ 2 ) , {\displaystyle y(x)=f(x)+\varepsilon ,\ \ \varepsilon \sim {\mathcal {N}}(0,\sigma ^{2}),} e {\displaystyle \varepsilon } es un ruido plazo.

proceso gaussiano previo:

asumir f ( x) G G P ( m , k)., {\displaystyle F(x)\sim {\mathcal {GP}}(m,k).} Entonces y ( x ) ∼ G P ( m , l ) {\displaystyle y(x)\sim {\mathcal {GP}}(m,l)} ,

el Gaussiano proceso posterior:

Según el GP anterior, podemos obtener

∼ N ( m 0 , K 0 ) {\displaystyle \sim {\mathcal {N}}(m_{0},K_{0})} ,

Deje que x1*,…,, xs* ser otra colección finita de variables, es obvio que

n n ( ( m 0 m ∗ ) ( k 0 K ∗ K ∗ K k ∗ ∗ ) ) {\displaystyle ^{\intercal }\sim {\mathcal {n}}({\binom {m_{0}}{m_{*}}}{\begin{pmatrix}k_{0}&k_{*}\\K_{*}^{\intercal }&K_{**}\end{pmatrix}})},

de acuerdo con las ecuaciones anteriores, las salidas y también se distribuyen conjuntamente de acuerdo con un gaussiano multivariante., Por lo tanto,

⊺ ∣ (==y) n n ( m post, K Post), {\displaystyle ^{\intercal }\mid (^{\intercal} = y)\SIM {\mathcal {n}}(m_{\text{post}}, k_{\text{post}}),}

wild bootstrapEdit

El wild Bootstrap, propuesto originalmente por Wu (1986), es adecuado cuando el modelo exhibe heteroscedasticidad. La idea es, como el bootstrap residual, dejar a los regresores en su valor de muestra, pero volver a muestrear la variable de respuesta basada en los valores residuales., Es decir, para cada repetición, uno calcula un nuevo y {\displaystyle y} basado en

y i ∗ = y ^ i + ε ^ i v i {\displaystyle y_{i}^{*}={\widehat {y\,}}_{i}+{\widehat {\varepsilon \,}}_{i}v_{i}}

de modo que los residuos son al azar, multiplicado por una variable aleatoria v i {\displaystyle v_{i}} con media 0 y varianza 1. Para la mayoría de distribuciones de v i {\displaystyle V_{I}} (pero no de Mammen), este método asume que la distribución residual ‘verdadera’ es simétrica y puede ofrecer ventajas sobre el muestreo residual simple para tamaños de muestra más pequeños., Se utilizan diferentes formas para la variable aleatoria v i {\displaystyle v_{i}}, como

La distribución normal estándar

Una distribución sugerida por Mammen (1993).,

v i = { − ( 5 − 1 ) / 2 con probabilidad ( 5 + 1 ) / ( 2 5 ) , ( 5 + 1 ) / 2 con probabilidad ( 5 − 1 ) / ( 2 5 ) {\V_{I}={\begin{cases}-({\sqrt {5}}-1) / 2& {\text{with probability }}({\sqrt {5}}+1)/(2{\sqrt {5}}),\\({\sqrt {5}}+1)/2& {\text {with probability }} ({\sqrt {5}}-1)/(2{\sqrt {5}})\end{cases}}} aproximadamente, la distribución de Mammen es: v i = {- 0.6180 (con un 0 en el lugar de las unidades) con probabilidad 0.7236 , + 1.6180 (con un 1 en el lugar de las unidades) con probabilidad 0.2764. {\displaystyle v_{I} = {\begin {cases}-0.,6180 \ quad {\text {(con un 0 en el lugar de las unidades)}}&{\text{con probabilidad }}0.7236,\\+1.6180\quad {\text {(con un 1 en el lugar de las unidades)}}&{\text{con probabilidad }}0.2764.\end {cases}}}

O la distribución más simple, vinculada a la distribución de Rademacher:

v i = { − 1 con probabilidad 1 / 2 , + 1 con probabilidad 1 / 2. {\displaystyle v_{I} = {\begin {cases}-1& {\text {with probability }} 1/2,\\ + 1&{\text{with probability }}1/2.,\end {cases}}}

block bootstrapEdit

el bloque bootstrap se utiliza cuando los datos, o los errores en un modelo, están correlacionados. En este caso, un remuestreo de caso simple o residual fallará, ya que no es capaz de replicar la correlación en los datos. El bootstrap de bloque intenta replicar la correlación remuestreando dentro de bloques de datos. El bootstrap de bloque se ha utilizado principalmente con datos correlacionados en el tiempo (es decir, series de tiempo), pero también se puede utilizar con datos correlacionados en el espacio, o entre grupos (los llamados datos de clúster).,

serie temporal: simple block bootstrapEdit

en el (simple) bloque bootstrap, la variable de interés se divide en bloques no superpuestos.

serie temporal: moving block bootstrapEdit

en moving block bootstrap, introducido por Künsch (1989), los datos se dividen en n − b + 1 bloques superpuestos de longitud b: La Observación 1 A b será el bloque 1, la observación 2 A b + 1 será el bloque 2, etc. Luego, de estos bloques n − b + 1, los bloques n / b se sortearán al azar con reemplazo. Luego, alinear estos bloques n / b en el orden en que fueron elegidos, dará las observaciones de bootstrap.,

Este bootstrap funciona con datos dependientes, sin embargo, las observaciones bootstrapeadas ya no serán estacionarias por Construcción. Pero, se demostró que variar aleatoriamente la longitud del bloque puede evitar este problema. Este método se conoce como el bootstrap estacionario. Otras modificaciones relacionadas del bootstrap de bloque móvil son el Bootstrap Markoviano y un método de bootstrap estacionario que coincide con los bloques posteriores basados en la coincidencia de desviación estándar.,

Time series: Maximum entropy bootstrapEdit

Vinod (2006), presenta un método que arranca datos de series temporales utilizando principios de máxima entropía que satisfacen el teorema Ergódico con restricciones de preservación de medios y preservación de masa. Hay un paquete de R, MEBot, que utiliza el método, que tiene aplicaciones en econometría y Ciencias de la computación.

Cluster data: block bootstrapEdit

Cluster data describe los datos donde se observan muchas observaciones por unidad. Esto podría ser la observación de muchas empresas en muchos estados, o la observación de los estudiantes en muchas clases., En tales casos, la estructura de correlación se simplifica, y uno hace generalmente la suposición que los datos se correlacionan dentro de un grupo/racimo, pero independiente entre grupos/racimos. La estructura del bloque bootstrap se obtiene fácilmente (donde el bloque solo corresponde al grupo), y generalmente solo los grupos se vuelven a muestrear, mientras que las observaciones dentro de los grupos se dejan sin cambios. Cameron et al. (2008) discute esto para errores agrupados en regresión lineal.