Bootstrapping (statistiques)

Cette section comprend une liste de références, de lectures connexes ou de liens externes, mais ses sources restent floues car il manque de citations en ligne. Veuillez aider à améliorer cette section en introduisant des citations plus précises., (Juin 2012) (Découvrez comment et quand supprimer ce message modèle)

Dans les problèmes univariés, il est généralement acceptable de rééchantillonner les observations individuelles avec remplacement (« rééchantillonnage de cas » ci-dessous) contrairement au sous-échantillonnage, dans lequel le rééchantillonnage est sans remplacement et est valide dans des conditions beaucoup plus faibles par rapport au bootstrap. Dans les petits échantillons, une approche bootstrap paramétrique peut être préférée. Pour d’autres problèmes, un bootstrap lisse sera probablement préféré.

Pour les problèmes de régression, diverses autres alternatives sont disponibles.,

Case resamplingEdit

Bootstrap est généralement utile pour estimer la distribution d’une statistique (par exemple, moyenne, variance) sans utiliser la théorie normale (par exemple, z-statistique, t-statistique). Bootstrap est utile lorsqu’il n’y a pas de forme analytique ou de théorie normale pour aider à estimer la distribution des statistiques d’intérêt, car les méthodes bootstrap peuvent s’appliquer à la plupart des quantités aléatoires, par exemple, le rapport de variance et de moyenne. Il existe au moins deux façons d’effectuer un rééchantillonnage de cas.

L’algorithme de Monte Carlo pour le rééchantillonnage de cas est assez simple., Tout d’abord, nous rééchantillonnons les données avec remplacement, et la taille du rééchantillonnage doit être égale à la taille de l’ensemble de données d’origine. Ensuite, la statistique d’intérêt est calculée à partir du rééchantillonnage de la première étape. Nous répétons cette routine plusieurs fois pour obtenir une estimation plus précise de la distribution Bootstrap de la statistique.
La version « exacte » pour le rééchantillonnage de cas est similaire, mais nous énumérons de manière exhaustive tous les rééchantillonnages possibles de l’ensemble de données. Cela peut être coûteux en calcul car il y a un total de ( 2 n − 1 n ) = ( 2 n − 1 ) ! n ! (n – 1)!, {\displaystyle {\binom {2n-1}{n}}={\frac {(2n-1)!} {n!(n-1)!}}} différents rééchantillonnages, où n est la taille de l’ensemble de données. Ainsi, pour n = 5, 10, 20, 30, il existe respectivement 126, 92378, 6,89 × 1010 et 5,91 × 1016 rééchantillonnages différents.

Estimation de la distribution de la moyenne de l’échantillonmodifier

Envisager une expérience de retournement de pièces. Nous retournons la pièce et enregistrons si elle atterrit tête ou queue. Soit X = x1, x2, …, x10 10 observations de l’expérience. xi = 1 si le i flip flip atterrit en tête, et 0 sinon., À partir de la théorie normale, nous pouvons utiliser la statistique t pour estimer la distribution de la moyenne de l’échantillon,

x = 1 10 ( x 1 + x 2 + ⋯ + x 10 ) . {\displaystyle {\bar {x}}={\frac {1}{10}}(x_{1}+x_{2}+\cdots +x_{10}).}

Au lieu de cela, nous utilisons bootstrap, en particulier le rééchantillonnage de cas, pour dériver la distribution de x {\displaystyle {\bar {x}}} . Nous rééchantillonnons d’abord les données pour obtenir un rééchantillonnage bootstrap. Un exemple du premier resample peut ressembler à ceci X1 * = x2, x1, x10, x10, x3, x4, x6, x7, x1, x9. Il y a quelques doublons car un rééchantillonnage bootstrap provient de l’échantillonnage avec remplacement des données., Aussi le nombre de points de données dans un rééchantillonnage bootstrap est égal au nombre de points de données dans nos observations originales. Ensuite, nous calculons la moyenne de ce rééchantillonnage et obtenons la première moyenne d’amorçage: μ1*. Nous répétons ce processus pour obtenir le deuxième rééchantillonnage X2*et calculer la deuxième moyenne d’amorçage μ2*. Si nous répétons cela 100 fois, alors nous avons μ1*, μ2*,…, μ100*. Cela représente une distribution d’amorçage empirique de la moyenne de l’échantillon. À partir de cette distribution empirique, on peut déduire un intervalle de confiance bootstrap aux fins du test d’hypothèse.,

RégressionEdit

Dans les problèmes de régression, le rééchantillonnage de cas fait référence au schéma simple de rééchantillonnage de cas individuels – souvent des lignes d’un ensemble de données. Pour les problèmes de régression, tant que l’ensemble de données est assez grand, ce schéma simple est souvent acceptable. Cependant, la méthode est ouverte à la critique.

Dans les problèmes de régression, les variables explicatives sont souvent fixes, ou du moins observées avec plus de contrôle que la variable de réponse. De plus, la plage des variables explicatives définit les informations disponibles à partir d’elles., Par conséquent, rééchantillonner des cas signifie que chaque échantillon bootstrap perdra certaines informations. En tant que tel, d’autres procédures d’amorçage devraient être envisagées.

Bayésien bootstrapEdit

Lisse bootstrapEdit

f ^ h ( x ) = 1 n ∑ i = 1 n K ( x − X i h ) , {\displaystyle {\hat {f\,}}_{h}(x)={1 \over nh}\sum _{i=1}^{n}K\left({x-X_{i} \h}\right),} F ^ h ( x ) = ∫ − ∞ f x ^ h ( t ) d t . {\displaystyle {\hat {F\,}}_{h}(x)=\int _{-\infty }^{x}{\hat {f}}_{h}(t)\,dt.,}

Paramétrique bootstrapEdit

le Rééchantillonnage residualsEdit

une Autre approche à l’amorçage dans les problèmes de régression consiste à rééchantillonner les résidus. La méthode se déroule comme suit.

Ce schéma présente l’avantage de conserver les informations contenues dans les variables explicatives. Cependant, une question se pose quant aux résidus à rééchantillonner. Les résidus bruts sont une option; une autre est studentized residuals (en régression linéaire)., Bien qu’il existe des arguments en faveur de l’utilisation de résidus studentized; dans la pratique, cela fait souvent peu de différence et il est facile de comparer les résultats des deux schémas.

Gaussian process regression bootstrapEdit

Lorsque les données sont temporellement corrélées, l’amorçage simple détruit les corrélations inhérentes. Cette méthode utilise la régression par processus gaussien (GPR) pour adapter un modèle probabiliste à partir duquel des répliques peuvent ensuite être tirées. GPR est une méthode de régression bayésienne non linéaire., Un processus gaussien (GP) est une collection de variables aléatoires, dont tout nombre fini a une distribution gaussienne (normale) conjointe. Un GP est défini par une fonction moyenne et une fonction de covariance, qui spécifient les vecteurs moyens et les matrices de covariance pour chaque collection finie des variables aléatoires.

modèle de Régression:

y ( x ) = f ( x ) + ε , ε ∼ N ( 0 , σ 2 ) , {\displaystyle y(x)=f(x)+\varepsilon ,\ \ \varepsilon \sim {\mathcal {N}}(0,\sigma ^{2}),} e {\displaystyle \varepsilon } est un terme de bruit.

Processus gaussien avant:

Supposons f ( x) G G P ( m , k ) ., {\displaystyle f(x)\sim {\mathcal {GP}}(m,k).} Alors y ( x ) ∼ G ( P) ( m , l ) {\displaystyle y(x)\sim {\mathcal {GP}}(m,l)} ,

le processus Gaussien postérieure:

Selon les GP avant, nous pouvons obtenir

∼ N ( m 0 , K 0 ) {\displaystyle \sim {\mathcal {N}}(m_{0},K_{0})} ,

Laissez-x1*,…,,xs* être un autre finis collection de variables, il est évident que

⊺ ∼ N ( ( m 0 m ∗ ) ( K 0 K ∗ K ∗ ⊺ K ∗ ∗ ) ) {\displaystyle ^{\intercal }\sim {\mathcal {N}}({\binom {m_{0}}{m_{*}}}{\begin{pmatrix}K_{0}&K_{*}\\K_{*}^{\intercal }&K_{**}\end{pmatrix}})} ,

Selon les équations ci-dessus, les sorties y sont également conjointement distribués selon une Gaussienne multivariée., Ainsi,

⊺ ∣ (==y) N N ( m post , K post ) , {\displaystyle ^{\intercal }\mid (^{\intercal} = y)\sim {\mathcal {N}}(m_{\text{post}},K_{\text{post}}),}

Bootstrap sauvage

Le bootstrap sauvage, proposé à l’origine par Wu (1986), convient lorsque le modèle présente une hétéroskédasticité. L’idée est, comme le bootstrap résiduel, de laisser les régresseurs à leur valeur d’échantillon, mais de rééchantillonner la variable de réponse en fonction des valeurs résiduelles., C’est, pour chaque répétition, on calcule un nouveau y {\displaystyle y}, en fonction de

y i ∗ = y ^ i + ε ^ i v i {\displaystyle y_{i}^{*}={\widehat {y\,}}_{i}+{\widehat {\varepsilon \,}}_{i}v_{i}}

si les résidus sont aléatoirement multiplié par une variable aléatoire v i {\displaystyle v_{i}} avec une moyenne de 0 et de variance 1. Pour la plupart des distributions de v i {\displaystyle v_{i}} (mais pas celle de Mammen), cette méthode suppose que la « vraie » distribution résiduelle est symétrique et peut offrir des avantages par rapport à un simple échantillonnage résiduel pour des échantillons de plus petite taille., Différentes formes sont utilisés pour la variable aléatoire v i {\displaystyle v_{i}} , tel que

La distribution normale standard

Une distribution proposé par Mammen (1993).,

v i = { − ( 5 − 1 ) / 2 avec une probabilité ( 5 + 1 ) / ( 2 5 ) , ( 5 + 1 ) / 2 avec une probabilité ( 5 − 1 ) / ( 2 5 ) {\displaystyle v_{i}={\begin{cas}-({\sqrt {5}}-1)/2&{\text{avec une probabilité }}({\sqrt {5}}+1)/(2{\sqrt {5}}),\\({\sqrt {5}}+1)/2&{\text{avec une probabilité }}({\sqrt {5}}-1)/(2{\sqrt {5}})\end{cas}}} Environ, Mammen de distribution est: v i = { − 0.6180 (avec un 0 dans les unités de place) avec une probabilité 0.7236 , + 1.6180 (avec un 1 dans les unités de place) avec une probabilité 0.2764. {\displaystyle v_{i}={\begin{cas}-0.,6180\quad {\text{(avec un 0 dans les unités de « place »)}}&{\text{avec une probabilité }}0.7236,\\+1.6180\quad {\text{(avec un 1 dans les unités de « place »)}}&{\text{avec une probabilité }}0.2764.\end {cases}}}

Ou la distribution plus simple, liée à la distribution de Rademacher:

v i = { − 1 avec probabilité 1 / 2 , + 1 avec probabilité 1 / 2. {\displaystyle v_{i}={\begin{cas}-1&{\text{avec une probabilité }}1/2,\\+1&{\text{avec une probabilité }}1/2.,\end{cases}}}

Block bootstrapEdit

Le block bootstrap est utilisé lorsque les données ou les erreurs d’un modèle sont corrélées. Dans ce cas, un cas simple ou résiduelle rééchantillonnage échouera, car il n’est pas en mesure de reproduire la corrélation dans les données. Le bloc bootstrap tente de répliquer la corrélation en rééchantillonnant à l’intérieur de blocs de données. Le bloc bootstrap a été utilisé principalement avec des données corrélées dans le temps (c’est-à-dire des séries chronologiques) mais peut également être utilisé avec des données corrélées dans l’espace ou entre groupes (données dites de cluster).,

Time series: Simple block bootstrapEdit

Dans le bloc (simple) bootstrap, la variable d’intérêt est divisée en blocs non superposés.

Time series: Moving block bootstrapEdit

Dans le moving block bootstrap, introduit par Künsch (1989), les données sont divisées en n − b + 1 blocs superposés de longueur b: L’observation 1 à b sera le bloc 1, l’observation 2 à b + 1 sera le bloc 2, etc. Ensuite, à partir de ces blocs n − b + 1, les blocs n/b seront tirés au hasard avec remplacement. Ensuite, l’alignement de ces blocs n / b dans l’ordre dans lequel ils ont été sélectionnés donnera les observations bootstrap.,

Ce bootstrap fonctionne avec des données dépendantes, cependant, les observations bootstrapées ne seront plus stationnaires par construction. Mais, il a été montré que la variation aléatoire de la longueur du bloc peut éviter ce problème. Cette méthode est connue sous le nom de bootstrap stationnaire. D’autres modifications connexes du bootstrap de bloc mobile sont le bootstrap markovien et une méthode de bootstrap stationnaire qui correspond aux blocs suivants en fonction de la correspondance d’écart-type.,

Time series: Maximum entropy bootstrapEdit

Vinod (2006), présente une méthode qui démarre les données de séries chronologiques en utilisant des principes d’entropie maximale satisfaisant le théorème ergodique avec des contraintes de préservation de la moyenne et de préservation de la masse. Il existe un paquet R, meboot, qui utilise la méthode, qui a des applications en économétrie et en informatique.

Données de cluster: block bootstrapEdit

Les données de cluster décrivent les données où de nombreuses observations par unité sont observées. Cela pourrait être l’observation de nombreuses entreprises dans de nombreux États, ou l’observation des étudiants dans de nombreuses classes., Dans de tels cas, la structure de corrélation est simplifiée et on suppose généralement que les données sont corrélées au sein d’un groupe/cluster, mais indépendantes entre les groupes/clusters. La structure du bloc bootstrap est facilement obtenue (où le bloc correspond juste au groupe), et généralement seuls les groupes sont rééchantillonnés, tandis que les observations dans les groupes sont laissées inchangées. Cameron et coll. (2008) en discute pour les erreurs groupées dans la régression linéaire.