Bootstrapping (statistics) (Português)

posted in: Articles | 0

esta secção inclui uma lista de referências, leitura relacionada ou ligações externas, mas as suas fontes permanecem pouco claras porque não tem citações inline. Por favor, ajude a melhorar esta seção, introduzindo citações mais precisas., (Junho de 2012) (Saiba como e quando para remover este modelo de mensagem)

univariada problemas, é geralmente aceitável para reamostrar as observações individuais com substituição (“caso de reamostragem” abaixo) ao contrário de subamostragem, em que reamostragem é sem substituição e é válido em muito mais fracas condições comparado com o bootstrap. Em pequenas amostras, uma abordagem paramétrica bootstrap pode ser preferida. Para outros problemas, um bootstrap suave provavelmente será preferido.

para problemas de regressão, várias outras alternativas estão disponíveis.,

caso reamplingedit

Bootstrap é geralmente útil para estimar a distribuição de uma estatística (por exemplo, média, variância) sem usar a teoria normal (por exemplo, z-estatística, t-estatística). Bootstrap vem a calhar quando não há nenhuma forma analítica ou teoria normal para ajudar a estimar a distribuição das estatísticas de interesse, uma vez que os métodos de bootstrap podem aplicar-se à maioria das quantidades aleatórias, por exemplo, a razão de variância e média. Há pelo menos duas maneiras de executar a recolocação de casos.

  1. o algoritmo de Monte Carlo para recolocação de casos é bastante simples., Em primeiro lugar, repetimos os dados com a substituição, e o tamanho da amostra deve ser igual ao tamanho do conjunto de dados originais. Em seguida, a estatística de interesse é computada a partir da repetição do primeiro passo. Repetimos esta rotina muitas vezes para obter uma estimativa mais precisa da distribuição Bootstrap da estatística.
  2. a versão “exata” para a repetição de casos é similar, mas enumeramos exaustivamente cada possível repetição do conjunto de dados. Isto pode ser computacionalmente caro como há um total de ( 2 n − 1 n ) = ( 2 n − 1 ) ! n ! (n-1)!, {\displaystyle {\binom {2n-1}{n}}={\frac {(2n-1)!não!(n-1)!}}} diferentes exemplos, onde n é o tamanho do conjunto de dados. Assim, para n = 5, 10, 20, 30 há 126, 92378, 6,89 × 1010 e 5,91 × 1016 diferentes ressamples, respectivamente.

estimar a distribuição da média da amostra

considerar uma experiência de flipagem de moedas. Atiramos a moeda ao ar e gravamos se aterra cara ou Coroa. Deixe X = x1, x2,…, x10 ser 10 observações do experimento. xi = 1 Se o i-ésimo virar cabeças, e 0 de outra forma., A partir da teoria normal, podemos usar a estatística t para estimar a distribuição da média da amostra,

x = 1 10 (x 1 + x 2 + ⋯ + x 10 ) . {\displaystyle {\bar {x}}={\frac {1}{10}}(x_{1}+x_{2}+\cdots +x_{10}). em vez disso, usamos o bootstrap, especificamente a repetição de casos ,para derivar a distribuição do X {\displaystyle {\bar {x}}}. Primeiro, repetimos os dados para obter uma amostra de bootstrap. Um exemplo do primeiro resample pode se parecer com este X1 * = x2, x1, x10, x10, x3, x4, x6, x7, x1, x9. Existem algumas duplicações, uma vez que uma amostra de bootstrap vem da amostragem com a substituição dos dados., Também o número de pontos de dados em uma amostra de bootstrap é igual ao número de pontos de dados em nossas observações originais. Então calculamos a média deste novo exemplo e obtemos a primeira média de bootstrap: μ1*. Repetimos este processo para obter a segunda repetição X2* e computamos a segunda média de bootstrap μ2*. Se repetirmos isto 100 vezes, então teremos μ1*, μ2*,…, μ100*. Isto representa uma distribuição empírica de bootstrap da média da amostra. A partir desta distribuição empírica, pode-se derivar um intervalo de confiança bootstrap para o propósito de testar hipóteses.,

RegressionEdit

em problemas de regressão, a recolocação de casos refere – se ao esquema simples de recolocação de casos individuais-muitas vezes linhas de um conjunto de dados. Para problemas de regressão, enquanto o conjunto de dados é bastante grande, este esquema simples é muitas vezes aceitável. No entanto, o método é criticável.

em problemas de regressão, as variáveis explicativas são frequentemente fixas, ou pelo menos observadas com mais controlo do que a variável de resposta. Além disso, a gama das variáveis explicativas define a informação disponível a partir delas., Portanto, para repetir casos significa que cada amostra de bootstrap vai perder algumas informações. Como tal, devem ser considerados procedimentos de inicialização alternativos.

Bayesiana bootstrapEdit

Bom bootstrapEdit

f ^ h ( x ) = 1 n h ∑ i = 1 n K ( x − X i h ) , {\displaystyle {\hat {f}}_{h}(x)={1 \over nh}\sum _{i=1}^{n}K\left({x-X_{i} \over h}\right),} F ^ h ( x ) = ∫ − ∞ x f ^ h ( t ) d t . {\displaystyle {\hat {F}}_{h}(x)=\int _{-\infty }^{x}{\hat {f}}_{h}(t)\,dt.,}

bootstrapEdit paramétrico

Reampling residualsEdit

outra abordagem para a inicialização em problemas de regressão é a repetição dos resíduos. O método é o seguinte:

Este esquema tem a vantagem de manter a informação nas variáveis explicativas. No entanto, coloca-se a questão de saber quais os resíduos que devem ser reutilizados. Os resíduos brutos são uma opção; outra é os resíduos studentizados (em regressão linear)., Embora existam argumentos a favor da utilização de resíduos studentizados, na prática, muitas vezes faz pouca diferença e é fácil comparar os resultados de ambos os regimes.

Gaussian process regression bootstrapEdit

quando os dados estão temporariamente correlacionados, a inicialização direta destrói as correlações inerentes. Este método usa regressão de processo Gaussiano (GPR) para encaixar um modelo probabilístico a partir do qual replicados podem então ser desenhados. GPR é um método de regressão não-linear Bayesiana., Um processo Gaussiano (GP) é uma coleção de variáveis aleatórias, e qualquer número finito tem uma distribuição gaussiana conjunta (normal). Um GP é definido por uma função MÉDIA e uma função de covariância, que especificam os vetores médios e matrizes de covariância para cada coleção finita das variáveis aleatórias.

modelo de Regressão:

y ( x ) = f ( x ) + ε , ε ∼ N ( 0 , σ 2 ) , {\displaystyle y(x)=f(x)+\varepsilon ,\ \ \varepsilon \sim {\mathcal {N}}(0,\sigma ^{2}),} ε {\displaystyle \varepsilon } é um ruído prazo.

processo Gaussiano anterior:

Assume f ( x ) ∼ G P (m , k ) ., {\displaystyle f(x)\sim {\mathcal {GP}} (m,k).} Ent ao y ( x ) ∼ G P ( m , l ) {\displaystyle y(x)\sim {\mathcal {GP}}(m,l)} ,

Gaussian processo posterior:

de Acordo com o médico, podemos obter

∼ N ( m, 0 , K 0 ) {\displaystyle \sim {\mathcal {N}}(m_{0},K_{0})} ,

Deixe x1*,…,xs* ser outro finito coleção de variáveis, é óbvio que

⊺ ∼ N (m 0 m ∗ ) ( K 0 K ∗ K ∗ ⊺ K ∗ ∗ ) ) {\displaystyle ^{\intercal }\sim {\mathcal {N}}({\binom {m_{0}}{m_{*}}}{\begin{pmatrix}K_{0}&K_{*}\\K_{*}^{\intercal }&K_{**}\end{pmatrix}})} ,

de Acordo com as equações acima, as saídas y são conjuntamente distribuídas de acordo com um multivariada Gaussiana., Assim,

⊺ ∣ ( ⊺ = y ) ∼ N ( m post , K post ) , {\displaystyle ^{\intercal }\mid (^{\intercal }=y)\sim {\mathcal {N}}(m_{\text{post}},K_{\text{post}}),}

Selvagens bootstrapEdit

O wild bootstrap, inicialmente proposta por Wu (1986), é adequado quando o modelo apresenta heteroscedasticidade. A idéia é, como o bootstrap residual, deixar os regressores em seu valor de amostra, mas para repetir a variável de resposta com base nos valores residuais., Isto é, para cada repetição, um calcula um novo y {\displaystyle y} com base na

y i ∗ = y ^ i + ε ^ i v i {\displaystyle y_{i}^{*}={\widehat {y\,}}_{i}+{\widehat {\varepsilon \,}}_{i}v_{i}}

então, os resíduos são aleatoriamente multiplicado por uma variável aleatória v i {\displaystyle v_{i}} com média 0 e variância 1. Para a maioria das distribuições de v i {\displaystyle v_{i}} (mas não de Mammen), este método assume que a distribuição residual ‘verdadeira’ é simétrica e pode oferecer vantagens sobre a amostragem residual simples para pequenos tamanhos de amostra., Formas diferentes são utilizados para a variável aleatória v i {\displaystyle v_{i}} , como

  • A distribuição normal padrão
  • Uma distribuição sugerida por Mammen (1993).,

v i = { − ( 5 − 1 ) / 2 com probabilidade ( 5 + 1 ) / ( 2 5 ) , ( 5 + 1 ) / 2 com probabilidade ( 5 − 1 ) / ( 2 5 ) {\displaystyle v_{i}={\begin{cases}-({\sqrt {5}}-1)/2&{\text{com probabilidade }}({\sqrt {5}}+1)/(2{\sqrt {5}}),\\({\sqrt {5}}+1)/2&{\text{com probabilidade }}({\sqrt {5}}-1)/(2{\sqrt {5}})\end{cases}}} Aproximadamente, Mammen de distribuição é: v i = { − 0.6180 (com um 0 na das unidades) com probabilidade 0.7236 , + 1.6180 (com um 1 na das unidades) com probabilidade 0.2764. {\displaystyle v_{I}={\begin{cases}-0.,6180\quad {\text{(com um 0 na unidades lugar)}}&{\text{com probabilidade }}0.7236,\\+1.6180\quad {\text{(1 nas unidades place’)}}&{\text{com probabilidade }}0.2764.\end{cases}}}

  • ou a distribuição mais simples, ligada à distribuição de Rademacher:

v i = {−1 com probabilidade 1 / 2, + 1 com probabilidade 1 / 2. {\displaystyle v_{i}={\begin{cases}-1&{\text{com probabilidade }}1/2,\\+1&{\text{com probabilidade }}1/2.,\end{cases}}}

Block bootstrapEdit

The block bootstrap is used when the data, or the errors in a model, are correlated. Neste caso, um caso simples ou uma recolocação residual falhará, uma vez que não é capaz de replicar a correlação nos dados. O bootstrap do bloco tenta replicar a correlação através da recolocação dentro de blocos de dados. O Block bootstrap tem sido usado principalmente com dados correlacionados no tempo (ou seja, séries temporais), mas também pode ser usado com dados correlacionados no espaço, ou entre grupos (os chamados dados de cluster).,

Time series: Simple block bootstrapEdit

In The (simple) block bootstrap, the variable of interest is split into non-overlapping blocks.

séries de Tempo: Mover o bloco bootstrapEdit

o bloco em movimento bootstrap, introduzido pela Künsch (1989), os dados são divididos em n − b + 1 blocos sobrepostos de comprimento b: Observação 1 a-b bloco 1, observação 2 b + 1 bloco 2, etc. A partir destes blocos n-b + 1, os blocos n/b serão desenhados aleatoriamente com substituição. Em seguida, alinhando estes blocos n/b na ordem em que foram escolhidos, dará as observações bootstrap.,

Este bootstrap funciona com dados dependentes, no entanto, as observações Bootstrap não serão mais estacionárias por construção. Mas, foi mostrado que variando aleatoriamente o comprimento do bloco pode evitar este problema. This method is known as the stationary bootstrap. Outras modificações relacionadas do bootstrap de bloco em movimento são o Bootstrap Markoviano e um método de bootstrap estacionário que corresponde aos blocos subsequentes com base na correspondência de desvio padrão.,

Time series: Maximum entropy bootstrapEdit

Vinod (2006), presents a method that bootstraps time series data using maximum entropy principles satisfying the Ergodic theorem with mean-preserving and mass-preserving constraints. Há um pacote R, meboot, que utiliza o método, que tem aplicações em econometria e Ciência da computação.

Cluster data: block bootstrapEdit

Cluster data describes data where many observations per unit are observed. Isto poderia ser observar muitas empresas em muitos estados, ou observar estudantes em muitas classes., Em tais casos, a estrutura de correlação é simplificada, e geralmente se faz a suposição de que os dados estão correlacionados dentro de um grupo/cluster, mas independentes entre grupos/clusters. A estrutura do bootstrap do bloco é facilmente obtida (onde o bloco apenas corresponde ao grupo), e geralmente apenas os grupos são recolocados, enquanto as observações dentro dos grupos são deixadas inalteradas. Cameron et al. (2008) discusses this for clustered errors in linear regression.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *