Bootstrapping (statistics) (Italiano)

postato in: Articles | 0

Questa sezione include un elenco di riferimenti, letture correlate o collegamenti esterni, ma le sue fonti rimangono poco chiare perché manca di citazioni in linea. Si prega di contribuire a migliorare questa sezione introducendo citazioni più precise., (Giugno 2012) (Scopri come e quando rimuovere questo messaggio di modello)

Nei problemi univariati, di solito è accettabile ricampionare le singole osservazioni con la sostituzione (“caso ricampionamento” sotto) a differenza del sottocampionamento, in cui il ricampionamento è senza sostituzione ed è valido in condizioni molto più deboli rispetto al bootstrap. In piccoli campioni, un approccio bootstrap parametrico potrebbe essere preferito. Per altri problemi, sarà probabilmente preferito un bootstrap liscio.

Per problemi di regressione, sono disponibili varie altre alternative.,

Case resamplingEdit

Bootstrap è generalmente utile per stimare la distribuzione di una statistica (ad esempio media, varianza) senza usare la teoria normale (ad esempio z-statistic, t-statistic). Bootstrap è utile quando non esiste una forma analitica o una teoria normale per aiutare a stimare la distribuzione delle statistiche di interesse, poiché i metodi bootstrap possono applicarsi alla maggior parte delle quantità casuali, ad esempio il rapporto tra varianza e media. Esistono almeno due modi per eseguire il ricampionamento dei casi.

  1. L’algoritmo Monte Carlo per il ricampionamento dei casi è abbastanza semplice., Innanzitutto, ricampioniamo i dati con la sostituzione e la dimensione del ricampionamento deve essere uguale alla dimensione del set di dati originale. Quindi la statistica di interesse viene calcolata dal ricampionamento dal primo passaggio. Ripetiamo questa routine molte volte per ottenere una stima più precisa della distribuzione Bootstrap della statistica.
  2. La versione’ esatta ‘ per il ricampionamento dei casi è simile, ma enumeriamo in modo esaustivo ogni possibile ricampionamento del set di dati. Questo può essere computazionalmente costoso in quanto ci sono un totale di ( 2 n − 1 n) = (2 n − 1 ) ! n ! (n-1)!, il nostro sito utilizza cookie tecnici e di terze parti.!{n!(n-1)!}}} diversi ricampioni, dove n è la dimensione del set di dati. Quindi per n = 5, 10, 20, 30 ci sono rispettivamente 126, 92378, 6,89 × 1010 e 5,91 × 1016 diversi ricampioni.

Stimare la distribuzione del campione meanEdit

Considera un esperimento di lancio di monete. Lanciamo la moneta e registriamo se atterra testa o croce. Sia X = x1, x2,…, x10 10 osservazioni dall’esperimento. xi = 1 se l’i esimo flip atterra le teste e 0 altrimenti., Dalla teoria normale, possiamo usare t-statistica per stimare la distribuzione della media del campione,

x = 1 10 ( x 1 + x 2 + ⋯ + x 10 ) . Il nostro sito utilizza cookie tecnici e di terze parti per migliorare la tua esperienza di navigazione.}

Invece, usiamo bootstrap, in particolare il ricampionamento dei casi, per derivare la distribuzione di x {\displaystyle {\bar {x}}} . Per prima cosa ricampioniamo i dati per ottenere un ricampione bootstrap. Un esempio del primo resample potrebbe essere simile a questo X1 * = x2, x1, x10, x10, x3, x4, x6, x7, x1, x9. Ci sono alcuni duplicati poiché un ricampionamento bootstrap deriva dal campionamento con sostituzione dai dati., Anche il numero di punti dati in un ricampione bootstrap è uguale al numero di punti dati nelle nostre osservazioni originali. Quindi calcoliamo la media di questo ricampionamento e otteniamo la prima media di bootstrap: μ1*. Ripetiamo questo processo per ottenere il secondo ricampionamento X2* e calcolare la seconda media di bootstrap μ2*. Se ripetiamo questo 100 volte, allora abbiamo μ1*, μ2*,…, μ100*. Ciò rappresenta una distribuzione empirica di bootstrap della media del campione. Da questa distribuzione empirica, si può ricavare un intervallo di confidenza bootstrap ai fini del test di ipotesi.,

RegressionEdit

Nei problemi di regressione, il ricampionamento dei casi si riferisce al semplice schema di ricampionamento dei singoli casi, spesso righe di un set di dati. Per i problemi di regressione, finché il set di dati è abbastanza grande, questo semplice schema è spesso accettabile. Tuttavia, il metodo è aperto alle critiche.

Nei problemi di regressione, le variabili esplicative sono spesso fisse, o almeno osservate con più controllo rispetto alla variabile di risposta. Inoltre, l’intervallo delle variabili esplicative definisce le informazioni disponibili da esse., Pertanto, ricampionare i casi significa che ogni campione di bootstrap perderà alcune informazioni. Come tale, dovrebbero essere prese in considerazione procedure di bootstrap alternative.

bootstrapEdit bayesiano

bootstrapEdit liscio

f ^ h ( x ) = 1 n h = i=1 n K ( x − X i h ) , {\displaystyle {\hat {f\,}}_{h}(x)={1 \sopra nh}\somma _{i = 1}^{n}K\sinistra({x-X_{i} \sopra h}\destra),} F ^ h ( x) = ∫ − ∞ x f ^ h ( t ) d t . Il nostro sito utilizza cookie tecnici e di terze parti per migliorare la tua esperienza di navigazione.,}

Parametric bootstrapEdit

Ricampionamento residualsEdit

Un altro approccio al bootstrap nei problemi di regressione è quello di ricampionare i residui. Il metodo procede come segue.

Questo schema ha il vantaggio di conservare le informazioni nelle variabili esplicative. Tuttavia, sorge una domanda su quali residui ricampionare. I residui grezzi sono un’opzione; un altro è residui studentizzati (in regressione lineare)., Anche se ci sono argomenti a favore dell’utilizzo di residui studentizzati; in pratica, spesso fa poca differenza, ed è facile confrontare i risultati di entrambi i regimi.

Regressione del processo gaussiana bootstrapEdit

Quando i dati sono temporalmente correlati, il bootstrap diretto distrugge le correlazioni intrinseche. Questo metodo utilizza Gaussian Process Regression (GPR) per adattarsi a un modello probabilistico da cui possono essere tratte le repliche. GPR è un metodo di regressione non lineare bayesiano., Un processo gaussiano (GP) è una raccolta di variabili casuali, e qualsiasi numero finito di cui hanno una distribuzione comune gaussiana (normale). Un GP è definito da una funzione media e una funzione di covarianza, che specificano i vettori medi e le matrici di covarianza per ogni raccolta finita delle variabili casuali.

Modello di regressione:

y ( x ) = f ( x ) + ε , ε N N ( 0 , σ 2 ) , {\displaystyle y(x)=f(x)+\varepsilon ,\ \ \varepsilon \sim {\mathcal {N}}(0,\sigma ^{2}),} ε {\displaystyle \varepsilon } è un termine di rumore.

Processo gaussiano precedente:

Assumere f ( x) G G P ( m , k ) ., il nostro sito utilizza cookie tecnici e di terze parti.} Quindi y (x) G G P ( m , l) {\displaystyle y(x)\sim {\mathcal {GP}}(m,l)},

il processo gaussiano posteriore:

Secondo GP prior, possiamo ottenere

N N ( m 0 , K 0) {\displaystyle \sim {\mathcal {N}}(m_{0},K_{0})},

Sia x1*,…,,xs* essere un’altra finiti insieme di variabili, è ovvio che

⊺ ∼ N ( ( m 0 m ∗ ) ( K 0 K ∗ K ∗ ⊺ K ∗ ∗ ) ) {\displaystyle ^{\intercal }\sim {\mathcal {N}}({\binom {m_{0}}{m_{*}}}{\begin{pmatrix}K_{0}&K_{*}\\K_{*}^{\intercal }&K_{**}\end{pmatrix}})} ,

Secondo le equazioni di cui sopra, le uscite y sono anche congiuntamente distribuiti secondo una Gaussiana multivariata., Così,

⊺ ∣ ( ⊺ = y ) ∼ N ( m posta , K post) {\displaystyle ^{\intercal }\mid (^{\intercal }=y)\sim {\mathcal {N}}(m_{\text{post}},K_{\text{post}}),}

Wild bootstrapEdit

Il selvaggio bootstrap, proposto originariamente da Wu (1986), è indicato quando il modello presenta eteroschedasticità. L’idea è, come il bootstrap residuo, di lasciare i regressori al loro valore di esempio, ma di ricampionare la variabile di risposta in base ai valori dei residui., Che è, per ciascuna replica, uno calcola un nuovo y {\displaystyle y} basato su

y i ∗ = y ^ i + ε ^ i v i {\displaystyle y_{i}^{*}={\widehat {y\,}}_{i}+{\widehat {\varepsilon \,}}_{i}v_{i}}

in modo che i residui sono casualmente, moltiplicato per una variabile casuale v i {\displaystyle v_{i}} con media 0 e varianza 1. Per la maggior parte delle distribuzioni di v i {\displaystyle v_ {i}} (ma non di Mammen), questo metodo presuppone che la distribuzione residua “vera” sia simmetrica e possa offrire vantaggi rispetto al semplice campionamento residuo per campioni di dimensioni più piccole., Diverse forme sono usate per la variabile casuale v i {\displaystyle v_ {i}}, come

  • La distribuzione normale standard
  • Una distribuzione suggerita da Mammen (1993).,

v i = { − ( 5 − 1 ) / 2 con probabilità ( 5 + 1 ) / ( 2 5 ) , ( 5 + 1 ) / 2 con probabilità ( 5 − 1 ) / ( 2 5 ) {\displaystyle v_{i}={\begin{casi}-({\sqrt {5}}-1)/2&{\text{con probabilità }}({\sqrt {5}}+1)/(2{\sqrt {5}}),\\({\sqrt {5}}+1)/2&{\text{con probabilità }}({\sqrt {5}}-1)/(2{\sqrt {5}})\end{casi}}} Circa, Mammen di distribuzione è: v i = { − 0.6180 (0 nell’unità di luogo) con probabilità 0.7236 , + 1.6180 (con un 1 in unità di luogo) con probabilità 0.2764. {\displaystyle v_{i}={\begin {cases}-0.,6180 \ quad {\text {(con uno 0 al posto delle unità)}}&{\text{con probabilità }}0.7236,\\+1.6180\quad {\text{(con un 1 al posto delle unità)}}&{\text{con probabilità }}0.2764.\ end {cases}}}

  • O la distribuzione più semplice, legata alla distribuzione di Rademacher:

v i = {- 1 con probabilità 1 / 2, + 1 con probabilità 1 / 2. {\displaystyle v_{i}={\begin {cases}-1 &{\text{with probability }}1/2,\\+1&{\text{with probability }}1/2.,\ end {cases}}}

Blocco bootstrapEdit

Il blocco bootstrap viene utilizzato quando i dati, o gli errori in un modello, sono correlati. In questo caso, un caso semplice o un ricampionamento residuo fallirà, poiché non è in grado di replicare la correlazione nei dati. Il bootstrap del blocco tenta di replicare la correlazione ricampionando all’interno di blocchi di dati. Il bootstrap a blocchi è stato utilizzato principalmente con dati correlati nel tempo (cioè serie temporali) ma può essere utilizzato anche con dati correlati nello spazio o tra gruppi (i cosiddetti dati cluster).,

Serie temporali: Blocco semplice bootstrapEdit

Nel (semplice) blocco bootstrap, la variabile di interesse è divisa in blocchi non sovrapposti.

Serie temporali: Moving block bootstrapEdit

Nel moving block bootstrap, introdotto da Künsch (1989), i dati sono suddivisi in n − b + 1 blocchi sovrapposti di lunghezza b: l’osservazione da 1 a b sarà il blocco 1, l’osservazione da 2 a b + 1 sarà il blocco 2, ecc. Quindi da questi blocchi nb + 1, i blocchi n / b verranno estratti a caso con la sostituzione. Quindi allineare questi blocchi n / b nell’ordine in cui sono stati raccolti, darà le osservazioni di bootstrap.,

Questo bootstrap funziona con dati dipendenti, tuttavia, le osservazioni bootstrap non saranno più stazionarie per costruzione. Ma, è stato dimostrato che variando casualmente la lunghezza del blocco può evitare questo problema. Questo metodo è noto come bootstrap stazionario. Altre modifiche correlate del bootstrap a blocchi mobili sono il bootstrap di Markovian e un metodo bootstrap stazionario che corrisponde ai blocchi successivi in base alla corrispondenza della deviazione standard.,

Time series: Maximum entropy bootstrapEdit

Vinod (2006), presenta un metodo che avvia i dati delle serie temporali utilizzando i principi di massima entropia che soddisfano il teorema ergodico con vincoli di conservazione della media e di conservazione della massa. C’è un pacchetto R, meboot, che utilizza il metodo, che ha applicazioni in econometria e informatica.

Dati cluster: blocco bootstrapEdit

I dati cluster descrivono i dati in cui vengono osservate molte osservazioni per unità. Questo potrebbe essere osservando molte aziende in molti stati, o osservando gli studenti in molte classi., In questi casi, la struttura di correlazione è semplificata e di solito si presume che i dati siano correlati all’interno di un gruppo/cluster, ma indipendenti tra gruppi/cluster. La struttura del blocco bootstrap è facilmente ottenibile (dove il blocco corrisponde solo al gruppo), e di solito solo i gruppi vengono ricampionati, mentre le osservazioni all’interno dei gruppi vengono lasciate invariate. Cameron et al. (2008) discute questo per gli errori raggruppati nella regressione lineare.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *