Bootstrapping (statistics) (Română)

posted in: Articles | 0

această secțiune include o listă de referințe, lecturi conexe sau legături externe, dar sursele sale rămân neclare, deoarece nu au citări inline. Vă rugăm să ajutați la îmbunătățirea acestei secțiuni prin introducerea unor citări mai precise., (Iunie 2012) (a Învăța cum și când să elimina acest șablon de mesaj)

În larg de probleme, de obicei, este acceptabil să resample individuale observații cu înlocuire („caz, re-eșantionarea” de mai jos), spre deosebire de subsampling, în care re-eșantionarea este fără înlocuire și este valabil în mult mai slabe condiții, comparativ cu bootstrap. În eșantioane mici, ar putea fi preferată o abordare parametrică bootstrap. Pentru alte probleme, probabil va fi preferat un bootstrap neted.

pentru problemele de regresie, sunt disponibile diverse alte alternative.,

caz resamplingEdit

Bootstrap este, în general, util pentru estimarea distribuției unei statistici (de exemplu, medie, varianță) fără a utiliza teoria normală (de exemplu, z-statistică, t-statistică). Bootstrap vine la îndemână atunci când nu există o formă analitică sau o teorie normală care să ajute la estimarea distribuției statisticilor de interes, deoarece metodele bootstrap se pot aplica majorității cantităților aleatorii, de exemplu, raportul dintre varianță și medie. Există cel puțin două moduri de a efectua reeșantionarea cazurilor.algoritmul Monte Carlo pentru reeșantionarea cazurilor este destul de simplu., În primul rând, reeșantionăm datele cu înlocuire, iar dimensiunea reeșantionului trebuie să fie egală cu dimensiunea setului original de date. Apoi statistica de interes este calculat din reeșantion din primul pas. Repetăm această rutină de multe ori pentru a obține o estimare mai precisă a distribuției Bootstrap a statisticii.

  • versiunea „exactă” pentru reeșantionarea cazurilor este similară, dar enumerăm în mod exhaustiv fiecare reeșantion posibil al setului de date. Aceasta poate fi costisitoare din punct de vedere computațional, deoarece există un total de ( 2 n − 1 n ) = ( 2 n − 1 ) ! n ! (n-1)!, {\displaystyle {\binom {2n-1}{n}}={\frac {(2n-1)!{n!(n-1)!}}} diferite resamples, unde n este dimensiunea setului de date. Astfel, pentru n = 5, 10, 20, 30 există 126, 92378, 6.89 × 1010 și 5.91 × 1016 diferite resamples respectiv.
  • estimarea distribuției eșantionului meaned

    luați în considerare un experiment de răsturnare a monedelor. Răsturnăm moneda și înregistrăm dacă aterizează capete sau cozi. Fie X = x1, x2, …, x10 10 observații din experiment. xi = 1 în cazul în care i-lea flip terenuri capete, și 0 în caz contrar., Din teoria normală, putem folosi statistica t pentru a estima distribuția mediei eșantionului,

    x = 1 10 (x 1 + x 2 + ⋯ + x 10 ) . {\displaystyle {\bar {x}}={\frac {1}{10}}(x_{1}+x_{2}+\cdots +x_{10}).}

    în schimb, folosim bootstrap, în special resampling case, pentru a obține distribuția lui x {\displaystyle {\bar {X}}} . Mai întâi reeșantionăm datele pentru a obține o reeșantionare bootstrap. Un exemplu de prima reeșantionare ar putea arata ca acest X1 * = x2, x1, x10, x10, x3, x4, x6, x7, x1, x9. Există unele duplicate, deoarece o reeșantionare bootstrap provine din eșantionarea cu înlocuirea datelor., De asemenea, numărul de puncte de date dintr-un reeșantion bootstrap este egal cu numărul de puncte de date din observațiile noastre originale. Apoi calculăm media acestui reeșantion și obținem prima medie bootstrap: μ1*. Repetăm acest proces pentru a obține al doilea eșantion X2* și a calcula a doua medie Bootstrap μ2*. Dacă repetăm acest lucru de 100 de ori, atunci avem μ1*, μ2*, …, μ100*. Aceasta reprezintă o distribuție empirică bootstrap a mediei eșantionului. Din această distribuție empirică, se poate obține un interval de încredere bootstrap în scopul testării ipotezelor.,

    Regresieedit

    în problemele de regresie, reeșantionarea cazurilor se referă la schema simplă de reeșantionare a cazurilor individuale – adesea rânduri ale unui set de date. Pentru problemele de regresie, atâta timp cât setul de date este destul de mare, această schemă simplă este adesea acceptabilă. Cu toate acestea, metoda este deschisă criticilor.

    în problemele de regresie, variabilele explicative sunt adesea fixate sau cel puțin observate cu mai mult control decât variabila de răspuns. De asemenea, gama variabilelor explicative definește informațiile disponibile de la acestea., Prin urmare, pentru a reeșantiona cazuri înseamnă că fiecare eșantion bootstrap va pierde unele informații. Ca atare, ar trebui luate în considerare proceduri alternative de bootstrap.

    Bayesian bootstrapEdit

    Buna bootstrapEdit

    f ^ h ( x ) = 1 n h ∑ i = 1 n K ( x − X i h ) , {\displaystyle {\hat {f\,}}_{h}(x)={1 \over nh}\sum _{i=1}^{n}K\left({x-X_{i} \pe h}\dreapta),} F ^ h ( x ) = ∫ − ∞ x f ^ h ( t ) d t . {\displaystyle {\hat {F\,}}_{h}(x)=\int _{-\infty }^{x}{\hat {f}}_{h}(t)\,dt.,}

    Bootstrapedit Parametric

    reeșantionarea reziduurilor editate

    o altă abordare a bootstrapping-ului în problemele de regresie este reeșantionarea reziduurilor. Metoda se desfășoară după cum urmează.această schemă are avantajul că păstrează informațiile în variabilele explicative. Cu toate acestea, se pune întrebarea cu privire la reziduurile care trebuie reeșantionate. Reziduurile brute sunt o opțiune; alta este reziduurile studentizate (în regresie liniară)., Deși există argumente în favoarea utilizării reziduurilor studentizate; în practică, adesea face o diferență mică și este ușor să se compare rezultatele ambelor scheme.

    Gaussian proces regresie bootstrapEdit

    când datele sunt corelate temporal, bootstrapping simplă distruge corelațiile inerente. Această metodă utilizează regresia procesului Gaussian (GPR) pentru a se potrivi unui model probabilistic din care pot fi trase apoi replicate. GPR este o metodă de regresie neliniară Bayesiană., Un proces Gaussian (GP) este o colecție de variabile aleatoare, și orice număr finit de care au o distribuție comună Gaussian (normal). Un GP este definit printr-o funcție medie și o funcție de covarianță, care specifică vectorii medii și matricile de covarianță pentru fiecare colecție finită a variabilelor aleatorii.

    model de Regresie:

    y ( x ) = f ( x ) + ε , ε ∼ N ( 0 , σ 2 ) , {\displaystyle y(x)=f(x)+\varepsilon ,\ \ \varepsilon \sim {\mathcal {N}}(0,\sigma ^{2}),} ε {\displaystyle \varepsilon } este un zgomot pe termen lung.

    procesul Gaussian anterior:

    presupunem f ( x ) ∼ G P (M , k ) ., {\displaystyle f(x)\sim {\mathcal {GP}}(m,k).} Atunci y ( x ) ∼ G P ( m , l ) {\displaystyle y(x)\sim {\mathcal {GP}}(m,l)} ,

    Gaussian procesul posterior:

    în Conformitate cu GP înainte, putem obține

    ∼ N ( m 0 , K 0 ) {\displaystyle \sim {\mathcal {N}}(m_{0},K_{0})} ,

    Să x1*,…,,xs* să fie o altă colecție finită de variabile, este evident că

    ⊺ ∼ N ( ( m 0 m ∗ ) ( K 0 K ∗ K ∗ ⊺ K ∗ ∗ ) ) {\displaystyle ^{\intercal }\sim {\mathcal {N}}({\binom {m_{0}}{m_{*}}}{\begin{pmatrix}K_{0}&K_{*}\\K_{*}^{\intercal }&K_{**}\end{pmatrix}})} ,

    în ecuațiile de mai sus, ieșirile y sunt, de asemenea, în comun distribuite conform unui multivariată Gaussian., Astfel,

    ⊺ ∣ ( ⊺ = y ) ∼ N ( m post , K post ) , {\displaystyle ^{\intercal }\mid (^{\intercal }=y)\sim {\mathcal {N}}(m_{\text{post}},K_{\text{post}}),}

    Sălbatice bootstrapEdit

    wild bootstrap, propus inițial de către Wu (1986), este potrivit atunci când modelul exponate heteroscedasticitate. Ideea este, ca și bootstrap-ul rezidual, să lase regresorii la valoarea eșantionului lor, dar să reeșantioneze variabila de răspuns pe baza valorilor reziduale., Asta este, pentru fiecare replica, se va calcula un nou y {\displaystyle y} pe baza

    y m ∗ = y ^ i + ε ^ i v i {\displaystyle y_{i}^{*}={\widehat {y\,}}_{i}+{\widehat {\varepsilon \,}}_{i}v_{i}}

    astfel, reziduurile sunt la întâmplare, înmulțită cu o variabilă aleatoare v i {\displaystyle v_{i}}, cu media 0 și varianța 1. Pentru cele mai multe distribuții de v i {\displaystyle v_{i}} (dar nu Mammen e), această metodă presupune că „adevărat” rezidual de distribuție este simetrică și poate oferi avantaje față de simplu reziduale de prelevare de mostre mai mici dimensiuni., Diferite forme sunt folosite pentru variabila aleatoare v i {\displaystyle v_{i}} , cum ar fi

    • standard a distribuției normale
    • O distribuție a sugerat de către Mammen (1993).,

    v i = { − ( 5 − 1 ) / 2 cu o probabilitate de ( 5 + 1 ) / ( 2 5 ) , ( 5 + 1 ) / 2 cu o probabilitate de ( 5 − 1 ) / ( 2 5 ) {\displaystyle v_{i}={\begin{cazuri}-({\sqrt {5}}-1)/2&{\text{cu probabilitatea }}({\sqrt {5}}+1)/(2{\sqrt {5}}),\\({\sqrt {5}}+1)/2&{\text{cu probabilitatea }}({\sqrt {5}}-1)/(2{\sqrt {5}})\end{cazuri}}} Aproximativ, Mammen de distribuție este: v i = { − 0.6180 (cu un 0 în unități de loc) cu probabilitatea 0.7236 , + 1.6180 (cu un 1 în unități de loc) cu probabilitatea 0.2764. {\displaystyle v_{i}={\begin{case}-0.,6180\quad {\text{(cu un 0 în unități de loc)}}&{\text{cu probabilitatea }}0.7236,\\+1.6180\quad {\text{(cu un 1 în unități de loc)}}&{\text{cu probabilitatea }}0.2764.\end{Case}}}

    • sau distribuția mai simplă, legată de distribuția Rademacher:

    v i = { − 1 cu probabilitatea 1 / 2 , + 1 cu probabilitatea 1 / 2. {\displaystyle v_{i}={\begin{cazuri}-1&{\text{cu probabilitatea }}1/2,\\+1&{\text{cu probabilitatea }}1/2.,\ end{case}}}

    bloc bootstrapEdit

    bloc bootstrap este utilizat atunci când datele, sau erorile dintr-un model, sunt corelate. În acest caz, un caz simplu sau reeșantionare reziduală va eșua, deoarece nu este capabil să reproducă corelația în date. Blocul bootstrap încearcă să reproducă corelația prin reeșantionarea în interiorul blocurilor de date. Blocul bootstrap a fost folosit în principal cu date corelate în timp (adică serii de timp), dar poate fi folosit și cu date corelate în spațiu sau între grupuri (așa-numitele date cluster).,

    serii de timp: simplu bloc bootstrapEdit

    în (simplu) bloc bootstrap, variabila de interes este împărțită în blocuri care nu se suprapun.

    serii de Timp: Mutarea bloc bootstrapEdit

    În mișcare bloc bootstrap, introdus de Künsch (1989), de date este împărțită în n − b + 1 se suprapun blocuri de lungime b: Observare 1 la b va fi bloc 1, observare 2 a b + 1 va fi bloc 2, etc. Apoi, din aceste blocuri n − b + 1, blocurile n/b vor fi trase la întâmplare cu înlocuire. Apoi alinierea acestor blocuri n / b în ordinea în care au fost alese, va da observațiile bootstrap.,

    acest bootstrap funcționează cu date dependente, cu toate acestea, observațiile bootstrapped nu vor mai fi staționare prin construcție. Dar, sa demonstrat că variația aleatorie a lungimii blocului poate evita această problemă. Această metodă este cunoscută sub numele de bootstrap staționar. Alte modificări legate de bootstrap bloc în mișcare sunt Bootstrap Markovian și o metodă bootstrap staționară care se potrivește blocuri ulterioare bazate pe potrivire deviație standard.,

    Time series: entropia maximă bootstrapEdit

    Vinod (2006), prezintă o metodă care bootstraps date serii de timp folosind principii de entropie maximă satisface teorema ergodică cu constrângeri de conservare medie și de conservare în masă. Există un pachet R, meboot, care utilizează metoda, care are aplicații în econometrie și Informatică.

    date Cluster: bloc bootstrapEdit

    date Cluster descrie date în cazul în care sunt observate mai multe observații pe unitate. Acest lucru ar putea fi observarea multor firme din multe state sau observarea studenților în multe clase., În astfel de cazuri, structura de corelație este simplificată și, de obicei, se presupune că datele sunt corelate într-un grup/cluster, dar independente între grupuri/clustere. Structura blocului bootstrap este ușor de obținut (unde blocul corespunde doar grupului) și, de obicei, numai grupurile sunt reeșantionate, în timp ce observațiile din cadrul grupurilor sunt lăsate neschimbate. Cameron și colab. (2008) discută acest lucru pentru erorile grupate în regresia liniară.

    Lasă un răspuns

    Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *