Construirea de SILVA derivate copac
în Timp ce originalul SILVA copac este bine întreținută din punct de vedere taxonomic, cea mai mare parte este menit să fie folosit ca un ghid de copac, și re-calcul de ramură lungimi de obicei, este recomandat pentru aval analize filogenetice ., Aici, pentru a construi un arbore filogenetic cu lungimi de ramură mai semnificative folosind OTUs în baza de date SILVA non-redundant (nr99) 16S (versiunea 128; ), am procedat după cum urmează. Secvențele SSU reprezentative aliniate în SILVA au fost reduse eliminând mai întâi pozițiile nucleotidelor cu >95% goluri și apoi eliminând primele 5% cele mai multe poziții nucleotidice entropice. Taxonomic identități oferit de SILVA pentru OTUs în domeniu, încrengătura, și la nivel de clasă au fost folosite pentru a crea split constrângeri pentru FastTree , prin constrângere fiecare taxon să fie pe o singură parte de o ruptură și monofiletic., Taxonii cu mai puțin de 10 Otu au fost omiși din constrângeri. Astfel, au fost definite Un total de 354 de constrângeri. Utilizând din punct de vedere taxonomic generate de constrângeri și de a lua original SILVA copac ca incepand de copac, ne-am construit un arbore filogenetic de redus aliniamente cu FastTree v2.1.10 (opțiuni „-spr 4 -gamma -mai rapid -no2nd -constraintWeight 100”). Arborele filogenetic a fost redirecționat astfel încât bacteriile și arhaea să fie împărțite la rădăcină. Arborele nostru derivat din SILVA este furnizat ca fișier suplimentar 2., Pentru toate analizele din aval, cloroplastele, mitocondriile și eucariotele au fost omise din copac. În articolul principal, descriem analizele noastre folosind acest arbore derivat din SILVA (Fig. 1); rezultate similare pentru arborele SILVA original sunt prezentate în fișierul suplimentar 1: Figura S1.distribuția filogenetică a 16S GCNs pentru a examina modul în care 16S GCNs sunt distribuite filogenetic și pentru a evalua predictibilitatea lor generală folosind diferite metode filogenetice, am procedat după cum urmează., Un total de 8,767 adnotat bacteriene și archaeal genomuri cu stare de finalizare „Genom” au fost descărcate din baza de date NCBI RefSeq baza de date pe 4 ianuarie 2018. Descărcat genomuri au fost verificate pentru potențialul de contaminare, folosind checkM 1.0.6 (opțiunea „reduced_tree”), care se bazează pe detectarea conservate de gene marker (de asamblare și checkM rezumate în fișier Suplimentar 3). Genomul prezintă o contaminare la nivel mai sus de 1% sau o tulpina eterogenitatea peste 1% au fost aruncate, lăsându-ne cu 6,868 complet genomul pentru analiză în aval (fișier Suplimentar 4).,
pentru fiecare genom, 16S GCNs au fost determinate folosind două abordări: în primul rând, am numărat numărul de secvențe adnotate 16S rRNA în adnotările NCBI (fișiere arna_from_genomic.fna). Al doilea, ne-am folosit de covarianță modele cu program cmsearch (ca parte a INFERNALE versiunea 1.1.2, opțiuni „–noali –cut_nc”) pentru a căuta pentru arnr 16S secvențe în cadrul asamblate genomuri (fișiere genomice.fna). Separat de covarianță modele pentru archaeal și bacteriană gene pentru arnr 16S au fost obținute de la Rfam baza de date (aderări RF00177 și RF01959)., Un tabel care listează GCNs calculat folosind ambele metode este furnizat ca fișier suplimentar 5. Numai genomul pentru care cele două metode a dat același 16S GCNs au fost luate în considerare pentru analiza ulterioară, cedare 16 GCNs pentru 6,780 genomuri („de înaltă calitate genomuri,” Suplimentare de fișiere 6). Precizia acestor GCNs a fost ulterior verificate prin compararea a ARN ribosomal Operon Copia Numărul de baze de Date (rrnDB, accesat la 7 iunie 2017; ) ori de câte ori un genom de asamblare de aderare a fost prezent în rrnDB (rrnDB atributul „sursă de Date record id”)., Peste 5,616 de înaltă calitate genomul testat, am găsit-o aproape-perfect de acord cu rrnDB (R2>0.999; Suplimentare de fișiere 1: Figura S2). rezumatele de calitate checkM pentru setul genomului de înaltă calitate sunt furnizate ca fișier suplimentar 7.
sfaturi despre arborele derivat SILVA au fost mapate la genomi de înaltă calitate, ori de câte ori este posibil, după cum urmează: în primul rând, secvențele reprezentative 16S ale SILVA OTUs au fost aliniate la cea mai lungă secvență 16S rRNA din fiecare genom folosind vsearch 2.3.,4 la maxim (100%) similitudine (vsearch opțiuni „–strand ambele-usearch_global –maxaccepts 0 –top_hits_only –iddef 0 –id 1.0”). Dacă un OTU aliniat la mai multe genomuri, toate genomurile au fost păstrate inițial. Apoi, pentru fiecare pereche Otu-genom aliniată, am comparat ID-ul taxonului NCBI („taxid”) al OTU cu cel al genomului. Taxidele OTU au fost obținute dintr-un tabel de căutare furnizat de SILVA (https://www.arb-silva.de/fileadmin/silva_databases/release_128/Exports/taxonomy/taxmap_embl_ssu_ref_128.txt.gz). Genomul taxids au fost obținute din tabelele de căutare oferite de NCBI (ftp://ftp.ncbi.nlm.nih.gov/genomes/genbank/*/assembly_summary.txt, unde „*” este fie „bacterii” sau „archaea”)., Orice pereche OTU-genom aliniată cu taxide ne-identice a fost omisă. Dintre perechile OTU-genom rămase cu taxide identice, am păstrat doar primul genom aliniat pentru fiecare OTU. Un total de 9,395 OTUs ar putea fi astfel mapat la unul dintre genomi. Pentru fiecare OTU mapat, am presupus un GCN egal cu GCN numărat pentru genomul corespunzător. Pentru toate celelalte Otu, am presupus un GCN necunoscut.toate analizele filogenetice au fost efectuate folosind pachetul r castor, disponibil la Comprehensive R Archive Network (CRAN). Nstd-uri pentru toate sfaturile cu privire la sfaturi mapate la un genom secvențiat (Fig., 1B) au fost calculate folosind funcția castor find_nearest_tips. Funcția de autocorelație filogenetică (ACF) a GCN-urilor 16S cunoscute în arborele derivat SILVA (Fig. 1a) a fost calculat în funcție de ricin get_trait_acf bazat pe 108 sfat perechi (opțiuni „Npairs=1e8, Nbins=100”), alese la întâmplare printre sfaturi cunoscuți cu GCN. Funcția get_trait_acf alege aleatoriu perechi OTU pe copac, le pubele într-una din mai multe intervale de distanță filogenetice, și calculează autocorelația Pearson între GCNs perechilor OTU în fiecare coș., Rețineți că această analiză nu presupune că scala GCNs liniar cu distanța filogenetică. În schimb, ACF măsoară doar corelația statistică dintre GCNs pe vârfuri distincte, condiționată de faptul că vârfurile se află într-o anumită distanță filogenetică una de cealaltă.,
GCNs au fost reconstruite pe SILVA-derivate copac folosind Cherep maximă parcimonie (funcția hsp_max_parsimony, cu opțiune transition_costs fie setat la „exponențială,” „proporțională”, sau „all_equal”), filogenetic independent contraste (funcția hsp_independent_contrasts), ponderate-squared-schimba parcimonie (funcția hsp_squared_change_parsimony), subarborele medie (funcția hsp_subtree_averaging), și maxim-risc de Mk modele cu rerooting (funcția hsp_mk_model_rerooting cu opțiuni root_prior=’empirice’, optimization_algorithm=’nlminb’, Ntrials=5, rate_model= „ER”).,
pentru a calcula fracțiunea încrucișată validată a varianței prezisă de (aka. coeficient de determinare încrucișat al) fiecărei metode (\(R^{2} _ {\text {cv}}\);) în funcție de NSTD (Fig. 1c), am procedat după cum urmează. Am ales aleatoriu 2% din vârfurile cu 16S GCN cunoscute pentru a fi excluse de la intrare la Reconstrucții și pentru a fi utilizate ulterior ca un „set de testare” independent. În funcție de limita NSTD luată în considerare (de exemplu, substituții de 10% pe site), am exclus, de asemenea, toate vârfurile a căror distanță filogenetică față de setul de testare era sub limita nstd., Sfaturi rămase cu cunoscut GCNs („set”) au fost folosite ca date de intrare pentru reconstrucții și GCNs prezis pentru setul de testare au fost apoi comparate cu cele cunoscute GCNs din setul de testare. Acest proces a fost repetat de trei ori și R2 rezultat a fost mediat pe toate repetările, rezultând un \(R^{2}_{\text {cv}}\) pentru fiecare cutoff nstd considerat. Scriptul R pentru analiza și reconstruirea 16S GCNs peste arborele derivat SILVA este disponibil ca fișier suplimentar 8. Pentru comparație, toate analizele de mai sus au fost, de asemenea, efectuate folosind arborele original SILVA guide (fișier suplimentar 1: Figura S1).,pentru a testa precizia predictivă a copyright , PICRUSt și PAPRICA pentru genomii cu GCN cunoscute , am comparat predicțiile lor cu GCNs numărate în genomurile secvențiate (de înaltă calitate). Pentru a evalua acuratețea predictivă de CopyRighter pe genomuri, am procedat după cum urmează: prima dată descărcat precalculate tabel de căutare listare CopyRighter previziunile pentru Greengenes pentru arnr 16S bază de date (presă octombrie 2012, „GG2012”; ), de la proiectul Github pe 6 iunie, 2017 (v0.,46): https://github.com/fangly/AmpliCopyRighter (CopyRighter-0.46/date/201210/ssu_img40_gg201210.txt). Apoi am aliniat cel mai lung pentru arnr 16S secvență de fiecare genom pentru a OTUs (grupate în 99% similitudine) în Greengenes baza de date folosind vsearch (vsearch opțiuni „–strand ambele-usearch_global –maxhits 1 –maxaccepts 10 –top_hits_only”), alege întotdeauna cel mai bun meci în Greengenes și păstrând doar genomul că mapat la un Greengenes de intrare de cel puțin 99% similitudine (5688 genomul mapate)., Pentru fiecare genom mapat, am luat GCN prezis de copyright pentru intrarea corespunzătoare a Greengenes ca predicție a copyright pentru genom. Această predicție a fost apoi comparată cu GCN numărate din secvența genomului. O histogramă de CopyRighter previziunile pe cartografiat genomul este prezentată în fișier Suplimentar 1: Figura S4B. Predictive precizie de Publicist a fost măsurată în funcție de fracția de varianța explicată (R2), ca o funcție a unui genom este NSTD (Fig. 1a). Nstd de genomi au fost calculate așa cum este descris într-o secțiune separată de mai jos.,
O abordare similară a fost utilizată pentru PICRUSt : La precalculate tabel de căutare listare PICRUSt previziunile pentru Greengenes bază de date (presă Mai 2013; „GG2013”) a fost descărcat de pe site-ul proiectului, pe 6 iunie 2017 (v1.1.1): https://picrust.github.io/picrust/picrust_precalculated_files.html(16S_13_5_precalculated.tab.GZ). Un total de 5,708 genomi de înaltă calitate ar putea fi mapate la un OTU (99% similitudine) în GG2013. O histogramă de PICRUSt previziunile pe toate cartografiat genomul este prezentată în fișier Suplimentar 1: Figura S4C. Predictive precizie de PICRUSt a fost măsurată în termeni de R2 în funcție de un genom e NSTD (Fig., 1b), similar cu Copyright.
Pentru a evalua acuratețea predictivă de PAPRICA pe genomuri, am procedat după cum urmează: prima dată descărcat și instalat PAPRICA la proiectul Github pe 6 iunie, 2017 (v0.4.0 b): https://github.com/bowmanjeffs/paprica. Această versiune include precalculate referință copaci (unul pentru archaea și unul pentru bacterii) și tabele de listare 16 GCNs pentru calibrare genomul reprezentate în referință copaci. Am folosit cea mai lungă secvență rRNA 16S din fiecare genom ca intrare în conducta PAPRICA (comanda „paprica-run.sh”), separat pentru arhaea și bacterii., Conducta produce, printre altele, un tabel care enumeră abundența necorectată a fiecărei secvențe de intrare unice (aceasta poate fi mai mare decât 1 dacă mai mulți genomi împărtășesc aceeași secvență rRNA 16S) și abundența corectată corespunzătoare (după împărțirea la gCn 16S prezis). Am folosit acest tabel pentru a obține 16 GCNs prezis de PAPRICA unica de 16 secvențe (reprezentând 3473 16 secvențe), prin împărțirea necorectate de corectat abundență. Am comparat apoi aceste prezis GCNs la GCNs numărate în secvențe genomice, la fel ca mai sus., O histogramă a predicțiilor lui PAPRICA pentru toate genomurile reprezentate este prezentată în fișierul suplimentar 1: Figura S4D. precizia predictivă a PAPRICA a fost măsurată în termeni de R2 ca funcție a NSTD a genomului (Fig. 1a), similar cu Copyright.
Compararea a 3-a parte GCN instrumente de predicție peste Greengenes
Pentru a compara previziunile de CopyRighter celor de PICRUSt peste toate OTUs în Greengenes (Fig. 3a), am cartografiat mai întâi toate OTUs în GG2013 la OTUs în GG2012 folosind vsearch (cu opțiuni „–strand both –usearch_global”)., Am păstrat doar meciurile la similitudinea 100% (153,375 din 203,452 OTUs în GG2013). Pentru fiecare OTU mapat în GG2013, am comparat GCN corespunzător prezis de PICRUSt cu GCN prezis de copyright pentru OTU potrivit în GG2012. Pentru a calcula distribuția frecvenței GCNs prezis de Publicist și PICRUSt peste toate OTUs în Greengenes (histograme în fișier Suplimentar 1: Figura S3A,B), am folosit GCNs enumerate în precalculate tabele de căutare.
pentru a compara PAPRICA cu Picrustul pe Verde (Fig., 3B), am procedat după cum urmează: secvențele reprezentative ale OTUs în GG2013 au fost împărțite în secvențe arhaeale și bacteriene. Fiecare fișier fasta rezultat a fost folosit ca intrare la conducta PAPRICA pentru a prezice GCN 16S corespunzător, așa cum este descris mai sus pentru genomi. Acest lucru a dat un GCN prezis pentru toate intrările Greengenes. Aceste predicții au fost comparate cu valorile PRECOMPUTATE GCN furnizate de PICRUSt. Aceste predicții au fost, de asemenea, utilizate pentru a calcula distribuția frecvenței GCNs prezisă de PAPRICA pe Greengene (fișier suplimentar 1: Figura S3C). Pentru a compara drepturile de autor cu PAPRICA (Fig., 3c), am procedat așa cum este descris mai sus pentru compararea copyright la PICRUSt.pentru a compara copyright, PICRUSt și PAPRICA în OTUs în diferite comunități microbiene, am procedat după cum urmează. Datele secvenței amplicon 16S rRNA disponibile publicului din diferite probe de mediu au fost descărcate din arhiva nucleotidelor Europene (http://www.ebi.ac.uk/ena). Au fost luate în considerare numai datele secvenței Illumina de la ampliconi obținuți folosind grunduri sensibile la bacterii și/sau arhaea., Probele au fost alese pentru a acoperi o gamă largă de medii, inclusiv ocean, marine și lacul sedimente, sol, soluție salină și hypersaline lacurile, izvoarele hidrotermale, izvoare termale, bioreactoare, și animale asociate microbiomes. Toate datele de secvențiere au fost prelucrate într-un mod similar, acolo unde este posibil, după cum urmează. Suprapunerea asociat-end citește au fuzionat folosind flash v1.2.11 (opțiuni –min-suprapunere=20 –max-suprapunere=300 –max-asimetrie de densitate 0.25 –phred-offset=33 –permite-outies), și non-se suprapun asociat-end citește au fost omise. Citirile cu un singur capăt au fost păstrate neschimbate., Toate cu un singur scop, citește și fuzionat asociat-end citește apoi au fost de calitate filtrate folosind vsearch v2.4.3 (opțiuni –fastq_ascii 33 –fastq_minlen 120 –fastq_qmin 0 –fastq_maxee 1 –fastq_truncee 1 –fastq_maxee_rate 0.005 –fastq_stripleft 7). Probe cu mai mult de 20.000 de calitate-filtrat citește-au rarefiat până la 20.000 de citește pentru a reduce timpul de calcul, prin alegerea aleatorie a citește fără înlocuire., Secvențele filtrate de calitate au fost grupate în unități taxonomice operaționale (Otu; la o similitudine de 97%) prin alinierea globală cu referință închisă la baza de date de referință SILVA SSU non-redundantă (nr99) (versiunea 128; ), utilizând vsearch. Ambele componente au fost luate în considerare pentru aliniere (opțiunea vsearch –strand ambele). Secvențele care nu se potrivesc cu nicio intrare în baza de date la o similitudine de 97% sau mai mare au fost eliminate. Rețineți că OTUs au fost astfel reprezentate de intrări SILVA, și anume cele utilizate pentru însămânțarea clusterelor. Cloroplastele, mitocondriile și orice eucariotă au fost omise., OTUs reprezentate de mai puțin de cinci citește în toate probele au fost omise. În cele din urmă, orice probe cu mai puțin de 2.000 de citiri contabilizate de OTUs au fost omise. Acest lucru a generat un tabel OTU cu 635 de probe și 65,673 Otu reprezentate de 4,827,748 de citiri (în medie 734 Otu pe eșantion). Numerele de accesare a eșantioanelor, coordonatele, datele de eșantionare, publicațiile originale, platformele de secvențiere, lungimile de citire filtrate de calitate și numărul de citire și regiunile de primer acoperite (dacă sunt disponibile) sunt furnizate în fișierul suplimentar 9.,
Pentru a prezice GCNs pentru OTUs în fiecare probă, folosind CopyRighter, am folosit aceeași abordare ca și pentru genomuri: Reprezentant 16 secvențe de OTUs-au aliniat la GG2012 folosind vsearch (opțiuni „–strand ambele-usearch_global –iddef 0 –id 0.99 –maxhits 1 –maxaccepts 10 –top_hits_only”), omițând orice OTUs nu se potrivesc de la un Greengenes de intrare de cel puțin 99% similitudine. Pentru fiecare OTU păstrat, GCN listat de copyright pentru intrarea greengenes potrivite a fost luată ca predicție copyright. Pentru PICRUSt, am procedat într-un mod analog, folosind GG2013 în loc de GG2012., Pentru PAPRICA, am procedat într-un mod analog, folosind predicțiile GCN ale lui PAPRICA calculate anterior pentru GG2013 (vezi secțiunea anterioară).
Pentru a compara oricare două instrumente dat (Copywriter vs PICRUSt, PICRUSt vs PAPRICA, sau CopyRighter vs PAPRICA) pentru un anumit eșantion, doar OTUs cu cel puțin o citi în eșantion și având un GCN predicție de la ambele instrumente au fost luate în considerare. Am măsurat acordul dintre două instrumente în ceea ce privește fracțiunea de variație în predicțiile primului instrument care a fost explicat prin predicțiile celui de-al doilea instrument (R2)., Am calculat proba e NSTI (cel mai apropiat esalonate taxonului index) în conformitate cu , de exemplu, ca medie aritmetică NSTD peste toate OTUs luate în considerare în comparație și ponderată în funcție de relativă OTU frecvențe. Detalii despre modul în care au fost calculate Nstd-urile sunt furnizate în secțiunea de mai jos. Pentru fiecare pereche de instrumente comparate, am obținut astfel 635 NSTI și 635 R2s pe 635 probe, prezentate în Fig. 4. Coeficienții de corelație Pearson (r2) între NSTI și R2 au fost calculați pentru fiecare pereche de instrumente, separat pentru probele asociate animalelor și non-animale., Semnificațiile statistice (valorile P) ale coeficienților de corelație au fost estimate utilizând un test de permutare cu 1000 de permutări. Fișier suplimentar 1: cifrele S6 și S7 arată GCN-urile prezise de fiecare instrument pentru diferite comunități microbiene. Vom arăta, de asemenea, abateri relative între instrumente (|A−B|/((A+B)/2), unde a și B sunt GCNs prezis de două instrumente de același OTU) și NSTDs pentru OTUs în diverse probe (fișier Suplimentar 1: Figura S8).,
Evaluarea și compararea GCN instrumente de predicție în funcție NSTD
Pentru a examina predictivă precizie de CopyRighter, PICRUSt, și PAPRICA ca o funcție a unui OTU sau genomul este NSTD, am procedat după cum urmează. Pentru fiecare OTU din SILVA și separat pentru fiecare instrument, am calculat NSTD ca distanță filogenetică până la cel mai apropiat genom secvențiat folosit de instrument pentru a face predicții („genomi de calibrare”). Pentru PAPRICA, o listă de 5 628 de calibrare genomul a fost obținut de PAPRICA e precalculate fișiere (PAPRICA/ref_genome_database/*/genome_data.final.,csv, unde ” * ” este fie bacterii, fie arhaea). Genomii de calibrare au fost potriviți cu SILVA OTUs prin alinierea globală a genei 16S la un prag de similitudine de 99%, folosind vsearch. Potrivit OTUs s-au presupus a avea un NSTD egal cu zero, și pentru toate celelalte SILVA OTUs, NSTD a fost calculat pe baza arborelui SILVA-derivate și folosind pachetul r castor . O potrivire aproximativă a genomului cu OTUs (adică., la 99% similitudine) a fost ales pentru a se asigura că cât mai multe de calibrare genomuri sunt incluse posibil; rețineți că SILVA OTUs sunt ei înșiși grupate în care similitudinea și că eroarea potențial introdus la NSTDs și NSTIs este neglijabilă (< 1% substituții nucleotidice pe site-ul). Pentru PICRUSt, o masă a fost descărcat de pe site-ul proiectului listarea IMG (Integrat in Genomul Microbian) id-Urile de 2.887 de calibrare genomuri (https://github.com/picrust/picrust/tree/master/tutorials/picrust_starting_files.zip, fișier GG_to_IMGv350.txt). ID-urile IMG au fost traduse în ID-urile secvenței GG2013 folosind gg_13_5_img.,tabel de căutare txt descărcat de pe site-ul web Greengenes (http://greengenes.secondgenome.com/downloads). ID-urile gg2013 potrivite au fost apoi mapate la SILVA OTUs prin alinierea secvenței globale 16S cu vsearch, la un prag de similitudine de 99%. Nstd-urile SILVA OTUs au fost apoi calculate în același mod ca și pentru PAPRICA. Pentru CopyRighter, un tabel de căutare a fost descărcat de proiect Github pagina asta hărți de calibrare genomuri la GG2012 secvențe (https://github.com/fangly/AmpliCopyrighter, fișier AmpliCopyrighter-0.46/preprocesare/ date/img_to_gg.txt)., GG2012 secvențele enumerate în acest tabel au fost mapate la SILVA OTUs, și NSTDs au fost calculate pentru toate SILVA OTUs, într-un mod similar ca pentru PICRUSt. Pentru a determina NSTDs pentru genomul examinat în acest studiu (separat pentru CopyRighter, PICRUSt, și PAPRICA), genomul au fost mapate la SILVA OTUs prin intermediul global alinierea lor mai lungă disponibile 16 secvență la 99% similitudine. Pentru fiecare genom, NSTD-ul celui mai apropiat SILVA OTU a fost luat ca nstd al genomului. Pentru a determina Nstd – urile pentru toate Greengenes OTUs, am cartografiat Greengenes OTUs la SILVA OTUs prin aliniere globală la 99% similitudine., Pentru a determina NSTDs pentru OTUs recuperate de la cei incluși în eșantion comunități microbiene, am folosit direct la NSTDs de SILVA OTUs utilizate ca semințe în timpul închis de referință OTU cules. Atunci când se compară două instrumente de predicție GCN pe un OTU (de exemplu, Fig. 3 și 4 și fișierul suplimentar 1: Figura S8), în cazurile în care cele două Nstd-uri diferă, am folosit media lor aritmetică. Pentru a calcula R2 între oricare două instrumente de predicție GCN sau între un instrument de predicție GCN și „true GCNs”, în funcție de NSTD (Fig., 2 și 3D–f), am legat Otu-urile sau genomurile utilizate în comparație în intervale nstd de dimensiuni egale și am calculat R2 separat pentru fiecare interval. Au fost luate în considerare numai intervale NSTD cu cel puțin 10 Otu sau genom.
Lasă un răspuns