Korrigere for 16S rRNA-genet kopiere numre i microbiome undersøkelser er fortsatt et uløst problem | Microbiome

Bygging av SILVA-avledet treet

Mens den opprinnelige SILVA treet er godt kuratert taxonomically, det er stort sett ment å brukes som en guide treet, og re-beregning av grenen lengder er generelt anbefalt for nedstrøms fylogenetisk analyse ., Her, å bygge et fylogenetisk tre med mer meningsfylt gren lengder ved hjelp av OTUs i SILVA non-redundant (NR99) 16S database (release 128; ), vi gikk som følger. Justert representant SSU sekvenser i SILVA ble redusert ved først å fjerne nukleotid stillinger med >95% av hull og deretter fjerne de 5% mest entropisk nukleotid posisjoner. Taksonomisk identiteter gitt av SILVA for OTUs på domenet, phylum, og klasse nivå ble brukt til å lage delt begrensninger for FastTree , ved å begrense hver taxon å være på en enkelt side av et delt og monophyletisk., Taksa med færre enn 10 OTUs ble utelatt fra begrensningene. Totalt 354 begrensninger ble dermed definert. Ved hjelp av taxonomically generert begrensninger og tar den opprinnelige SILVA treet som utgangspunkt i treet, konstruerte vi et fylogenetisk tre fra den reduserte linjer med FastTree v2.1.10 (valg «-spr 4 -gamma -raskest -no2nd -constraintWeight 100»). Den fylogenetisk tre ble rerooted, slik at bakterier og Archaea er delt på rot. Våre SILVA-avledet treet er gitt som Ekstra fil 2., For alle nedstrøms analyser, chloroplasts, mitokondrier, og Eukaryota ble utelatt fra treet. I hovedartikkelen beskriver vi våre analyser ved bruk av denne SILVA-avledet trær (Fig. 1); tilsvarende resultater for den opprinnelige SILVA treet er vist i annen fil 1: Figur S1.

Fylogenetisk distribusjon av 16S GCNs

for Å undersøke hvordan 16S GCNs er fordelt phylogenetically og å vurdere deres generelle forutsigbarhet ved hjelp av ulike fylogenetisk metoder, vi gikk som følger., Totalt 8,767 forklart bakteriell og archaeal genomer med ferdigstillelse status «Ferdig Genom» ble lastet ned fra NCBI RefSeq database 4. januar 2018. Lastet ned genomet ble sjekket for mulig forurensning ved hjelp av checkM 1.0.6 (alternativet «reduced_tree»), som er basert på påvisning av bevart markør gener (montering og checkM sammendrag i Ekstra fil 3). Genomer er funnet å vise en forurensning nivå over 1% eller en belastning mangfold over 1%, ble forkastet, og etterlater oss med 6,868 komplett genomet til nedstrøms analyse (Ekstra fil 4).,

For hver genom, 16S GCNs ble bestemt ved hjelp av to metoder: for det Første, vi talte antall forklart 16S rRNA-sekvenser i NCBI kommentarer (filer rna_from_genomic.fna). For det andre, vi brukt covariance modeller med programmet cmsearch (som en del av HELVETES versjon 1.1.2, valg «–noali –cut_nc») til å søke etter 16S rRNA-sekvenser i den sammensatte genomer (filer genom.fna). Separat covariance modeller for archaeal og bakterielle 16S rRNA gener ble innhentet fra Rfam database (accessions RF00177 og RF01959)., En tabell over GCNs beregnet ved bruk av begge metoder er gitt som Ekstra fil, 5. Bare genomer som de to metodene gir samme 16S GCNs ble ansett for påfølgende analyse, som gir 16S GCNs for 6,780 genomer («høy kvalitet genomer,» Ekstra fil-6). Nøyaktigheten av disse GCNs ble ytterligere bekreftet gjennom en sammenligning til Ribosom-RNA-Operon Kopier Nummer Database (rrnDB, besøkt 7. juni 2017; ) når en genom-montering-tilknytning var til stede i rrnDB (rrnDB attributtet «Data kilde post-id»)., Over 5,616 høy kvalitet genomer testet, vi fant en nesten-perfekt avtale med rrnDB (R2>0.999; annen fil 1: Figur S2). checkM kvalitet sammendrag for høy kvalitet genom set leveres som Ekstra-fil 7.

Tips på SILVA-avledet treet ble kartlagt med høy kvalitet genomer, når det er mulig, som følger: for det Første, representant 16S sekvenser av SILVA OTUs var justert til den lengste 16S rRNA sekvens fra hver genom ved hjelp av vsearch 2.3.,4 ved maksimal (100%) likheten (vsearch valg «–strand begge –usearch_global –maxaccepts 0 –top_hits_only –iddef 0 –id 1.0»). Hvis en OTU justert til flere genomer, alle genomer i utgangspunktet var holdt. Neste, for hver justert OTU-genom par, sammenlignet vi NCBI taxon-ID («taxid») av OTU som genom. OTU taxids ble innhentet fra en lookup-tabell gitt av SILVA (https://www.arb-silva.de/fileadmin/silva_databases/release_128/Exports/taxonomy/taxmap_embl_ssu_ref_128.txt.gz). Genom taxids ble innhentet fra oppslag i tabeller gitt av NCBI (ftp://ftp.ncbi.nlm.nih.gov/genomes/genbank/*/assembly_summary.txt hvor «*» er enten «bakterier» eller «archaea»)., Noen justert OTU-genom par med ikke-identiske taxids ble utelatt. Av de resterende OTU-genom par med identiske taxids, vi bare holdt den første justert genom for hver OTU. Totalt 9,395 OTUs kan dermed være tilordnet til en av genomet. For hver tilordnet OTU, vi antatt en GCN lik GCN regnet for tilsvarende genom. For alle andre OTUs, vi antatt en ukjent GCN.

Alle fylogenetisk analyser ble utført ved hjelp av R-pakken castor , tilgjengelig på Omfattende R Archive Network (CRAN). NSTDs for alle tips med hensyn til tips er tilordnet til en sekvensert genomet (Fig., 1b) ble beregnet ved hjelp av castor funksjon find_nearest_tips. Den fylogenetisk autocorrelation funksjon (ACF) av kjent 16S GCNs over SILVA-avledet trær (Fig. 1a) ble beregnet ved hjelp av den castor funksjon get_trait_acf basert på 108 tips par (valg «Npairs=1e8, Nbins=100»), valgt tilfeldig blant tips med kjent GCN. Funksjonen get_trait_acf tilfeldig plukker OTU par på treet, dunker dem inn i en av mange intervaller av fylogenetisk avstand, og beregner Pearson autocorrelation mellom GCNs av OTU par i hver skuff., Merk at denne analysen ikke anta at GCNs skala lineært med fylogenetisk avstand. I stedet ACF bare måler statistisk sammenheng mellom GCNs på forskjellige tips, betinget av tipsene være innenfor en viss fylogenetisk avstand fra hverandre.,

GCNs ble rekonstruert på SILVA-avledet treet ved hjelp av Sankoff er maksimal-parsimony (funksjon hsp_max_parsimony, med mulighet for transition_costs enten satt til å «eksponentiell,» «proporsjonal» eller «all_equal»), fylogenetisk uavhengig kontraster (funksjon hsp_independent_contrasts), vektet-squared-endre parsimony (funksjon hsp_squared_change_parsimony), undertreet gjennomsnitt (funksjon hsp_subtree_averaging), og maximum-likelihood av Mk-modeller med rerooting (funksjon hsp_mk_model_rerooting med valg root_prior=’historikk’, optimization_algorithm=’nlminb’, Ntrials=5, rate_model=’E’).,

for Å beregne cross-godkjent andel av variansen spådd av (aka. cross-validert determinasjonskoeffisient av) hver metode (\(R^{2}_{\text {cv}}\); ) som en funksjon av NSTD (Fig. 1c), vi gikk som følger. Vi tilfeldig valgte 2% av tips med kjent 16S GCN å bli ekskludert fra inngangen til rekonstruksjoner og å bli brukt som en selvstendig «test set» etterpå. Avhengig av NSTD cutoff i betraktning (for eksempel 10% innbytter per område), har vi også ekskludert alle tips som fylogenetisk avstand til test var under NSTD cutoff., De resterende tips med kjent GCNs («training set») ble brukt som input til rekonstruksjoner, og GCNs spådd for test sett ble deretter sammenlignet med de kjente GCNs av testsettet. Denne prosessen ble gjentatt tre ganger, og den resulterende R2 var i gjennomsnitt over alle gjentar, noe som gir en \(R^{2}_{\text {cv}}\) for hver vurdert NSTD cutoff. R script for å analysere og konstruere 16S GCNs over SILVA-avledet treet er tilgjengelig som Ekstra fil 8. For sammenligning, alle de ovennevnte analyser ble også utført ved hjelp av den opprinnelige SILVA guide treet (Ekstra fil 1: Figur S1).,

Evaluering av 3. parts GCN spådom verktøy på sekvensert genomet

for Å teste prediktiv nøyaktighet av CopyRighter , PICRUSt , og PAPRICA for genomer med kjent GCNs, vi sammenlignet sine spådommer med GCNs telles i (høy kvalitet) sekvensert genomet. For å evaluere prediktiv nøyaktighet av CopyRighter i genomet, vi gikk som følger: Vi først lastet ned precomputed oppslag tabell over CopyRighter ‘ s spådommer for Greengenes 16S rRNA-database (release oktober 2012, «GG2012»; ), fra prosjektet er Github på 6, juni, 2017 (v0.,46): https://github.com/fangly/AmpliCopyRighter (CopyRighter-0.46/data/201210/ssu_img40_gg201210.txt). Så vi justerte lengste 16S rRNA sekvens av hver genom å OTUs (gruppert på 99% likhet) i Greengenes database ved hjelp av vsearch (vsearch valg «–strand begge –usearch_global –maxhits 1 –maxaccepts 10 –top_hits_only»), alltid å velge den beste kampen i Greengenes og holde bare genomet som er tilordnet til en Greengenes oppføring av minst 99% likhet (5688 kartlagt genomet)., For hver kartlagt genomet, tok vi GCN spådd av CopyRighter for tilsvarende Greengenes oppføring som CopyRighter ‘ s prognose for genome. Denne spådommen ble deretter sammenlignet med den GCN regnet fra genome sequence. Et histogram av CopyRighter ‘ s spådommer over kartlagt genomet er vist i annen fil 1: Figur S4B. Prediktiv nøyaktighet av CopyRighter ble målt i form av andel av forklart varians (R2), som en funksjon av et genom er NSTD (Fig. 1a). NSTDs av genomet ble beregnet som beskrevet i et eget avsnitt nedenfor.,

En lignende tilnærming ble brukt for PICRUSt : Den precomputed oppslag tabell over PICRUSt ‘ s spådommer for Greengenes database (slippe Mai 2013; «GG2013») som ble lastet ned fra prosjektets hjemmeside på 6, juni, 2017 (v1.1.1): https://picrust.github.io/picrust/picrust_precalculated_files.html(16S_13_5_precalculated.kategori.gz). Totalt 5,708 høy kvalitet genomer kan være tilordnet til en OTU (99% likhet) i GG2013. Et histogram av PICRUSt ‘ s spådommer på tvers av alle kartlagt genomet er vist i annen fil 1: Figur S4C. Prediktiv nøyaktighet av PICRUSt ble målt i form av R2, som en funksjon av et genom er NSTD (Fig., 1b), på samme måte som CopyRighter.

for Å vurdere prediktiv nøyaktighet av PAPRICA i genomet, vi gikk som følger: Vi først lastet ned og installert PAPRICA fra prosjektets Github på 6, juni, 2017 (v0.4.0 b): https://github.com/bowmanjeffs/paprica. Denne utgivelsen inkluderer precomputed referanse trær (ett for archaea og en for bakterier) og lister over 16S GCNs for verktøyets kalibrering genomer representert i referanse trær. Vi brukte den lengste 16S rRNA sekvens fra hver genom som en inngang til PAPRICA rørledning (kommando «paprica-run.sh»), separat for archaea og bakterier., Rørledningen produserer blant annet en tabell over de ukorrigerte overflod av hver av de unike inngang sekvens (dette kan være større enn 1 hvis flere genomer dele samme 16S rRNA sekvens) og tilsvarende korrigert overflod (etter å dele av spådd 16S GCN). Vi brukte denne tabellen for å få 16S GCNs spådd av PAPRICA for den unike 16S sekvenser (som representerer 3473 16S sekvenser), ved å dele den ukorrigerte av korrigert overflod. Vi sammenlignet disse spådd GCNs til GCNs telles i genom-sekvenser, på samme måte som ovenfor., Et histogram av PAPRICA ‘ s spådommer på tvers av alle representert genomer er vist i annen fil 1: Figur S4D. Prediktiv nøyaktighet av PAPRICA ble målt i form av R2, som en funksjon av et genom er NSTD (Fig. 1a), på samme måte som CopyRighter.

Sammenligning av 3. parts GCN spådom verktøy over Greengenes

for Å sammenligne spådommer av CopyRighter til de av PICRUSt på tvers av alle OTUs i Greengenes (Fig. 3a), må vi først kartla alle OTUs i GG2013 å OTUs i GG2012 ved hjelp av vsearch (med valg «–strand begge –usearch_global»)., Vi bare holdt kamper på 100% likhet (153,375 ut av 203,452 OTUs i GG2013). Til hver tilordnet OTU i GG2013, vi sammenlignet med tilsvarende GCN spådd av PICRUSt til GCN spådd av CopyRighter for matchet OTU i GG2012. For å beregne frekvens fordelingen av GCNs spådd av CopyRighter og PICRUSt på tvers av alle OTUs i Greengenes (histogrammer i annen fil 1: Figur S3A,B), brukte vi GCNs oppført i deres precomputed oppslag i tabeller.

for Å sammenligne PAPRICA å PICRUSt over Greengenes (Fig., 3b), vi gikk som følger: Representant sekvenser av OTUs i GG2013 ble delt inn i archaeal og bakteriell sekvenser. Hver resulterende fasta filen ble brukt som input til PAPRICA rørledning til å forutsi tilsvarende 16S GCN, som beskrevet ovenfor for forsikring. Dette gir et anslått GCN for alle Greengenes oppføringer. Disse anslagene ble sammenlignet med den precomputed GCN verdier gitt av PICRUSt. Disse spådommer ble også brukt til å beregne frekvens fordeling av GCNs spådd av PAPRICA over Greengenes (Ekstra fil 1: Figur S3C). Å sammenligne CopyRighter å PAPRICA (Fig., 3c), vi gikk som beskrevet ovenfor for sammenligning av CopyRighter å PICRUSt.

Sammenligning av 3. parts GCN spådom verktøy på tvers av mikrobielle samfunn

for Å sammenligne CopyRighter, PICRUSt, og PAPRICA over OTUs i ulike mikrobielle samfunn, vi gikk som følger. Offentlig tilgjengelig 16S rRNA-amplikon sekvens av data fra ulike jordprøver ble lastet ned fra Eu-Nukleotid Arkiv (http://www.ebi.ac.uk/ena). Bare Illumina sekvens data fra amplikoner innhentet ved hjelp av bakterier og/eller archaea-sensitive primere som ble vurdert., Prøvene ble valgt for å dekke et bredt spekter av miljøer, inkludert havet, marine og lake sedimenter, jord, saltvann og hypersaline innsjøer, hydrotermale ventiler, hot springs, bioreactors, og dyr-forbundet microbiomes. Alle sekvensering data ble behandlet på en lignende måte, der det er mulig, som følger. Overlappende sammenkoblede-end leser ble slått sammen ved hjelp av flash-v1.2.11 (valg –min-overlapping=20 –max-overlapping=300 –max-mismatch-tetthet 0.25 –phred-offset=33 –la-outies), og ikke-overlappende sammenkoblede-end leser ble utelatt. Enkelt-end leser ble holdt uendret., Alle enkelt-end leser og slått sammen sammenkoblede-end leser så ble kvaliteten filtrert ved hjelp av vsearch v2.4.3 (valg –fastq_ascii 33 –fastq_minlen 120 –fastq_qmin 0 –fastq_maxee 1 –fastq_truncee 1 –fastq_maxee_rate 0.005 –fastq_stripleft 7). Prøver med mer enn 20.000 kvalitet-filtrert leser var rarefied ned til 20 000 leser for å redusere beregning tid, ved tilfeldig plukke leser uten erstatning., Kvalitet-filtrert sekvenser ble samlet inn operative taksonomisk enheter (OTUs; på 97% likhet) ved lukket-referanse global justere mot ikke-redundant (NR99) SILVA SSU referanse-database (release 128; ), ved hjelp av vsearch. Begge tilnærmingene ble ansett for justering (vsearch alternativet –strand begge). Sekvenser som ikke samsvarer med noen database oppføringen på 97% likhet eller høyere ble forkastet. Vær oppmerksom på at OTUs var dermed representert ved SILVA oppføringer, nemlig den som er brukt til å opprette klaser. Chloroplasts, mitokondrier, og noen Eukaryota ble utelatt., OTUs representert ved færre enn fem leser på tvers av alle prøvene ble utelatt. Til slutt, noen prøver med færre enn 2 000 leser rede for OTUs ble utelatt. Dette gir en OTU tabell med 635 prøver og 65,673 OTUs representert ved 4,827,748 leser (i gjennomsnitt 734 OTUs per prøve). Eksempel tiltredelse tall, koordinater, prøvetaking datoer, originale publikasjoner, sekvensering plattformer, kvalitet-filtrert les lengder, og lese teller og dekket primer regioner (hvor tilgjengelig) er gitt i Ekstra fil, 9.,

for Å forutsi GCNs for OTUs i hver prøve ved hjelp av CopyRighter, har vi brukt den samme tilnærming som for genomer: Representant 16S sekvenser av OTUs ble justert å GG2012 ved hjelp av vsearch (valg «–strand begge –usearch_global –iddef 0 –id-0.99 –maxhits 1 –maxaccepts 10 –top_hits_only»), og utelate enhver OTUs ikke matchet til en Greengenes oppføring av minst 99% likhet. For hver OTU oppbevart, GCN oppført av CopyRighter for matchet Greengenes oppføringen ble tatt som CopyRighter er prediksjon. For PICRUSt, vi gikk på en tilsvarende måte, ved hjelp av GG2013 i stedet for GG2012., For PAPRICA, vi gikk på en tilsvarende måte, ved hjelp av PAPRICA er GCN spådommer tidligere beregnet for GG2013 (se forrige avsnitt).

for Å sammenligne to gitte verktøy (CopyRighter vs. PICRUSt, PICRUSt vs. PAPRICA, eller CopyRighter vs. PAPRICA) for en bestemt prøve, bare OTUs med minst ett lese i utvalget og ha en GCN prediksjon fra begge verktøyene ble vurdert. Vi målte avtale mellom to verktøy i form av andel av variansen i forutsigelser av 1. verktøy som ble forklart av spådommer av 2. verktøy (R2)., Vi beregnet eksempel er NSTI (nærmeste sekvensert taxon indeks) i henhold til , dvs., som det aritmetiske gjennomsnitt NSTD over alle OTUs som er tatt med i sammenligningen og vektet med relativ OTU frekvenser. Detaljer om hvordan NSTDs ble beregnet som er gitt i delen nedenfor. For hvert par av verktøy i forhold, vi dermed fikk 635 NSTIs og 635 R2s over 635 prøver, vist i Fig. 4. Pearson korrelasjon koeffisienter (r2) mellom NSTIs og R2 ble beregnet for hvert par av verktøy, separat for dyr-tilknyttet og ikke-animalske-forbundet prøver., Statistisk significances (P-verdier) korrelasjon koeffisientene ble estimert ved hjelp av en permutasjon test med 1000 permutasjoner. Annen fil 1: Tall S6 og S7 vis GCNs spådd av hvert enkelt verktøy for ulike mikrobielle samfunn. Vi viser også relative avvik mellom verktøy (|A−B|/((A+B)/2), der A og B er GCNs spådd av to verktøy for den samme OTU) og NSTDs for OTUs i ulike prøver (Ekstra fil 1: Figur S8).,

Evaluering og sammenligning av GCN spådom verktøy, avhengig NSTD

for Å undersøke den prediktive nøyaktigheten av CopyRighter, PICRUSt, og PAPRICA som en funksjon av en OTU eller genom er NSTD, vi gikk som følger. For hver OTU i SILVA, og separat for hvert verktøy, vi beregnet NSTD som fylogenetisk avstand til nærmeste sekvensert genomet som brukes av verktøy for å gjøre spådommer («kalibrering genomer»). For PAPRICA, en liste over 5,628 kalibrering genomet ble innhentet fra PAPRICA er precomputed filer (PAPRICA/ref_genome_database/*/genome_data.endelig.,csv, der «*» er enten bakterier eller archaea). Kalibrering genomet ble matchet til SILVA OTUs via globale justering av 16S-genet på en likhet terskelen til 99%, ved hjelp av vsearch. Matchet OTUs ble antatt å ha en NSTD lik null, og for alle andre SILVA OTUs, den NSTD ble beregnet basert på SILVA-avledet treet og med R-pakken castor . En omtrentlig matching av genomet til OTUs (dvs., på 99% likhet) ble valgt for å sikre at så mange av kalibreringen forsikring er inkludert som mulig; merk at SILVA OTUs selv er gruppert på at likhet og at feil potensielt introdusert til NSTDs og NSTIs er ubetydelig (< 1% nukleotid innbytter per side). For PICRUSt, en tabell som ble lastet ned fra prosjektets hjemmeside liste IMG (Integrert Mikrobielle Genomer) Id-er for 2,887 kalibrering genomer (https://github.com/picrust/picrust/tree/master/tutorials/picrust_starting_files.zip, fil GG_to_IMGv350.txt). IMG Id ble oversatt til GG2013 sekvens-Id-er ved hjelp av gg_13_5_img.,txt-lookup-tabell som er lastet ned fra Greengenes nettstedet (http://greengenes.secondgenome.com/downloads). Matchet GG2013 Id-så ble kartlagt for å SILVA OTUs via globale 16S sekvens tråd med vsearch, på en likhet terskelen til 99%. NSTDs av SILVA OTUs ble deretter beregnet på samme måte som for PAPRICA. For CopyRighter, en lookup-tabell ble lastet ned fra prosjektets Github side at kart kalibrering genomet til GG2012 sekvenser (https://github.com/fangly/AmpliCopyrighter, fil AmpliCopyrighter-0.46/forbehandling/ data/img_to_gg.txt)., GG2012 sekvenser som er oppført i denne tabellen ble kartlagt for å SILVA OTUs, og NSTDs ble beregnet for alle SILVA OTUs, på samme måte som for PICRUSt. For å bestemme NSTDs for genomer undersøkt i denne studien (separat for CopyRighter, PICRUSt, og PAPRICA), genomer ble kartlagt for å SILVA OTUs via globale justeringen av sin lengste tilgjengelig 16S rekkefølge på 99% likhet. For hver genom, det NSTD av de mest tett matchet SILVA OTU ble tatt som genom er NSTD. For å finne ut NSTDs for alle Greengenes OTUs, vi kartlagt Greengenes OTUs å SILVA OTUs via globale justering på 99% likhet., For å finne ut NSTDs for OTUs utvinnes fra samplet mikrobielle samfunn, vi direkte brukte NSTDs av SILVA OTUs brukt som frø i løpet lukket-referanse OTU å plukke. Når man sammenligner to GCN spådom verktøy på en OTU (f.eks., Fiken. 3 og 4 og annen fil 1: Figur S8), i tilfeller der de to NSTDs annerledes, vi har brukt sin aritmetiske gjennomsnitt. For å beregne R2 mellom to GCN spådom verktøy, eller mellom en GCN spådom verktøy, og den «sanne GCNs,» som en funksjon av NSTD (Fig., 2-og 3d–f), og vi binned den OTUs eller genomer brukt i sammenligningen i like store NSTD intervaller og beregnet R2 separat for hvert intervall. Bare NSTD intervaller med minst 10 OTUs eller genomet ble vurdert.