Konstruktion af SILVA-afledte træ
Mens den oprindelige SILVA træet er godt kurateret taxonomisk, det er hovedsagelig ment til at bruges som en guide tree, og omberegning af filial længder er generelt tilrådes for downstream-fylogenetiske analyser ., Her for at konstruere et fylogenetisk træ med mere meningsfulde grenlængder ved hjælp af OTUs i Silva non-redundant (NR99) 16S database (release 128;) fortsatte vi som følger. Justeret repræsentant SSU-sekvenser i SILVA blev reduceret ved først at fjerne nukleotid positioner med >95% huller og derefter fjerne de øverste 5% mest entropiske nukleotid positioner. Taksonomiske identiteter, der leveres af SILVA for OTUs på det domæne, række, klasse og niveau blev brugt til at skabe split begrænsninger for FastTree , ved at begrænse hver taxon til at være på en enkelt side af en split og svampenes., Ta .a med færre end 10 OTUs blev udeladt fra begrænsningerne. I alt 354 begrænsninger blev således defineret. Hjælp taxonomisk genereret begrænsninger og under de oprindelige SILVA træet som udgangspunkt træ, vi konstrueret et fylogenetisk træ fra den reducerede linjeføringer med FastTree v2.1.10 (valg “-spr 4 -gamma -hurtigste -no2nd -constraintWeight 100”). Det fylogenetiske træ blev omdirigeret, så bakterier og arkæa splittes ved roden. Vores SILVA-afledte træ leveres som yderligere fil 2., For alle do .nstream analyser, chloroplaster, mitokondrier, og Eukaryota blev udeladt fra træet. I hovedartiklen beskriver vi vores analyser ved hjælp af dette SILVA-afledte træ (Fig. 1); analoge resultater for den oprindelige SILVA træ er vist i yderligere fil 1: Figur S1.
Fylogenetiske distribution af 16S GCNs
for At undersøge, hvordan 16S GCNs er fordelt fylogenetisk og til at vurdere deres generelle forudsigelighed ved hjælp af forskellige fylogenetiske metoder, gik vi som følger., I alt 8,767 annoterede bakterielle og arkaeale genomer med færdiggørelsesstatus “komplet genom” blev do .nloadet fra NCBI Refse. – databasen den 4. januar 2018. Hentet genomer blev kontrolleret for potentielle forurening ved hjælp af checkM 1.0.6 (option “reduced_tree”), som er baseret på detektion af bevaret markør-gener (forsamlings-og checkM resuméer i Ekstra fil 3). Genomer viste sig at udvise et forureningsniveau over 1% eller en stamme heterogenitet over 1% blev kasseret, hvilket efterlod os 6,868 komplette genomer til do .nstream-analyse (yderligere fil 4).,
for hvert genom blev 16S GCN ‘ er bestemt ved hjælp af to tilgange: først tællede vi antallet af annoterede 16S rRNA-sekvenser i NCBI-annotationerne (filer rna_from_genomic.fna). For det andet, har vi brugt kovarians modeller med programmet cmsearch (som en del af INFERNAL version 1.1.2, indstillinger “–noali –cut_nc”) til at søge for 16S rRNA-sekvenser, inden de samles genomer (filer genomisk.fna). Separate kovariansmodeller for archaeal og bakteriel 16S rRNA gener blev opnået fra rfam databasen (tiltrædelser RF00177 og RF01959)., En tabel med gcns beregnet ved hjælp af begge metoder leveres som yderligere fil 5. Kun genomer, for hvilke de to metoder gav de samme 16S GCNs, blev overvejet til efterfølgende analyse, hvilket gav 16S GCNs for 6,780 genomer (“højkvalitets genomer”, yderligere fil 6). Nøjagtigheden af disse GCNs blev yderligere bekræftet gennem sammenligning til Ribosom RNA-Operonen Antal Kopier Database (rrnDB, åbnes den 7 juni 2017; ) når en genom, samling tiltrædelse var til stede i rrnDB (rrnDB attribut “Data source registrerings-id”)., På tværs af 5,616 højkvalitets genomer testet fandt vi en næsten perfekt aftale med rrnDB (R2>0.999; yderligere fil 1: Figur S2). checkm kvalitet resum .er for høj kvalitet genom sæt leveres som yderligere fil 7.
Tips på SILVA-afledte træet var knyttet til høj kvalitet genomer, når det er muligt, som følger: for det Første, repræsentant 16S sekvenser af SILVA OTUs blev justeret til den længste 16S rRNA sekvensen fra hvert genom ved hjælp af vsearch 2.3.,4 på maksimum (100%) lighed (vsearch indstillinger “–strand begge –usearch_global –maxaccepts 0 –top_hits_only –iddef 0 –id 1.0”). Hvis en OTU justeret til flere genomer, blev alle genomer oprindeligt holdt. Dernæst sammenlignede vi for hvert justeret Otu-genom-par NCBI ta .on ID (“ta .id”) af OTU til genomets. OTU-ta .ider blev opnået fra en opslagstabel leveret af SILVA (https://www.arb-silva.de/fileadmin/silva_databases/release_128/Exports/taxonomy/taxmap_embl_ssu_ref_128.txt.gz). Genom taidsider blev opnået fra opslagstabeller leveret af NCBI (ftp://ftp.ncbi.nlm.nih.gov/genomes/genbank/ * /assembly_summary.txt, hvor “*” er enten “bakterier ” eller”archaea”)., Ethvert justeret Otu-genom-par med ikke-identiske ta .ider blev udeladt. Af de resterende Otu-genom-par med identiske ta .ider holdt vi kun det første justerede genom for hver OTU. I alt 9.395 OTUs kunne således kortlægges til en af genomerne. For hver kortlagt OTU antog vi en GCN lig med GCN, der tælles for det tilsvarende genom. For alle andre OTUs antog vi en ukendt GCN.
alle fylogenetiske analyser blev udført ved hjælp af R-pakken castor , tilgængelig på Comprehensive R Archive Net .ork (CRAN). Nstd ‘ er for alle tip med hensyn til tip kortlagt til et sekventeret genom (Fig., 1b) blev beregnet ved hjælp af castor-funktionen find_nearest_tips. Den fylogenetiske autokorrelationsfunktion (ACF) af kendte 16S GCN ‘ er over det SILVA-afledte træ (Fig. 1a) blev beregnet ved hjælp af castor-funktionen get_trait_acf baseret på 108 spidspar (indstillinger “Npairs=1e8, nbins=100”), valgt tilfældigt blandt tip med kendt GCN. Funktionen get_trait_acf vælger tilfældigt OTU-par på træet, skraldespande dem i en af mange intervaller af fylogenetisk afstand og beregner Pearson-autokorrelationen mellem GCN ‘ er for OTU-parene inden for hver bin., Bemærk, at denne analyse ikke antager, at GCNs skalerer lineært med fylogenetisk afstand. I stedet, ACF måler kun den statistiske sammenhæng mellem GCN ‘ er på forskellige tip, betinget af, at tipene ligger inden for en bestemt fylogenetisk afstand fra hinanden.,
GCNs blev rekonstrueret på SILVA-afledte-træet med brug af Sankoff maksimale-parsimony (funktion hsp_max_parsimony, med mulighed transition_costs enten indstillet til “eksponentiel,” “proportional” eller “all_equal”), phylogenetic uafhængige kontraster (funktion hsp_independent_contrasts), vægtet-squared-ændre parsimony (funktion hsp_squared_change_parsimony), undertræ gennemsnit (funktion hsp_subtree_averaging), og maksimum-sandsynligheden for, at Mk modeller med rerooting (funktion hsp_mk_model_rerooting med valg root_prior=’empirisk’, optimization_algorithm=’nlminb’, Ntrials=5, rate_model=’ER’).,
for at beregne den krydsvaliderede brøkdel af variansen forudsagt af (aka. krydsvalideret bestemmelseskoefficient for) hver metode (\(r^{2} _ {\te .t {cv}}\); ) som en funktion af NSTD (Fig. 1c), fortsatte vi som følger. Vi valgte tilfældigt 2% af tipene med kendt 16S GCN for at blive udelukket fra indgangen til rekonstruktionerne og skal bruges som et uafhængigt “testsæt” bagefter. Afhængig af den betragtede nstd-cutoff (for eksempel 10% substitutioner pr.sted) udelukkede vi også alle TIP, Hvis fylogenetiske Afstand til testsættet var under NSTD-cutoff., De resterende tip med kendte GCN ‘er (“træningssæt”) blev brugt som input til rekonstruktionerne, og de GCN ‘er, der var forudsagt for testsættet, blev derefter sammenlignet med de kendte GCN’ er i testsættet. Denne proces blev gentaget tre gange, og den resulterende R2 blev i gennemsnit over alle gentagelser, hvilket gav en \(r^{2}_{\te .t {cv}}\) for hver betragtet NSTD cutoff. R-scriptet til analyse og rekonstruktion af 16S GCNs over det SILVA-afledte træ er tilgængeligt som yderligere fil 8. Til sammenligning blev alle ovenstående analyser også udført ved hjælp af det originale SILVA guide tree (yderligere fil 1: Figur S1).,
Evaluering af 3rd party GCN forudsigelse værktøjer på sekventeret genomer
for At teste den intelligente nøjagtigheden af CopyRighter , PICRUSt , og PAPRICA for genomer med kendt GCNs, vi har sammenlignet deres forudsigelser med GCNs tælles i (høj kvalitet) sekventeret genomer. For at evaluere den forudsigelige nøjagtighed af CopyRighter på genomerne fortsatte vi som følger: vi do .nloadede først den forudberegnede opslagstabel med Copyrighters forudsigelser for Greengens 16S rRNA-databasen (udgivelse oktober 2012, “GG2012”; ), fra projektets Github den 6.juni 2017 (v0.,46): https://github.com/fangly/AmpliCopyRighter (CopyRighter-0.46/data/201210/ssu_img40_gg201210.t .t). Vi har derefter justeret den længste 16S rRNA sekvensen af hvert genom til OTUs (grupperet på 99% lighed) i Greengenes database ved hjælp af vsearch (vsearch indstillinger “–strand begge –usearch_global –maxhits 1 –maxaccepts 10 –top_hits_only”), altid vælger det bedste match i Greengenes og holder kun genomer, der er kortlagt til en Greengenes indlæg med mindst 99% lighed (5688 genomer kortlagt)., For hvert kortlagt genom tog vi GCN forudsagt af CopyRighter for den tilsvarende Greengenes post som CopyRighter forudsigelse for genomet. Denne forudsigelse blev derefter sammenlignet med GCN talt fra genomsekvensen. Et histogram af CopyRighter ‘ s forudsigelser på tværs kortlagt genomer er vist i flere filer 1: Figur S4B. Intelligent nøjagtigheden af CopyRighter blev målt i form af den andel af forklaret varians (R2), som en funktion af en genom er NSTD (Fig. 1a). Nstd ‘ er af genomer blev beregnet som beskrevet i et separat afsnit nedenfor.,
En lignende fremgangsmåde blev anvendt for PICRUSt : Den precomputed lookup tabel oversigt PICRUSt ‘ s forudsigelser for Greengenes database (release Maj 2013; “GG2013”) var downloades fra projektets hjemmeside på 6. juni 2017 (v1.1.1): https://picrust.github.io/picrust/picrust_precalculated_files.html(16S_13_5_precalculated.fanen.g)). I alt 5,708 genomer af høj kvalitet kunne kortlægges til en OTU (99% lighed) i GG2013. Et histogram af PICRUSt ‘ s forudsigelser på tværs af alle kortlagte genomer er vist i flere filer 1: Figur S4C. Intelligent nøjagtigheden af PICRUSt blev målt i form af R2 som en funktion af en genom er NSTD (Fig., 1b), på samme måde som CopyRighter.
for At vurdere den prædiktive nøjagtigheden af PAPRICA på genomer, vi gik som følger: Vi først har downloadet og installeret PAPRICA fra projektets Github på 6. juni 2017 (v0.4.0 b): https://github.com/bowmanjeffs/paprica. Denne udgivelse inkluderer forudberegnede referencetræer (en for archaea og en for bakterier) og tabeller med 16S GCNs for værktøjets kalibreringsgenomer repræsenteret i referencetræerne. Vi brugte den længste 16S rRNA-sekvens fra hvert genom som et input til PAPRICA-rørledningen (kommando “paprica-run.sh”), separat for archaea og bakterier., Rørledningen producerer, blandt andre, en tabel liste over de ukorrigerede overflod af hver unikke input sekvens (dette kan være større end 1, hvis der er flere genomer deler den samme 16S rRNA sekvensen), og det tilsvarende korrigerede mængde (efter at dividere med den forventede 16S GCN). Vi brugte denne tabel til at opnå de 16S GCNs forudsagt af PAPRICA for de unikke 16S sekvenser (repræsenterer 3473 16S sekvenser), ved at dividere de ukorrigerede af den korrigerede overflod. Vi sammenlignede derefter disse forudsagte GCN ‘er med de GCN’ er, der tælles i genomsekvenserne, på samme måde som ovenfor., Et histogram af PAPRICA ‘ s forudsigelser på tværs af alle repræsenteret genomer er vist i flere filer 1: Figur S4D. Intelligent nøjagtigheden af PAPRICA blev målt i form af R2 som en funktion af en genom er NSTD (Fig. 1a), på samme måde som CopyRighter.
sammenligning af 3.parts GCN-forudsigelsesværktøjer på tværs af Greengenes
for at sammenligne forudsigelserne fra CopyRighter med dem fra PICRUSt på tværs af alle OTUs i Greengenes (fig. 3a) kortlagde vi først alle OTUs i GG2013 til OTUs i GG2012 ved hjælp af vsearch (med indstillinger “–strand begge –usearch_global”)., Vi holdt kun kampe på 100% lighed (153,375 ud af 203,452 OTUs i GG2013). Til hver kortlagt OTU i GG2013, vi har sammenlignet de tilsvarende GCN forudsagt af PICRUSt til GCN forudsagt af CopyRighter for de matchede OTU i GG2012. For at beregne frekvensfordelingerne af GCNs forudsagt af CopyRighter og PICRUSt på tværs af alle OTUs i Greengenes (histogrammer i yderligere fil 1: Figur S3A,B) brugte vi de GCNs, der er anført i deres forudberegnede opslagstabeller.
for at sammenligne PAPRICA med PICRUSt på tværs af Greengenes (fig., 3b) fortsatte vi som følger: repræsentative sekvenser af OTUs i GG2013 blev opdelt i arkaeale og bakterielle sekvenser. Hver resulterende fasta-fil blev brugt som input til PAPRICA-rørledningen til at forudsige den tilsvarende 16S GCN, som beskrevet ovenfor for genomer. Dette gav en forudsagt GCN for alle Greengens poster. Disse forudsigelser blev sammenlignet med de forudberegnede GCN-værdier leveret af PICRUSt. Disse forudsigelser blev også brugt til at beregne frekvensfordelingen af GCN ‘ er forudsagt af PAPRICA på tværs af Greengenes (yderligere fil 1: Figur S3C). For at sammenligne CopyRighter med PAPRICA (Fig., 3c), fortsatte vi som beskrevet ovenfor til sammenligning af CopyRighter til PICRUSt.
sammenligning af 3.parts GCN-forudsigelsesværktøjer på tværs af mikrobielle samfund
for at sammenligne CopyRighter, PICRUSt og PAPRICA på tværs af OTUs i forskellige mikrobielle samfund fortsatte vi som følger. Offentligt tilgængelige 16S rRNA amplicon-sekvensdata fra forskellige miljøprøver blev do .nloadet fra Det Europæiske Nukleotidarkiv (http://www.ebi.ac.uk/ena). Kun Illumina-sekvensdata fra amplikoner opnået ved hjælp af bakterier-og / eller arkæa-følsomme primere blev overvejet., Prøver blev valgt til at dække en lang række miljøer, inklusive havet, marine-og søsedimenter, jord, saltvand og hypersaline søer, hydrotermiske ventilationskanaler, varme kilder, bioreaktorer, og dyreassocierede mikrobiomer. Alle sekventeringsdata blev behandlet på en lignende måde, hvor det var muligt, som følger. Overlappende parret-end lyder, blev sammenlagt ved hjælp af flash-v1.2.11 (valg –min-overlapning=20 –max-overlapning=300 –max-mismatch-density 0.25 –phred-offset=33 –give-outies), og ikke-overlappende parret-end lyder, som blev udeladt. Single-end læser blev holdt uændret., Alle single-end læser-og fusionerede forbundet-end lyder var så kvalitet filtreret ved hjælp af vsearch v2.4.3 (valg –fastq_ascii 33 –fastq_minlen 120 –fastq_qmin 0 –fastq_maxee 1 –fastq_truncee 1 –fastq_maxee_rate 0.005 –fastq_stripleft 7). Prøver med mere end 20.000 kvalitetsfiltrerede læsninger blev sjældent ned til 20.000 læsninger for at reducere beregningstiden ved tilfældigt at vælge læsninger uden udskiftning., Kvalitet-filtreret sekvenser blev grupperet i operationelle taxonomiske enheder (OTUs; på 97% lighed) ved lukkede-reference global justering mod de ikke-redundante (NR99) SILVA SSU reference database (release 128; ), ved hjælp af vsearch. Begge strenge blev overvejet til justering (vsearch mulighed –strand begge). Sekvenser, der ikke matcher nogen databaseindgang ved 97% lighed eller højere, blev kasseret. Bemærk, at OTUs således blev repræsenteret af SILVA-poster, nemlig dem, der blev brugt til at frø klyngerne. Kloroplaster, mitokondrier og enhver Eukaryota blev udeladt., OTUs repræsenteret af færre end fem læsninger på tværs af alle prøver blev udeladt. Endelig blev alle prøver med mindre end 2.000 læsninger, som Otus tegnede sig for, udeladt. Dette gav en Otu tabel med 635 prøver og 65,673 OTUs repræsenteret ved 4,827,748 læser (i gennemsnit 734 OTUs pr prøve). Sample tiltrædelsesnumre, koordinater, sampling datoer, originale publikationer, sekventering platforme, kvalitet-filtreret læse længder, og læse tæller og dækket primer regioner (hvor det er muligt) findes i yderligere fil 9.,
At forudsige, GCNs for OTUs i hver prøve at bruge CopyRighter, vi brugte samme fremgangsmåde som for genomer: Repræsentant 16S sekvenser af OTUs blev justeret til GG2012 hjælp vsearch (indstillinger “–strand begge –usearch_global –iddef 0 –id 0.99 –maxhits 1 –maxaccepts 10 –top_hits_only”), med udeladelse af nogen OTUs ikke matches til en Greengenes indlæg med mindst 99% lighed. For hver Otu holdt, GCN opført af CopyRighter for den matchede Greengenes post blev taget som CopyRighter forudsigelse. For PICRUSt fortsatte vi på en analog måde ved hjælp af GG2013 i stedet for GG2012., For PAPRICA fortsatte vi på en analog måde ved hjælp af PAPRICA ‘ s GCN-forudsigelser beregnet tidligere for GG2013 (se forrige afsnit).
for at sammenligne to givne værktøjer (CopyRighter vs. PICRUSt, PICRUSt vs. PAPRICA eller CopyRighter vs. PAPRICA) for en bestemt prøve blev kun OTUs med mindst en læsning i prøven og med en GCN-forudsigelse fra begge værktøjer overvejet. Vi målte aftalen mellem to værktøjer med hensyn til brøkdelen af varians i forudsigelser af det 1.værktøj, der blev forklaret ved forudsigelser af det 2. Værktøj (R2)., Vi beregnet prøvens NSTI (nærmeste sekventeret ta .on indeks) ifølge , dvs.som det aritmetiske gennemsnit NSTD over alle OTUs betragtes i sammenligningen og vægtet med relative OTU frekvenser. Detaljer om, hvordan Nstd ‘ er blev beregnet, findes i afsnittet nedenfor. For hvert sammenlignet par værktøjer opnåede vi således 635 nstis og 635 R2s på tværs af 635 prøver, vist i fig. 4. Pearson korrelationskoefficienter (r2) mellem Nsti ‘ er og R2 blev beregnet for hvert par værktøjer, separat for dyreassocierede og ikke-dyreassocierede prøver., Statistiske signifikanser (p-værdier) af korrelationskoefficienter blev estimeret ved hjælp af en permutationstest med 1000 permutationer. Yderligere fil 1: tallene S6 og S7 viser GCNs forudsagt af hvert værktøj til forskellige mikrobielle samfund. Vi viser også, relative afvigelser mellem redskaber (|(A−B)|/((A+B)/2), hvor A og B er GCNs forudsagt af to værktøjer til samme OTU) og NSTDs for OTUs i forskellige prøver (Ekstra fil 1: Figur S8).,
Evaluering og sammenligning af GCN forudsigelse værktøjer afhængigt af NSTD
for At undersøge den prædiktive nøjagtigheden af CopyRighter, PICRUSt, og PAPRICA som en funktion af en OTU eller genom er NSTD, gik vi som følger. For hver OTU i SILVA og separat for hvert værktøj beregnet vi NSTD som den fylogenetiske Afstand til det nærmeste sekventerede genom, der bruges af værktøjet til at foretage forudsigelser (“kalibreringsgenomer”). For PAPRICA blev en liste over 5,628 kalibreringsgenomer opnået fra PAPRICA ‘ s forudkomputerede filer (PAPRICA/ref_genome_database/*/genome_data.endelig.,csv, hvor ” * ” er enten bakterier eller archaea). Kalibreringsgenomer blev matchet med SILVA OTUs via global tilpasning af 16S-genet ved en lighedstærskel på 99% ved hjælp af vsearch. Matchede OTUs antages at have en NSTD lig med nul, og for alle andre SILVA OTUs, nstd blev beregnet ud fra det SILVA-afledte træ og ved hjælp af R-pakken castor . En omtrentlig matchning af genomer til OTUs (dvs ., ved 99% lighed) blev valgt for at sikre, at så mange af de kalibrering genomer er medtaget som muligt; bemærk, at SILVA OTUs er klumpet på, at lighed, og at de fejl, der potentielt introduceret til NSTDs og NSTIs er ubetydelig (< 1% nukleotid udskiftninger per side). For PICRUSt, en tabel, der er hentet fra projektets hjemmeside notering IMG (Integreret Mikrobiel Genomer) IDs for 2,887 kalibrering genomer (https://github.com/picrust/picrust/tree/master/tutorials/picrust_starting_files.zip fil GG_to_IMGv350.t .t). IMG id ‘er blev oversat til GG2013 sekvens-id’ er ved hjælp af gg_13_5_img.,t .t opslagstabel do .nloadet fra Greengens hjemmeside (http://greengenes.secondgenome.com/downloads). Matchede GG2013-id ‘ er blev derefter kortlagt til SILVA OTUs via global 16S-sekvensjustering med vsearch, ved en lighedstærskel på 99%. NSTD ‘ er af SILVA OTUs blev derefter beregnet på samme måde som for PAPRICA. For CopyRighter, en lookup tabel er hentet fra projektets Github side, der kort kalibrering genomer til at GG2012 sekvenser (https://github.com/fangly/AmpliCopyrighter fil AmpliCopyrighter-0.46/forbehandling/ data/img_to_gg.t .t)., GG2012-sekvenser, der er anført i tabellen, blev kortlagt til SILVA OTUs, og Nstd ‘ er blev beregnet for alle SILVA OTUs på samme måde som for PICRUSt. For at bestemme Nstd ‘ erne for genomer undersøgt i denne undersøgelse (separat for CopyRighter, PICRUSt og PAPRICA) blev genomer kortlagt til SILVA OTUs via global tilpasning af deres længste tilgængelige 16-sekvens ved 99% lighed. For hvert genom blev NSTD af den mest matchede SILVA OTU taget som genomets NSTD. For at bestemme Nstd ‘ er for alle Greengens OTUs kortlagde vi Greengens OTUs til SILVA OTUs via global tilpasning ved 99% lighed., For at bestemme Nstd ‘er for OTUs, der er genvundet fra de samplede mikrobielle samfund, brugte vi direkte NSTD’ erne af SILVA OTUs, der blev brugt som frø under Otu-plukning med lukket reference. Når man sammenligner to GCN forudsigelse værktøjer på en OTU(f Figs Fig. 3 og 4 og yderligere fil 1: Figur S8), i tilfælde hvor de to Nstd ‘ er var forskellige, brugte vi deres aritmetiske gennemsnit. At beregne R2 mellem to GCN-forudsigelsesværktøjer eller mellem et GCN-forudsigelsesværktøj og” true GCNs ” som en funktion af NSTD (Fig., 2 og 3d – f), vi binned OTUs eller genomer anvendes i sammenligningen i lige store nstd intervaller og beregnet R2 separat for hvert interval. Kun nstd-intervaller med mindst 10 OTUs eller genomer blev overvejet.
Skriv et svar