konstruktion av SILVA-härledat träd
medan det ursprungliga SILVA-trädet är väl kurerat taxonomiskt är det oftast tänkt att användas som ett styrträd, och omberäkning av grenlängder rekommenderas generellt för nedströmsfylogenetiska analyser ., Här, för att konstruera ett fylogenetiskt träd med mer meningsfulla grenlängder med OTUs i SILVA non-redundant (NR99) 16S-databasen (release 128; ), fortsatte vi enligt följande. Inriktade representativa SSU-sekvenser i SILVA reducerades genom att först ta bort nukleotidpositioner med>95% luckor och sedan ta bort de 5% mest entropiska nukleotidpositionerna. Taxonomiska identiteter som tillhandahålls av SILVA för Otus på domänen, fylum och klassnivå användes för att skapa delade begränsningar för FastTree , genom att begränsa varje taxon att vara på en enda sida av en split och monofyletik., Taxa med färre än 10 otu utelämnades från begränsningarna. Sammanlagt 354 begränsningar definierades således. Med hjälp av de taxonomiskt genererade begränsningarna och med det ursprungliga SILVA-trädet som ett startträd konstruerade vi ett fylogenetiskt träd från de reducerade justeringarna med FastTree v2. 1. 10(alternativ ”- spr 4-gamma-fastest-no2nd-constraintWeight 100”). Det fylogenetiska trädet omdirigerades så att bakterier och Archaea delas vid roten. Vårt SILVA-härledda träd tillhandahålls som ytterligare Fil 2., För alla nedströmsanalyser utelämnades kloroplaster, mitokondrier och Eukaryota från trädet. I huvudartikeln beskriver vi våra analyser med hjälp av detta SILVA-härledda träd (Fig. 1); analoga resultat för det ursprungliga SILVA-trädet visas i ytterligare fil 1: figur S1.
fylogenetisk fördelning av 16S GCNs
för att undersöka hur 16S GCNs distribueras fylogenetiskt och för att bedöma deras allmänna förutsägbarhet med olika fylogenetiska metoder, fortsatte vi enligt följande., Totalt 8 767 kommenterade bakteriella och archaeala genomer med färdigställningsstatus ”komplett genom” laddades ner från NCBI RefSeq-databasen den 4 januari 2018. Nedladdade genomer kontrollerades för potentiell förorening med hjälp av checkM 1.0.6 (alternativ ”reduced_tree”), som är baserad på detektering av konserverade markörgener (montering och checkM sammanfattningar i ytterligare fil 3). Genomer som visade sig uppvisa en föroreningsnivå över 1% eller en stam heterogenitet över 1% kasserades och lämnade oss med 6,868 kompletta genom för nedströmsanalys (ytterligare fil 4).,
för varje genom bestämdes 16S GCNs med två tillvägagångssätt: för det första räknade vi antalet annoterade 16S rRNA-sekvenser i NCBI-anteckningarna (filer rna_from_genomic.fna). För det andra, vi som används kovariansen modeller med programmet cmsearch (som en del av INFERNALISKA version 1.1.2, alternativ ”–noali –cut_nc”) för att söka på 16S rRNA-sekvenser inom den samlade arvsmassan (filer genomisk.fna). Separat samvariation modeller för archaeal och bakteriella 16S rRNA gener som erhölls från Rfam databas (anslutningar RF00177 och RF01959)., En tabell med GCNs beräknade med båda metoderna tillhandahålls som ytterligare fil 5. Endast genomer för vilka de två metoderna gav samma 16S GCNs ansågs för efterföljande analys, vilket gav 16S GCNs för 6,780 genom (”högkvalitativa genomer”, ytterligare fil 6). Riktigheten av dessa GCNs var ytterligare verifieras genom jämförelse med den Ribosomala RNA Operon Kopiera Nummer Databas (rrnDB, nås den 7 juni 2017; ) när ett genom montering anslutning var närvarande i rrnDB (rrnDB attributet ”Data source record-id”)., Över 5,616 högkvalitativa genomer testade hittade vi ett nästan perfekt avtal med rrnDB (R2>0.999; ytterligare fil 1: figur S2). checkM kvalitet sammanfattningar för hög kvalitet genomet set tillhandahålls som ytterligare fil 7.
Tips om SILVA-härledda trädet kartlades till högkvalitativa genom, när det är möjligt, enligt följande: för det första var representativa 16S-sekvenser av SILVA OTUs anpassade till den längsta 16S rRNA-sekvensen från varje genom med vsearch 2.3.,4 vid maximal (100%) likhet (vsearch alternativ ”–både strand –usearch_global –maxaccepts 0 –top_hits_only –iddef 0 — – id 1.0”). Om en OTU anpassas till flera Genom, var alla genom ursprungligen hålls. Därefter jämförde vi NCBI taxon ID (”taxid”) för OTU för varje justerat otu-genompar till genomet. Otu-taxibilar erhölls från en söktabell som tillhandahålls av SILVA (https://www.arb-silva.de/fileadmin/silva_databases/release_128/Exports/taxonomy/taxmap_embl_ssu_ref_128.txt.gz). Genomtaxider erhölls från uppslagstabeller från NCBI (ftp://ftp.ncbi.nlm.nih.gov/genomes/genbank/*/assembly_summary.txt, där ”*” är antingen ”bakterier”eller ” archaea”)., Alla i linje otu-genom par med icke-identiska taxibilar utelämnades. Av de återstående otu-genomet par med identiska taxider, vi höll bara den första inriktade genomet för varje otu. Totalt kunde 9,395 Otus således kartläggas till ett av genomerna. För varje mappad OTU antog vi en GCN lika med GCN räknat för motsvarande genom. För alla andra OTUs antog vi en okänd GCN.
alla fylogenetiska analyser utfördes med hjälp av r-paketet castor , tillgängligt på det omfattande r-Arkivnätet (CRAN). NSTDs för alla tips med avseende på tips mappas till en sekvenserad genom (Fig., 1B) beräknades med castor-funktionen find_nearest_tips. Den fylogenetiska autokorrelationsfunktionen (ACF) av kända 16S GCNs över SILVA-härledda trädet (Fig. 1a) har beräknats med hjälp av castor funktion get_trait_acf baserat på 108 tips par (alternativ ”Npairs=1e8, Nbins=100”), som väljs slumpmässigt bland tips med kända GCN. Funktionen get_trait_acf plockar slumpmässigt otu-par på trädet, sätter dem i ett av många intervall av fylogenetiskt avstånd och beräknar Pearson autocorrelation mellan GCNs av otu-paren inom varje bin., Observera att denna analys inte förutsätter att gcns skala linjärt med fylogenetiskt avstånd. I stället mäter ACF endast den statistiska korrelationen mellan GCNs på olika tips, förutsatt att tipsen ligger inom ett visst fylogenetiskt avstånd från varandra.,
GCNs rekonstruerades på SILVA som härrör träd med Sankoff max-dem (funktion hsp_max_parsimony, med möjlighet transition_costs antingen till ”exponentiell” ”proportion” eller ”all_equal”), ett oberoende kontraster (funktion hsp_independent_contrasts), viktade-kvadrat-ändra dem (funktion hsp_squared_change_parsimony), subträd i genomsnitt (funktion hsp_subtree_averaging), och maximal sannolikhet för Mk-modeller med rerooting (funktion hsp_mk_model_rerooting med alternativ root_prior= ”empiriska”, optimization_algorithm=’nlminb’, Ntrials=5, rate_model=’ER’).,
för att beräkna den korsverifierade variansfraktion som förutses av (aka. korsverifierad bestämningskoefficient för) varje metod (\(r^{2} _ {\text {cv}}\);) som en funktion av NSTD (Fig. 1c), vi fortsatte enligt följande. Vi valde slumpmässigt 2% av tipsen med kända 16S GCN som ska uteslutas från ingången till rekonstruktionerna och användas som en oberoende ”testuppsättning” efteråt. Beroende på NSTD-cutoff som övervägs (till exempel 10% substitutioner per plats) utesluter vi också alla tips vars fylogenetiska avstånd till testuppsättningen var under nstd-cutoff., De återstående tipsen med kända gcns (”training set”) användes som ingång till rekonstruktionerna, och de gcns som förutsågs för testuppsättningen jämfördes sedan med de kända gcns i testuppsättningen. Denna process upprepades tre gånger och den resulterande R2 var i genomsnitt över alla upprepningar, vilket gav en \(R^{2} _ {\text {cv}}\) för varje övervägd nstd cutoff. R-skriptet för att analysera och rekonstruera 16S GCNs över SILVA-härledda trädet finns som ytterligare fil 8. Som jämförelse utfördes också alla ovanstående analyser med hjälp av det ursprungliga SILVA-styrträdet (ytterligare fil 1: figur S1).,
utvärdering av 3: e parts GCN-prediktionsverktyg på sekvenserade genom
för att testa den prediktiva noggrannheten hos CopyRighter , PICRUSt och PAPRICA för genom med kända GCNs , jämförde vi deras förutsägelser med gcns räknade i (högkvalitativa) sekvenserade genom. För att utvärdera den prediktiva noggrannheten hos upphovsmannen på genomerna fortsatte vi enligt följande: vi laddade först ner den förkomputerade lookup-tabellen med Copyrighters förutsägelser för Greengenes 16S rRNA-databasen (release October 2012, ”GG2012”;), från projektets Github den 6 juni 2017 (v0.,46): https://github.com/fangly/AmpliCopyRighter (CopyRighter-0.46/data/201210/ssu_img40_gg201210.txt). Vi har sedan anpassat den längsta 16S rRNA-sekvens av varje genomet till OTUs (klustrade på 99% likhet) i Greengenes databas med vsearch (vsearch alternativ ”–både strand –usearch_global –maxhits 1 –maxaccepts 10 –top_hits_only”), att alltid välja det bästa match i Greengenes och håller bara genom att kopplas till en Greengenes inlägg av minst 99% likhet (5688 arvsmassa kartlagd)., För varje kartlagt genom tog vi GCN förutsagt av CopyRighter för motsvarande Greengenes-post som Copyrighters förutsägelse för genomet. Denna förutsägelse jämfördes sedan med GCN räknat från genomsekvensen. Ett histogram av Copyrighters förutsägelser över mappade genom visas i ytterligare fil 1: figur S4B. den prediktiva noggrannheten hos CopyRighter mättes i termer av fraktionen av förklarad varians (R2), som en funktion av ett genoms NSTD (Fig. 1a). NSTDs av genomer beräknades enligt beskrivningen i ett separat avsnitt nedan.,
En liknande metod användes för PICRUSt : Den i förhand lookup tabell över PICRUSt s prognoser för Greengenes databas (release Maj 2013. ”GG2013”) var laddas ner från projektets hemsida den 6 juni 2017 (v1.1.1): https://picrust.github.io/picrust/picrust_precalculated_files.html(16S_13_5_precalculated.flik.gz). Totalt 5 708 högkvalitativa genom kan kartläggas till en otu (99% likhet) i GG2013. Ett histogram av Picrusts förutsägelser över alla mappade genom visas i ytterligare fil 1: figur S4C. den prediktiva noggrannheten hos PICRUSt mättes i termer av R2 som en funktion av ett genoms NSTD (Fig., 1b), på samma sätt som CopyRighter.
för att utvärdera den prediktiva noggrannheten hos PAPRICA på genomerna fortsatte vi enligt följande: vi laddade först ner och installerade PAPRICA från projektets Github den 6 juni 2017 (v0.4.0 b): https://github.com/bowmanjeffs/paprica. Den här versionen innehåller förkomputerade referensträd (en för archaea och en för bakterier) och tabeller med 16S GCNs för verktygets kalibreringsgenomer representerade i referensträden. Vi använde den längsta 16S rRNA-sekvensen från varje genom som en ingång till PAPRICA-rörledningen (kommandot ”paprica-run.sh”), separat för archaea och bakterier., Rörledningen producerar bland annat en tabell som listar den okorrigerade överflöd av varje unik ingångssekvens (detta kan vara större än 1 om flera genomer delar samma 16S rRNA-sekvens) och motsvarande korrigerade överflöd (efter att ha delat med den förutsagda 16S GCN). Vi använde denna tabell för att få 16S gcns förutsagt av PAPRICA för de unika 16S-sekvenserna (representerar 3473 16S-sekvenser), genom att dividera den okorrigerade av den korrigerade överflöd. Vi jämförde sedan dessa förutspådda GCNs med gcns räknade i genomsekvenserna, på samma sätt som ovan., Ett histogram av PAPRICAS förutsägelser över alla representerade genom visas i ytterligare fil 1: figur S4D. den prediktiva noggrannheten hos PAPRICA mättes i termer av R2 som en funktion av ett genoms NSTD (Fig. 1a), på samma sätt som upphovsmannen.
jämförelse av GCN-prediktionsverktyg från tredje part över Greengenes
för att jämföra förutsägelserna av CopyRighter med dem av PICRUSt över alla Otus i Greengenes (Fig. 3a), vi för första gången kartlade alla OTUs i GG2013 att OTUs i GG2012 med vsearch (med alternativ ”–både strand –usearch_global”)., Vi bara höll matcher på 100% likhet (153,375 av 203,452 OTUs i GG2013). Till varje mappad OTU i GG2013, vi jämfört med motsvarande GCN förutspåtts av PICRUSt till GCN förutspåtts av CopyRighter för matchade OTU i GG2012. För att beräkna frekvensen distributioner av GCNs förutspåtts av CopyRighter och PICRUSt över alla OTUs i Greengenes (histogram i Ytterligare fil 1: Figur S3A,B), använde vi GCNs förtecknas i sina förhand lookup-tabeller.
för Att jämföra PAPRICA att PICRUSt över Greengenes (Fig., 3b), vi fortsatte enligt följande: representativa sekvenser av OTUs i GG2013 delades upp i archaeal och bakteriesekvenser. Varje resulterande fasta-fil användes som ingång till PAPRICA-rörledningen för att förutsäga motsvarande 16S GCN, som beskrivits ovan för genom. Detta gav en förutsedd GCN för alla Greengenes poster. Dessa förutsägelser jämfördes med de förkomputerade GCN-värdena från PICRUSt. Dessa förutsägelser användes också för att beräkna frekvensfördelningen för GCNS som PAPRICA förutspådde över Greengenes (ytterligare fil 1: figur S3C). Att jämföra CopyRighter att PAPRICA (Fig., 3c), vi fortsatte som beskrivits ovan för jämförelse av CopyRighter till PICRUSt.
jämförelse av GCN-prediktionsverktyg från tredje part över mikrobiella samhällen
för att jämföra CopyRighter, PICRUSt och PAPRICA över OTUs i olika mikrobiella samhällen fortsatte vi enligt följande. Offentligt tillgängliga 16S rRNA amplicon-sekvensdata från olika miljöprover hämtades från det europeiska Nukleotidarkivet (http://www.ebi.ac.uk/ena). Endast Illumina-sekvensdata från ampliconer som erhållits med hjälp av bakterier – och/eller archaea-känsliga primers beaktades., Prover valdes för att täcka ett brett spektrum av miljöer, inklusive hav, havs-och sjösediment, jord, saltlösning och hypersalinsjöar, hydrotermiska ventiler, varma källor, bioreaktorer och djurassocierade mikrobiomer. Alla sekvenseringsdata behandlades på ett liknande sätt, om möjligt, enligt följande. Överlappande Parade slutläsningar fusionerades med hjälp av flash v1. 2. 11 (alternativ-min-överlappning=20-max-överlappning=300-max-mismatch-densitet 0.25-phred-offset=33-Tillåt-outies), och icke-överlappande Parade slutläsningar utelämnades. Enstaka läsningar hölls oförändrade., Alla single-end läser och samman kopplade-end läser då var kvaliteten filtreras med hjälp av vsearch v2.4.3 (alternativ –fastq_ascii 33 –fastq_minlen 120 –fastq_qmin 0 –fastq_maxee 1 –fastq_truncee 1 –fastq_maxee_rate 0.005 –fastq_stripleft 7). Prover med mer än 20 000 kvalitetsfiltrerade läsningar rarefied ner till 20 000 läser för att minska beräkningstiden, genom slumpmässigt plockning läser utan ersättning., Kvalitetsfiltrerade sekvenser grupperades i operativa taxonomiska enheter (OTUs; vid 97% likhet) genom sluten referens global anpassning mot den icke-redundanta (NR99) Silva SSU referensdatabas (release 128;), med hjälp av vsearch. Båda delarna övervägdes för anpassning (vsearch option –strand both). Sekvenser som inte matchar någon databaspost vid 97% likhet eller högre kasserades. Observera att Otus således representerades av SILVA-poster, nämligen de som användes för att fröa klustren. Kloroplaster, mitokondrier och alla Eukaryota utelämnades., Otus representeras av färre än fem läser över alla prover utelämnades. Slutligen utelämnades alla prover med färre än 2,000 läsningar som redovisats av OTUs. Detta gav en otu tabell med 635 prover och 65,673 Otus representeras av 4,827,748 läser (i genomsnitt 734 Otus per prov). Prov anslutningsnummer, koordinater, provtagningsdatum, originalpublikationer, sekvenseringsplattformar, kvalitetsfiltrerade läslängder och läsantal och täckta primerområden (om sådana finns) finns i ytterligare fil 9.,
för Att förutsäga GCNs för OTUs i varje prov med hjälp av CopyRighter, vi använde oss av samma tillvägagångssätt som för genomen: Representant 16 sekvenser av OTUs anpassades till GG2012 med vsearch (alternativ ”–både strand –usearch_global –iddef 0 –id-0.99 –maxhits 1 –maxaccepts 10 –top_hits_only”), utan någon OTUs inte matchas till en Greengenes inlägg av minst 99% likhet. För varje otu hålls, GCN anges av CopyRighter för den matchade Greengenes posten togs som Copyrighters förutsägelse. För PICRUSt, vi fortsatte på samma sätt, med hjälp av GG2013 istället för GG2012., För PAPRICA fortsatte vi på ett analogt sätt, med hjälp av PAPRICAS GCN-förutsägelser beräknade tidigare för gg2013 (se föregående avsnitt).
för Att jämföra två givna verktyg (CopyRighter vs. PICRUSt, PICRUSt vs. PAPRICA, eller CopyRighter vs. PAPRICA) för ett specifikt prov, bara OTUs med minst en läsa på provet och som har en GCN prognos från båda verktygen har beaktats. Vi mätte avtalet mellan två verktyg när det gäller bråkdelen av variansen i förutsägelser av det första verktyget som förklarades av förutsägelser av det andra verktyget (R2)., Vi beräknade provets nsti (närmaste sekvenserade taxon index) enligt , DVS, som det aritmetiska medelvärdet nstd över alla otu anses i jämförelsen och viktas av relativa otu frekvenser. Detaljer om hur NSTDs beräknades finns i avsnittet nedan. För varje par av verktyg jämfört, vi erhöll således 635 nstis och 635 R2s över 635 prover, som visas i Fig. 4. Pearson korrelationskoefficienter (r2) mellan NSTIs och R2 beräknades för varje verktygspar, separat för djurassocierade och icke-djurassocierade prover., Statistiska signifikanser (p-värden) av korrelationskoefficienter uppskattades med hjälp av ett permutationstest med 1000 permutationer. Ytterligare fil 1: figurerna S6 och S7 visar gcns förutsagda av varje verktyg för olika mikrobiella samhällen. Vi visar också relativa avvikelser mellan verktyg (|A−B/ / ((A+B) / 2), där A och B är gcns förutspås av två verktyg för samma otu) och NSTDs för Otus i olika prover (ytterligare fil 1: figur S8).,
Utvärdering och jämförelse av GCN prognos verktyg beroende på NSTD
för Att undersöka den prediktiva noggrannhet av CopyRighter, PICRUSt, och PAPRICA som en funktion av en OTU-eller genomet är NSTD, vi fortsatte enligt följande. För varje otu i SILVA och separat för varje verktyg beräknade vi NSTD som det fylogenetiska avståndet till närmaste sekvenserade genom som används av verktyget för att göra förutsägelser (”kalibreringsgenom”). För PAPRICA erhölls en lista över 5,628 kalibreringsgenom från PAPRICAS förkomputerade filer (PAPRICA/ref_genome_database/* / genome_data.slutlig.,csv, där ” * ” är antingen bakterier eller archaea). Kalibreringsgenom matchades med SILVA Otus via global anpassning av 16S-genen vid en likhetsgräns på 99%, med hjälp av vsearch. Matchade Otus antogs ha en nstd lika med noll, och för alla andra SILVA OTUs beräknades NSTD baserat på SILVA-härledda trädet och med hjälp av r-paketet castor . En ungefärlig matchning av genom till OTUs (dvs, 99% likhet) valdes för att säkerställa att så många av kalibreringsgenomen inkluderas som möjligt.observera att SILVA Otus själva är grupperade vid den likheten och att felet som potentiellt introduceras till NSTDs och NSTIs är försumbar (< 1% nukleotidsubstitutioner per plats). För PICRUSt, ett bord var laddas ner från projektets hemsida notering IMG Integrerad Mikrobiell Arvsmassan) Id-nummer för 2,887 kalibrering genomen (https://github.com/picrust/picrust/tree/master/tutorials/picrust_starting_files.zip, fil GG_to_IMGv350.txt). IMG Id översattes till GG2013 sekvens-Id med hjälp av den gg_13_5_img.,Txt lookup tabell hämtad från Greengenes webbplats (http://greengenes.secondgenome.com/downloads). Matchas GG2013 IDs då var mappad till SILVA OTUs via globala 16 sequence alignment med vsearch, på en likhet tröskeln till 99%. NSTDs av SILVA OTUs var sedan beräknas på samma sätt som för PAPRICA. För CopyRighter hämtades en söktabell från projektets Github-sida som kartlägger kalibreringsgenom till gg2012-sekvenser (https://github.com/fangly/AmpliCopyrighter, file AmpliCopyrighter-0.46/preprocessing/ data/img_to_gg.txt)., Gg2012-sekvenser som listas i den tabellen kartlades till SILVA OTUs, och nstds beräknades för alla SILVA OTUs, på ett liknande sätt som För PICRUSt. För att bestämma NSTDs för arvsmassan som undersöks i denna studie (separat för CopyRighter, PICRUSt, och PAPRICA), arvsmassan kartlades SILVA OTUs via global anpassning av sina längsta tillgängliga 16S sekvens på 99% likhet. För varje genom togs NSTD av den närmast matchade SILVA otu som genomets NSTD. För att avgöra NSTDs för alla Greengenes OTUs, vi kartlagt Greengenes OTUs SILVA OTUs via global anpassning till 99% likhet., För att bestämma NSTDs för Otus som återvunnits från de provtagna mikrobiella samhällena använde vi direkt NSTDs av SILVA OTUs som används som frön under sluten referens otu-plockning. När man jämför två GCN-prediktionsverktyg på en OTU (t.ex. fikon. 3 och 4 och ytterligare fil 1: figur S8), i de fall där de två NSTDs skilde sig, använde vi deras aritmetiska medelvärde. För att beräkna R2 mellan två GCN-prediktionsverktyg, eller mellan ett GCN-prediktionsverktyg och” true GCNs”, som en funktion av Nstd (Fig., 2 och 3d-f), vi binned OTUs eller genomer som används i jämförelsen i lika stora nstd-intervall och beräknade R2 separat för varje intervall. Bara NSTD intervaller med minst 10 OTUs eller genom behandlades.
Lämna ett svar