Correctie voor 16S rRNA gen copy nummers in microbiome surveys blijft een onopgelost probleem/Microbiome

constructie van SILVA-afgeleide boom

terwijl de oorspronkelijke SILVA boom is goed samengesteld taxonomisch, het is meestal bedoeld om te worden gebruikt als een gids boom, en herberekening van tak lengtes wordt over het algemeen geadviseerd voor downstream fylogenetische analyses ., Hier, om een fylogenetische boom met meer betekenisvolle tak lengtes te construeren met behulp van OTUs in de SILVA non-redundant (NR99) 16S database (release 128;), gingen we als volgt te werk. Uitgelijnde representatieve SSU-sequenties in SILVA werden verminderd door eerst nucleotideposities met >95% hiaten te verwijderen en vervolgens de top 5% meest entropische nucleotideposities te verwijderen. Taxonomische identiteiten van SILVA voor OTUs op het domein -, phylum-en klassenniveau werden gebruikt om splitbeperkingen voor FastTree te creëren , door elk taxon te beperken tot één kant van een split en monofyletisch., Taxa met minder dan 10 OTUs werden weggelaten uit de beperkingen. Zo werden in totaal 354 beperkingen vastgesteld. Met behulp van de taxonomisch gegenereerde beperkingen en het nemen van de oorspronkelijke SILVA boom als een start boom, bouwden we een fylogenetische boom uit de verminderde uitlijningen met FastTree v2.1.10 (opties “-spr 4-gamma-fastest-no2nd-constraintWeight 100”). De fylogenetische boom werd opnieuw opgestart zodat bacteriën en Archaea aan de wortel worden gespleten. Onze SILVA-afgeleide boom wordt geleverd als extra bestand 2., Voor alle stroomafwaartse analyses werden chloroplasten, mitochondriën en Eukaryota uit de boom weggelaten. In het hoofdartikel beschrijven we onze analyses met behulp van deze SILVA-afgeleide boom (Fig. 1); analoge resultaten voor de oorspronkelijke SILVA boom worden getoond in aanvullend bestand 1: Figuur S1.

fylogenetische distributie van 16S GCNs

om te onderzoeken hoe 16S GCNs fylogenetisch worden gedistribueerd en om hun algemene voorspelbaarheid te beoordelen met behulp van verschillende fylogenetische methoden, gingen we als volgt te werk., Een totaal van 8.767 geannoteerde bacteriële en archaeal genomen met voltooiingsstatus “volledig genoom” werden gedownload van de NCBI RefSeq database op 4 januari 2018. Gedownloade genomen werden gecontroleerd op mogelijke besmetting met checkM 1.0.6 (optie “reduced_tree”), die gebaseerd is op de detectie van geconserveerde markergenen (assemblage en checkM samenvattingen in aanvullend dossier 3). Genomen waarvan werd vastgesteld dat ze een contaminatieniveau boven 1% of een heterogeniteit van de stam boven 1% vertoonden, werden weggegooid, waardoor we 6.868 volledige genomen overbleven voor downstreamanalyse (aanvullend dossier 4).,

voor elk genoom werden 16S GCNs bepaald met behulp van twee benaderingen: eerst telden we het aantal geannoteerde 16S rRNA sequenties in de NCBI annotaties (files rna_from_genomic.fna). Ten tweede gebruikten we covariantie modellen met het programma cmsearch (als onderdeel van INFERNAL Versie 1.1.2, opties “–noali –cut_nc”) om te zoeken naar 16S rRNA sequenties binnen de geassembleerde genomen (files genomic.fna). Afzonderlijke covariantiemodellen voor archaeale en bacteriële 16S rRNA genen werden verkregen uit de Rfam database (toetredingen RF00177 en RF01959)., Een tabel met GCNs berekend met behulp van beide methoden wordt geleverd als extra bestand 5. Alleen genomen waarvoor de twee methoden dezelfde 16S GCNs opleverden werden overwogen voor verdere analyse, wat 16S GCNs opleverde voor 6.780 genomen (“hoogwaardige genomen,” aanvullend dossier 6). De nauwkeurigheid van deze GCNs werd verder geverifieerd door vergelijking met het Ribosomal RNA Operon Copy Number Database (rrnDB, geopend op 7 juni, 2017; ) wanneer een genoom assemblage toetreding aanwezig was in rrnDB (rrndb attribuut “Data source record id”)., Over 5.616 geteste genomen van hoge kwaliteit, vonden we een bijna perfecte overeenkomst met de rrnDB (R2>0.999; aanvullend bestand 1: Figuur S2). checkM-kwaliteitssamenvattingen voor de hoogwaardige genoomset worden als aanvullend bestand 7 verstrekt.

Tips op de SILVA-afgeleide boom werden, indien mogelijk, als volgt in kaart gebracht op genomen van hoge kwaliteit: ten eerste werden representatieve 16S-sequenties van SILVA OTUs uitgelijnd op de langste 16S rRNA-sequentie van elk genoom met behulp van vsearch 2.3.,4 bij maximale (100%) overeenkomst (vsearch options “–strand both –usearch_global –maxaccepts 0 –top_hits_only –iddef 0 –id 1.0”). Als een OTU uitgelijnd op veelvoudige genomen, werden alle genomen aanvankelijk gehouden. Vervolgens hebben we voor elk uitgelijnd OTU-genoompaar de NCBI taxon ID (“taxid”) van de OTU vergeleken met die van het genoom. OTU-taxids werden verkregen uit een door SILVA verstrekte opzoektabel (https://www.arb-silva.de/fileadmin/silva_databases/release_128/Exports/taxonomy/taxmap_embl_ssu_ref_128.txt.gz). Genoom taxiden werden verkregen uit lookup tabellen verstrekt door NCBI (ftp://ftp.ncbi.nlm.nih.gov/genomes/genbank/*/assembly_summary.txt, waarbij ” * ” ofwel “bacteriën”of” archaea ” is)., Elk uitgelijnd OTU-genoompaar met niet-identieke taxiden werd weggelaten. Van de resterende OTU-genoomparen met identieke taxiden, hielden we alleen het eerste uitgelijnde genoom voor elke OTU. Een totaal van 9.395 OTUs kon dus in kaart worden gebracht aan één van de genomen. Voor elke in kaart gebrachte OTU gingen we uit van een GCN gelijk aan de GCN geteld voor het corresponderende genoom. Voor alle andere OTUs namen we een onbekende GCN aan.

alle fylogenetische analyses werden uitgevoerd met behulp van de R package castor, beschikbaar op het Comprehensive R Archive Network (CRAN). NSTDs voor alle uiteinden met betrekking tot uiteinden in kaart gebracht aan een gerangschikt genoom (Fig., 1b) werden berekend gebruikend de castorfunctie find_nearest_tips. De fylogenetische autocorrelatiefunctie (ACF) van bekende 16S GCNs over de SILVA-afgeleide boom (Fig. 1a) werd berekend met behulp van de castor functie get_trait_acf op basis van 108 tip paren (opties “Npairs=1E8, Nbins=100”), willekeurig gekozen uit tips met bekende GCN. De functie get_trait_acf kiest willekeurig OTU paren op de boom, bins hen in één van vele intervallen van phylogenetische afstand, en berekent de Pearson autocorrelatie tussen GCNs van de OTU paren binnen elke bak., Merk op dat deze analyse niet veronderstelt dat GCNs lineair schalen met fylogenetische afstand. In plaats daarvan meet ACF slechts de statistische correlatie tussen gcns op verschillende uiteinden, afhankelijk van de uiteinden die binnen een bepaalde phylogenetic afstand van elkaar zijn.,

GCNs werden gereconstrueerd aan de SILVA-afgeleide boom met behulp van Sankoff maximaal spaarzaamheid (functie hsp_max_parsimony, met optie transition_costs ingesteld op “exponentieel” “proportioneel” of “all_equal”), fylogenetische onafhankelijke contrasten (functie hsp_independent_contrasts), gewogen-kwadraat-wijzigen spaarzaamheid (functie hsp_squared_change_parsimony), substructuur gemiddelde (functie hsp_subtree_averaging) en de maximum-likelihood van Mk modellen met rerooting (functie hsp_mk_model_rerooting met opties root_prior=’empirische’, optimization_algorithm=’nlminb’, Ntrials=5, rate_model=’ER’).,

om de cross-gevalideerde variantiefractie te berekenen die is voorspeld door (aka. cross-gevalideerde determinatiecoëfficiënt van) elke methode (\(r^{2}_{\text {cv}}\);) als functie van de NSTD (Fig. 1c), gingen we als volgt te werk. We kozen willekeurig 2% van de tips met bekende 16S GCN uit te sluiten van de input voor de reconstructies en te gebruiken als een onafhankelijke “test set” achteraf. Afhankelijk van de onderzochte nstd cutoff (bijvoorbeeld 10% substituties per site), hebben we ook alle tips uitgesloten waarvan de fylogenetische afstand tot de testset onder de nstd cutoff lag., De resterende tips met bekende gcns (“training set”) werden gebruikt als input voor de reconstructies, en de voorspelde gcns voor de test set werden vervolgens vergeleken met de bekende GCNs van de test set. Dit proces werd drie keer herhaald en de resulterende R2 werd gemiddeld over alle herhalingen, wat een \(r^{2}_{\text {cv}}\) opleverde voor elke beschouwde nstd cutoff. Het R-script voor het analyseren en reconstrueren van 16S GCNs over de SILVA-afgeleide boom is beschikbaar als extra bestand 8. Ter vergelijking, alle bovenstaande analyses werden ook uitgevoerd met behulp van de oorspronkelijke SILVA guide tree (aanvullend bestand 1: Figuur S1).,

evaluatie van 3rd party GCN voorspellingstools op gesequenced genomen

om de voorspellende nauwkeurigheid van CopyRighter , PICRUSt en PAPRICA te testen voor genomen met bekende GCN ’s , hebben we hun voorspellingen vergeleken met de GCN’ s geteld in de (hoogwaardige) gesequenced genomen. Om de voorspellende nauwkeurigheid van CopyRighter op de genomen te evalueren, gingen we als volgt te werk: we hebben eerst de vooraf berekende lookup tabel gedownload met de voorspellingen van CopyRighter voor de Greengenes 16S rRNA database (release oktober 2012, “GG2012”;), van het project Github op 6 juni 2017 (v0.,46): https://github.com/fangly/AmpliCopyRighter (CopyRighter-0.46/data/201210/ssu_img40_gg201210.txt). Vervolgens hebben We afgestemd met de langste 16S rRNA sequentie van elk genoom te OTUs (geclusterd op 99% gelijkenis) in de Greengenes database met vertzoeken (vertzoeken opties “–deel –zowel usearch_global –maxhits 1 –maxaccepts 10 –top_hits_only”), altijd te kiezen voor de beste match in Greengenes en het houden van alleen genomen die is toegewezen aan een Greengenes vermelding van ten minste 99% gelijkenis (5688 genomen toegewezen)., Voor elk in kaart gebracht genoom namen we de GCN voorspeld door CopyRighter voor de overeenkomstige Greengenes entry als CopyRighter ‘ s voorspelling voor het genoom. Deze voorspelling werd toen vergeleken met GCN geteld van de genoomopeenvolging. Een histogram van de voorspellingen van CopyRighter over in kaart gebrachte genomen wordt getoond in aanvullend dossier 1: Figuur S4B. de voorspellende nauwkeurigheid van CopyRighter werd gemeten in termen van de fractie van verklaarde variantie (R2), als functie van nstd van een genoom (Fig. 1 bis). Nstd ‘ s van genomen werden berekend zoals beschreven in een aparte sectie hieronder.,

een soortgelijke aanpak werd gebruikt voor PICRUSt : de precomputed lookup table listing picrust ‘ s predictions for the Greengenes database (release May 2013; “GG2013”) werd gedownload van de website van het project op 6 juni 2017 (v1.1.1): https://picrust.github.io/picrust/picrust_precalculated_files.html(16S_13_5_precalculated.tabblad.gz). Een totaal van 5,708 genomen van hoge kwaliteit zou aan een OTU (99% gelijkenis) in GG2013 kunnen worden in kaart gebracht. Een histogram van de voorspellingen van PICRUSt over alle in kaart gebrachte genomen wordt getoond in aanvullend dossier 1: Figuur S4C. de voorspellende nauwkeurigheid van PICRUSt werd gemeten in termen van R2 als functie van nstd van een genoom (Fig., 1b), vergelijkbaar met CopyRighter.

om de voorspellende nauwkeurigheid van PAPRICA op de genomen te evalueren, gingen we als volgt te werk: we hebben PAPRICA voor het eerst gedownload en geïnstalleerd vanuit de Github van het project op 6 juni 2017 (v0.4.0 b): https://github.com/bowmanjeffs/paprica. Deze release bevat precomputed referentie bomen (een voor archaea en een voor bacteriën) en tabellen met 16S GCNs voor kalibratie genomen van het gereedschap vertegenwoordigd in de referentie bomen. We gebruikten de langste 16S rRNA sequentie van elk genoom als input voor de PAPRICA pijplijn (Commando “paprica-run.sh”), afzonderlijk voor archaea en bacteriën., De pijpleiding produceert onder andere een tabel met de ongecorrigeerde abundantie van elke unieke inputsequentie (deze kan groter zijn dan 1 als meerdere genomen dezelfde 16S rRNA-sequentie delen) en de overeenkomstige gecorrigeerde abundantie (na te delen door de voorspelde 16S GCN). We gebruikten deze tabel om de door PAPRICA voorspelde 16S GCNs te verkrijgen voor de unieke 16S-sequenties (die 3473 16S-sequenties vertegenwoordigen), door de ongecorrigeerde te delen door de gecorrigeerde abundantie. We vergeleken dan deze voorspelde GCNs met de gcns geteld in de genoomsequenties, vergelijkbaar met hierboven., Een histogram van PAPRICA ‘ s voorspellingen over alle vertegenwoordigde genomen wordt getoond in aanvullend dossier 1: Figuur S4D. de voorspellende nauwkeurigheid van PAPRICA werd gemeten in termen van R2 als functie van nstd van een genoom (Fig. 1a), vergelijkbaar met CopyRighter.

Comparison of 3rd party GCN prediction tools across Greengenes

om de voorspellingen van CopyRighter te vergelijken met die van PICRUSt across all OTUs in Greengenes (Fig. 3a), hebben we eerst alle OTUs in GG2013 in kaart gebracht met OTUs in GG2012 met behulp van vsearch (met opties “–strand both –usearch_global”)., We hielden alleen wedstrijden op 100% gelijkenis (153.375 van de 203.452 OTUs in GG2013). Voor elke in GG2013 in kaart gebrachte OTU hebben we de overeenkomstige door PICRUSt voorspelde GCN vergeleken met de door CopyRighter voorspelde GCN voor de overeenkomende OTU in GG2012. Om de frequentiedistributies te berekenen van GCNs die voorspeld zijn door CopyRighter en PICRUSt over alle OTUs in Greengenes (histogrammen in aanvullend bestand 1: Figuur S3A,B), gebruikten we de gcns die vermeld staan in hun vooraf berekende lookup tabellen.

om PAPRICA te vergelijken met PICRUSt over Greengenes (Fig., 3b) gingen we als volgt te werk: representatieve sequenties van OTUs in GG2013 werden opgesplitst in archaeale en bacteriële sequenties. Elk resulterend fasta-bestand werd gebruikt als input voor de PAPRICA-pijpleiding om de overeenkomstige 16S GCN te voorspellen, zoals hierboven beschreven voor genomen. Dit leverde een voorspelde GCN op voor alle Greengenes inzendingen. Deze voorspellingen werden vergeleken met de vooraf berekende GCN-waarden van PICRUSt. Deze voorspellingen werden ook gebruikt om de frequentieverdeling te berekenen van GCNs voorspeld door PAPRICA over Greengenes (aanvullend bestand 1: Figuur S3C). Om CopyRighter te vergelijken met PAPRICA (Fig., 3c), gingen we verder zoals hierboven beschreven voor de vergelijking van CopyRighter met PICRUSt.

vergelijking van 3rd party GCN voorspellingstools over microbiële gemeenschappen

om CopyRighter, PICRUSt en PAPRICA over OTUs in verschillende microbiële gemeenschappen te vergelijken, gingen we als volgt te werk. Openbaar beschikbare 16S rRNA ampliconsequentiegegevens van verschillende milieumonsters werden gedownload van het Europese Nucleotidearchief (http://www.ebi.ac.uk/ena). Alleen Illumina sequentiegegevens van amplicons verkregen met behulp van bacteriën-en/of archaea-gevoelige primers werden in aanmerking genomen., Monsters werden gekozen om een breed scala van omgevingen te bestrijken, waaronder de oceaan, zee-en meersedimenten, bodem, zout-en hypersalinemeren, hydrothermale bronnen, warmwaterbronnen, bioreactoren en met dieren geassocieerde microbiomen. Alle sequencinggegevens werden, waar mogelijk, als volgt op dezelfde manier verwerkt. Overlappende paired-end reads werden samengevoegd met flash v1. 2.11 (options –min-overlap=20 –max-overlap=300 –max-mismatch-density 0.25 –phred-offset=33 –allow-outies), en niet-overlappende paired-end reads werden weggelaten. Single-end reads werden ongewijzigd gehouden., Alle single-end reads en samengevoegde gepaarde-end reads werden vervolgens kwaliteit gefilterd met behulp van vsearch v2. 4.3 (opties –fastq_ascii 33 –fastq_minlen 120 –fastq_qmin 0 –fastq_maxee 1 –fastq_truncee 1 –fastq_maxee_rate 0.005 –fastq_stripleft 7). Monsters met meer dan 20.000 kwaliteitsgefilterde reads werden verlaagd tot 20.000 reads om de rekentijd te verminderen, door willekeurig reads te kiezen zonder vervanging., Kwaliteit gefilterde sequenties werden geclusterd in operationele taxonomische eenheden (OTUs; op 97% gelijkenis) door closed-reference global aligning tegen de niet-redundante (NR99) SILVA SSU referentiedatabase (release 128;), met behulp van vsearch. Beide onderdelen werden overwogen om op elkaar af te stemmen (optie vsearch –strand both). Sequenties die niet overeenkomen met een database-ingang bij 97% gelijkenis of hoger werden weggegooid. Merk op dat OTUs dus werden vertegenwoordigd door SILVA inzendingen, namelijk degenen die worden gebruikt om de clusters zaad. Chloroplasten, mitochondriën en Eukaryota werden weggelaten., OTUs vertegenwoordigd door minder dan vijf reads in alle monsters werden weggelaten. Ten slotte werden alle monsters met minder dan 2.000 reads die door OTUs werden verklaard, weggelaten. Dit leverde een OTU-tabel op met 635 monsters en 65.673 OTUs vertegenwoordigd door 4.827.748 reads (gemiddeld 734 OTUs per monster). Monstertoegangsnummers, coördinaten, bemonsteringsdata, originele publicaties, sequencing platforms, kwaliteit gefilterde leeslengtes, en lees tellingen en bedekt primer regio ‘ s (indien beschikbaar) worden verstrekt in aanvullend bestand 9.,

om GCNs voor OTUs te voorspellen in elk monster met behulp van CopyRighter, gebruikten we dezelfde aanpak als voor genomen: representatieve 16S-sequenties van OTUs werden uitgelijnd met Gg2012 met behulp van vsearch (opties “–strand both –usearch_global –iddef 0 –id 0.99 –maxhits 1 –maxaccepts 10 –top_hits_only”), waarbij elke OTUs die niet overeenkomt met een greengenes-item met minstens 99% overeenkomst werd weggelaten. Voor elke OTU gehouden, werd de GCN vermeld door CopyRighter voor de overeenkomende Greengenes vermelding genomen als copyrighter ‘ s voorspelling. Voor PICRUSt gingen we op een analoge manier verder, waarbij we GG2013 gebruikten in plaats van GG2012., Voor PAPRICA gingen we op een analoge manier verder, met behulp van PAPRICA ‘ s GCN-voorspellingen die eerder voor GG2013 waren berekend (zie vorige paragraaf).

voor het vergelijken van twee gegeven hulpmiddelen (CopyRighter vs.PICRUSt, PICRUSt vs. PAPRICA, of CopyRighter vs. PAPRICA) voor een specifieke steekproef werden alleen OTUs met ten minste één gelezen in de steekproef en met een GCN voorspelling van beide hulpmiddelen overwogen. We hebben de overeenkomst tussen twee gereedschappen gemeten in termen van de variantie in voorspellingen van het 1e gereedschap dat werd verklaard door voorspellingen van het 2e Gereedschap (R2)., We berekenden de nsti van de steekproef (dichtstbijzijnde gesequenced taxon index) volgens , dat wil zeggen, als het rekenkundige gemiddelde NSTD over alle OTUs beschouwd in de vergelijking en gewogen met relatieve OTU frequenties. Details over de wijze waarop Nstd ‘ s werden berekend, worden gegeven in de paragraaf hieronder. Voor elk vergeleken paar gereedschappen verkregen we zo 635 NSTIs en 635 R2s over 635 monsters, weergegeven in Fig. 4. Pearson correlatiecoëfficiënten (r2) tussen NSTIs en R2 werden berekend voor elk paar gereedschappen, afzonderlijk voor met dieren geassocieerde en niet met dieren geassocieerde monsters., Statistische significanties (p-waarden) van correlatiecoëfficiënten werden geschat met behulp van een permutatietest met 1000 permutaties. Aanvullend dossier 1: De figuren S6 en S7 tonen gcns die door elk hulpmiddel voor diverse microbiële gemeenschappen worden voorspeld. We tonen ook relatieve afwijkingen tussen gereedschappen (/A-B//((A+B) / 2), Waar A en B gcns zijn voorspeld door twee gereedschappen voor dezelfde OTU) en Nstd ’s voor Otu’ s in verschillende monsters (aanvullend bestand 1: Figuur S8).,

evaluatie en vergelijking van GCN voorspellingsinstrumenten afhankelijk van NSTD

om de voorspellende nauwkeurigheid van CopyRighter, PICRUSt en PAPRICA als functie van NSTD van een OTU of genoom te onderzoeken, gingen we als volgt te werk. Voor elke OTU in SILVA, en afzonderlijk voor elk hulpmiddel, berekenden we de nstd als de fylogenetische afstand tot het dichtstbijzijnde sequenced genoom dat door het hulpmiddel wordt gebruikt om voorspellingen te doen (“kalibratie genomen”). Voor PAPRICA werd een lijst van 5,628 kalibratie genomen verkregen uit PAPRICA ‘ s vooraf berekende bestanden (PAPRICA / ref_genome_database / * / genome_data.laatste.,csv, waarbij ” * ” ofwel bacteriën of archaea is). De kalibratie genomen werden aangepast aan SILVA OTUs via globale uitlijning van het 16S gen bij een gelijkaardigheidsdrempel van 99%, gebruikend vsearch. Gematchte OTUs werden aangenomen dat een nstd gelijk aan nul, en voor alle andere SILVA OTUs, de NSTD werd berekend op basis van de SILVA-afgeleide boom en met behulp van de R pakket castor . Een geschatte aanpassing van genomen aan OTUs (d.w.z.,, bij 99% gelijkenis) werd gekozen om ervoor te zorgen dat zoveel mogelijk van de kalibratie genomen worden opgenomen; merk op dat SILVA OTUs zelf zijn geclusterd op die gelijkenis en dat de fout die mogelijk in de nstd ’s en Nsti’ s is te verwaarlozen (< 1% nucleotide substituties per plaats). Voor PICRUSt werd een tabel gedownload van de website van het project met IMG (Integrated Microbial genomen) ID ‘ s voor 2.887 kalibratie genomen (https://github.com/picrust/picrust/tree/master/tutorials/picrust_starting_files.zip, bestand GG_to_IMGv350.txt). IMG id ’s werden vertaald naar gg2013 sequentie ID’ s met behulp van de gg_13_5_img.,txt lookup table gedownload van de Greengenes website (http://greengenes.secondgenome.com/downloads). Overeenkomende Gg2013-ID ‘ s werden vervolgens in kaart gebracht aan SILVA OTUs via global 16S sequence alignment met vsearch, met een gelijkheidsdrempel van 99%. NSTD ‘ s van SILVA OTUs werden vervolgens berekend op dezelfde manier als voor PAPRICA. Voor CopyRighter werd een lookup tabel gedownload van de Github pagina van het project die kalibratie genomen koppelt aan gg2012 sequenties (https://github.com/fangly/AmpliCopyrighter, file AmpliCopyrighter-0.46/preprocessing/ data/img_to_gg.txt)., GG2012 sequenties in die tabel werden in kaart gebracht SILVA OTUs, en Nstd ‘ s werden berekend voor alle SILVA OTUs, op een soortgelijke manier als voor PICRUSt. Om de nstds voor genomen te bepalen die in deze studie worden onderzocht (afzonderlijk voor CopyRighter, PICRUSt, en PAPRICA), werden genomen in kaart gebracht aan SILVA OTUs via globale uitlijning van hun langst beschikbare 16S opeenvolging bij 99% gelijkenis. Voor elk genoom, werd nstd van dichtste gelijke SILVA OTU genomen als nstd van het genoom. Om Nstd ‘ s te bepalen voor alle Greengenes OTUs, hebben we Greengenes OTUs in kaart gebracht met SILVA OTUs via wereldwijde uitlijning op 99% gelijkenis., Om Nstd ’s te bepalen voor Otu’ s die uit de bemonsterde microbiële gemeenschappen zijn teruggevonden, hebben we direct de NSTD ‘ s van SILVA OTUs gebruikt als zaden tijdens gesloten-referentie OTU-picking. Bij het vergelijken van twee GCN voorspellingsinstrumenten op een OTU (bijv., Fig. 3 en 4 en aanvullend dossier 1: Figuur S8), in gevallen waar de twee Nstd ‘ s verschilden, gebruikten we hun rekenkundig gemiddelde. Het berekenen van de R2 tussen twee GCN voorspellingstools, of tussen een GCN voorspellingstool en de “ware GCNs”, als functie van de NSTD (Fig., 2 en 3d-f), hebben we de OTUs of genomen gebruikt in de vergelijking in gelijke grootte nstd intervallen en berekend de R2 afzonderlijk voor elk interval. Alleen nstd-intervallen met ten minste 10 OTUs of genomen werden overwogen.

correctie voor 16S rRNA gen copy nummers in microbiome surveys blijft een onopgelost probleem