Korrektur für 16S rRNA Genkopie-Zahlen in Mikrobiom-Erhebungen bleibt ein ungelöstes Problem | Mikrobiom

Bau von SILVA-abgeleiteten Baum

Während der ursprüngliche SILVA Baum gut taxonomisch kuratiert ist, ist es meist dazu gedacht, als Führungsbaum verwendet werden, und Neuberechnung der Verzweigungslängen ist in der Regel für Downstream-phylogenetische Analysen empfohlen ., Um hier einen phylogenetischen Baum mit aussagekräftigeren Verzweigungslängen unter Verwendung von OTUs in der SILVA non-redundant (NR99) 16S-Datenbank (Release 128;) zu erstellen, gingen wir wie folgt vor. Ausgerichtete repräsentative SSU-Sequenzen in SILVA wurden reduziert, indem zuerst Nukleotidpositionen mit >95% Lücken entfernt und dann die obersten 5% entropischsten Nukleotidpositionen entfernt wurden. Taxonomische Identitäten, die SILVA für OTUs auf Domain -, Phylum-und Klassenebene zur Verfügung stellte , wurden verwendet, um Split-Einschränkungen für FastTree zu erstellen, indem jedes Taxon auf einer einzigen Seite eines Split und monophyletic beschränkt wurde., Taxa mit weniger als 10 OTUs wurden von den Einschränkungen weggelassen. Damit wurden insgesamt 354 Einschränkungen definiert. Unter Verwendung der taxonomisch generierten Einschränkungen und unter Verwendung des ursprünglichen SILVA-Baums als Startbaum konstruierten wir einen phylogenetischen Baum aus den reduzierten Ausrichtungen mit FastTree v2.1.10 (Optionen „- spr 4-gamma-fastest-no2nd-constraintWeight 100“). Der phylogenetische Baum wurde neu gerootet, so dass Bakterien und Archaeen an der Wurzel gespalten werden. Unser SILVA-abgeleiteter Baum wird als zusätzliche Datei 2 bereitgestellt., Für alle nachgeschalteten Analysen wurden Chloroplasten, Mitochondrien und Eukaryoten aus dem Baum ausgelassen. Im Hauptartikel beschreiben wir unsere Analysen mit diesem SILVA-abgeleiteten Baum (Abb. 1); analoge Ergebnisse für den ursprünglichen SILVA-Baum sind in zusätzlicher Datei 1: Abbildung S1 dargestellt.

Phylogenetische Verteilung von 16S GCNs

Um zu untersuchen, wie 16S GCNs phylogenetisch verteilt sind und um ihre allgemeine Vorhersagbarkeit mit verschiedenen phylogenetischen Methoden zu beurteilen, gingen wir wie folgt vor., Insgesamt 8.767 kommentierte Bakterien-und Archaealgenome mit dem Abschlussstatus „Complete Genome“ wurden am 4.Januar 2018 aus der NCBI RefSeq-Datenbank heruntergeladen. Heruntergeladene Genome wurden mit checkM 1.0.6 (Option „reduced_tree“) auf eine mögliche Kontamination überprüft, die auf dem Nachweis konservierter Markergene basiert (Assembly-und checkM-Zusammenfassungen in zusätzlicher Datei 3). Genome, bei denen ein Kontaminationsgrad über 1% oder eine Stammheterogenität über 1% festgestellt wurde, wurden verworfen, sodass wir 6,868 vollständige Genome für die Downstream-Analyse hatten (zusätzliche Datei 4).,

Für jedes Genom wurden 16S-GCNs mit zwei Ansätzen bestimmt: Zuerst zählten wir die Anzahl der kommentierten 16S-rRNA-Sequenzen in den NCBI-Annotationen (Dateien rna_from_genomic.Fna). Zweitens verwendeten wir Kovarianzmodelle mit dem Programm cmsearch (als Teil von INFERNAL Version 1.1.2, Optionen „–noali –cut_nc“), um nach 16S rRNA-Sequenzen innerhalb der zusammengesetzten Genome (Dateien) zu suchen genomisch.Fna). Separate Kovarianzmodelle für archaeale und bakterielle 16S-rRNA-Gene wurden aus der Rfam-Datenbank (Zugänge RF00177 und RF01959) erhalten., Eine Tabelle mit GCNs, die mit beiden Methoden berechnet wurden, wird als zusätzliche Datei 5 bereitgestellt. Nur Genome, für die die beiden Methoden die gleichen 16S-GCNs ergaben, wurden für die nachfolgende Analyse berücksichtigt, was 16S-GCNs für 6,780-Genome ergab („hochwertige Genome“, zusätzliche Datei 6). Die Genauigkeit dieser GCNs wurde durch einen Vergleich mit der ribosomalen RNA-Operonenkopie-Nummerndatenbank (rrnDB, auf die am 7. Juni 2017 zugegriffen wurde; ) überprüft, Wann immer ein Genom-Assembly-Beitritt im rrnDB vorhanden war (rrnDB-Attribut „Data source Record id“)., Über 5.616 getestete hochwertige Genome hinweg fanden wir eine nahezu perfekte Übereinstimmung mit dem rrnDB (R2>0.999; Zusätzliche Datei 1: Abbildung S2). checkM – Qualitätszusammenfassungen für den hochwertigen Genomsatz werden als zusätzliche Datei 7 bereitgestellt.

Tipps zum SILVA-abgeleiteten Baum wurden nach Möglichkeit wie folgt auf hochwertige Genome abgebildet: Zuerst wurden repräsentative 16S-Sequenzen von SILVA OTUs mit vsearch 2.3 auf die längste 16S-rRNA-Sequenz aus jedem Genom ausgerichtet.,4 bei maximaler (100%) ähnlichkeit (vsearch Optionen „–Strang beide –usearch_global –maxaccepts 0 –top_hits_only –iddef 0 –id-1.0“). Wenn eine OTU auf mehrere Genome ausgerichtet war, wurden zunächst alle Genome beibehalten. Als nächstes verglichen wir für jedes ausgerichtete OTU-Genompaar die NCBI-Taxon-ID („Taxid“) der OTU mit der des Genoms. OTU-Taxids wurden aus einer von SILVA bereitgestellten Nachschlagetabelle erhalten (https://www.arb-silva.de/fileadmin/silva_databases/release_128/Exports/taxonomy/taxmap_embl_ssu_ref_128.txt.gz). Genomtaxide wurden aus von NCBI bereitgestellten Nachschlagetabellen erhalten (ftp://ftp.ncbi.nlm.nih.gov/genomes/genbank/*/assembly_summary.txt, wobei “ * „entweder“ Bakterien „oder“Archaea“ ist)., Jedes ausgerichtete OTU-Genompaar mit nicht identischen Taxiden wurde weggelassen. Von den verbleibenden OTU-Genompaaren mit identischen Taxiden behielten wir nur das erste ausgerichtete Genom für jede OTU bei. Insgesamt 9.395 OTUs konnten somit einem der Genome zugeordnet werden. Für jede abgebildete OTU nahmen wir eine GCN an, die der GCN entspricht, die für das entsprechende Genom gezählt wurde. Für alle anderen OTUs gingen wir von einem unbekannten GCN aus.

Alle phylogenetischen Analysen wurden mit dem R-Paket Castor durchgeführt, das im Comprehensive R Archive Network (CRAN) verfügbar ist. NSTDs für alle Spitzen in Bezug auf Spitzen, die einem sequenzierten Genom zugeordnet sind (Abb., 1b) wurden mit der Castor-Funktion find_nearest_tips berechnet. Die phylogenetische Autokorrelationsfunktion (ACF) bekannter 16S-GCNs über den SILVA-abgeleiteten Baum (Abb. 1a) wurde unter Verwendung der Castorfunktion get_trait_acf basierend auf 108 Spitzenpaaren (Optionen „Npairs=1e8, Nbins=100“) berechnet, die zufällig unter Spitzen mit bekanntem GCN ausgewählt wurden. Die Funktion get_trait_acf wählt zufällig OTU-Paare auf dem Baum aus, bindet sie in eines von vielen Intervallen phylogenetischer Entfernung und berechnet die Pearson-Autokorrelation zwischen GCNs der OTU-Paare in jedem Behälter., Beachten Sie, dass diese Analyse nicht davon ausgeht, dass GCNs linear mit phylogenetischem Abstand skalieren. Stattdessen misst der ACF lediglich die statistische Korrelation zwischen GCNs an verschiedenen Spitzen, abhängig davon, dass sich die Spitzen in einem bestimmten phylogenetischen Abstand voneinander befinden.,

GCNs wurden auf dem von SILVA abgeleiteten Baum mithilfe von Sankoffs Maximum-parsimony rekonstruiert (Funktion hsp_max_parsimony, wobei die Option transition_costs entweder auf „exponential“, „proportional“ oder „all_equal“ gesetzt ist), phylogenetische unabhängige Kontraste (Funktion hsp_independent_contrasts), gewichtete Quadratänderung parsimony (Funktion hsp_squared_change_parsimony), Teilbaum-Mittelwertbildung (Funktion hsp_subtree_averaging) und maximale Wahrscheinlichkeit von Mk-Modellen mit rerooting (Funktion hsp_mk_model_rerooting mit den Optionen root_prior=’empirical‘, optimization_algorithm=’nlminb‘, Ntrials=5, rate_model=’ER‘).,

Zur Berechnung des kreuzvalidierten Bruchteils der Varianz, der von (aka. kreuzvalidierter Bestimmungskoeffizient von) jeder Methode (\(R^{2}_{\text {cv}}\);) in Abhängigkeit von der NSTD (Abb. 1c) gingen wir wie folgt vor. Wir haben zufällig 2% der Spitzen mit bekanntem 16S GCN ausgewählt, um von der Eingabe in die Rekonstruktionen ausgeschlossen zu werden und danach als unabhängiges „Testset“ verwendet zu werden. Abhängig vom betrachteten NSTD-Cutoff (z. B. 10% Substitutionen pro Standort) haben wir auch alle Spitzen ausgeschlossen, deren phylogenetischer Abstand zum Testsatz unter dem NSTD-Cutoff lag., Die verbleibenden Spitzen mit bekannten GCNs („Trainingssatz“) wurden als Eingabe für die Rekonstruktionen verwendet, und die für den Testsatz vorhergesagten GCNs wurden dann mit den bekannten GCNs des Testsatzes verglichen. Dieser Vorgang wurde dreimal wiederholt, und das resultierende R2 wurde über alle Wiederholungen gemittelt, was zu einem \(R^{2}_{\text {cv}}\) für jeden betrachteten NSTD-Cutoff führte. Das R-Skript zum Analysieren und Rekonstruieren von 16S-GCNs über den SILVA-abgeleiteten Baum hinweg ist als zusätzliche Datei 8 verfügbar. Zum Vergleich wurden alle obigen Analysen auch unter Verwendung des ursprünglichen SILVA-Leitfadenbaums durchgeführt (Zusätzliche Datei 1: Abbildung S1).,

Bewertung von 3rd-party-GCN Prognose-tools, die auf sequenzierten genomen

um Zu testen, die prädiktive Genauigkeit von CopyRighter , PICRUSt , und PAPRICA für Genome mit bekannten GCNs, wir verglichen Sie Ihre Vorhersagen mit der GCNs zählte in den (hochwertigen) sequenzierten genomen. Um die Vorhersagegenauigkeit von CopyRighter auf den Genomen zu bewerten, gingen wir wie folgt vor: Wir haben zuerst die vorberechnete Nachschlagetabelle heruntergeladen, in der Copyrighters Vorhersagen für die Greengenes 16S rRNA-Datenbank aufgeführt sind (Veröffentlichung Oktober 2012, „GG2012“;), vom Github des Projekts am 6.Juni 2017 (v0.,46): https://github.com/fangly/AmpliCopyRighter (CopyRighter-0.46/data/201210/ssu_img40_gg201210.txt). Wir haben dann die längste 16S-rRNA-Sequenz jedes Genoms mit vsearch (vsearch options „–strand 1 –usearch_global –maxhits 1 –maxaccepts 10 –top_hits_only“) an OTUs (gruppiert mit 99% Ähnlichkeit) in der Greengenes-Datenbank ausgerichtet, wobei wir immer die beste Übereinstimmung in Greengenes ausgewählt und nur Genome beibehalten haben, die einem Greengenes-Eintrag um mindestens 99% Ähnlichkeit zugeordnet sind (5688-Genome abgebildet)., Für jedes abgebildete Genom haben wir den von CopyRighter vorhergesagten GCN für den entsprechenden Greengenes-Eintrag als Copyrighters Vorhersage für das Genom genommen. Diese Vorhersage wurde dann mit dem GCN verglichen, das aus der Genomsequenz gezählt wurde. Ein Histogramm der Vorhersagen des Copyrighters über abgebildete Genome hinweg ist in zusätzlicher Datei 1 dargestellt: Abbildung S4B. Die Vorhersagegenauigkeit des Copyrighters wurde in Abhängigkeit von der NSTD eines Genoms in Form des Bruchteils der erklärten Varianz (R2) gemessen (Abb. 1a). NSTDs von Genomen wurden wie in einem separaten Abschnitt unten beschrieben berechnet.,

Ein ähnlicher Ansatz wurde für PICRUSt verwendet : Die vorberechnete Nachschlagetabelle mit den Vorhersagen von PICRUSt für die Greengenes-Datenbank (Veröffentlichung Mai 2013; „GG2013“) wurde am 6.Juni 2017(v1.1.1) von der Projektwebsite heruntergeladen: https://picrust.github.io/picrust/picrust_precalculated_files.html(16S_13_5_precalculated.Tab.gz). Insgesamt konnten 5.708 hochwertige Genome in GG2013 einer OTU (99% Ähnlichkeit) zugeordnet werden. Ein Histogramm der Vorhersagen von PICRUSt über alle abgebildeten Genome ist in der zusätzlichen Datei 1 dargestellt: Abbildung S4C. Die Vorhersagegenauigkeit von PICRUSt wurde in Bezug auf R2 als Funktion der NSTD eines Genoms gemessen (Abb., 1b), ähnlich wie CopyRighter.

Um die prädiktive Genauigkeit von PAPRICA auf den Genomen zu bewerten, gingen wir wie folgt vor: Wir haben PAPRICA zuerst am 6.Juni 2017 vom Github des Projekts heruntergeladen und installiert (v0.4.0 b): https://github.com/bowmanjeffs/paprica. Diese Version enthält vorberechnete Referenzbäume (eine für Archaea und eine für Bakterien) und Tabellen mit 16S-GCNs für die Kalibrierungsgenome des Tools, die in den Referenzbäumen dargestellt sind. Wir verwendeten die längste 16S-rRNA-Sequenz aus jedem Genom als Eingabe für die PAPRICA-Pipeline (Befehl „paprica-run.sh“), getrennt für Archaea und Bakterien., Die Pipeline erzeugt unter anderem eine Tabelle, in der die nicht korrigierte Häufigkeit jeder eindeutigen Eingabesequenz (diese kann größer als 1 sein, wenn mehrere Genome dieselbe 16S-rRNA-Sequenz teilen) und die entsprechende korrigierte Häufigkeit (nach Division durch die vorhergesagte 16S-GCN) aufgeführt sind. Wir haben diese Tabelle verwendet, um die von PAPRICA vorhergesagten 16S-GCNs für die eindeutigen 16S-Sequenzen (die 3473 16S-Sequenzen darstellen) zu erhalten, indem wir die unkorrigierten durch die korrigierte Häufigkeit dividieren. Wir verglichen dann diese vorhergesagten GCNs mit den GCNs, die in den Genomsequenzen gezählt wurden, ähnlich wie oben., Ein Histogramm der Vorhersagen von PAPRICA über alle dargestellten Genome ist in der zusätzlichen Datei 1 dargestellt: Abbildung S4D. Die prädiktive Genauigkeit von PAPRICA wurde in Bezug auf R2 als Funktion der NSTD eines Genoms gemessen (Abb. 1a), ähnlich wie CopyRighter.

Vergleich von GCN-Vorhersagewerkzeugen von Drittanbietern über Greengenes

Um die Vorhersagen von CopyRighter mit denen von PICRUSt über alle OTUs in Greengenes hinweg zu vergleichen (Abb. 3a) haben wir zuerst alle OTUs in GG2013 mit vsearch auf OTUs in GG2012 abgebildet (mit den Optionen „–strand both –usearch_global“)., Wir haben nur Spiele bei 100% Ähnlichkeit gehalten (153,375 von 203,452 OTUs in GG2013). Zu jeder abgebildeten OTU in GG2013 verglichen wir die entsprechende von PICRUSt vorhergesagte GCN mit der von CopyRighter für die übereinstimmende OTU in GG2012 vorhergesagten GCN. Um die Frequenzverteilungen von GCNs zu berechnen, die von CopyRighter und PICRUSt über alle OTUs in Greengenes vorhergesagt wurden (Histogramme in zusätzlicher Datei 1: Abbildung S3A,B), haben wir die GCNs verwendet, die in ihren vorberechneten Nachschlagetabellen aufgeführt sind.

Um PAPRICA mit PICRUSt über Greengenes zu vergleichen (Abb., 3b) gingen wir wie folgt vor: Repräsentative Otussequenzen in GG2013 wurden in archaeale und bakterielle Sequenzen aufgeteilt. Jede resultierende Fasta-Datei wurde als Eingabe in die PAPRICA-Pipeline verwendet, um den entsprechenden 16S-GCN vorherzusagen, wie oben für Genome beschrieben. Dies ergab eine vorhergesagte GCN für alle Greengenes-Einträge. Diese Vorhersagen wurden mit den vorberechneten GCN-Werten von PICRUSt verglichen. Diese Vorhersagen wurden auch verwendet, um die Frequenzverteilung von GCNs zu berechnen, die von PAPRICA über Greengenes vorhergesagt wurden (Zusätzliche Datei 1: Abbildung S3C). Um CopyRighter mit PAPRICA zu vergleichen (Abb., 3c), gingen wir wie oben beschrieben für den Vergleich von CopyRighter zu PICRUSt.

Vergleich von GCN-Vorhersagewerkzeugen von Drittanbietern in mikrobiellen Gemeinschaften

Um CopyRighter, PICRUSt und PAPRICA in verschiedenen mikrobiellen Gemeinschaften in verschiedenen OTUs zu vergleichen, gingen wir wie folgt vor. Öffentlich zugängliche 16S rRNA amplicon sequence Daten aus verschiedenen Umweltproben wurden aus dem European Nucleotide Archive heruntergeladen (http://www.ebi.ac.uk/ena). Nur Illumina-Sequenz-Daten aus amplifikate, die mit Hilfe von Bakterien – und/oder Archaeen-sensitive Primer wurden berücksichtigt., Die Proben wurden ausgewählt, um eine breite Palette von Umgebungen abzudecken, darunter Ozean -, Meeres-und Seesedimente, Boden -, Salz-und Hypersalinseen, hydrothermale Öffnungen, heiße Quellen, Bioreaktoren und tierassoziierte Mikrobiome. Alle Sequenzierungsdaten wurden, soweit möglich, wie folgt auf ähnliche Weise verarbeitet. Überlappenden paired-end-Lesevorgänge wurden zusammengeführt mit flash v1.2.11 (Optionen –min-overlap=20 –max-overlap=300 –max-mismatch-Dichte von 0,25 –phred-offset=33 –allow-outies), und nicht-überlappenden paired-end-Lesevorgänge wurden weggelassen. Single-End-Lesevorgänge wurden unverändert beibehalten., Alle Single-End-Lesevorgänge und zusammengefügten Single-End –Lesevorgänge wurden dann mit vsearch v2.4.3 qualitätsgefiltert (Optionen –fastq_ascii 33 –fastq_minlen 120 –fastq_qmin 0 –fastq_maxee 1 –fastq_truncee 1 –fastq_maxee_rate 0.005-fastq_stripleft 7). Proben mit mehr als 20.000 qualitätsgefilterten Lesevorgängen wurden auf 20.000 Lesevorgänge reduziert, um die Berechnungszeit zu verkürzen, indem Lesevorgänge nach dem Zufallsprinzip ohne Ersatz ausgewählt wurden., Qualitätsgefilterte Sequenzen wurden mithilfe von vsearch in operationelle taxonomische Einheiten (OTUs; bei 97% Ähnlichkeit) gruppiert, indem global Closed-Reference an der nicht redundanten (NR99) ODER SSU-Referenzdatenbank (Release 128;) ausgerichtet wurde. Beide Stränge wurden für die Ausrichtung in Betracht gezogen (vsearch option –strand both). Sequenzen, die keinem Datenbankeintrag bei 97% Ähnlichkeit oder höher entsprachen, wurden verworfen. Beachten Sie, dass OTUs somit durch MEHRERE Einträge dargestellt wurden, nämlich diejenigen, die zum Seed der Cluster verwendet wurden. Chloroplasten, Mitochondrien und Eukaryoten wurden weggelassen., OTUs, die durch weniger als fünf Lesevorgänge in allen Stichproben repräsentiert wurden, wurden weggelassen. Schließlich wurden alle Stichproben mit weniger als 2.000 Lesevorgängen, die von OTUs erfasst wurden, weggelassen. Dies ergab eine OTU-Tabelle mit 635 Stichproben und 65.673 OTUs, die durch 4.827.748 Lesevorgänge repräsentiert wurden (durchschnittlich 734 OTUs pro Stichprobe). Stichprobeneingangsnummern, Koordinaten, Stichprobendaten, Originalveröffentlichungen, Sequenzierungsplattformen, qualitätsgefilterte Leselängen sowie Lesezahlen und abgedeckte Primer-Regionen (sofern verfügbar) werden in zusätzlicher Datei 9 bereitgestellt.,

Um GCNs für OTUs in jeder Probe mit CopyRighter vorherzusagen, verwendeten wir den gleichen Ansatz wie für Genome: Repräsentative 16S-Sequenzen von OTUs wurden mit vsearch auf GG2012 ausgerichtet (Optionen „–strand both –usearch_global –iddef 0 –idd –maxhits 1 –maxaccepts 10 –top_hits_only“), wobei OTUs, die nicht mit einem Greengenes-Eintrag übereinstimmen, um mindestens 99% Ähnlichkeit weggelassen wurden. Für jeden OTU-Eintrag wurde die von CopyRighter für den übereinstimmenden Greengenes-Eintrag aufgelistete GCN als Vorhersage des Copyrighters übernommen. Für PICRUSt haben wir analog GG2013 anstelle von GG2012 verwendet., Für PAPRICA gingen wir analog vor und verwendeten die GCN-Vorhersagen von PAPRICA, die zuvor für GG2013 berechnet wurden (siehe vorheriger Abschnitt).

Um zwei beliebige Tools (CopyRighter vs. PICRUSt, PICRUSt vs. PAPRICA oder CopyRighter vs. PAPRICA) für eine bestimmte Stichprobe zu vergleichen, wurden nur OTUs mit mindestens einem Lesevorgang in der Stichprobe und einer GCN-Vorhersage von beiden Tools berücksichtigt. Wir haben die Übereinstimmung zwischen zwei Werkzeugen anhand des Bruchteils der Varianz in den Vorhersagen des 1.Werkzeugs gemessen, der durch Vorhersagen des 2. Werkzeugs (R2) erklärt wurde., Wir berechneten den NSTI (Nearest Sequenced Taxon Index) der Stichprobe nach, dh als arithmetischer Durchschnitt NSTD über alle OTUs, die im Vergleich berücksichtigt und mit relativen OTU-Frequenzen gewichtet wurden. Details zur Berechnung der NSTDs finden Sie im folgenden Abschnitt. Für jedes Paar von Werkzeugen verglichen, wir erhielten somit 635 NSTIs und 635 R2s über 635 Proben, in Fig. 4. Pearson-Korrelationskoeffizienten (r2) zwischen NSTIs und R2 wurden für jedes Werkzeugpaar separat für tierassoziierte und nicht tierassoziierte Proben berechnet., Statistische Signifikanzen (P-Werte) von Korrelationskoeffizienten wurden unter Verwendung eines Permutationstests mit 1000 Permutationen geschätzt. Zusätzliche Datei 1: Die Abbildungen S6 und S7 zeigen GCNs, die von jedem Werkzeug für verschiedene mikrobielle Gemeinschaften vorhergesagt werden. Wir zeigen auch relative Abweichungen zwischen Werkzeugen (|A−B|/((A+B)/2), wobei A und B GCNs sind, die von zwei Werkzeugen für dieselbe OTU vorhergesagt werden) und NSTDs für OTUs in verschiedenen Stichproben (Zusätzliche Datei 1: Abbildung S8).,

Auswertung und Vergleich von GCN-Vorhersagewerkzeugen in Abhängigkeit von NSTD

Um die Vorhersagegenauigkeit von CopyRighter, PICRUSt und PAPRICA als Funktion der NSTD einer OTU oder eines Genoms zu untersuchen, gingen wir wie folgt vor. Für jede OTU in SILVA und separat für jedes Werkzeug berechneten wir die NSTD als phylogenetischen Abstand zum nächsten sequenzierten Genom, das vom Werkzeug zur Vorhersage verwendet wird („Kalibrierungsgenome“). Für PAPRICA wurde eine Liste von 5,628 Kalibrierungsgenomen aus den vorberechneten Dateien von PAPRICA erhalten (PAPRICA/ref_genome_database/*/genome_data.endgültig.,csv, wobei “ * “ entweder Bakterien oder Archaeen ist). Kalibrierungsgenome wurden über globale Ausrichtung des 16S-Gens bei einer Ähnlichkeitsschwelle von 99% unter Verwendung von vsearch mit SILVA OTUs abgeglichen. Abgestimmt OTUs waren davon ausgegangen, dass eine NSTD gleich null, und für alle anderen SILVA OTUs, die NSTD berechnet wurde, basierend auf dem SILVA-Baum abgeleitet und mit dem R-Paket castor . Eine Annäherung der Genome an OTUs („OTUs“).,, bei 99% Ähnlichkeit) gewählt wurde, um sicherzustellen, dass so viele der Kalibrierungsgenome wie möglich enthalten sind; Beachten Sie, dass die OTUs selbst bei dieser Ähnlichkeit gruppiert sind und dass der Fehler, der möglicherweise in die NSTDs und NSTIs eingeführt wird, vernachlässigbar ist (< 1% Nukleotidsubstitutionen pro Stelle). Für PICRUSt wurde von der Projektwebsite eine Tabelle mit IMG-IDs (Integrated Microbial Genomes) für 2.887 Kalibrierungsgenome heruntergeladen (https://github.com/picrust/picrust/tree/master/tutorials/picrust_starting_files.zip, Datei GG_TO_IMGV).txt). IMG-IDs wurden mit dem gg_13_5_img in GG2013-Sequenz-IDs übersetzt.,txt-Lookup-Tabelle, die von der Greengenes-Website heruntergeladen wurde (http://greengenes.secondgenome.com/downloads). Übereinstimmende GG2013-IDs wurden dann über die globale 16S-Sequenzausrichtung mit vsearch bei einer Ähnlichkeitsschwelle von 99% den OTUs zugeordnet. NSTDs von SILVA OTUs wurden dann auf die gleiche Weise wie für PAPRICA berechnet. Für CopyRighter wurde eine Nachschlagetabelle von der Github-Seite des Projekts heruntergeladen, die Kalibrierungsgenome GG2012-Sequenzen zuordnet (https://github.com/fangly/AmpliCopyrighter, file AmpliCopyrighter-0.46/preprocessing/ data/img_to_gg.txt)., GG2012-Sequenzen, die in dieser Tabelle aufgeführt sind, wurden SILVA OTUs zugeordnet, und NSTDs wurden für alle SILVA OTUs berechnet, in ähnlicher Weise wie für PICRUSt. Um die NSTDs für Genome zu bestimmen, die in dieser Studie untersucht wurden (getrennt für CopyRighter, PICRUSt und PAPRICA), wurden Genome über globale Ausrichtung ihrer längsten verfügbaren 16S-Sequenz bei 99% Ähnlichkeit zu SILVA OTUs kartiert. Für jedes Genom wurde die NSTD der am engsten übereinstimmenden SILVA OTU als NSTD des Genoms genommen. Um NSTDs für alle Greengenes OTUs zu bestimmen, haben wir Greengenes OTUs über globale Ausrichtung mit 99% Ähnlichkeit auf SILVA OTUs abgebildet., Um NSTDs für OTUs zu bestimmen, die aus den abgetasteten mikrobiellen Gemeinschaften gewonnen wurden, verwendeten wir direkt die NSTDs der OTUs, die während der OTU-Kommissionierung mit geschlossenem Bezug als Samen verwendet wurden. Beim Vergleich zweier GCN-Vorhersagewerkzeuge auf einer OTU (z. B. Abb. 3 und 4 und zusätzliche Datei 1: Abbildung S8), in Fällen, in denen sich die beiden NSTDs unterschieden, verwendeten wir ihren arithmetischen Durchschnitt. Zur Berechnung des R2 zwischen zwei beliebigen GCN-Vorhersagewerkzeugen oder zwischen einem GCN-Vorhersagewerkzeug und den „echten GCNs“ in Abhängigkeit von der NSTD (Abb., 2 und 3d-f) banden wir die im Vergleich verwendeten OTUs oder Genome in gleich große NSTD-Intervalle und berechneten den R2 für jedes Intervall separat. Es wurden nur NSTD-Intervalle mit mindestens 10 OTUs oder Genomen berücksichtigt.