Korygowanie dla 16S rRNA genu kopii numery w microbiome surveys remains an unsolved problem

Budowa SILVA-derived tree

podczas gdy oryginalny SILVA Tree jest dobrze kuratorem taksonomicznie, to jest głównie przeznaczony do wykorzystania jako drzewo przewodnika, i ponowne obliczanie długości gałęzi jest ogólnie zalecane dla downstream filogenetyczne analizy ., Tutaj, aby skonstruować drzewo filogenetyczne z bardziej znaczącymi długościami gałęzi przy użyciu OTUs w bazie danych SILVA non-redundant (nr99) 16S (wydanie 128;), postępowaliśmy w następujący sposób. Wyrównane reprezentacyjne sekwencje SSU w Silvie zostały zmniejszone przez usunięcie najpierw pozycji nukleotydów z>95% luk, a następnie usunięcie 5% największych pozycji entropowych nukleotydów. Tożsamości taksonomiczne podane przez Silvę dla Otusa na poziomie domeny, filum i klasy zostały użyte do stworzenia ograniczeń podziału dla FastTree, poprzez ograniczenie każdego taksonu do jednej strony podziału i monofiletyzmu., Taksony z mniej niż 10 OTUs zostały pominięte z ograniczeń. W ten sposób zdefiniowano łącznie 354 ograniczenia. Korzystając z wygenerowanych taksonomicznie ograniczeń i biorąc oryginalne drzewo SILVA jako drzewo startowe, zbudowaliśmy drzewo filogenetyczne ze zredukowanych wyrównań z FastTree v2.1.10 (opcje „-spr 4-gamma-fastest-no2nd-constraintWeight 100”). Drzewo filogenetyczne zostało przekierowane tak, że bakterie i Archaea są podzielone u nasady. Nasze drzewo SILVA-derived jest dostarczany jako dodatkowy plik 2., We wszystkich dalszych analizach pominięto chloroplasty, mitochondria i eukarioty. W artykule głównym opisujemy nasze analizy za pomocą tego drzewa Silvy (rys. 1); analogiczne wyniki dla oryginalnego drzewa SILVA przedstawiono w dodatkowym pliku 1: Rysunek S1.

Dystrybucja filogenetyczna 16S GCNs

aby zbadać, jak 16S GCNs są dystrybuowane filogenetycznie i ocenić ich ogólną przewidywalność za pomocą różnych metod filogenetycznych, postępowaliśmy w następujący sposób., W dniu 4 stycznia 2018 roku z bazy danych NCBI RefSeq pobrano 8767 opatrzonych adnotacją genomów bakteryjnych i archaealnych o statusie kompletności „Complete Genome”. Pobrane genomy sprawdzano pod kątem potencjalnego skażenia za pomocą checkM 1.0.6 (opcja” reduced_tree”), która opiera się na wykrywaniu zachowanych genów markerowych (podsumowanie assembly i checkM w dodatkowym pliku 3). Genomy wykazujące poziom zanieczyszczenia powyżej 1% lub heterogeniczność szczepu powyżej 1% zostały odrzucone, pozostawiając nam 6868 kompletnych genomów do dalszej analizy (plik dodatkowy 4).,

dla każdego genomu, 16s GCNs określono za pomocą dwóch podejść: po pierwsze, policzyliśmy liczbę przypisanych sekwencji 16S rRNA w adnotacjach NCBI (pliki rna_from_genomic.fna). Po drugie, użyliśmy modeli kowariancji z programem cmsearch (jako część INFERNAL w wersji 1.1.2, opcje „– noali –cut_nc”) do wyszukiwania sekwencji rRNA 16S w zmontowanych genomach (pliki genomic.fna). Osobne modele kowariancji dla archaealnych i bakteryjnych genów 16S rRNA uzyskano z bazy danych Rfam (dostępy RF00177 i RF01959)., Tabela z listą GCNs obliczoną przy użyciu obu metod jest dostarczana jako dodatkowy plik 5. Do późniejszej analizy brano pod uwagę tylko genomy, dla których dwie metody dały te same 16s GCNs, dając 16S GCNs dla 6780 genomów („genomy wysokiej jakości”, dodatkowy plik 6). Dokładność tych GCNs została dodatkowo zweryfikowana poprzez porównanie do bazy danych kopii Rybosomalnych RNA OPERON (rrndb, dostęp do czerwca 7, 2017;) za każdym razem, gdy w rrndb (atrybut rrndb „data source record id”) był obecny zespół genomu., W 5,616 wysokiej jakości genomów testowanych, znaleźliśmy prawie idealne porozumienie z rrndb (R2> 0.999; dodatkowy plik 1: Rysunek S2). podsumowania jakości checkM dla zestawu wysokiej jakości genomu są dostarczane jako dodatkowy plik 7.

Wskazówki dotyczące drzewa Silvy zostały odwzorowane na wysokiej jakości genomy, w miarę możliwości, w następujący sposób: po pierwsze, reprezentatywne sekwencje 16S SILVA OTUs zostały wyrównane do najdłuższej sekwencji 16S rRNA z każdego genomu za pomocą vsearch 2.3.,4 przy maksymalnym (100%) podobieństwie (opcje vsearch „–strand both –usearch_global –maxaccepts 0 –top_hits_only –iddef 0 –id 1.0”). Jeśli OTU wyrównane do wielu genomów, wszystkie genomy były początkowo przechowywane. Następnie dla każdej wyrównanej pary OTU-genomu porównaliśmy identyfikator taksonu NCBI („taxid”) OTU z identyfikatorem genomu. Taksony OTU zostały uzyskane z tabeli wyszukiwania dostarczonej przez Silvę (https://www.arb-silva.de/fileadmin/silva_databases/release_128/Exports/taxonomy/taxmap_embl_ssu_ref_128.txt.gz). Taksony genomu zostały uzyskane z tabel wyszukiwania dostarczonych przez NCBI (ftp://ftp.ncbi.nlm.nih.gov/genomes/genbank/*/assembly_summary.txt, gdzie ” * „oznacza” bakterie „lub ” archeea”)., Pominięto dowolną wyrównaną parę OTU-genomu z nie identycznymi taksonami. Spośród pozostałych par OTU-genomu z identycznymi taksonami, zachowaliśmy tylko pierwszy wyrównany Genom dla każdego OTU. W sumie 9395 OTUs można więc odwzorować na jeden z genomów. Dla każdego zmapowanego OTU, założyliśmy GCN równe GCN liczone dla odpowiedniego genomu. Dla wszystkich innych otu założyliśmy nieznany GCN.

wszystkie analizy filogenetyczne wykonano przy użyciu pakietu r castor , dostępnego w kompleksowej sieci archiwalnej R (CRAN). Nstd dla wszystkich porad w odniesieniu do porad mapowanych do sekwencjonowanego genomu (rys., 1b) zostały obliczone za pomocą funkcji castor find_nearest_tips. Filogenetyczna funkcja autokorelacji (ACF) znanych GCNs 16S w całym drzewie SILVA-derived (rys. 1a) obliczono za pomocą funkcji castor get_trait_acf na podstawie 108 par końcówek (opcje „Npairs=1E8, Nbins=100”), wybranych losowo spośród końcówek o znanym GCN. Funkcja get_trait_acf losowo wybiera pary OTU na drzewie, umieszcza je w jednym z wielu odstępów filogenetycznych odległości i oblicza autokorelację Pearsona między GCN par OTU w każdym koszu., Należy zauważyć, że analiza ta nie zakłada, że GCNs skalują się liniowo z odległością filogenetyczną. Zamiast tego ACF mierzy jedynie statystyczną korelację między GCNs na różnych końcówkach, pod warunkiem, że końcówki znajdują się w pewnej odległości filogenetycznej od siebie.,

GCN zostały zrekonstruowane na drzewie pochodnym Silvy przy użyciu maksimum-parsimony Sankoffa (funkcja hsp_max_parsimony, z opcją transition_costs ustawioną na „wykładniczy”, „proporcjonalny” lub „all_equal”), niezależne od filogenetycznych kontrastów (funkcja hsp_independent_contrasts), ważona-kwadratowa-zmiana parsimony (funkcja hsp_squared_change_parsimony), uśrednianie subtree (funkcja hsp_subtree_averaging), oraz maksimum-prawdopodobieństwo modeli MK z przekierowaniem (function hsp_mk_model_rerooting z opcjami root_prior=’empirical', optimization_algorithm=’nlminb', ntrials=5, rate_model=’er').,

aby obliczyć krzyżowy ułamek wariancji przewidywany przez (aka. krzyżowy współczynnik determinacji) każdej metody (\(R^{2}_{\text {cv}}\);) jako funkcja NSTD (rys. 1c), postępowaliśmy w następujący sposób. Losowo wybraliśmy 2% końcówek ze znanymi 16-tkami GCN, które zostaną wyłączone z wejścia do rekonstrukcji i użyte jako niezależny „zestaw testowy” później. W zależności od rozważanego odcięcia NSTD (na przykład 10% substytucji na miejsce), wykluczyliśmy również wszystkie końcówki, których odległość filogenetyczna do zestawu testowego była poniżej odcięcia nstd., Pozostałe końcówki ze znanymi GCNs („zestaw treningowy”) zostały użyte jako wkład do rekonstrukcji, a gcns przewidywane dla zestawu testowego zostały następnie porównane ze znanymi GCNs zestawu testowego. Proces ten powtórzono trzy razy, a uzyskane R2 uśredniono dla wszystkich powtórzeń, dając \(R^{2}_{\text {cv}}\) dla każdego rozpatrywanego odcięcia NSTD. Skrypt R do analizy i rekonstrukcji 16s GCN w całym drzewie pochodnym Silvy jest dostępny jako dodatkowy plik 8. Dla porównania wszystkie powyższe analizy zostały również wykonane przy użyciu oryginalnego drzewa przewodnika Silvy (dodatkowy plik 1: Rysunek S1).,

ocena narzędzi GCN innych firm na sekwencjonowanych genomach

aby sprawdzić dokładność predykcyjną praw autorskich , PICRUSt i PAPRICA dla genomów ze znanymi GCNs , porównaliśmy ich prognozy z gcns liczonych w (wysokiej jakości) sekwencjonowanych genomach. Aby ocenić predykcyjną dokładność praw autorskich na genomach, postępowaliśmy w następujący sposób: najpierw pobraliśmy wstępnie obliczoną tabelę wyszukiwania z prognozami praw autorskich dla bazy danych Greengenes 16S rRNA( wydanie październik 2012, „GG2012”;), z Github projektu w czerwcu 6 ,2017 (v0.,46): https://github.com/fangly/AmpliCopyRighter(Copyright-0.46/data/201210 / ssu_img40_gg201210.txt). Następnie dopasowaliśmy najdłuższą sekwencję rRNA 16S każdego genomu do OTUs (klastrowanego przy 99% podobieństwie) w bazie danych Greengenes za pomocą vsearch (opcje vsearch „–strand both –usearch_global –maxhits 1 –maxaccepts 10 –top_hits_only”), zawsze wybierając najlepsze dopasowanie w Greengenes i zachowując tylko genomy, które zmapowały do wpisu Greengenes o co najmniej 99% podobieństwa (5688 genomów zmapowanych)., Dla każdego zmapowanego genomu, wzięliśmy GCN przewidywane przez autora dla odpowiedniego wpisu Greengenes jako przewidywania autora dla genomu. Ta prognoza była następnie porównywana do GCN liczonych od sekwencji genomu. Histogram predykcji praw autorskich w mapowanych genomach jest pokazany w dodatkowym pliku 1: Rysunek S4B. predykcyjna dokładność praw autorskich została zmierzona w kategoriach ułamka wyjaśnionej wariancji (R2), jako funkcja nstd genomu (rys. 1a). Nstd genomów obliczono w sposób opisany w oddzielnej sekcji poniżej.,

podobne podejście zostało zastosowane w PICRUSt : wstępnie obliczona tabela z prognozami Picrusta dla bazy danych Greengenes (wersja maj 2013; „GG2013”) została pobrana ze strony internetowej projektu 6 czerwca 2017 (v1.1.1):https://picrust.github.io/picrust/picrust_precalculated_files.html(16S_13_5_precalculated.tab.gz). Łącznie 5708 wysokiej jakości genomów można odwzorować na OTU (99% podobieństwa) w GG2013. Histogram przewidywań Picrusta we wszystkich mapowanych genomach jest pokazany w dodatkowym pliku 1: Rysunek S4C. dokładność predykcyjna Picrusta została zmierzona w kategoriach R2 jako funkcja nstd genomu (rys., 1b), podobnie jak Prawo Autorskie.

aby ocenić predykcyjną dokładność PAPRICA na genomach, postępowaliśmy w następujący sposób: po raz pierwszy pobraliśmy i zainstalowaliśmy PAPRICA z Github projektu w czerwcu 6, 2017 (v0.4.0 b): https://github.com/bowmanjeffs/paprica. To wydanie zawiera wstępnie obliczone drzewa referencyjne (jedno dla archeii i jedno dla bakterii) oraz tabele z listą 16s GCNs dla genomów kalibracyjnych narzędzia reprezentowanych w drzewach referencyjnych. Użyliśmy najdłuższej sekwencji rRNA 16s z każdego genomu jako wejścia do rurociągu PAPRICA (polecenie „paprica-run.sh”), osobno dla archeonów i bakterii., Rurociąg tworzy między innymi tabelę z wykazem nieskorygowanej obfitości każdej unikalnej sekwencji wejściowej (może to być większe niż 1, jeśli wiele genomów ma tę samą sekwencję 16S rRNA) i odpowiadającą jej skorygowaną obfitość (po podzieleniu przez przewidywane 16S GCN). Użyliśmy tej tabeli, aby uzyskać 16S GCNs przewidywane przez PAPRICĘ dla unikalnych sekwencji 16S (reprezentujących 3473 sekwencje 16S), dzieląc nieskorygowane przez skorygowaną obfitość. Następnie porównaliśmy te przewidywane GCNs do gcns liczonych w sekwencjach genomu, podobnie jak powyżej., Histogram przewidywania PAPRICA dla wszystkich reprezentowanych genomów jest pokazany w dodatkowym pliku 1: Rysunek S4D. predykcyjna dokładność PAPRICA mierzyła w kategoriach R2 jako funkcja nstd genomu (rys. 1a), podobnie jak Prawo Autorskie.

porównanie zewnętrznych narzędzi przewidywania GCN w greengenes

aby porównać prognozy według praw autorskich do tych przez PICRUSt we wszystkich otu w Greengenes (rys. 3a), najpierw zmapowaliśmy wszystkie OTUs w GG2013 do OTUs w GG2012 używając vsearch (z opcjami „–strand both –usearch_global”)., Utrzymaliśmy tylko mecze na 100% podobieństwa (153,375 z 203,452 otu w GG2013). Do każdego zmapowanego OTU w GG2013 porównaliśmy odpowiednie GCN przewidywane przez PICRUSt do GCN przewidywane przez autora praw autorskich dla dopasowanego OTU w GG2012. Aby obliczyć rozkład częstotliwości GCNs przewidywany przez autora i Picrusta we wszystkich otu w Greengenes (histogramy w dodatkowym pliku 1: Rysunek S3A, B), użyliśmy GCNs wymienionych w ich wstępnie obliczonych tabelach wyszukiwania.

aby porównać paprykę do Pikrusty z Greengenes (rys., 3b), postępowaliśmy w następujący sposób: sekwencje reprezentatywne OTUs w GG2013 zostały podzielone na sekwencje archaealne i bakteryjne. Każdy wynikowy plik fasta był używany jako wejście do rurociągu PAPRICA przewidzieć odpowiedni 16S GCN, jak opisano powyżej dla genomów. Dało to przewidywany GCN dla wszystkich wpisów Greengenes. Prognozy te porównano z wstępnie obliczonymi wartościami GCN dostarczonymi przez PICRUSt. Przewidywania te zostały również wykorzystane do obliczenia rozkładu częstotliwości GCNs przewidywanego przez PAPRIKĘ w stosunku do Greengenów (dodatkowy plik 1: Rysunek S3C). Aby porównać Prawa autorskie do PAPRICA (rys., 3c), postępowaliśmy jak opisano powyżej w celu porównania prawa autorskiego do PICRUSt.

porównanie narzędzi GCN innych firm w społecznościach mikrobiologicznych

aby porównać Prawa autorskie, PICRUSt i PAPRICA w różnych społecznościach mikrobiologicznych, postępowaliśmy w następujący sposób. Publicznie dostępne dane sekwencji amplikonów 16S rRNA z różnych próbek środowiskowych zostały pobrane z Europejskiego Archiwum nukleotydów (http://www.ebi.ac.uk/ena). Uwzględniono tylko dane sekwencji Illumina z amplikonów uzyskanych przy użyciu podkładów wrażliwych na bakterie i / lub archeony., Próbki zostały wybrane do pokrycia szerokiego zakresu środowisk, w tym osadów oceanicznych, morskich i jeziornych, gleby, jezior solnych i hipersalinowych, otworów hydrotermalnych, gorących źródeł, bioreaktorów i mikrobiomów związanych ze zwierzętami. Wszystkie dane sekwencjonowania były przetwarzane w podobny sposób, w miarę możliwości, w następujący sposób. Nakładające się sparowane odczyty końcowe zostały połączone za pomocą programu flash v1.2.11 (opcje-min-overlap=20-max-overlap=300-max-mismatch –density 0.25-phred –offset=33-allow-outies), a nie nakładające się sparowane odczyty końcowe zostały pominięte. Odczyty jednostronne pozostały bez zmian., Wszystkie odczyty single-end I scalone odczyty sparowane były następnie filtrowane jakościowo za pomocą vsearch v2.4.3 (opcje –fastq_ascii 33 –fastq_minlen 120 –fastq_qmin 0 –fastq_maxee 1 –fastq_truncee 1 –fastq_maxe_rate 0.005 –fastq_stripleft 7). Próbki z ponad 20 000 odczytów filtrowanych jakościowo zostały rozrzedzone do 20 000 odczytów, aby skrócić czas obliczeń, poprzez losowe wybieranie odczytów bez wymiany., Sekwencje filtrowane jakościowo zostały zgrupowane w operacyjne jednostki taksonomiczne (OTUs; przy podobieństwie 97%) poprzez globalne dopasowanie zamkniętego odniesienia do nie-redundantnej (NR99) bazy referencyjnej SILVA SSU (wydanie 128;), przy użyciu vsearch. Oba pasma zostały rozważone do wyrównania(opcja vsearch –strand both). Sekwencje nie pasujące do żadnego wpisu w bazie danych przy podobieństwie 97% lub wyższym zostały odrzucone. Zauważ, że OTUs były więc reprezentowane przez wpisy Silvy, czyli te używane do sadzenia klastrów. Pominięto chloroplasty, mitochondria i wszelkie eukarioty., OTUs reprezentowane przez mniej niż pięć odczytów we wszystkich próbkach zostały pominięte. Ostatecznie pominięto wszelkie próbki o liczbie odsłon mniejszej niż 2000. Dzięki temu uzyskano tabelę OTU zawierającą 635 próbek i 65 673 otu reprezentowanych przez 4 827 748 odsłon (średnio 734 otu na próbkę). Przykładowe numery akcesyjne, współrzędne, daty pobierania próbek, oryginalne publikacje, platformy sekwencjonowania, jakościowo filtrowane długości odczytu oraz zliczanie odczytów i objęte regiony podkładu (jeśli są dostępne) są dostarczane w dodatkowym pliku 9.,

aby przewidzieć GCNs dla otu w każdej próbce przy użyciu prawa autorskiego, użyliśmy tego samego podejścia, co w przypadku genomów: reprezentatywne sekwencje 16s otu zostały wyrównane do GG2012 przy użyciu vsearch (opcje „–strand both –usearch_global –iddef 0 –id 0.99 –maxhits 1 –maxaccepts 10 –top_hits_only”), pomijając wszelkie otu Nie dopasowane do wpisu Greengenesa przez co najmniej 99% podobieństwa. Dla każdego przechowywanego OTU, GCN wymieniony przez autora praw autorskich dla dopasowanego wpisu Greengenes został przyjęty jako przepowiednia autora praw autorskich. W przypadku PICRUSt postępowaliśmy analogicznie, używając GG2013 zamiast GG2012., W przypadku PAPRICA postępowaliśmy w analogiczny sposób, używając prognoz GCN PAPRICA obliczonych wcześniej dla GG2013 (Zobacz poprzedni rozdział).

aby porównać dowolne dwa podane narzędzia (CopyRighter vs.PICRUSt, PICRUSt vs. PAPRICA lub CopyRighter vs. PAPRICA) dla konkretnej próbki, brano pod uwagę tylko otu z co najmniej jednym odczytem w próbce i z prognozą GCN z obu narzędzi. Zmierzyliśmy porozumienie między dwoma narzędziami pod względem ułamka wariancji w prognozach pierwszego narzędzia, które zostało wyjaśnione przez prognozy drugiego narzędzia (R2)., Obliczyliśmy nsti próbki (najbliższy sequenced taxon index) według, tj. jako średniej arytmetycznej nstd dla wszystkich OTUs branych pod uwagę w porównaniu i ważonych względnymi częstotliwościami OTU. Szczegółowe informacje na temat sposobu obliczania Nstd przedstawiono w poniższej sekcji. Dla każdej pary porównywanych narzędzi otrzymaliśmy w ten sposób 635 NSTIs i 635 R2s w 635 próbkach, pokazanych na Rys. 4. Współczynniki korelacji Pearsona (R2) między NSTIs i R2 zostały obliczone dla każdej pary narzędzi, oddzielnie dla próbek związanych ze zwierzętami i nie związanych ze zwierzętami., Znaczenie statystyczne (wartości P) współczynników korelacji oszacowano za pomocą testu permutacji z 1000 permutacjami. Dodatkowy plik 1: rysunki S6 i S7 pokazują GCNs przewidywane przez każde narzędzie dla różnych społeczności mikrobiologicznych. Pokazujemy również względne odchylenia między narzędziami (/A-B / / ((A+B)/2), Gdzie a i B są GCN przewidywane przez dwa narzędzia dla tego samego OTU) i Nstd dla otu w różnych próbkach (dodatkowy plik 1: Rysunek S8).,

Ocena i porównanie narzędzi przewidywania GCN w zależności od NSTD

aby zbadać dokładność predykcyjną praw autorskich, PICRUSt i PAPRICA jako funkcji NSTD OTU lub genomu, postępowaliśmy w następujący sposób. Dla każdego OTU w Silvie, a osobno dla każdego narzędzia, obliczyliśmy nstd jako odległość filogenetyczną do najbliższego zsekwencjonowanego genomu używanego przez narzędzie do przewidywania („genomy kalibracyjne”). W przypadku PAPRICA, lista 5628 genomów kalibracyjnych została uzyskana z wstępnie obliczonych plików PAPRICA (PAPRICA/ref_genome_database/*/genome_data.finał,csv, gdzie ” * ” jest albo bakterią, albo archeią). Genomy kalibracyjne zostały dopasowane do SILVA OTUs poprzez globalne dopasowanie genu 16S na progu podobieństwa 99%, przy użyciu vsearch. Zakłada się, że dopasowane otu mają wartość nstd równą zeru, a dla wszystkich innych SILVA OTUs, NSTD obliczono na podstawie drzewa pochodnego Silvy i za pomocą pakietu r castor . Przybliżone dopasowanie genomów do OTUs (tj.,, przy podobieństwie 99%) wybrano tak, aby zapewnić uwzględnienie jak największej liczby genomów kalibracyjnych; zauważ, że SILVA OTUs są skupione na tym podobieństwie i że błąd potencjalnie wprowadzony do nstd i NSTIs jest znikomy (< 1% podstawień nukleotydów na miejsce). W przypadku PICRUSt, tabela została pobrana ze strony internetowej projektu z listą identyfikatorów IMG (Integrated Microbial Genomes) dla 2887 genomów kalibracyjnych (https://github.com/picrust/picrust/tree/master/tutorials/picrust_starting_files.zip, plik GG_to_IMGv350.txt). Identyfikatory IMG zostały przetłumaczone na identyfikatory sekwencji gg2013 przy użyciu gg_13_5_img.,tabela wyszukiwania txt pobrana ze strony Greengenes (http://greengenes.secondgenome.com/downloads). Dopasowane identyfikatory GG2013 zostały następnie zmapowane do SILVA OTUs poprzez globalne dopasowanie sekwencji 16S z vsearch, przy progu podobieństwa wynoszącym 99%. Nstd SILVA OTUs obliczono w taki sam sposób jak dla PAPRICA. W przypadku praw autorskich, ze strony Github projektu została pobrana tabela wyszukiwania, która mapuje genomy kalibracji do sekwencji GG2012 (https://github.com/fangly/AmpliCopyrighter, plik AmpliCopyrighter-0.46/preprocessing/ data/img_to_gg.txt)., Sekwencje GG2012 wymienione w tej tabeli zostały zmapowane do SILVA OTUs, a Nstd zostały obliczone dla wszystkich SILVA OTUs, w podobny sposób jak dla PICRUSt. Aby określić Nstd dla genomów zbadanych w tym badaniu (oddzielnie dla CopyRighter, PICRUSt i PAPRICA), genomy zostały zmapowane do SILVA OTUs poprzez globalne dopasowanie ich najdłuższej dostępnej sekwencji 16S przy 99% podobieństwie. Dla każdego genomu, NSTD z najlepiej dopasowanych SILVA OTU został przyjęty jako nstd genomu. Aby określić Nstd dla wszystkich OTUs Greengenes, zmapowaliśmy Otus Greengenes do SILVA OTUs poprzez globalne wyrównanie przy podobieństwie 99%., W celu określenia wartości Nstd dla otu odzyskanego z pobranych społeczności mikrobiologicznych, bezpośrednio wykorzystaliśmy wartości NSTD SILVA OTUs używane jako nasiona podczas zbioru OTU o zamkniętym numerze referencyjnym. Podczas porównywania dwóch narzędzi przewidywania GCN na OTU (np. 3 i 4 oraz dodatkowy plik 1: Rysunek S8), w przypadkach, w których dwa Nstd różniły się, użyliśmy ich średniej arytmetycznej. Aby obliczyć R2 pomiędzy dowolnymi dwoma narzędziami do przewidywania GCN lub między narzędziem do przewidywania GCN a „prawdziwymi GCNs”, jako funkcją NSTD(rys., 2 i 3D–f), połączyliśmy otu lub genomy używane w porównaniu do równych przedziałów nstd i obliczyliśmy R2 oddzielnie dla każdego przedziału. Uwzględniono tylko interwały NSTD z co najmniej 10 OTUs lub genomami.