Helyesbítéséről a 16S rrns gén számok másolása a microbiome felmérések továbbra is megoldatlan probléma | Microbiome

Építése SILVA származó fa

Míg az eredeti SILVA fa jól igazgatja taxonomically, ez többnyire azt jelentette, hogy fel lehet használni, mint egy útmutató, fa, majd újra kiszámítása ág hossza általában tanácsos a downstream filogenetikai elemzések ., Itt egy filogenetikai fa felépítéséhez, amelynek értelmesebb ághosszai vannak az OTUs használatával a SILVA nem redundáns (NR99) 16S adatbázisban (128.kiadás; ), az alábbiak szerint haladtunk. Igazított reprezentatív SSU szekvenciák SILVA csökkentettük először eltávolítja nukleotid pozíciók >95% rések majd eltávolítja a felső 5% legtöbb entróp nukleotid pozíciók. Rendszertani identitások által nyújtott SILVA a Ótusz a domain, törzs, de osztály szinten voltak létrehozásához használt split korlátait, FastTree , amelyet korlátozó minden taxon, hogy egyetlen oldalán osztott meg monophyletic., A 10 OTUs-nál kevesebb taxont kihagyták a megszorításokból. Így összesen 354 megszorítást határoztak meg. A taxonómiailag generált korlátok és figyelembe az eredeti SILVA fa, mint a kiindulási fa, építettünk egy filogenetikai fa a csökkentett nyomvonalakat FastTree v2.1. 10 (opciók “-spr 4-gamma-leggyorsabb-no2nd-constraintWeight 100”). A filogenetikus fát úgy állították át, hogy a baktériumok és az Archaea szétváljon a gyökérben. A SILVA-származtatott FA további fájlként van megadva 2., Az összes downstream analízisnél a kloroplasztokat, a mitokondriumokat és az eukariótákat kihagyták a fáról. A fő cikkben leírjuk elemzéseinket ezzel a SILVA-eredetű fával (ábra. 1); analóg eredmények az eredeti SILVA fa látható további fájl 1: ábra S1.

A 16S Gcns filogenetikai eloszlása

annak megvizsgálására, hogy a 16S GCNs filogenetikailag hogyan oszlik meg, és általános kiszámíthatóságukat különböző filogenetikai módszerekkel értékeljük, az alábbiak szerint haladtunk., Az NCBI RefSeq adatbázisából 2018.január 4-én összesen 8767 annotált bakteriális és archaeális genomot töltöttek le “teljes genom” teljesítménnyel. A letöltött genomokat az 1.0.6 checkM (“reduced_tree” opció) segítségével ellenőriztük a lehetséges szennyeződés szempontjából, amely a konzervált marker gének kimutatásán alapul (összeszerelés és checkM összefoglalók a 3.Kiegészítő fájlban). A genomokat úgy találták, hogy 1% feletti szennyezettségi szintet vagy 1% feletti törzs heterogenitást mutatnak, így 6,868 teljes genomot hagytunk a downstream elemzéshez (további 4.Fájl).,

minden Genom esetében a 16S GCNs-t két megközelítéssel határoztuk meg: először az NCBI megjegyzésekben (fájlok rna_from_genomic) megszámoltuk az annotált 16S rRNA szekvenciák számát.fna). Másodszor, covariance modelleket használtunk a cmsearch programmal (az INFERNAL 1.1.2 verziójának részeként, a “–noali –cut_nc ” opciók), hogy 16S rRNA szekvenciákat keressünk az összeszerelt genomokon belül (fájlok genomic.fna). Az rfam adatbázisból (accessions RF00177 és RF01959) külön kovarianciás modelleket kaptak az archaeális és bakteriális 16S rRNS génekhez., A táblázat felsorolása GCNs számított mindkét módszer alkalmazásával biztosított kiegészítő Fájl 5. Csak azok a genomok, amelyekre a két módszer ugyanazt a 16S GCNs-t adta, figyelembe vették a későbbi elemzéshez, így 16S GCNs-t adtak 6780 genomhoz (“kiváló minőségű genomok”, további 6.Fájl). Ezen GCNs pontosságát tovább igazolták a riboszomális RNS Operonmásolatszám-adatbázishoz (rrnDB, Elérhető 2017. június 7-én; ) való összehasonlítással, amikor a genomegység csatlakozása jelen volt az rrnDB-ben (rrnDB attribútum “adatforrás rekord id”)., Az 5,616 kiváló minőségű genomokon keresztül szinte tökéletes megállapodást találtunk Az rrnDB-vel (R2>0.999; további fájl 1: S2 ábra). a kiváló minőségű genomkészlet checkM minőségi összefoglalói kiegészítő fájlként vannak megadva 7.

A SILVA-eredetű fára vonatkozó tippeket lehetőség szerint kiváló minőségű genomokra térképezték fel, az alábbiak szerint: először a SILVA OTUs reprezentatív 16S szekvenciáit igazították az egyes genomok leghosszabb 16S rRNA szekvenciájához a vsearch 2.3 használatával.,4 maximális (100%) hasonlóságnál (vsearch options “– strand both –usearch_global –maxaccepts 0 –top_hits_only –iddef 0 –id 1.0”). Ha az OTU több genomhoz igazodik, az összes genomot eredetileg megtartották. Ezután minden egyes igazított OTU-genompár esetében összehasonlítottuk az OTU NCBI taxon azonosítóját (“taxid”) a genoméval. Az OTU taxidokat A SILVA által biztosított Keresési táblázatból nyerték (https://www.arb-silva.de/fileadmin/silva_databases/release_128/Exports/taxonomy/taxmap_embl_ssu_ref_128.txt.gz). A genom taxidokat az NCBI (ftp://ftp.ncbi.nlm.nih.gov/genomes/genbank/*/assembly_summary.txt, ahol ” * “vagy” baktériumok “vagy”archaea”)., A nem azonos taxidokkal rendelkező OTU-Genom párokat kihagyták. A többi OTU-Genom pár azonos taxidokkal, csak az első igazított genomot tartottuk meg minden OTU számára. Így összesen 9,395 OTUs-t lehetett leképezni az egyik genomhoz. Minden egyes leképezett OTU esetében feltételeztünk egy GCN-t, amely megegyezik a megfelelő genomhoz számított GCN-vel. Az összes többi OTUs esetében ismeretlen GCN-t feltételeztünk.

az összes filogenetikai elemzést az R csomag ricinusával végezték , amely elérhető az átfogó R archív hálózatban (CRAN). NSTDs minden tipp tekintetében tippeket leképezett szekvenált Genom (ábra., 1b) a find_nearest_tips görgős függvény segítségével számítottuk ki. Az ismert 16S gcns filogenetikai autokorrelációs funkciója (ACF) A SILVA-származtatott fán (ábra. 1A) A get_trait_acf görgőfunkcióval számítottuk ki 108 tipppár alapján (“Npairs=1e8, Nbins=100” opciók), véletlenszerűen választva az ismert GCN-vel rendelkező tippek között. A get_trait_acf függvény véletlenszerűen választja ki az OTU párokat a fán, a filogenetikai távolság sok intervallumának egyikébe helyezi őket, és kiszámítja az OTU Párok GCN-je közötti Pearson autocorrelációt az egyes bineken belül., Vegye figyelembe, hogy ez az elemzés nem feltételezi, hogy a gcns lineárisan skálázódik filogenetikai távolsággal. Helyette, az ACF csupán a gcns közötti statisztikai korrelációt méri különálló tippeken, attól függően, hogy a tippek bizonyos filogenetikai távolságra vannak-e egymástól.,

GCNs rekonstruálták a SILVA-származtatott fa segítségével Sankoff maximális parsimony (függvény hsp_max_parsimony, opció transition_costs vagy állítva “exponenciális,” “arányos,” vagy “all_equal”), filogenetikus független kontrasztok (funkció hsp_independent_contrasts), súlyozott négyzet-változás parsimony (funkció hsp_squared_change_parsimony), subtree átlagolás (függvény hsp_subtree_averaging), valamint a maximális valószínűsége MK modellek újraindítás (függvény hsp_mk_model_rerooting opciókkal root_prior=’empirikus’, optimization_algorithm=’nlminb’, ntrials=5, rate_model=’er’).,

kiszámításához a kereszt-validált frakció variancia által jósolt (aka. keresztvalidált meghatározási együttható) minden módszer (\(r^{2} _ {\text {cv}}\);) az NSTD függvényeként (ábra. 1c), az alábbiak szerint haladtunk. Véletlenszerűen választottuk ki az ismert 16S GCN-vel rendelkező tippek 2% – át, amelyeket ki kell zárni a rekonstrukciók bemenetéből, majd ezt követően független “tesztkészletként” kell használni. A figyelembe vett NSTD-vágástól függően (például 10% – os helyettesítések webhelyenként) kizártunk minden olyan tippet is, amelyek filogenetikai távolsága a tesztkészlethez az NSTD kivágás alatt volt., Az ismert GCNs-ekkel (“training set”) kapcsolatos további tippeket használták fel a rekonstrukciók bemeneteként, majd a tesztkészletre előrejelzett GCNs-eket összehasonlították a tesztkészlet ismert GCNs-ével. Ezt a folyamatot háromszor megismételtük, és az eredményül kapott R2-t minden ismétlésnél átlagoltuk, így minden egyes nstd-vágásnál \(r^{2}_{\text {cv}\) értéket adtunk. A 16S GCNs elemzésére és rekonstruálására szolgáló R szkript a SILVA-származtatott fán keresztül további 8 fájlként érhető el. Összehasonlításképpen, az összes fenti elemzést az eredeti SILVA vezetőfával is elvégeztük (további 1.fájl: S1 ábra).,

értékelése 3rd party GCN jóslat eszközök szekvenált genomok

hogy teszteljék a prediktív pontosságát szerzői, PICRUSt, és PAPRICA genomok ismert GCNs, összehasonlítottuk a jóslatok a GCNs számít a (kiváló minőségű) szekvenált genomok. Hogy értékelje a prediktív pontossága CopyRighter a genom szekvenciát jelent, elindultunk a következőképpen: először a letöltött precomputed lookup táblázatban tőzsdei CopyRighter jóslatai a Greengenes 16S rrns adatbázis (kiadás 2012. október, “GG2012”; ), a projekt Github június 6-án, 2017-ig (v0.,46): https://github.com/fangly/AmpliCopyRighter (CopyRighter-0.46/data/201210 / ssu_img40_gg201210.txt). Majd rendezi a leghosszabb 16S rrns sorozat minden egyes genom, hogy Ótusz (fürtözött a 99% – os hasonlóság) a Greengenes adatbázis használata vsearch (vsearch opciók “–szál mindkét –usearch_global –maxhits 1 –maxaccepts 10 –top_hits_only”), mindig a legjobb választás a mérkőzés Greengenes, hogy csak genom szekvenciát jelent, hogy a leképezett Greengenes bejegyzés, amelyet legalább 99% – os hasonlóságot (5688 genom szekvenciát jelent csatlakoztatott)., Minden egyes leképezett Genom esetében a szerzői jog által előre jelzett GCN-t vettük fel a megfelelő Greengenes bejegyzéshez, mint a szerzői jog előrejelzését a genomra vonatkozóan. Ezt az előrejelzést ezután összehasonlítottuk a genomszekvenciából számított GCN-vel. A copyrighter előrejelzéseinek hisztogramja a leképezett genomokon további 1. fájlban jelenik meg: S4B ábra. a CopyRighter prediktív pontosságát a magyarázott variancia (R2) frakciójában mértük, a genom NSTD-jének függvényében (2. ábra). 1a). A genomok nstd-jét az alábbi külön szakaszban leírtak szerint számítottuk ki.,

hasonló megközelítést alkalmaztak a PICRUSt esetében : a projekt honlapjáról 2017.június 6-án (v1.1.1) letöltötték a PICRUSt jóslatait tartalmazó előzetes keresési táblázatot (“GG2013”) (v1. 1. 1): https://picrust.github.io/picrust/picrust_precalculated_files.html(16s_13_5_precalculated.tab.gz). A gg2013-ban összesen 5708 kiváló minőségű genomot lehetett leképezni egy OTU-ra (99% hasonlóság). A pikrust előrejelzéseinek hisztogramját az összes leképezett Genom között további 1. fájlban mutatjuk be: S4C ábra. a Pikrust prediktív pontosságát az R2-ben mértük a genom NSTD-jének függvényében (ábra)., 1b), hasonlóan a szerzői Jogvédőhöz.

a PAPRICA prediktív pontosságának a genomokon történő értékeléséhez a következőképpen haladtunk: először letöltöttük és telepítettük a PAPRICÁT a projekt Githubjából 2017. június 6-án (v0.4.0 b): https://github.com/bowmanjeffs/paprica. Ez a kibocsátás magában foglalja a prekomputált referenciafákat (az egyik az archaea, a másik a baktériumok esetében), valamint a 16S GCNs-t felsoroló táblázatokat a szerszám kalibrációs genomjaihoz, amelyeket a referenciafákban ábrázoltak. A PAPRICA csővezeték bemeneteként az egyes genomokból a leghosszabb 16S rRNA szekvenciát használtuk (parancs “paprica-run.sh”), külön az archaea és a baktériumok esetében., A vezeték gyárt, többek között egy olyan táblázatot is, nem korrigált rengeteg minden egyedi bemeneti sorozat (ez lehet 1-nél nagyobb, ha több genom szekvenciát jelent, ugyanazt a 16S rrns sorozat), valamint a megfelelő korrigált bőség (után elosztjuk a becsült 16 GCN). Ezt a táblázatot arra használtuk, hogy megkapjuk a 16S GCNS-t, amelyet a PAPRICA jósolt az egyedi 16S szekvenciákhoz (ami 3473 16S szekvenciákat jelent), a korrigálatlan bőség elosztásával. Ezután összehasonlítottuk ezeket az előre jelzett GCNs-eket a genomszekvenciákban számolt GCNs-ekkel, hasonlóan a fentiekhez., A PAPRICA előrejelzéseinek hisztogramját az összes képviselt Genom között további 1. fájlban mutatjuk be: S4d ábra. a PAPRICA prediktív pontosságát az R2-ben mértük a genom nstd-jének függvényében (2.ábra). 1a), hasonlóan a szerzői Jogvédőhöz.

összehasonlítása 3rd party GCN előrejelző eszközök egész Greengenes

összehasonlítani a jóslatok szerzői azokat PICRUSt az összes OTUs Greengenes (ábra. 3a), először a gg2013-ban az összes Otust a Gg2012-ben az OTUs-ra térképeztük fel a vsearch segítségével(opciókkal “–strand both –usearch_global”)., Csak 100% – os hasonlóság mellett tartottuk a mérkőzéseket (153,375 a 203,452 OTUs-ból a GG2013-ban). A Gg2013-ban minden egyes leképezett OTU-hoz összehasonlítottuk a PICRUSt által előrejelzett megfelelő GCN-t a szerzői jog által előrejelzett GCN-vel a gg2012-ben egyező OTU-hoz. A CopyRighter és a PICRUSt által jósolt gcns frekvenciaosztásainak kiszámításához a Greengenes összes OTUs-jában (hisztogramok az 1. kiegészítő fájlban: S3A ábra,B), az előre elkészített Keresési táblázatokban felsorolt GCNs-eket használtuk.

ahhoz, hogy összehasonlítsuk a PAPRICÁT a PICRUSt-szal a Greengenes-en keresztül (ábra., 3b), az alábbiak szerint haladtunk: a Gg2013-ban az OTUs reprezentatív szekvenciáit archaeális és bakteriális szekvenciákra osztottuk. Minden kapott fasta fájlt használtak bemenetként a PAPRICA csővezeték megjósolni a megfelelő 16S GCN, a fent leírt genomok. Ez minden Greengenes bejegyzéshez előrejelzett GCN-t eredményezett. Ezeket az előrejelzéseket összehasonlítottuk a PICRUSt által megadott előre kiszámított GCN értékekkel. Ezeket az előrejelzéseket arra is felhasználták, hogy kiszámítsák a PAPRICA által előre jelzett gcns frekvenciaeloszlását a Greengenes-en (További fájl 1: S3c ábra). Hasonlítsa össze a szerzői jogot a PAPRICÁVAL (ábra., 3c), mi folytatta a fent leírt összehasonlítását szerzői PICRUSt.

3rd party GCN predikciós eszközök összehasonlítása mikrobiális közösségekben

a szerzői jogvédelem, a PICRUSt és a PAPRICA összehasonlítása a különböző mikrobiális közösségekben az OTUs-on keresztül a következőképpen haladtunk. A nyilvánosan elérhető 16S rRNA amplicon szekvencia adatokat különböző környezeti mintákból töltötték le az Európai nukleotid archívumból (http://www.ebi.ac.uk/ena). Csak a baktérium-és / vagy archaea-érzékeny primerekkel kapott amplikonok Illumina szekvencia adatait vették figyelembe., A mintákat úgy választották ki, hogy széles körére, a környezet, beleértve az ocean, tengeri vagy tavi üledékekben, a talaj, a sót meg hypersaline tavak, hidrotermikus szellőzők, hot springs, bioreaktorok, illetve állat-hoz kapcsolódó microbiomes. Minden szekvenálási adatot hasonló módon dolgoztunk fel, ahol lehetséges, az alábbiak szerint. Az átfedő párosított végolvasásokat a flash v1.2.11 segítségével egyesítették (opciók –min-átfedés=20 –max-átfedés=300 –max-eltérés-sűrűség 0.25 –phred-eltolás=33 –allow-outies), a nem átfedő párosított végolvasásokat pedig kihagyták. Az egyvégű olvasmányok változatlanok maradtak., Az összes egyvégű olvasást és egyesített párosított végolvasást ezután a vsearch v2.4.3 (opciók –fastq_ascii 33 –fastq_minlen 120 –fastq_qmin 0 –fastq_maxee 1 –fastq_truncee 1 –fastq_maxee_rate 0.005 –fastq_stripleft 7) segítségével szűrtük. Minták több mint 20.000 minőségi szűrt olvasás ritkított le 20.000 olvasás, hogy csökkentse számítási idő, véletlenszerűen szedés olvasás csere nélkül., Minőség-szűrt szekvenciák nem operatív rendszertani egységek (Ótusz; a 97% – os hasonlóság) zárt referencia globális összehangolása szemben a nem-redundáns (NR99) SILVA SSU referencia adatbázis (kiadás 128; ) segítségével vsearch. Mindkét szálat figyelembe vették az igazításhoz (vsearch opció — mindkettő szál). Azok a szekvenciák, amelyek nem felelnek meg az adatbázis bejegyzésének 97% – os vagy annál magasabb hasonlóságnál, eldobásra kerültek. Vegye figyelembe, hogy az OTUs-t így SILVA bejegyzések képviselték, nevezetesen a klaszterek vetőmagjára használt bejegyzések. A kloroplasztokat, a mitokondriumokat és az eukariótákat kihagyták., OTUs által képviselt kevesebb, mint öt olvas az összes mintát elhagytuk. Végül az OTUs által elszámolt, 2000-nél kevesebb olvasattal rendelkező mintákat kihagyták. Ez egy OTU táblázatot eredményezett 635 mintával és 65 673 OTUs-val, amelyet 4 827 748 olvasás képvisel (mintánként átlagosan 734 Otu). Minta csatlakozási számok, koordináták, időpont, eredeti kiadványok, szekvenálás platformok, minőség-szűrt olvassa el messzire, olvasni számít alá primer régiók (ahol elérhető) biztosított Kiegészítő fájl 9.,

megjósolni Gcns OTUs minden mintában a szerzői jog, szoktuk ugyanazt a megközelítést, mint a genomok: reprezentatív 16S szekvenciák OTUs igazították gg2012 segítségével vsearch (options “– strand both — usearch_global — iddef 0 — id 0.99 — maxhits 1 –maxaccepts 10 — top_hits_only”), kihagyva minden OTUs nem illeszkedik a Greengenes bejegyzés legalább 99% hasonlóság. Minden OTU tartott, a GCN által felsorolt szerzői a kiegyenlített Greengenes bejegyzés vették szerzői jóslat. A PICRUSt esetében hasonló módon haladtunk, a GG2012 helyett a GG2013-at használtuk., A PAPRICA esetében hasonló módon haladtunk, a PAPRICA GCN-előrejelzéseit használva, amelyeket korábban a GG2013-ra számoltunk (lásd az előző részt).

összehasonlítani bármely két adott eszközök (CopyRighter vs PICRUSt, PICRUSt vs PAPRICA, vagy CopyRighter vs PAPRICA) egy adott minta, csak Ótusz legalább egy, olvassa el a minta, valamint a GCN jóslat mindkét eszközök tekintették. A két eszköz közötti megállapodást az 1. eszköz előrejelzéseiben a variancia töredékével mértük, amelyet a 2.eszköz (R2) előrejelzései magyaráztak., Kiszámítottuk a minta NSTI-jét (legközelebbi szekvenált taxonindex), azaz az összehasonlításban figyelembe vett összes Otu-n belüli nstd aritmetikai átlagként, és relatív OTU-frekvenciákkal súlyoztuk. Az Nstd-k kiszámításának részleteit az alábbi szakasz tartalmazza. Minden összehasonlított szerszámpár esetében így 635 NSTIs-t és 635 R2s-t kaptunk 635 mintán keresztül, az ábrán látható módon. 4. A Pearson-korrelációs együtthatókat (r2) az NSTIs és az R2 között minden szerszámpár esetében külön-külön számították ki az állatokhoz kapcsolódó és nem állatokhoz kapcsolódó mintákra., A korrelációs együtthatók statisztikai szignifikanciáit (P értékeit) 1000 permutációs teszttel becsülték meg. 1. kiegészítő fájl: az S6 és S7 ábrák a különböző mikrobiális közösségek számára az egyes eszközök által előre jelzett GCNs-eket mutatják. Az eszközök (|a−B|/(((A+B)/2) közötti relatív eltéréseket is mutatunk, ahol az A és B GCNs-t két eszköz jósolja meg ugyanazon OTU esetében), valamint az Otu-K Nstds-jét különböző mintákban (további fájl 1: S8 ábra).,

a GCN predikciós eszközök értékelése és összehasonlítása az NSTD-től függően

a szerzői jog, a PICRUSt és a PAPRICA prediktív pontosságának vizsgálata az OTU vagy a genom NSTD függvényeként a következőképpen haladtunk. Minden egyes Silva-I OTU-ra, minden egyes eszközre külön-külön kiszámítottuk az NSTD-t filogenetikai távolságként a legközelebbi szekvenált genomhoz, amelyet az eszköz jóslatokhoz használt (“kalibrációs genomok”). A PAPRICA esetében az 5,628 kalibrációs genomok listáját a PAPRICA előkomputált fájljaiból szereztük be (PAPRICA/ref_genome_database/*/genome_data.döntő.,csv, ahol ” * ” baktériumok vagy archaea). A kalibrációs genomokat a SILVA OTUs-hoz igazították a 16S gén globális összehangolásával, 99% – os hasonlósági küszöbön, a vsearch segítségével. Azt feltételezték, hogy a kiegyenlített Otu-K NSTD-je nulla, az összes többi SILVA OTUs esetében pedig az NSTD-t a SILVA-származtatott fa alapján számították ki, az R csomag ricinusával. A genomok közelítő illesztése az Otushoz (azaz, legalább 99% – os hasonlóságot) választottak annak érdekében, hogy annyi a kalibrációs genom szekvenciát jelent szerepelnek, mint lehetséges; vegye figyelembe, hogy SILVA Ótusz maguk fürtözött a hasonlóság, illetve, hogy a hiba esetlegesen bevezetett a NSTDs, valamint NSTIs elhanyagolható (< 1% nukleotid csere telephelyenként). A PICRUSt esetében egy táblázatot töltöttek le a projekt webhelyéről, amely felsorolja az IMG (integrált mikrobiális genomok) azonosítókat 2,887 kalibrációs genomhoz (https://github.com/picrust/picrust/tree/master/tutorials/picrust_starting_files.zip, fájl GG_to_IMGv350.txt). Az IMG azonosítókat a gg_13_5_img segítségével fordították le gg2013 szekvencia azonosítókra.,a Greengenes honlapjáról letöltött txt keresési táblázat (http://greengenes.secondgenome.com/downloads). Az egyező Gg2013 azonosítókat ezután a SILVA OTUs-ra térképezték fel a global 16S szekvencia igazításával a vsearch-rel, 99% – os hasonlósági küszöbérték mellett. A SILVA OTUs NSTDs-jét ezután ugyanúgy számították ki, mint a PAPRICA esetében. A Szerzői Jogvédő számára egy keresési táblát töltöttek le a projekt Github oldaláról, amely a kalibrációs genomokat a GG2012 szekvenciákra térképezi (https://github.com/fangly/AmpliCopyrighter, file AmpliCopyrighter-0.46/előfeldolgozás/ adat/img_to_gg.txt)., A táblázatban felsorolt gg2012 szekvenciákat SILVA OTUs-ra, az Nstd-ket pedig minden SILVA OTUs-ra számították, hasonlóan a PICRUSt-hoz. Az ebben a tanulmányban vizsgált genomokra vonatkozó Nstd-K meghatározásához (külön a szerzői jogvédőre, a Picrustra és a PAPRICÁRA) a genomokat SILVA Otusra térképezték fel a leghosszabb rendelkezésre álló 16S-sorozat globális összehangolása révén, 99% – os hasonlóság mellett. Minden Genom esetében a legszorosabban illeszkedő SILVA OTU NSTD-jét vették a genom NSTD-jének. Az összes Greengenes OTUs Nstd-jének meghatározásához a greengenes OTUs-T A SILVA OTUs-ra térképeztük fel a globális igazítás révén 99% hasonlóság., A mintában szereplő mikrobiális közösségekből kinyert OTUs Nstd-K meghatározásához közvetlenül a SILVA OTUs nstd-jét használtuk magként a zárt referencia OTU szedés során. Ha összehasonlítjuk a két GCN előrejelző eszközök egy OTU (pl füge. 3 és 4 és további 1. fájl: S8 ábra), azokban az esetekben, amikor a két Nstd különbözött, az aritmetikai átlagot használtuk. Az R2 kiszámításához bármely két GCN predikciós eszköz, vagy egy GCN predikciós eszköz és a “true GCNs” között, mint az NSTD (füge) függvénye., 2 és 3d-f) az összehasonlításban használt Otusokat vagy genomokat egyenlő méretű NSTD intervallumokra kötöttük össze, és az R2-t minden intervallumra külön számítottuk ki. Csak az NSTD-intervallumokat vették figyelembe legalább 10 OTUs-val vagy genomokkal.

Kijavítása a 16S rrns gén számok másolása a microbiome felmérések továbbra is megoldatlan probléma