Korjaaminen 16S rRNA-geenin kopio numerot microbiome tutkimuksia on edelleen ratkaisematon ongelma

posted in: Articles | 0

Rakentaminen SILVA-johdettu puu

Vaikka alkuperäinen SILVA puu on hyvin kuratoinut taksonomisesti, se on pääosin tarkoitus käyttää ohjeena puu, ja uudelleen laskenta sivuliikkeen pituudet on yleensä suositeltavaa loppupään fylogeneettisiä analyysejä ., Täällä, rakentaa fylogeneettinen puu, jossa on enemmän merkitystä sivuliikkeen pituudet käyttäen OTUs SILVA ei-tarpeeton (NR99) 16S-tietokanta (julkaisu 128; ), me eteni seuraavasti. Tietokoneella edustaja SSU sekvenssit SILVA vähennettiin poistamalla ensin nukleotidin tehtävissä >95% aukkoja ja poistamalla sitten top 5% eniten entrooppiset nukleotidin kantoja. Taksonominen identiteettejä esittänyt SILVA OTUs at the domain, phylum, ja luokan taso oli käyttää luomaan split rajoitukset FastTree , joita rajoittaa kunkin taksonin olla yhdellä puolella split ja monophyletic., Alle 10 otuksen taksa jätettiin pois rajoituksista. Näin määriteltiin yhteensä 354 rajoitusta. Käyttämällä taksonomisesti luomat rajoitteet ja kun alkuperäinen SILVA puu kuin puu alkaa, olemme rakentaneet fylogeneettinen puu vähentää linjaukset FastTree v2.1.10 (options ”-spr-4 -gamma -nopein -no2nd -constraintWeight 100”). Fylogeneettinen puu uusittiin niin, että juureen halkaistaan bakteerit ja Arkkiat. Meidän SILVA-johdettu puu toimitetaan lisätiedostona 2., Kaikista jatkojalostusanalyyseistä puusta jätettiin pois kloroplastit, mitokondriot ja Eukaryota. Pääartikkelissa kuvaillaan analyysejämme käyttäen tätä SILVA-johdettua puuta(Kuva. 1); alkuperäisen SILVA-puun analogiset tulokset esitetään lisätiedostossa 1: kuva S1.

Fylogeneettiseen jakelu 16S GCNs

tutkia, miten 16S GCNs jaetaan phylogenetically ja arvioida niiden yleinen ennustettavuus käyttäen erilaisia fylogeneettisiä menetelmiä, me eteni seuraavasti., Yhteensä 8,767 selityksin bakteeri-ja archaeal genomien kanssa valmistumisen tila ”Täydellinen Genomin” oli ladata NCBI RefSeq-tietokannasta 4. tammikuuta 2018. Ladata genomien tarkastettiin mahdollisten epäpuhtauksien varalta käyttäen checkM 1.0.6 (vaihtoehto ”reduced_tree”), joka perustuu havaitsemiseen säilytetty merkkigeenejä (kokoonpano ja checkM yhteenvedot Lisää tiedosto 3). Genomit todettiin näytteille saastuminen tasolla edellä 1% tai kanta heterogeenisyys edellä 1% hylättiin, jättäen meille 6,868 täydellinen genomien loppupään analyysi (Tiedostojen 4).,

jokaisen genomin, 16 GCNs määritettiin käyttäen kaksi lähestymistapaa: Ensinnäkin, meidän on laskea määrä selityksin 16S rRNA sekvenssit NCBI merkinnät (tiedostot rna_from_genomic.fna). Toiseksi, me käytetään kovarianssi mallit kanssa ohjelma cmsearch (osana HELVETILLINEN versio 1.1.2, valinnat ”–noali –cut_nc”) etsiä 16S rRNA sekvenssit sisällä koottu genomit (tiedostot genomista.fna). Erillinen kovarianssi malleja archaeal ja bakteerien 16S rRNA-geenien saatiin Rfam tietokanta (liittymiset RF00177 ja RF01959)., Lisätiedostona 5 on taulukko, jossa luetellaan GCNs laskettuna molemmilla menetelmillä. Vain genomit, joista kaksi menetelmiä tuotti saman 16S GCNs pidettiin myöhempää analyysia, jolloin saadaan 16 GCNs varten 6,780 genomit (”korkea-laatu genomit,” Lisää tiedosto 6). Tarkkuus näiden GCNs oli edelleen todentaa verrattuna Ribosomaalisen RNA-Operonin Kopioi Numero Tietokantaan (rrnDB, viitattu 7. kesäkuuta 2017; ) aina, kun genomin kokoonpano liittyminen oli läsnä rrnDB (rrnDB ominaisuus ”Data source-tietueen id”)., Koko 5,616 laadukkaita genomien testattu, löysimme lähes täydellinen sopimus rrnDB (R2>0.999; Lisää tiedosto 1: Kuva S2). checkM laatu yhteenvetoja laadukkaita genomin asettaa tarjotaan Tiedostojen 7.

Vinkkejä SILVA-johdettu puu oli kartoitettu laadukkaita genomit, aina kun mahdollista, seuraavasti: Ensimmäinen, edustaja 16S-sekvenssien SILVA OTUs oli linjassa pisin 16S rRNA sekvenssi kunkin genomin käyttäen vsearch 2.3.,4 maksimi (100%) samankaltaisuus (vsearch valinnat ”–lohkon molemmat-usearch_global –maxaccepts 0 –top_hits_only –iddef 0 –tunnus 1.0”). Jos OTU kohdistui useisiin genomeihin, kaikki genomit säilytettiin aluksi. Seuraavaksi kunkin tietokoneella OTU-genomin pari, me verrattiin NCBI taksonin ID (”taxid”) ja OTU, että genomin. OTU-taksidit saatiin Silvan toimittamasta tarkastustaulukosta (https://www.arb-silva.de/fileadmin/silva_databases/release_128/Exports/taxonomy/taxmap_embl_ssu_ref_128.txt.gz). Genomin taxids saatiin haku toimittamat taulukot NCBI (ftp://ftp.ncbi.nlm.nih.gov/genomes/genbank/*/assembly_summary.txt, missä ”*” on joko ”bakteerit” tai ”arkkien”)., Kaikki yhdenmukaistetut OTU-genomiparit ei-identtisten taksidien kanssa jätettiin pois. Jäljellä OTU-genomin paria samanlaisia taxids, me vain piti ensin tietokoneella genomin kunkin OTU. Yhteensä 9 395 otusta voitiin siis kartoittaa yhdeksi genomeista. Jokaisen kartoitetun Otun kohdalla oletimme GCN: n olevan yhtä suuri kuin vastaavaan genomiin laskettu GCN. Kaikkien muiden otusten kohdalla otimme tuntemattoman GCN: n.

Kaikki fylogeneettinen analyysit suoritettiin käyttäen R-paketti pyörä , saatavilla Kattava R Archive Network (CRAN). NSTDs kaikille vinkkejä suhteessa vinkkejä kartoitettu sekvensoitu genomi (Kuva., 1b) laskettiin käyttäen castor-funktiota find_nearest_tips. Tunnetun 16S GCNs: n fylogeneettinen autokorrelaatiofunktio (ACF) SILVA-johdetun puun poikki (Kuva. 1a) laskettiin käyttäen risiiniöljyä toiminto get_trait_acf perustuen 108 vihje paria (valinnat ”Npairs=1e8, Nbins=100”), valitaan satunnaisesti yksi vinkkejä, joiden tiedetään GCN. Toiminto get_trait_acf satunnaisesti poimii OTU paria puu, roskakorit ne osaksi yksi monista välein fylogeneettinen etäisyys, ja laskee Pearson autokorrelaatio välillä GCNs ja OTU paria kunkin bin., Huomaa, että tämä analyysi ei oleta, että GCNs skaalautuu lineaarisesti fylogeneettisen etäisyyden kanssa. Sen sijaan, ACF pelkästään toimenpiteiden tilastollinen korrelaatio GCNs eri vinkkejä, ehtona vinkkejä on sisällä tietty fylogeneettinen etäisyys toisistaan.,

GCNs oli rekonstruoitu SILVA-johdettu puu käyttäen Ziter on maksimi-nuukuus (toiminto hsp_max_parsimony, jossa vaihtoehto transition_costs joko asettaa ”eksponentiaalinen,” ”suhteellinen” tai ”all_equal”), fylogeneettinen riippumaton kontrasteja (toiminto hsp_independent_contrasts), painotettu-potenssiin-muutos nuukuus (toiminto hsp_squared_change_parsimony), alipuu keskimäärin (toiminto hsp_subtree_averaging), ja suurin-todennäköisyys Mk mallit, joissa rerooting (toiminto hsp_mk_model_rerooting vaihtoehtoja root_prior=’empiirinen’, optimization_algorithm=’nlminb’, Ntrials=5, rate_model= ”ER”).,

(aka): n ennustaman varianssin ristiin validoidun fraktion laskemiseksi. cross-validoitu-kertoimen määrittäminen) kunkin menetelmän (\(R^{2}_{\text {cv}}\); ) funktiona NSTD (Fig. 1c), etenimme seuraavasti. Me satunnaisesti valitsi 2% vinkkejä joilla tiedetään 16S GCN jätettävä tulo rekonstruktioita ja voidaan käyttää itsenäisenä ”testin” jälkeen. Riippuen NSTD sulku pidetään (esimerkiksi 10% vaihdot per sivusto), meidän on myös sulkea pois kaikki vinkkejä, joiden fylogeneettinen etäisyys testi setti oli alla NSTD sulku., Loput vinkkejä, joiden tiedetään GCNs (”training set”) käytettiin syötteenä rekonstruktioita, ja GCNs ennustettu testi sarja oli sitten verrattuna tunnettu GCNs testin asettaa. Tämä prosessi toistettiin kolme kertaa ja tuloksena R2 oli keskimäärin yli kaikki toistot, tuottaa \(R^{2}_{\text {cv}}\) kunkin pitää NSTD sulku. R-komentosarja 16S GCNs: n analysointiin ja rekonstruointiin SILVA-johdetun puun poikki on saatavilla lisätiedostona 8. Vertailun vuoksi, kaikki edellä mainitut analyysit suoritettiin myös käyttämällä alkuperäistä SILVA opas puu (Lisää tiedosto 1: Kuva S1).,

Arviointi 3rd party GCN ennustaminen työkaluja sekvensoitiin genomien

testaa ennustava tarkkuus CopyRighter , PICRUSt , ja PAPRICA varten genomit tunnetaan GCNs, vertasimme niiden ennusteita kanssa GCNs laskea (korkea laatu) sekvensoitiin genomien. Arvioida ennustava tarkkuus CopyRighter genomit, me eteni seuraavasti: ensin ladannut precomputed lookup-taulukon, jossa luetellaan CopyRighter on ennusteita Greengenes 16S rRNA-tietokanta (julkaisu lokakuussa 2012, ”GG2012”; ), hanke on Github 6. kesäkuuta 2017 (v0.,46): https://github.com/fangly/AmpliCopyRighter (Tekijänoikeus-0.46/data/201210/ssu_img40_gg201210.txt). Me sitten tietokoneella pisin 16S rRNA sekvenssi jokainen genomin OTUs (klusteroitu 99% samankaltaisuus) vuonna Greengenes tietokannan vsearch (vsearch valinnat ”–lohkon molemmat-usearch_global –maxhits 1 –maxaccepts 10 –top_hits_only”), aina valita paras ottelu Greengenes ja pitää vain genomien, että kartoitettu Greengenes merkintä vähintään 99% samankaltaisuus (5688 genomit on kartoitettu)., Kunkin kartoitettu genomi, otimme GCN ennusti CopyRighter vastaavan Greengenes maahantulon CopyRighter on ennuste genomin. Tätä ennustetta verrattiin sitten genomisarjasta laskettuun GCN: ään. Histogrammin CopyRighter ennustukset ympäri kartoitettu genomit on esitetty Tiedostojen 1: Kuva S4B. Ennustavan tarkkuuden CopyRighter oli mitattuna murto selitetty varianssi (R2), funktiona genomi on NSTD (Fig. 1 A). Genomien nstd-arvot laskettiin seuraavassa erillisessä jaksossa kuvatulla tavalla.,

samanlaista lähestymistapaa käytettiin PICRUSt : N precomputed lookup-taulukon, jossa luetellaan PICRUSt on ennusteita Greengenes tietokanta (julkaisu Toukokuu 2013; ”GG2013”) oli ladattavissa hankkeen verkkosivuilla 6. kesäkuuta 2017 (v1.1.1): https://picrust.github.io/picrust/picrust_precalculated_files.html(16S_13_5_precalculated.välilehti.gz). GG2013: ssa voitaisiin kartoittaa yhteensä 5 708 korkealaatuista genomia OTU: ksi (99%: n samankaltaisuus). Histogrammin PICRUSt ennustukset kaikissa kartoitettu genomit on esitetty Tiedostojen 1: Kuva S4C. Ennustavan tarkkuuden PICRUSt oli mitattuna R2 funktiona genomi on NSTD (Fig., 1b), samoin kuin tekijänoikeudet.

arvioida ennustava tarkkuus PAPRICA genomit, me eteni seuraavasti: ensin ladata ja asentaa PAPRICA hanke on Github 6. kesäkuuta 2017 (v0.4.0 b): https://github.com/bowmanjeffs/paprica. Tämä julkaisu sisältää precomputed viite puita (yksi arkkien ja bakteerit) ja-taulukot listaus 16 GCNs työkalu kalibrointi genomien edustettuina viite puita. Käytimme pisin 16S rRNA sekvenssi kunkin genomin input PAPRICA putki (komento ”paprica-run.sh”) erikseen arkkien ja bakteerien., Putki tuottaa, muun muassa taulukko, jossa luetellaan korjaamaton runsaasti uniikkeja input sequence (tämä voi olla suurempi kuin 1 jos useita genomien jakaa saman 16S rRNA-sekvenssi) ja vastaava oikaisu runsaasti (jälkeen jakamalla ennustettu 16S GCN). Käytimme tätä taulukkoa saada 16S GCNs ennustanut PAPRICA varten ainutlaatuinen 16S sekvenssit (edustavat 3473 16S sekvenssit), jakamalla korjaamaton korjatun runsauden. Sitten verrata näitä ennusti GCNs, että GCNs laskea genomin sekvenssit, kuten edellä., Histogrammin PAPRICA on ennusteita kaikilla edustettuina genomit on esitetty Tiedostojen 1: Kuva S4D. Ennustavan tarkkuuden PAPRICA oli mitattuna R2 funktiona genomi on NSTD (Fig. 1a), samoin kuin tekijänoikeudet.

Vertailu 3rd party GCN ennustaminen työkaluja eri Greengenes

verrata ennusteita CopyRighter niille, joita PICRUSt kaikissa OTUs vuonna Greengenes (Fig. 3a), me ensin kartoitimme kaikki OTUs gg2013 OTUs GG2012 käyttäen vsearch (vaihtoehdot ”–strand molemmat –usearch_global”)., Pidimme otteluita vain 100% samankaltaisuus (153,375 pois 203,452 OTUs gg2013). Kunkin kartoitettu OTU gg2013, vertasimme vastaava GCN ennustama PICRUSt GCN ennustama GCN ennustama tekijänoikeuksien hyväksytty OTU gg2012. Laskea taajuus jakaumat GCNs ennusti CopyRighter ja PICRUSt kaikissa OTUs vuonna Greengenes (histogrammit Lisää tiedosto 1: Kuva S3A,B), käytimme GCNs lueteltu niiden precomputed lookup-taulukkoa.

Vertaillakseen PAPRICAA Pikrustiin läpi Greengeneen (Kuva., 3b), me eteni seuraavasti: Edustaja sekvenssit OTUs vuonna GG2013 jaettiin archaeal ja bakteerien sekvenssejä. Kukin tuloksena fasta-tiedostoa käytetään syötteenä PAPRICA putki ennustaa vastaava 16S GCN, kuten edellä on kuvattu genomit. Tämä tuotti ennustetun GCN kaikille Greengenes merkinnät. Näitä ennusteita verrattiin Picrustin toimittamiin prekomputoituihin GCN-arvoihin. Nämä ennustukset olivat myös laskennassa käytetty taajuus jakelu GCNs ennusti PAPRICA koko Greengenes (Lisää tiedosto 1: Kuva S3C). Copyrighterin vertaaminen PAPRICAAN (Kuva., 3C), etenimme edellä kuvatulla tavalla tekijänoikeuksien vertaamiseksi Picrustiin.

Vertailu 3rd party GCN ennustaminen työkaluja eri mikrobien yhteisöjä

vertaa CopyRighter, PICRUSt, ja PAPRICA koko OTUs eri mikrobien yhteisöjä, me eteni seuraavasti. Julkisesti saatavilla 16S rRNA amplicon järjestyksessä tietoja eri ympäristö-näytteet olivat ladattavissa European Nucleotide Archive (http://www.ebi.ac.uk/ena). Vain Illumina – sekvenssitiedot ampliconeista, jotka on saatu bakteerien ja/tai archaea-herkkien alkulukujen avulla, tarkasteltiin., Näytteet valittiin kattaa monenlaisia ympäristöjä, mukaan lukien meressä, meren ja järven sedimenttien, maaperän, suolaliuos ja hypersaline järviä, hydrotermiset halkeamat, kuumia lähteitä, bioreaktorit, ja eläin-liittyvät microbiomes. Kaikkia sekvensointitietoja käsiteltiin mahdollisuuksien mukaan samalla tavalla seuraavasti. Päällekkäisiä pariksi-end lukee yhdistettiin käyttämällä flash v1.2.11 (valinnat –min-päällekkäisyys=20 –max-päällekkäisyys=300 –max-epäsuhta-tiheys on 0,25 –phred-offset=33 –salli-outies), ja ei-päällekkäisiä pariksi-end lukee jätettiin pois. Yksiosaiset lukemat pidettiin ennallaan., Kaikki yhden-lopussa lukee ja yhdistetään pariksi-end lukee sitten laatu suodatetaan käyttäen vsearch v2.4.3 (valinnat –fastq_ascii 33 –fastq_minlen 120 –fastq_qmin 0 –fastq_maxee 1 –fastq_truncee 1 –fastq_maxee_rate 0.005 –fastq_stripleft 7). Näytteitä, joissa on yli 20000 laatu-suodatettu lukee oli sisäänlämpiävässä alas 20000 lukee vähentää laskenta-aikaa, satunnaisesti poiminta lukee ilman vaihto., Laatu-suodatettu sekvenssit olivat ryhmitelty toiminnallisiksi taksonomisia yksiköitä (OTUs; 97% samankaltaisuus) mukaan suljettu-viittaus global kohdistamalla vastaan ei-tarpeeton (NR99) SILVA SSU viitetietokanta (julkaisu 128; ) käyttäen vsearch. Molemmat osa-alueet tarkasteltiin linjaus (vsearch vaihtoehto — lohko molemmat). Sekvenssit, jotka eivät vastaa mitään tietokantamerkintää 97%: n samankaltaisuudella tai korkeammalla, hylättiin. Huomaa, että otusta edustivat näin SILVA-merkinnät, nimittäin ne, joita käytettiin klustereiden siemeniin. Klooriplastit, mitokondriot ja kaikki Eukaryotat jätettiin pois., OTUs, jota edustaa alle viisi lukua kaikissa näytteissä, jätettiin pois. Lopulta kaikki otuksen alle 2 000 lukemaa sisältävät näytteet jätettiin pois. Tämä tuottanut OTU taulukko 635 näytteitä ja 65,673 OTUs edustaa 4,827,748 lukee (keskimäärin 734 OTUs per näyte). Näyte liittymistä numerot, koordinaatit, näytteenotto päivämäärät, julkaisuja, sekvensointi alustoja, laatu-suodatettu lukea pituudet, ja lukea laskee ja katettu pohjamaali alueet (jos saatavilla) annetaan Tiedostojen 9.,

ennustaa GCNs varten OTUs kunkin näytteen käyttäen CopyRighter, me käytetään samaa lähestymistapaa kuin genomien: Edustaja 16S-sekvenssien OTUs oli linjassa GG2012 käyttäen vsearch (valinnat ”–lohkon molemmat-usearch_global –iddef 0 –tunnus 0.99 –maxhits 1 –maxaccepts 10 –top_hits_only”), ilman mitään OTUs ole sovitettu Greengenes merkintä vähintään 99% samankaltaisuus. Jokaisen OTU pidetään, GCN lueteltu CopyRighter varten hyväksytty Greengenes merkintä otettiin tekijänoikeuden ennustus. Sillä PICRUSt, me eteni vastaavalla tavalla, käyttäen GG2013 sijaan GG2012., Sillä PAPRICA, me eteni vastaavalla tavalla, käyttäen PAPRICA on GCN ennusteita laskettu aiemmin GG2013 (ks. edellinen kohta).

Voit vertailla tahansa kaksi annetaan työkaluja (CopyRighter vs. PICRUSt, PICRUSt vs. PAPRICA, tai CopyRighter vs. PAPRICA) tietyn otoksen, ainoa OTUs, jolla on vähintään yksi lukea näyte ja ottaa GCN ennustaminen sekä työkaluja pidettiin. Mittasimme sopimus kahden työkalut kannalta osa varianssi ennusteita 1 työkalu, joka selittyy ennusteita 2 työkalu (R2)., Me lasketaan näytteen NSTI (lähin sekvensoitiin taksonin index) mukaan , eli, kuten aritmeettinen keskiarvo NSTD yli kaikki OTUs katsoi, vertailussa ja painotettu suhteellinen OTU taajuuksilla. Yksityiskohtaiset tiedot NSTDs: n laskutavasta on esitetty seuraavassa jaksossa. Kunkin parin työkaluja verrattuna, meillä on siis saatu 635 NSTIs ja 635 R2s yli 635 näytteitä, on esitetty Kuviossa. 4. Pearsonin korrelaatiokertoimet (r2) välillä NSTIs ja R2 laskettiin kunkin parin työkaluja, erikseen eläin-liittyvät ja ei-eläin-liittyvät näytteet., Korrelaatiokertoimien tilastolliset merkitykset (p-arvot) arvioitiin permutaatiotestillä, jossa oli 1000 permutaatiota. Lisää tiedosto 1: Luvut S6 ja S7 ssa GCNs ennusti kunkin työkalun eri mikrobien yhteisöjä. Olemme myös näyttää suhteellinen poikkeama välillä työkaluja (|A−B|/((A+B)/2), missä A ja B ovat GCNs ennusti kaksi työkalua saman OTU) ja NSTDs varten OTUs eri näytteitä (Lisää tiedosto 1: Kuva S8).,

Arviointi ja vertailu GCN ennustaminen työkaluja, riippuen NSTD

tutkia ennustava tarkkuus CopyRighter, PICRUSt, ja PAPRICA funktiona OTU: n tai genomin on NSTD, me eteni seuraavasti. Kunkin OTU vuonna SILVA, ja erikseen kunkin työkalu, laskimme NSTD kuten fylogeneettinen etäisyys lähimpään sekvensoitu genomi käyttää työkalu tehdä ennusteita (”kalibrointi genomien”). Sillä PAPRICA, luettelo 5,628 kalibrointi genomien oli saatu PAPRICA on precomputed tiedostoja (PAPRICA/ref_genome_database/*/genome_data.lopullinen.,csv, jossa ” * ” on joko bakteerit tai archaea). Kalibrointi genomit olivat sovitettu SILVA OTUs kautta maailmanlaajuinen yhdenmukaistaminen 16S-geenin klo samankaltainen kynnys 99%, käyttämällä vsearch. Hyväksytty OTUs oletettiin on NSTD nolla, ja kaikki muut SILVA OTUs, että NSTD oli laskettu SILVA-johdettu puu ja käyttämällä R-paketti castor . Genomien likimääräinen vastaavuus otukseen (ts.,, 99% samankaltaisuus) oli päättänyt varmistaa, että mahdollisimman moni kalibrointi genomit ovat mukana kuin mahdollista; huomaa, että SILVA OTUs on itse klusteroitu, että samankaltaisuus ja että virhe mahdollisesti käyttöön NSTDs ja NSTIs on vähäinen (< 1% nukleotidin vaihdot per sivusto). Sillä PICRUSt, pöytä oli ladattavissa hankkeen verkkosivuilla listalle IMG (Integroitu Mikrobien Genomien) Tunnuksia 2,887 kalibrointi genomit (https://github.com/picrust/picrust/tree/master/tutorials/picrust_starting_files.zip, tiedoston GG_to_IMGv350.txt). IMG-tunnukset käännettiin gg2013-sekvenssitunnuksille käyttäen gg_13_5_img-lukua.,txt lookup-taulukon ladata Greengenes verkkosivuilla (http://greengenes.secondgenome.com/downloads). Hyväksytty GG2013 tunnukset sitten kartoitettiin SILVA OTUs kautta global 16S sekvenssi linjaus vsearch, yhtäläisyys kynnys 99%. SILVA otuksen nstd: t laskettiin sitten samalla tavalla kuin PAPRICASSA. Sillä CopyRighter, lookup-taulukko on ladattu projektin Github-sivulla, että karttoja kalibrointi genomit voivat GG2012 sekvenssit (https://github.com/fangly/AmpliCopyrighter, tiedoston AmpliCopyrighter-0.46/esikäsittely/ data/img_to_gg.txt)., GG2012 sekvenssit taulukossa oli kartoitettu SILVA OTUs, ja NSTDs laskettiin kaikille SILVA OTUs, samalla tavalla kuin PICRUSt. Määrittää NSTDs varten genomien tässä tutkimuksessa tarkasteltujen (erikseen CopyRighter, PICRUSt, ja PAPRICA), genomit olivat kartoitettu SILVA OTUs kautta maailmanlaajuisen yhdenmukaistamisen niiden pisin käytettävissä 16S-sekvenssin 99% samankaltaisuus. Kunkin genomin, että NSTD kaikkein tiiviisti sovitettu SILVA OTU otettiin genomin on NSTD. Määrittää NSTDs kaikille Greengenes OTUs, kartoitimme Greengenes OTUs SILVA OTUs kautta maailmanlaajuinen yhdenmukaistaminen 99% samankaltaisuus., Määrittää NSTDs varten OTUs toipunut otokseen valittujen mikrobien yhteisöjä, voimme suoraan käyttää NSTDs SILVA OTUs käytetään siemenet aikana suljettu viite OTU poiminta. Verrattaessa kahta GCN-ennustusvälinettä OTU: ssa (esim.viikunat. 3 ja 4 ja lisätiedosto 1: kuva S8), jos kaksi NSTDs erosivat, käytimme niiden aritmeettinen keskiarvo. Laskea R2 tahansa kahden GCN ennustaminen työkaluja, tai välillä GCN ennustaminen työkalu ja ”totta GCNs,” funktiona NSTD (Viikunat., 2-ja 3d–f), me joutaa roskakoriin, että OTUs tai genomien käyttää vertailussa osaksi yhtä kokoinen NSTD välein ja lasketaan R2 erikseen kunkin välein. Vain NSTD-intervalleja, joissa oli vähintään 10 otusta tai genomia, harkittiin.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *