Oprava pro 16S rRNA genu kopírovat čísla v mikrobiomu průzkumů zůstává nevyřešený problém | Mikrobiomu

Výstavba SILVA-odvozené strom

Zatímco původní SILVA strom je dobře kurátor taxonomicky, to je většinou určen pro použití jako vodítko strom, a re-výpočet větev délky se obecně doporučuje pro následné fylogenetické analýzy ., Tady, zkonstruovat fylogenetický strom s více smysluplné větev délky pomocí OTUs v SILVA non-redundantní (NR99) 16 databáze (uvolnění 128; ), jsme postupovali následovně. Souladu reprezentativní sekvence SSU v SILVA byly sníženy tím, že nejprve odstraní nukleotidové pozice s >95% mezery a pak odstranění top 5%, nejvíce entropické nukleotidových pozic. Taxonomické identity poskytována SILVA pro OTUs na domény, kmen, třída, úroveň, byly použity k vytvoření rozdělit omezení na FastTree tím , že omezují každého taxonu musí být na jedné straně splitu a monophyletic., Taxony s méně než 10 Otu byly vynechány z omezení. Bylo tak definováno celkem 354 omezení. Pomocí taxonomicky generované omezení a s původní SILVA strom jako výchozí strom, postavili jsme fylogenetický strom ze snížené zarovnání s FastTree v2.1.10 (možnosti „-spr 4 -gama -nejrychlejší -no2nd -constraintWeight 100“). Fylogenetický strom byl přesměrován tak, že bakterie a Archaea jsou rozděleny na kořen. Náš strom odvozený od Silvy je poskytován jako doplňkový soubor 2., Pro všechny následné analýzy byly ze stromu vynechány chloroplasty, mitochondrie a Eukaryota. V hlavním článku popisujeme naše analýzy pomocí tohoto stromu odvozeného od Silvy (obr. 1); analogické výsledky původního stromu SILVA jsou uvedeny v doplňkovém souboru 1: obrázek S1.

Fylogenetická distribuce 16S GCNs

prozkoumat, jak 16S GCNs jsou distribuovány fylogeneticky a posoudit jejich obecné předvídatelnosti pomocí různých fylogenetických metod, jsme postupovali následovně., Celkem 8 767 anotovaných bakteriálních a archaeálních genomů se stavem dokončení „kompletní genom“ bylo staženo z databáze NCBI RefSeq 4.ledna 2018. Stáhnout genomy byly zkontrolovány z hlediska možného znečištění pomocí checkM 1.0.6 (možnost „reduced_tree“), který je založen na detekci zachovány markerových genů (montáž a checkM shrnutí v Další soubor 3). Genomy zjištěno, že vykazují úroveň kontaminace vyšší než 1% nebo kmen různorodost výše 1% byly vyřazeny, takže nás s 6,868 kompletní genomy pro následné analýzy (Další soubor 4).,

pro každý genom bylo 16S GCNs určeno dvěma přístupy: Nejprve jsme spočítali počet anotovaných sekvencí 16S rRNA v anotacích NCBI (soubory rna_from_genomic.fna). Za druhé, jsme použili modely kovariance s programem cmsearch (jako součást INFERNAL verze 1.1.2, možnosti „–noali –cut_nc“) hledat 16S rRNA sekvence v sestavených genomů (soubory genomic.fna). Samostatné modely kovariance pro archaeální a bakteriální geny 16S rRNA byly získány z databáze Rfam (accessions RF00177 a RF01959)., Tabulka se seznamem GCNs vypočtených pomocí obou metod je poskytována jako další soubor 5. Pro následnou analýzu byly zvažovány pouze genomy, pro které obě metody přinesly stejné 16s GCNs, což přineslo 16s GCNs pro 6,780 genomy („vysoce kvalitní genomy“, další soubor 6). Přesnost těchto GCNs byla dále ověřena porovnáním s databází kopírovacích čísel ribozomální RNA Operon (Rrndb, přístupné 7. Června 2017;), kdykoli byla v rrndb přítomna sestava genomu (atribut rrnDB „data source record id“)., Přes 5,616 vysoce kvalitních genomů testovaných jsme našli téměř dokonalou dohodu s rrnDB (R2>0.999; další soubor 1: obrázek S2). souhrny kvality checkM pro vysoce kvalitní genomovou sadu jsou poskytovány jako další soubor 7.

Tipy na SILVA-odvozené stromu byly mapovány na vysoce kvalitní genomů, kdykoli je to možné, takto: První reprezentativní sekvence 16S SILVA OTUs byly vyrovnány na nejdelší 16S rRNA sekvence z každého genomu pomocí vyhledávací 2.3.,4 na maximální (100%) podobnost (vyhledávací možnosti „–strand oba … usearch_global –maxaccepts 0 –top_hits_only –iddef 0 –id 1.0“). V případě, že OTU v souladu s více genomů, všechny genomy byly zpočátku uchovávány. Dále jsme pro každý vyrovnaný pár OTU-genomu porovnali NCBI taxon ID („taxid“) OTU s genomem. Otu taxidy byly získány z vyhledávací tabulky poskytnuté SILVA (https://www.arb-silva.de/fileadmin/silva_databases/release_128/Exports/taxonomy/taxmap_embl_ssu_ref_128.txt.gz). Genom taxids byly získány z vyhledávacích tabulek poskytnutých NCBI (ftp://ftp.ncbi.nlm.nih.gov/genomes/genbank/*/assembly_summary.txt, kde „*“ je buď „bakterie“ nebo „archea“)., Byl vynechán jakýkoli vyrovnaný pár OTU-genomu s neidentickými taxidy. Ze zbývajících párů genomu OTU se stejnými taxidy jsme pro každou OTU uchovávali pouze první zarovnaný genom. Celkem 9 395 Otu by tak mohlo být mapováno na jeden z genomů. U každého zmapovaného OTU jsme předpokládali GCN rovnající se GCN počítané pro odpovídající genom. U všech ostatních Otů jsme předpokládali neznámé GCN.

všechny fylogenetické analýzy byly provedeny pomocí R package castor, dostupné v komplexní R Archive Network (CRAN). NSTDs pro všechny tipy s ohledem na tipy mapované na sekvenční genom (obr., 1b) byly vypočteny pomocí funkce castor find_nearest_tips. Fylogenetická autokorelační funkce (ACF) známých 16s GCNs přes strom odvozený od Silvy (obr. 1a) byla vypočtena s použitím ricinového funkce get_trait_acf na základě 108 tip párů (možnosti „Npairs=1e8, Nbins=100“), náhodně vybrán mezi tipy se známými GCN. Funkce get_trait_acf náhodně vybere OTU páry na strom, koše do jednoho z mnoha intervalech fylogenetická vzdálenost a vypočítá Pearson autokorelace mezi GCNs z OTU dvojicích v rámci každé bin., Všimněte si, že tato analýza nepředpokládá, že gcns měřítko lineárně s fylogenetickou vzdáleností. Namísto, ACF pouze měří statistickou korelaci mezi GCNs na odlišných špičkách, podmíněné tím, že špičky jsou v určité fylogenetické vzdálenosti od sebe.,

GCNs byly rekonstruovány na SILVA-odvozené strom pomocí Sankoff je maximální šetrnosti (funkce hsp_max_parsimony, s možností transition_costs buď nastavena na „exponenciální“ „proporcionální“, nebo „all_equal“), nezávislých fylogenetických kontrastů (funkce hsp_independent_contrasts), vážený-squared-change šetrnosti (funkce hsp_squared_change_parsimony), podstrom v průměru (funkce hsp_subtree_averaging), a maximální-pravděpodobnost, Mk modely s rerooting (funkce hsp_mk_model_rerooting s možností root_prior=’empirické‘, optimization_algorithm=’nlminb‘, Ntrials=5, rate_model= „ER“).,

pro výpočet křížově validované frakce rozptylu předpovídané (aka. křížově validovaný koeficient stanovení) každé metody (\(R^{2} _ {\text {cv}}\);) jako funkce NSTD (obr. 1c), postupovali jsme následovně. Náhodně jsme vybrali 2% tipů se známými 16S GCN, které mají být vyloučeny ze vstupu do rekonstrukcí a které mají být použity jako nezávislá „testovací sada“ poté. V závislosti na NSTD cutoff za (například 10% substituce na místě), jsme také vyloučeny všechny tipy, jejichž fylogenetická vzdálenost na test set byl pod NSTD cutoff., Zbývající tipy se známými GCNs („training set“) byly použity jako vstup do rekonstrukce, a GCNs předpověděl pro testovací sady byly pak ve srovnání se známým GCNs z testovací sady. Tento proces se opakuje třikrát a výsledná R2 byl v průměru za všechny opakuje, získá \(R^{2}_{\text {cv}}\) pro každé považován za NSTD cutoff. R skript pro analýzu a rekonstrukci 16s GCNs přes strom SILVA odvozený je k dispozici jako další soubor 8. Pro srovnání, všechny výše uvedené analýzy byly také provedeny pomocí původního Silva guide tree (další soubor 1: obrázek S1).,

Hodnocení 3rd party GCN předpověď nástroje na sekvenován genom

testovat prediktivní přesnost CopyRighter , PICRUSt , a PAPRICA pro genomy se známými GCNs, porovnali jsme jejich prognózy s GCNs počítá v (vysoce kvalitní) sekvenovaných genomů. Zhodnotit prediktivní přesnost CopyRighter na genomů, jsme postupovali následovně: nejprve Jsme stáhli precomputed vyhledávací tabulka výpis CopyRighter předpovědi pro Greengenes 16S rRNA databáze (vydání říjen 2012, „GG2012“; ), z projektu Github na 6. června 2017 (v0.,46): https://github.com/fangly/AmpliCopyRighter (autorská práva-0.46/data/201210/ssu_img40_gg201210.txt). Pak jsme vyrovnali nejdelší 16S rRNA sekvence každého genomu OTUs (clustery na 99% podobnost) v Greengenes databáze pomocí vyhledávací (vyhledávací možnosti „–strand oba … usearch_global –maxhits 1 –maxaccepts 10 –top_hits_only“), vždy výběr nejlepší zápas v Greengenes a udržet pouze genomy, že mapovány na Greengenes vstupu nejméně 99% podobnost (5688 genomů mapovány)., Pro každý mapovaný genomu, vzali jsme GCN předpovídal CopyRighter pro odpovídající Greengenes vstupu jako CopyRighter předpověď pro genomu. Tato předpověď byla poté porovnána s GCN počítanou ze sekvence genomu. Histogram CopyRighter předpovědi celé mapované genomů je uveden v Doplňující soubor 1: Obrázek S4B. Prediktivní přesnost CopyRighter byla měřena z hlediska zlomek vysvětlil rozptylu (R2), jako funkce genomu je NSTD (Obr. 1a). Nstd genomů byly vypočteny tak, jak je popsáno v samostatné části níže.,

podobný přístup byl použit pro PICRUSt : precomputed vyhledávací tabulka výpis PICRUSt předpovědi pro Greengenes databáze (vydání Květen 2013; „GG2013“) byl stažen z webové stránky projektu na 6. června 2017 (v1.1.1): https://picrust.github.io/picrust/picrust_precalculated_files.html(16S_13_5_precalculated.karta.gz). Celkem 5 708 vysoce kvalitních genomů by mohlo být mapováno na Otu (99% podobnost) v GG2013. Histogram PICRUSt předpovědi přes všechny mapované genomů je uveden v Doplňující soubor 1: Obrázek S4C. Prediktivní přesnost PICRUSt byla měřena z hlediska R2 jako funkce genomu je NSTD (Obr., 1b), podobně jako autorská práva.

zhodnotit prediktivní přesnost PAPRICA na genomů, jsme postupovali následovně: nejprve Jsme stáhli a nainstalovali PAPRICA z projektu Github na 6. června 2017 (v0.4.0 b): https://github.com/bowmanjeffs/paprica. Toto vydání obsahuje precomputed referenční stromy (jeden pro archaea a jeden pro bakterie) a tabulek seznam 16 GCNs pro nástroj je kalibrace genomech zastoupeny v referenční stromy. Použili jsme nejdelší sekvenci 16S rRNA z každého genomu jako vstup do potrubí PAPRICA (příkaz „paprica-run.sh“), samostatně pro archaea a bakterie., Potrubí vyrábí, mimo jiné, tabulku se seznamem nekorigované hojnost každý jedinečný vstupní posloupnosti (to může být větší než 1, pokud více genomů sdílet stejnou 16S rRNA sekvence) a odpovídající opravené hojnosti (po rozdělení podle předpovědi 16 GCN). Použili jsme tuto tabulku k získání 16s GCNs předpověděl PAPRICA pro jedinečné 16S sekvence (představující 3473 16S sekvence), dělením nekorigované korigované hojnosti. Poté jsme porovnali tyto předpovídané GCNs s gcns počítanými v sekvencích genomu, podobně jako výše., Histogram PAPRICA předpovědi přes všechny zastoupené genomů je uveden v Doplňující soubor 1: Obrázek S4D. Prediktivní přesnost PAPRICA byla měřena z hlediska R2 jako funkce genomu je NSTD (Obr. 1a), podobně jako autorská práva.

Srovnání 3rd party GCN předpověď nástroje přes Greengenes

porovnat předpovědi CopyRighter k těm, o PICRUSt přes všechny OTUs v Greengenes (Obr. 3a), jsme se poprvé mapovány všechny OTUs v GG2013 k OTUs v GG2012 pomocí vyhledávací (s možností „–strand oba … usearch_global“)., Zápasy jsme drželi pouze na 100% podobnosti (153,375 z 203,452 OTUs v GG2013). Ke každé mapované OTU v GG2013, jsme oproti odpovídající GCN předpovídal PICRUSt na GCN předpovídal CopyRighter pro odpovídající OTU v GG2012. Pro výpočet frekvence rozložení GCNs předpovídal CopyRighter a PICRUSt přes všechny OTUs v Greengenes (histogramy v Další soubor 1: Obrázek S3A,B), použili jsme GCNs uvedeny v jejich precomputed vyhledávací tabulky.

pro porovnání PAPRICA s PICRUSt napříč Greengeny (obr., 3b) jsme postupovali následovně: reprezentativní sekvence otu v GG2013 byly rozděleny na archaeální a bakteriální sekvence. Každý výsledný soubor fasta byl použit jako vstup do potrubí PAPRICA předpovědět odpovídající 16S GCN, jak je popsáno výše pro genomy. To přineslo předpovídaný GCN pro všechny položky Greengenes. Tyto předpovědi byly porovnány s předpočítanými hodnotami GCN poskytovanými PICRUSt. Tyto předpovědi byly také použity pro výpočet frekvence rozložení GCNs předpovídal PAPRICA přes Greengenes (Další soubor 1: Obrázek S3C). Porovnávat autorská práva s autorskými právy (obr., 3c), postupovali jsme, jak je popsáno výše, pro srovnání autorských práv s PICRUSt.

Srovnání 3rd party GCN předpověď nástroje v celé mikrobiální společenství

porovnat CopyRighter, PICRUSt, a PAPRICA přes OTUs v různých mikrobiálních společenstev, jsme postupovali následovně. Veřejně dostupné sekvenční údaje 16S rRNA amplicon z různých vzorků prostředí byly staženy z Evropského archivu nukleotidů (http://www.ebi.ac.uk/ena). Byly zvažovány pouze sekvenční údaje Illumina z amplikonů získaných pomocí primerů citlivých na bakterie a/nebo archaea., Vzorky byly vybrány tak, aby pokryly širokou škálu prostředí, včetně oceánu, mořských a jezerních sedimentů, půdy, fyziologický roztok a hypersaline jezer, hydrotermální průduchy, horké prameny, bioreaktory, a zvířat-spojené microbiomes. Všechna sekvenační data byla zpracována podobným způsobem, pokud je to možné, následujícím způsobem. Překrývající spárované-end čte byly sloučeny pomocí flash v1.2.11 (možnosti –min-overlap=20 –max-overlap=300 –max-nesoulad-hustota 0.25 –phred-offset=33 –allow-outies), a non-překrývání spárované-end čte byly vynechány. Jednostranné čtení se nezměnilo., Všechny single-end čtení a sloučeny spárované-end čte byly tak kvalitní filtrované pomocí vyhledávací v2.4.3 (možnosti –fastq_ascii 33 –fastq_minlen 120 –fastq_qmin 0 –fastq_maxee 1 –fastq_truncee 1 –fastq_maxee_rate 0.005 –fastq_stripleft 7). Vzorky s více než 20.000 kvalitní filtrované čte byly řidší až 20.000 čte snížit výpočetní čas, tím, že náhodně výběrem čte bez náhrady., Kvalita filtrované sekvence byly seskupeny do operačních taxonomických jednotek (OTUs; na 97% podobnost) uzavřené-referenční globální zarovnání proti non-redundantní (NR99) SILVA SSU referenční databáze (uvolnění 128; ), pomocí vyhledávací. Oba prameny byly považovány za zarovnání (volba vsearch –strand oba). Sekvence neodpovídající žádné položce databáze s 97% podobností nebo vyšší byly vyřazeny. Všimněte si, že OTUs byl tedy zastoupen záznamy SILVA, jmenovitě ty, které se používají k osazení shluků. Chloroplasty, mitochondrie a jakákoli Eukaryota byly vynechány., OTUs reprezentovaný méně než pěti čtení ve všech vzorcích byly vynechány. Nakonec byly vynechány všechny vzorky s méně než 2 000 čteními, které OTUs zaznamenal. To přineslo tabulku OTU s 635 vzorky a 65,673 Otu představovanou 4,827,748 čte (v průměru 734 OTUs na vzorek). Vzorek přístupová čísla, souřadnice, odběry vzorků, původní publikace, sekvenování platformy, kvalitní filtrované číst délky, a přečtěte si počítá a vztahuje primer regionů (je-li k dispozici), jsou uvedeny v Další soubor 9.,

předvídat GCNs pro OTUs v každém vzorku pomocí CopyRighter, jsme použili stejný přístup jako pro genomy: Reprezentativní sekvence 16S OTUs byly zarovnány GG2012 pomocí vyhledávací (možnosti „–strand oba … usearch_global –iddef 0 –id 0.99 –maxhits 1 –maxaccepts 10 –top_hits_only“), bez ohledu na jakékoli OTUs není uzavřeno do Greengenes vstupu nejméně 99% podobnost. Pro každou OTU držel, GCN uvedeny CopyRighter pro odpovídající Greengenes vstupu byla přijata jako CopyRighter předpověď. Pro PICRUSt jsme postupovali analogickým způsobem pomocí GG2013 namísto GG2012., Pro PAPRICA, jsme postupovali analogicky, pomocí PAPRICA je GCN předpovědi vypočtené dříve pro GG2013 (viz předchozí oddíl).

porovnat libovolné dvě dané nástroje (CopyRighter vs. PICRUSt, PICRUSt vs. PAPRICA, nebo CopyRighter vs. PAPRICA) pro konkrétní vzorek, pouze OTUs s alespoň jednou přečíst ve vzorku a s GCN predikce z obou nástrojů byly považovány za. Měřili jsme dohodu mezi dvěma nástroji, pokud jde o zlomek rozptylu v předpovědích 1.nástroje, který byl vysvětlen předpovědí 2. nástroje (R2)., Spočítali jsme, že vzorek je NSTI (nejbližší sekvenován taxon index) podle , tj. jako aritmetický průměr NSTD přes všechny OTUs považovány ve srovnání a váženou relativní frekvence OTU. Podrobnosti o výpočtu Nstd jsou uvedeny v níže uvedené části. Pro každou dvojici nástroje porovnání, jsme takto získané 635 NSTIs a 635 R2s přes 635 vzorků, je zobrazeno na Obr. 4. Pearsonův korelační koeficient (r2) mezi NSTIs a R2 byly vypočteny pro každý pár nástrojů, zvlášť pro zvíře spojeno a non-zvířat-spojené vzorků., Statistické významy (hodnoty P) korelačních koeficientů byly odhadnuty pomocí permutačního testu se 1000 permutacemi. Další soubor 1: Obrázky S6 a S7 ukazují gcns předpovídané každým nástrojem pro různé mikrobiální komunity. Jsme také ukazují relativní odchylky mezi nástroje (|A−B|/((A+B)/2), kde a a B jsou GCNs předpovídal dva nástroje pro stejné PPU) a NSTDs pro OTUs v různých vzorcích (Další soubor 1: Obrázek S8).,

Hodnocení a srovnání GCN předpověď nástroje v závislosti na NSTD

zkoumat prediktivní přesnost CopyRighter, PICRUSt, a PAPRICA jako funkce OTU nebo genomu je NSTD, jsme postupovali následovně. Pro každou OTU v SILVA, a to samostatně pro každý nástroj, jsme vypočítali NSTD jako fylogenetická vzdálenost k nejbližší sekvenován genom používaný nástroj, aby se předpovědi („kalibrace genomů“). Pro PAPRICA byl získán seznam 5 628 kalibračních genomů z předpočítaných souborů PAPRICA (PAPRICA/ref_genome_database/*/genome_data.konečný.,csv, kde “ * “ je buď bakterie nebo archaea). Kalibrační genomy byly přizpůsobeny SILVA OTUs prostřednictvím globálního vyrovnání genu 16S na prahu podobnosti 99%, pomocí vsearch. Uzavřeno OTUs se předpokládalo, že má nstd rovnající se nule, a pro všechny ostatní SILVA OTUs, NSTD byla vypočtena na základě stromu SILVA odvozené a pomocí R balíček kolečko . Přibližná shoda genomů s Otusem (tj., na 99% podobnost) byl vybrán, aby zajistily, že mnoho z kalibrační genomy jsou zahrnuty, jak je to možné; všimněte si, že SILVA OTUs sami jsou seskupeny na to, že podobnost a že chyba zavlečena do NSTDs a NSTIs je zanedbatelná (< 1% nukleotidových substitucí na místě). Pro PICRUSt, stůl byl stažen z webové stránky projektu výpis IMG (Integrované Mikrobiální Genomy) Id 2,887 kalibrace genomů (https://github.com/picrust/picrust/tree/master/tutorials/picrust_starting_files.zip, soubor GG_to_IMGv350.txt). ID IMG byly přeloženy do id sekvence GG2013 pomocí gg_13_5_img.,tabulka vyhledávání txt stažená z webových stránek Greengenes (http://greengenes.secondgenome.com/downloads). Odpovídající ID GG2013 byly poté mapovány na SILVA OTUs prostřednictvím globálního zarovnání sekvencí 16S s vsearch, s prahem podobnosti 99%. Nstd Silvy OTUs byly poté vypočítány stejným způsobem jako u PAPRICA. Pro CopyRighter, vyhledávací tabulky byl stažen z projektu stránce Github, že mapy kalibrace genomů GG2012 sekvence (https://github.com/fangly/AmpliCopyrighter, soubor AmpliCopyrighter-0.46/předzpracování/ data/img_to_gg.txt)., GG2012 sekvence uvedené v této tabulce jsou mapovány na SILVA OTUs, a NSTDs byly vypočteny pro všechny SILVA OTUs, podobným způsobem jako pro PICRUSt. Určit NSTDs pro genomy, které jsou předmětem této studie (zvlášť pro CopyRighter, PICRUSt, a PAPRICA), genomy byly mapovány na SILVA OTUs prostřednictvím globální zarovnání jejich nejdelší k dispozici sekvence 16S na 99% podobnost. Pro každý genom, NSTD z nejvíce těsně uzavřeno SILVA OTU byl vzat jako NSTD genomu. Abychom určili NSTDs pro všechny Greengenes OTUs, zmapovali jsme Greengenes OTUs na SILVA OTUs prostřednictvím globálního zarovnání na 99% podobnosti., K určení Nstd pro OTUs získaný ze vzorkovaných mikrobiálních komunit jsme přímo použili Nstd SILVA OTUs použitého jako semena během uzavřeného sběru OTU. Při porovnávání dvou predikčních nástrojů GCN na OTU(např. 3 a 4 a další soubor 1: obrázek S8), v případech, kdy se obě Nstd lišily, jsme použili jejich aritmetický průměr. Pro výpočet R2 mezi dvěma GCN predikce nástrojů, nebo mezi GCN predikce nástroje a“ true GCNs, “ jako funkce NSTD (obr., 2 a 3D-f), jsme binned OTUs nebo genomy používané v porovnání do stejně velkých nstd intervalech a vypočítá R2 odděleně pro každý interval. Byly zvažovány pouze intervaly NSTD s nejméně 10 Otu nebo genomy.