Construção da SILVA-derivado da árvore
Enquanto o original SILVA árvore é bem curada taxonomicamente, é principalmente destinado a ser usado como um guia de árvore, e re-cálculo de comprimentos dos ramos é geralmente aconselhada para jusante análises filogenéticas ., Aqui, para construir uma árvore filogenética com comprimentos de ramos mais significativos usando OTUs no banco de dados SILVA non-redundant (NR99) 16S (release 128; ), procedemos da seguinte forma. Sequências de SSU representativas alinhadas em SILVA foram reduzidas pela remoção de posições de nucleótidos com >95% de lacunas e, em seguida, removendo as posições de nucleótidos mais Tropic de 5%. Identidades taxonômicas fornecidas por SILVA para OTUs no domínio, filo e nível de classe foram usadas para criar restrições de divisão para FastTree, restringindo cada táxon a estar em um único lado de uma divisão e monofilético., Taxa com menos de 10 OTUs foram omitidos das restrições. Assim, foram definidas 354 restrições no total. Usando as restrições geradas taxonomicamente e tomando a árvore SILVA original como uma árvore inicial, nós construímos uma árvore filogenética a partir dos alinhamentos reduzidos com FastTree v2.1.10 (opções “-spr 4-gama-mais rápido-no2nd-constraintWeight 100”). A árvore filogenética foi reiniciada de modo que bactérias e Archaea são divididas na raiz. Nossa árvore derivada da SILVA é fornecida como arquivo adicional 2., Para todas as análises a jusante, cloroplastos, mitocôndrias e Eukaryota foram omitidos da árvore. No artigo principal, descrevemos nossas análises usando esta árvore derivada da SILVA(Fig. 1); resultados análogos para a árvore SILVA original são mostrados no arquivo adicional 1: Figura S1.
Filogenética de distribuição de 16S GCNs
Para examinar como 16S GCNs são distribuídos filogeneticamente e avaliar a sua gerais previsibilidade usando vários filogenética métodos, procedeu-se da seguinte forma., Um total de 8.767 genomas bacterianos e arcaicos anotados com status de conclusão “genoma completo” foram baixados da base de dados NCBI RefSeq em 4 de janeiro de 2018. Genomas baixados foram verificados para contaminação potencial usando chechm 1.0.6( opção “reduced_tree”), que é baseado na detecção de genes marcadores conservados (resumos de montagem e checkM no arquivo adicional 3). Os genomas que apresentam um nível de contaminação superior a 1% ou uma heterogeneidade da estirpe superior a 1% foram rejeitados, deixando-nos com 6.868 genomas completos para análise a jusante (ficheiro adicional 4).,
para cada genoma, 16S GCNs foram determinados usando duas abordagens: primeiro, nós contamos o número de sequências de rRNA anotadas 16S nas anotações NCBI (arquivos rna_from_genomic.fna). Em segundo lugar, nós usamos modelos de covariância com o programa cmsearch (como parte da versão INFERNAL 1.1.2, opções “–noali –cut_nc”) para procurar por sequências de 16S rRNA dentro dos genomas montados (files genomic.fna). Modelos de covariância separados para genes arcaicos e bacterianos 16S rRNA foram obtidos a partir da base de dados Rfam (accessions RF00177 e RF01959)., Uma tabela que enumera GCNs calculados usando ambos os métodos é fornecida como arquivo adicional 5. Apenas genomas para os quais os dois métodos produziram os mesmos 16S GCNs foram considerados para análise subsequente, produzindo 16S GCNs para 6780 genomas (“genomas de alta qualidade”, Arquivo adicional 6). A exatidão destes GCNs foi ainda verificada através da comparação com a base de dados de números de cópias de Rna ribossômica (rrndb, acessado em 7 de junho de 2017; ) sempre que uma adesão à assembléia do genoma estava presente no rrndb (atributo rrnDB “Data source record id”)., Ao longo de 5,616 genomas de alta qualidade testados, encontramos um acordo quase perfeito com o rrnDB (R2>0,999; arquivo adicional 1: Figura S2). os resumos de qualidade do checkM para o conjunto de genomas de alta qualidade são fornecidos como arquivo adicional 7.as pontas da árvore derivada da SILVA foram mapeadas para genomas de alta qualidade, sempre que possível, como segue: primeiro, as sequências 16S representativas de SILVA OTUs foram alinhadas com a sequência 16S rRNA mais longa de cada genoma usando VSearch 2.3.,4 at maximum (100%) similarity (VSearch options “–strand both –usearch_global –maxaccepts 0 –top_ kits_only –iddef 0 –id 1.0”). Se uma OTU alinhada a múltiplos genomas, todos os genomas foram inicialmente mantidos. Em seguida, para cada par de OTU-genoma alinhado, comparamos o ID do táxon NCBI (“taxid”) da OTU com o do genoma. Os taxídeos OTU foram obtidos a partir de uma tabela de pesquisa fornecida por SILVA (https://www.arb-silva.de/fileadmin/silva_databases/release_128/Exports/taxonomy/taxmap_embl_ssu_ref_128.txt.gz). Os taxídeos do genoma foram obtidos a partir de tabelas de pesquisa fornecidas pelo NCBI (ftp://ftp.ncbi.nlm.nih.gov/genomes/genbank/ * /assembly_summary.txt, onde ” * “é ou” bactéria “ou”archaea”)., Qualquer par de OTU-genoma alinhado com taxídeos não idênticos foi omitido. Dos restantes pares de OTU-genoma com taxídeos idênticos, só mantivemos o primeiro genoma alinhado para cada OTU. Um total de 9395 OTUs poderia assim ser mapeado para um dos genomas. Para cada OTU mapeado, assumimos uma GCN igual à GCN contada para o genoma correspondente. Para todos os outros OTUs, assumimos um GCN desconhecido.todas as análises filogenéticas foram realizadas usando o R package castor, disponível na Comprehensive R Archive Network (CRAN). NSTDs para todas as pontas com respeito às pontas mapeadas a um genoma sequenciado (Fig., 1b) foram calculados utilizando a função castor find_nearest_tips. The phylogenetic autocorrelation function (ACF) of known 16S GCNs across the SILVA-derived tree (Fig. 1a) foi calculado usando a função castor get_trait_acf com base em 108 pares de pontas (opções “Npairs=1e8, Nbins = 100”), escolhidos aleatoriamente entre dicas com GCN conhecido. A função get_trit_acf escolhe aleatoriamente pares OTU na árvore, coloca – os em um de muitos intervalos de distância filogenética, e calcula a autocorrelação de Pearson entre GCNs dos pares OTU dentro de cada bin., Note que esta análise não assume que GCNs escala linearmente com a distância filogenética. Em vez disso, o ACF apenas mede a correlação estatística entre GCNs em pontas distintas, condicionada a que as pontas estejam dentro de uma certa distância filogenética umas das outras.,
GCNs foram reconstruídos no SILVA derivada de árvore usando Sankoff máxima parcimônia (função hsp_max_parsimony, com opção de transition_costs definido como “exponencial” “proporcional” ou “all_equal”), filogenética contrastes independentes (função hsp_independent_contrasts), ponderado ao quadrado-alteração de parcimônia (função hsp_squared_change_parsimony), a subárvore média (função hsp_subtree_averaging), e a máxima probabilidade de Mk modelos com rerooting (função hsp_mk_model_rerooting com opções de root_prior=’empírica’, optimization_algorithm=’nlminb’, Ntrials=5, rate_model=’ER’).,
para calcular a fracção da variância validada cruzada prevista por (T. c. p. coeficiente de determinação validado cruzada de) cada método (\(r^{2}_{\text {cv}}}\);) em função do NSTD(Fig. 1c), procedemos da seguinte forma. Escolhemos aleatoriamente 2% das dicas com 16S GCN conhecidos para serem excluídos da entrada para as reconstruções e para ser usado como um “conjunto de teste” independente depois. Dependendo do corte de nstd considerado (por exemplo, substituições de 10% por site), também excluímos todas as dicas cuja distância filogenética ao conjunto de testes estava abaixo do corte de NSTD., As pontas restantes com gcns conhecidos (“conjunto de treinamento”) foram usadas como entrada para as reconstruções, e os GCNs previstos para o conjunto de teste foram então comparados com os gcns conhecidos do conjunto de teste. Este processo foi repetido três vezes e o R2 resultante foi calculado em média em todas as repetições, produzindo um \(r^{2}_{\text {cv}}\) para cada corte considerado NSTD. O script R para analisar e reconstruir 16S GCNs através da árvore derivada de SILVA está disponível como arquivo adicional 8. Para comparação, todas as análises acima também foram realizadas usando a árvore guia SILVA original (arquivo adicional 1: Figura S1).,
de Avaliação da 3ª parte GCN instrumentos de previsão no sequenciados os genomas
Para testar a precisão da previsão de CopyRighter , PICRUSt , e PAPRICA para genomas conhecidos GCNs, nós comparamos suas previsões com o GCNs contados a (alta qualidade) sequenciaram os genomas. Para avaliar a precisão preditiva do CopyRighter sobre os genomas, procedemos da seguinte forma: primeiro baixamos a tabela de pesquisa pré-complicada listando as previsões do CopyRighter para o banco de dados GREENGENES 16S rRNA (lançamento em outubro de 2012, “GG2012”; ), do Github do projeto em 6 de junho de 2017 (v0.,46): https://github.com/fangly/AmpliCopyRighter (copyright-0.46/data/201210 / ssu_img40_g201210.txt). Nós, em seguida, alinhado a mais longa sequência 16S rRNA de cada genoma para OTUs (agrupado em 99% de semelhança) no Greengenes banco de dados usando vsearch (vsearch opções “–strand ambos-usearch_global –maxhits 1 –maxaccepts 10 –top_hits_only”), escolhendo sempre a melhor correspondência na Greengenes e mantendo apenas genoma mapeado para um Greengenes entrada de pelo menos 99% de semelhança (5688 genomas mapeada)., Para cada genoma mapeado, nós pegamos o GCN previsto por Autorighter para a entrada correspondente de Greengenes como predição do autor para o genoma. Esta previsão foi então comparada com a GCN contada a partir da sequência do genoma. Um histograma das previsões do autor sobre os genomas mapeados é mostrado no ficheiro adicional 1: Figura S4B. a precisão preditiva do autor foi medida em termos da fracção da variância explicada (R2), em função do NSTD do genoma (Fig. 1a). NSTDs de genomas foram calculados como descrito em uma seção separada abaixo.,
Uma abordagem semelhante foi utilizada para PICRUSt : precomputed tabela de pesquisa listagem de PICRUSt previsões para o Greengenes de banco de dados (versão de Maio de 2013; “GG2013”) foi transferido a partir do site do projeto em 6 de junho de 2017 (v1).1.1): https://picrust.github.io/picrust/picrust_precalculated_files.html(16S_13_5_precalculated.guia.gz). Um total de 5708 genomas de alta qualidade poderia ser mapeado para uma OTU (99% de similaridade) em GG2013. Um histograma das previsões de PICRUSt em todos os genomas mapeados é mostrado no arquivo adicional 1: Figura S4C. a precisão preditiva de PICRUSt foi medida em termos de R2 como uma função do NSTD de um genoma (Fig., 1b), da mesma forma que o autor.
para avaliar a precisão preditiva de PAPRICA nos genomas, procedemos da seguinte forma: primeiro baixamos e instalamos PAPRICA do Github do projeto em 6 de junho de 2017 (v0.4.0 b): https://github.com/bowmanjeffs/paprica. Esta versão inclui árvores de referência pré-complexas (uma para archaea e outra para bactérias) e tabelas que listam 16 GCNs para os genomas de calibração da ferramenta representados nas árvores de referência. Usamos a sequência rRNA 16S mais longa de cada genoma como entrada para o oleoduto PAPRICA (comando “paprica-run.sh”), separadamente para archaea e bactérias., O oleoduto produz, entre outros, uma tabela listando a abundância não corrigida de cada sequência de entrada única (isto pode ser maior que 1 Se múltiplos genomas compartilham a mesma sequência rRNA 16S) e a abundância corrigida correspondente (após a divisão pela prevista 16S GCN). Usámos esta tabela para obter os 16S GCNs previstos pela PAPRICA para as únicas sequências 16S (representando 3473 sequências 16S), dividindo as não corrigidas pela abundância corrigida. Nós então comparamos esses gcns preditos com os gcns contados nas seqüências do genoma, similarmente ao acima., Um histograma das previsões de PAPRICA em todos os genomas representados é mostrado no arquivo adicional 1: Figura S4D. a precisão preditiva de PAPRICA foi medida em termos de R2 como uma função do NSTD de um genoma (Fig. 1a), similarly to CopyRighter.
comparação de ferramentas de predição de GCN de terceiros através de Greengenes
para comparar as predições por Copyright com as de PICRUSt através de todos os OTUs em Greengenes (Fig. 3a), primeiro mapeou todas as OTUs em GG2013 para OTUs em GG2012 usando vsearch (com as opções “–strand ambos-usearch_global”)., Só mantivemos fósforos com 100% de similaridade (153.375 de 203.452 OTUs em GG2013). Para cada OTU mapeado no GG2013, comparamos a correspondente GCN prevista pela PICRUSt com a GCN prevista pelo copyright da OTU correspondente no GG2012. Para calcular as distribuições de frequência de GCNs previstas por CopyRighter e PICRUSt em todos os OTUs em Greengenes (histogramas no arquivo adicional 1: Figura S3A,B), Nós usamos os GCNs listados em suas tabelas de pesquisa pré-complicadas.
para comparar a PAPRICA com a PICRUSt através dos Greengenos (Fig., 3b), procedemos da seguinte forma: sequências representativas de OTUs em GG2013 foram divididas em sequências arcaicas e bacterianas. Cada arquivo fasta resultante foi usado como entrada para o oleoduto PAPRICA para prever o 16S GCN correspondente, como descrito acima para genomas. This yielded a predicted GCN for all Greengenes entries. Estas previsões foram comparadas com os valores pré-compostos de GCN fornecidos pela PICRUSt. Estas previsões também foram usadas para calcular a distribuição de frequência de GCNs prevista por PAPRICA através de Greengenes (arquivo adicional 1: Figura S3C). Para comparar o copyright com PAPRICA (Fig., 3c), procedemos como descrito acima para a comparação do autor com PICRUSt.comparação de ferramentas de predição da GCN de terceiro partido através de comunidades microbianas
para comparar o copyright, PICRUSt e PAPRICA através do OTUs em várias comunidades microbianas, procedemos da seguinte forma. Dados da sequência amplicon 16S rRNA publicamente disponíveis de várias amostras ambientais foram descarregados do arquivo Europeu de nucleótidos (http://www.ebi.ac.uk/ena). Apenas foram considerados os dados da sequência ilumina obtidos a partir de amplificadores obtidos utilizando primers sensíveis a bactérias e/ou archaea., As amostras foram escolhidas para cobrir uma ampla gama de ambientes, incluindo o oceano, sedimentos marinhos e lacustres, Solo, lagos salinos e hipersalinos, fontes hidrotermais, fontes termais, biorreactores e microbiomas associados a animais. Todos os dados de sequenciação foram processados de forma semelhante, sempre que possível, como segue. As leituras sobrepostas foram reunidas usando flash v1.2.11 (opções-min-sobreposição=20-max-sobreposição=300-max-desfasamento-densidade 0,25-phred-offset = 33-permissões), e leituras não-sobrepostas emparelhadas foram omitidas. As leituras de ponta única mantiveram-se inalteradas., Todas único-final, lê-se e fundiram-se emparelhado-final leituras foram, em seguida, qualidade filtrados utilizando vsearch v2.4.3 (opções –fastq_ascii 33 –fastq_minlen 120 –fastq_qmin 0 –fastq_maxee 1 –fastq_truncee 1 –fastq_maxee_rate 0.005 –fastq_stripleft 7). Amostras com mais de 20.000 leituras de qualidade filtradas foram rarefeitas para 20.000 leituras para reduzir o tempo de computação, escolhendo aleatoriamente leituras sem substituição., Sequências filtradas pela qualidade foram agrupadas em unidades taxonômicas operacionais (OTUs; com 97% de similaridade) por alinhamento global de referência fechada contra a base de dados de referência de SILVA SSU (versão 128;), usando vsearch. Ambas as vertentes foram consideradas para o alinhamento (VSearch option –strand both). Sequências que não correspondem a qualquer entrada na base de dados com 97% de similaridade ou superior foram descartadas. Note que OTUs foram assim representados por entradas SILVA, ou seja, aquelas usadas para semear os aglomerados. Cloroplastos, mitocôndrias e qualquer Eukaryota foram omitidos., OTUs representados por menos de cinco leituras em todas as amostras foram omitidas. Finalmente, quaisquer amostras com menos de 2.000 leituras contabilizadas por OTUs foram omitidas. Isto rendeu uma tabela OTU com 635 amostras e 65.673 OTUs representados por 4.827.748 leituras (em média 734 OTUs por amostra). Números de adesão de amostras, coordenadas, datas de amostragem, publicações originais, plataformas de sequenciamento, comprimentos de leitura filtrados pela qualidade, e contagens de leitura e regiões de primer cobertas (quando disponíveis) são fornecidos no ficheiro adicional 9.,
Para prever GCNs para OTUs em cada amostra utilizando CopyRighter, foi utilizada a mesma abordagem para genomas: Representante sequências de 16S do OTUs estavam alinhados para GG2012 usando vsearch (opções “–strand ambos-usearch_global –iddef 0 –id de 0,99 –maxhits 1 –maxaccepts 10 –top_hits_only”), omitindo qualquer OTUs não corresponde a uma Greengenes entrada de pelo menos 99% de semelhança. Para cada OTU mantido, o GCN listado por CopyRighter para a entrada de Greengenes correspondido foi tomado como predição do CopyRighter. Para PICRUSt, procedemos de forma análoga, usando GG2013 em vez de GG2012., Para o PAPRICA, procedemos de forma análoga, usando as previsões GCN do PAPRICA computadas anteriormente para o GG2013 (ver seção anterior).
Para comparar quaisquer dois ferramentas (CopyRighter vs. PICRUSt, PICRUSt vs. PAPRICA, ou CopyRighter vs. PAPRICA) para uma amostra específica, apenas OTUs com, pelo menos, uma leitura da amostra, e tendo um GCN previsão de ambas as ferramentas foram considerados. Medimos o Acordo entre duas ferramentas em termos da fração de variância nas previsões da primeira ferramenta que foi explicado pelas previsões da segunda ferramenta (R2)., Calculamos o NSTI da amostra (Índice de taxon sequenciados mais próximo) de acordo com , ou seja, como a média aritmética NSTD sobre todos os OTUs considerados na comparação e ponderados por frequências OTU relativas. Os pormenores sobre o cálculo dos NSTDs são apresentados na secção seguinte. Para cada par de ferramentas comparadas, obtivemos assim 635 NSTIs e 635 R2s em 635 amostras, mostradas na Fig. 4. Os coeficientes de correlação de Pearson (r2) entre NSTIs e R2 foram calculados para cada par de ferramentas, separadamente para amostras associadas a animais e não associadas a animais., As significâncias estatísticas (valores P) dos coeficientes de correlação foram estimadas usando um teste de permutação com 1000 permutações. Arquivo adicional 1: As Figuras S6 e S7 mostram GCNs previstos por cada ferramenta para várias comunidades microbianas. Também mostramos desvios relativos entre ferramentas (|A−B|/((A+B)/2), onde A e B são GCNs previstos por duas ferramentas para a mesma OTU) e NSTDs para OTUs em várias amostras (arquivo adicional 1: Figura S8).,avaliação e comparação de ferramentas de predição de GCN dependendo de nstd
para examinar a precisão preditiva do autor, PICRUSt e PAPRICA como uma função de NSTD de uma OTU ou genoma, procedemos da seguinte forma. Para cada OTU em SILVA, e separadamente para cada ferramenta, calculamos o NSTD como a distância filogenética ao genoma sequenciado mais próximo usado pela ferramenta para fazer previsões (“genomas de calibração”). Para o PAPRICA, foi obtida uma lista de 5.628 genomas de calibração a partir dos ficheiros pré-compostos do PAPRICA (PAPRICA/ref_genome_database/*/genome_data.final.,csv, onde ” * ” é uma bactéria ou archaea). Genomas de calibração foram comparados com SILVA OTUs através do alinhamento global do gene 16S em um limiar de similaridade de 99%, usando vsearch. Otus emparelhado foram supostos ter um NSTD igual a zero, e para todos os outros SILVA OTUs, o NSTD foi calculado com base na árvore derivada de SILVA e usando o R pacote castor . Uma combinação aproximada de genomas com OTUs (i.e.,, com 99% de similaridade) foi escolhido para garantir que o maior número possível de genomas de calibração são incluídos; note que SILVA OTUs são eles mesmos agrupados nessa similaridade e que o erro potencialmente introduzido aos NSTDs e NSTIs é negligenciável (< 1% de substituições nucleotídicas por local). Para PICRUSt, uma tabela foi baixada do site do projeto listando img (genomas microbianos integrados) IDs para 2,887 genomas de calibração (https://github.com/picrust/picrust/tree/master/tutorials/picrust_starting_files.zip, arquivo GG_to_IMGv350.txt). IDs IMG foram traduzidos para IDs de sequência GG2013 usando o gg_13_5_img.,txt lookup table downloaded from the Greengenes website (http://greengenes.secondgenome.com/downloads). Identificações gg2013 foram então mapeadas para SILVA OTUs através do alinhamento de sequência global 16S com vsearch, com um limiar de semelhança de 99%. NSTDs de SILVA OTUs foram então calculados da mesma forma que para PAPRICA. Para o CopyRighter, uma tabela de pesquisa foi baixada da página Github do projeto que mapeia genomas de calibração para sequências GG2012 (https://github.com/fangly/AmpliCopyrighter, file AmpliCopyrighter-0.46/pré-processamento/ data/img_to_gg.txt)., Gg2012 sequências listadas nessa tabela foram mapeadas para SILVA OTUs, e NSTDs foram calculadas para todos SILVA OTUs, de uma forma semelhante à de PICRUSt. Para determinar os NSTDs para genomas examinados neste estudo (separadamente para CopyRighter, PICRUSt e PAPRICA), genomas foram mapeados para SILVA OTUs através do alinhamento global de sua sequência 16S mais longa disponível com 99% de similaridade. Para cada genoma, o NSTD do mais parecido SILVA OTU foi tomado como o nstd do genoma. Para determinar NSTDs para todos os OTUs Greengenes, mapeamos OTUs Greengenes para SILVA OTUs através do alinhamento global em 99% de similaridade., Para determinar NSTDs para OTUs recuperados das comunidades microbianas amostradas, usamos diretamente os NSTDs de SILVA OTUs usados como sementes durante a colheita de referência fechada OTU. Ao comparar duas ferramentas de predição GCN em uma OTU (por exemplo, figos. 3 e 4 e arquivo adicional 1: Figura S8), nos casos em que os dois NSTDs diferiam, usamos sua média aritmética. To calculate the R2 between any two GCN prediction tools, or between a GCN prediction tool and the “true GCNs,” as a function of the Nstd (Figs., 2 e 3d-f), ligamos os OTUs ou genomas usados na comparação em intervalos nstd de tamanho igual e calculamos o R2 separadamente para cada intervalo. Apenas foram considerados intervalos NSTD com pelo menos 10 OTUs ou genomas.
Deixe uma resposta