La corrección de los números de copia del gen 16S rRNA en las encuestas de microbioma sigue siendo un problema sin resolver

la construcción del árbol derivado de SILVA

mientras que el árbol original De SILVA está bien curado taxonómicamente, está destinado principalmente a ser utilizado como un árbol guía, y el recalculamiento de las longitudes de rama se recomienda generalmente para los análisis filogenéticos posteriores ., Aquí, para construir un árbol filogenético con longitudes de rama más significativas utilizando OTUs en la base de datos SILVA non-redundant (NR99) 16S (release 128;), procedimos de la siguiente manera. Las secuencias de SSU representativas alineadas en SILVA se redujeron eliminando primero las posiciones de nucleótidos con>95% de brechas y luego eliminando el 5% superior de las posiciones de nucleótidos más entrópicos. Las identidades taxonómicas proporcionadas por SILVA para OTUs a nivel de dominio, filo y clase se utilizaron para crear restricciones divididas para FastTree, al restringir cada taxón a estar en un solo lado de una división y monofilética., Taxones con menos de 10 OTUs fueron omitidos de las restricciones. Se definieron así un total de 354 limitaciones. Usando las restricciones generadas taxonómicamente y tomando el árbol original De SILVA como árbol inicial, construimos un árbol filogenético a partir de las alineaciones reducidas con FastTree v2.1.10 (opciones «-spr 4-gamma-fastest-no2nd-constraintWeight 100»). El árbol filogenético se reinició para que las bacterias y las arqueas se dividieran en la raíz. Nuestro árbol derivado de SILVA se proporciona como archivo adicional 2., Para todos los análisis posteriores, cloroplastos, mitocondrias y eucariotas fueron omitidos del árbol. En el Artículo principal, Describimos nuestros análisis utilizando este árbol derivado de SILVA (Fig. 1); los resultados análogos para el árbol original De SILVA se muestran en el archivo adicional 1: Figura S1.

distribución filogenética de 16S GCNs

para examinar cómo 16S GCNs se distribuyen filogenéticamente y para evaluar su predictibilidad general utilizando varios métodos filogenéticos, procedimos de la siguiente manera., Un total de 8.767 genomas bacterianos y arqueales anotados con estado de finalización «genoma completo» se descargaron de la base de datos NCBI RefSeq el 4 de enero de 2018. Los genomas descargados se comprobaron por contaminación potencial utilizando checkM 1.0.6 (opción «reduced_tree»), que se basa en la detección de genes marcadores conservados (resúmenes de ensamblado y checkM en el archivo adicional 3). Se descartaron los genomas que presentaban un nivel de contaminación superior al 1% o una heterogeneidad de la cepa superior al 1%, dejándonos con 6.868 genomas completos para análisis aguas abajo (archivo adicional 4).,

para cada genoma, se determinaron 16S GCNs utilizando dos enfoques: primero, contamos el número de secuencias anotadas de 16S rRNA en las anotaciones NCBI (archivos rna_from_genomic.fna). En segundo lugar, utilizamos modelos de covarianza con el programa cmsearch (como parte de INFERNAL Versión 1.1.2, opciones «options noali Cut cut_nc») para buscar secuencias de ARNr 16S dentro de los genomas ensamblados (files genomic.fna). A partir de la base de datos Rfam (accesiones RF00177 y RF01959) se obtuvieron modelos de covarianza separados para los genes 16S rRNA arqueales y bacterianos., Se proporciona una tabla con una lista de GCNs calculados utilizando ambos métodos como archivo adicional 5. Solo los genomas para los cuales los dos métodos produjeron los mismos GCNs de 16S fueron considerados para el análisis posterior, produciendo GCNs de 16S para 6,780 genomas («genomas de alta calidad», archivo adicional 6). La precisión de estos GCNs se verificó a través de la comparación con la base de datos de números de copia de operones de ARN ribosómico (rrnDB, accedida el 7 de junio de 2017; ) cada vez que estaba presente una adhesión al ensamblaje del genoma en el rrnDB (atributo rrnDB «data source record id»)., A través de 5,616 genomas de alta calidad probados, encontramos un acuerdo casi perfecto con el rrnDB (R2>0.999; archivo adicional 1: Figura S2). los resúmenes de calidad checkM para el conjunto de genomas de alta calidad se proporcionan como archivo adicional 7.

los consejos sobre el árbol derivado de SILVA se mapearon a genomas de alta calidad, siempre que fue posible, de la siguiente manera: Primero, las secuencias representativas de 16S De SILVA OTUs se alinearon con la secuencia más larga de 16S rRNA de cada genoma utilizando vsearch 2.3.,4 en el máximo (100%) de la semejanza (vsearch opciones «–strand tanto –usearch_global –maxaccepts 0 –top_hits_only –iddef 0 –id 1.0»). Si una OTU alineada a múltiples genomas, todos los genomas se mantuvieron inicialmente. A continuación, para cada par OTU-genoma alineado, comparamos el ID de taxón NCBI («taxid») del OTU con el del genoma. Los taxidos OTU se obtuvieron de una tabla de búsqueda proporcionada por SILVA (https://www.arb-silva.de/fileadmin/silva_databases/release_128/Exports/taxonomy/taxmap_embl_ssu_ref_128.txt.gz). Los taxidos del genoma se obtuvieron a partir de tablas de búsqueda proporcionadas por el NCBI (ftp://ftp.ncbi.nlm.nih.gov/genomes/genbank/* / assembly_summary.txt, donde «*» es «bacteria» o «archaea»)., Se omitió cualquier par OTU-genoma alineado con taxidos no idénticos. De los pares OTU-genoma restantes con taxidos idénticos, solo mantuvimos el primer genoma alineado para cada OTU. Un total de 9.395 OTUs podrían ser mapeados a uno de los genomas. Para cada OTU mapeada, asumimos un GCN igual al GCN contado para el genoma correspondiente. Para todos los otros OTUs, asumimos un GCN desconocido.

Todos los análisis filogenéticos se realizaron utilizando el paquete R castor, disponible en la Comprehensive R Archive Network (CRAN). NSTDs para todas las puntas con respecto a las puntas mapeadas a un genoma secuenciado (Fig., 1b) se calcularon utilizando la función castor find_nearest_tips. La función de autocorrelación filogenética (ACF) de GCNs 16S conocidos a través del árbol derivado de SILVA (Fig. 1a) se calculó utilizando la función de castor get_trait_acf basada en 108 pares de puntas (opciones «Npairs=1E8, Nbins=100»), elegidas aleatoriamente entre puntas con GCN conocido. La función get_trait_acf selecciona aleatoriamente pares OTU en el árbol, los almacena en uno de los muchos intervalos de distancia filogenética, y calcula la autocorrelación de Pearson entre GCNs de los pares OTU dentro de cada bin., Tenga en cuenta que este análisis no asume que GCNs escala linealmente con distancia filogenética. En cambio, el ACF simplemente mide la correlación estadística entre GCNs en puntas distintas, condicionadas a que las puntas estén dentro de una cierta distancia filogenética entre sí.,

Los GCN se reconstruyeron en el árbol derivado de SILVA utilizando la parsimonia máxima de Sankoff (función hsp_max_parsimony, con la opción transition_costs establecida en «exponencial», «proporcional» o «all_equal»), contrastes filogenéticos independientes (función hsp_independent_contrasts), parsimonia ponderada de cambio Cuadrado (Función hsp_squared_change_parsimony), promediación de subárbol (función hsp_subtree_averaging), y la máxima verosimilitud de los modelos MK con reinicio (función hsp_mk_model_rerooting con opciones root_prior=’empirical’, optimization_algorithm=’nlminb’, ntrials=5, rate_model=’er’).,

para calcular la fracción de varianza validada cruzada predicha por (aka. coeficiente de determinación de) cada método (\(R^{2}_{\text {cv}}\); ) en función del NSTD (Fig. 1c), procedimos de la siguiente manera. Elegimos aleatoriamente el 2% de las puntas con GCN conocido de 16S para ser excluidas de la entrada a las reconstrucciones y para ser utilizadas como un «conjunto de pruebas» independiente después. Dependiendo del punto de corte del NSTD considerado (por ejemplo, sustituciones del 10% por sitio), también excluimos todas las puntas cuya distancia filogenética al conjunto de pruebas estaba por debajo del punto de corte del NSTD., Los consejos restantes con GCNs conocidos («conjunto de entrenamiento») se utilizaron como entrada para las reconstrucciones, y los GCNs predichos para el conjunto de prueba se compararon con los GCNs conocidos del conjunto de prueba. Este proceso se repitió tres veces y el R2 resultante se promedió sobre todas las repeticiones, produciendo un \(r^{2}_{\text {cv}}\) para cada punto de corte nstd considerado. El script R para analizar y reconstruir GCNs 16S a través del árbol derivado de SILVA está disponible como archivo adicional 8. Para la comparación, todos los análisis anteriores también se realizaron utilizando el árbol guía de SILVA original (archivo adicional 1: Figura S1).,

Evaluation of 3rd party GCN prediction tools on sequenced genomes

para probar la precisión predictiva de copyright , PICRUSt y PAPRICA para genomas con GCNs conocidos , comparamos sus predicciones con los GCNs contados en los genomas secuenciados (de alta calidad). Para evaluar la precisión predictiva de los derechos de autor en los genomas, procedimos de la siguiente manera: primero descargamos la tabla de búsqueda precomputada que muestra las predicciones de los derechos de autor para la base de datos rRNA de Greengenes 16S (versión de octubre de 2012, «GG2012»; ), del Github del proyecto el 6 de junio de 2017 (v0.,46): https://github.com/fangly/AmpliCopyRighter (Copyright-0.46/data/201210/ssu_img40_gg201210.txt). Luego alineamos la secuencia de ARNr de 16S más larga de cada genoma con OTUs (agrupado en un 99% de similitud) en la base de datos de Greengenes usando vsearch (VSearch options «options strand both US usearch_global Max maxhits 1 Max maxaccepts 10 top top_hits_only»), siempre eligiendo la mejor coincidencia en Greengenes y manteniendo solo genomas que se asignaron a una entrada de Greengenes por al menos un 99% de similitud (5688 genomas mapeados)., Para cada genoma mapeado, tomamos el GCN predicho por el copyright para la entrada correspondiente de Greengenes como predicción del copyright para el genoma. Esta predicción se comparó con el GCN contado a partir de la secuencia del genoma. Un histograma de las predicciones de los derechos de autor a través de los genomas mapeados se muestra en el archivo adicional 1: Figura S4B. la precisión predictiva de los derechos de autor se midió en términos de la fracción de varianza explicada (R2), en función de la NSTD de un genoma (Fig. 1a). Los NSTDs de los genomas se calcularon como se describe en una sección separada a continuación.,

se utilizó un enfoque similar para PICRUSt : la tabla de búsqueda precomputada que muestra las predicciones de PICRUSt para la base de datos Greengenes (versión de mayo de 2013; «GG2013») se descargó del sitio web del proyecto el 6 de junio de 2017 (v1.1.1): https://picrust.github.io/picrust/picrust_precalculated_files.html(16S_13_5_precalculated.pestaña.gz). Un total de 5.708 genomas de alta calidad pudieron ser mapeados a una OTU (99% de similitud) en GG2013. Un histograma de las predicciones de PICRUSt a través de todos los genomas mapeados se muestra en el archivo adicional 1: Figura S4C. la precisión predictiva de PICRUSt se midió en términos de La R2 en función de la NSTD de un genoma (Fig., 1b), de manera similar a copyright.

para evaluar la precisión predictiva de PAPRICA en los genomas, procedimos de la siguiente manera: primero descargamos e instalamos PAPRICA desde el Github del proyecto el 6 de junio de 2017 (v0.4.0 b): https://github.com/bowmanjeffs/paprica. Esta versión incluye árboles de referencia precalculados (uno para archaea y otro para bacterias) y tablas que enumeran 16S GCNs para los genomas de calibración de la herramienta representados en los árboles de referencia. Utilizamos la secuencia más larga de 16S rRNA de cada genoma como entrada a la tubería PAPRICA (comando «paprica-run.sh»), por separado para archaea y bacterias., La tubería produce, entre otros, una tabla que lista la abundancia no corregida de cada secuencia de entrada única (esto puede ser mayor que 1 Si múltiples genomas comparten la misma secuencia de 16S rRNA) y la abundancia corregida correspondiente (después de dividirla por la predicción de 16S GCN). Usamos esta tabla para obtener los GCNs de 16S predichos por PAPRICA para las secuencias únicas de 16S (representando 3473 secuencias de 16S), dividiendo las no corregidas por la abundancia corregida. Luego comparamos estos GCNs predichos con los GCNs contados en las secuencias del genoma, de manera similar a lo anterior., Un histograma de las predicciones de PAPRICA a través de todos los genomas representados se muestra en el archivo adicional 1: Figura S4D. la precisión predictiva de PAPRICA se midió en términos de La R2 en función de la NSTD de un genoma (Fig. 1a), de manera similar a copyright.

comparación de herramientas de predicción de GCN de terceros en Greengenes

para comparar las predicciones de copyright con las de PICRUSt en todos los OTUs en Greengenes (Fig. 3a), primero mapeamos todas las OTUs en GG2013 a OTUs en GG2012 usando vsearch (con opciones «strand strand both US usearch_global»)., Solo mantuvimos coincidencias al 100% de similitud (153,375 de 203,452 OTUs en GG2013). Para cada OTU mapeada en GG2013, comparamos el GCN correspondiente predicho por PICRUSt con el GCN predicho por el copyright para la OTU coincidente en GG2012. Para calcular las distribuciones de frecuencia de GCNs predichas por copyright y PICRUSt en todas las OTUs en Greengenes (histogramas en el archivo adicional 1: Figura S3a, B), utilizamos las gcns listadas en sus tablas de búsqueda precomputadas.

para comparar PAPRICA con PICRUSt a través de Greengenes (Fig., 3b), procedimos de la siguiente manera: las secuencias representativas de OTUs en GG2013 se dividieron en secuencias arqueas y bacterianas. Cada archivo fasta resultante se utilizó como entrada a la tubería PAPRICA para predecir el GCN 16S correspondiente, como se describió anteriormente para los genomas. Esto produjo un GCN predicho para todas las entradas de Greengenes. Estas predicciones se compararon con los valores precalculados de GCN proporcionados por PICRUSt. Estas predicciones también se utilizaron para calcular la distribución de frecuencia de GCNs predicha por PAPRICA a través de Greengenes (archivo adicional 1: Figura S3C). Para comparar copyright con PAPRICA (Fig., 3c), procedimos como se describió anteriormente para la comparación de copyright con PICRUSt.

comparación de herramientas de predicción de GCN de terceros en comunidades microbianas

para comparar los derechos de autor, PICRUSt y PAPRICA en OTUs en varias comunidades microbianas, procedimos de la siguiente manera. Los datos de secuencias de amplicones de 16S rRNA disponibles públicamente de varias muestras ambientales se descargaron del archivo Europeo de nucleótidos (http://www.ebi.ac.uk/ena). Solo se consideraron los datos de secuencia Illumina de amplicones obtenidos utilizando cebadores sensibles a bacterias y/o arqueas., Las muestras se seleccionaron para cubrir una amplia gama de ambientes, incluidos los sedimentos oceánicos, marinos y lacustres, el suelo, los lagos salinos e hipersalinos, los respiraderos hidrotermales, las aguas termales, los biorreactores y los microbiomas asociados a animales. Todos los datos de secuenciación se procesaron de manera similar, siempre que fue posible, como se indica a continuación. Las lecturas de extremos emparejados superpuestas se fusionaron usando flash v1.2. 11 (Opciones –min-overlap=20 –max-overlap=300 –max-mismatch-density 0.25 –phred-offset=33 –allow-outies), y se omitieron las lecturas de extremos emparejados no superpuestas. Las lecturas de un solo extremo se mantuvieron sin cambios., Todas las lecturas de un solo extremo y las lecturas de extremo emparejado combinadas se filtraron mediante VSearch v2.4.3 (options –fastq_ascii 33 –fastq_minlen 120 –fastq_qmin 0 –fastq_maxee 1 –fastq_truncee 1 –fastq_maxee_rate 0.005 –fastq_stripleft 7). Las muestras con más de 20,000 lecturas filtradas de calidad se rarificaron hasta 20,000 lecturas para reducir el tiempo de cómputo, seleccionando lecturas aleatoriamente sin reemplazo., Las secuencias filtradas por calidad se agruparon en unidades taxonómicas operativas (OTUs; con 97% de similitud) mediante alineación global de referencia cerrada contra la base de datos de referencia SILVA SSU no redundante (nr99) (versión 128;), utilizando vsearch. Ambos capítulos se consideraron para la alineación (opción vsearch both capítulo ambos). Se descartaron las secuencias que no coincidían con ninguna entrada de la base de datos con una similitud del 97% o superior. Nótese que las OTUs fueron así representadas por las entradas de SILVA, es decir, las utilizadas para sembrar los clusters. Se omitieron cloroplastos, mitocondrias y cualquier eucariota., Se omitieron OTUs representados por menos de cinco lecturas en todas las muestras. Finalmente, cualquier muestra con menos de 2,000 lecturas contabilizadas por OTUs fueron omitidas. Esto produjo una tabla OTU con 635 muestras y 65,673 OTUs representadas por 4,827,748 lecturas (en promedio 734 OTUs por muestra). Los números de acceso de muestra, Las coordenadas, las fechas de muestreo, las publicaciones originales, las plataformas de secuenciación, las longitudes de lectura filtradas por calidad y los recuentos de lectura y las regiones de cartilla cubiertas (cuando estén disponibles) se proporcionan en el archivo adicional 9.,

Para predecir GCNs para OTUs en cada una de las muestras utilizando CopyRighter, hemos utilizado el mismo enfoque que para los genomas: Representante de secuencias de 16S de OTUs estaban alineados a GG2012 utilizando vsearch (opciones «–strand tanto –usearch_global –iddef 0 –id 0.99 –maxhits 1 –maxaccepts 10 –top_hits_only»), omitiendo cualquier OTUs no se corresponde a un Greengenes entrada de al menos el 99% de similitud. Para cada OTU mantenido, la GCN listada por el copyright para la entrada correspondiente de Greengenes fue tomada como predicción del copyright. Para PICRUSt, procedimos de una manera análoga, usando GG2013 en lugar de GG2012., Para PAPRICA, procedimos de una manera análoga, utilizando las predicciones GCN de PAPRICA calculadas previamente para GG2013 (ver sección anterior).

para comparar dos herramientas dadas (derechos de autor vs. PICRUSt, PICRUSt vs. PAPRICA, o derechos de autor vs.PAPRICA) para una muestra específica, solo se consideraron OTUs con al menos una lectura en la muestra y con una predicción de GCN de ambas herramientas. Medimos la concordancia entre dos herramientas en términos de la fracción de varianza en las predicciones de la 1ra herramienta que fue explicada por las predicciones de la 2da herramienta (R2)., Se calculó el NSTI de la muestra (índice de taxón secuenciado más cercano) según , es decir, como el promedio aritmético NSTD sobre todas las OTUs consideradas en la comparación y ponderado por frecuencias relativas de la OTU. Los detalles sobre cómo se calcularon los NSTDs se proporcionan en la sección siguiente. Para cada par de herramientas comparadas, se obtuvieron 635 NSTIs y 635 R2s en 635 muestras, como se muestra en la Fig. 4. Se calcularon los coeficientes de correlación de Pearson (r2) entre NSTIs y R2 para cada par de herramientas, por separado para muestras asociadas a animales y no asociadas a animales., Las significaciones estadísticas (valores de P) de los coeficientes de correlación se estimaron mediante una prueba de permutación con 1000 permutaciones. Archivo adicional 1: Las figuras S6 y S7 muestran GCNs predichos por cada herramienta para varias comunidades microbianas. También mostramos desviaciones relativas entre Herramientas (|A−B|/((A+B)/2), donde A y B son GCNs predichos por dos herramientas para la misma OTU) y NSTDs para OTUs en varias muestras (archivo adicional 1: Figura S8).,

evaluación y comparación de herramientas de predicción de GCN dependiendo de NSTD

para examinar la precisión predictiva de copyright, PICRUSt y PAPRICA en función de una OTU o genome s NSTD, procedimos de la siguiente manera. Para cada OTU en SILVA, y por separado para cada herramienta, calculamos la NSTD como la distancia filogenética al genoma secuenciado más cercano utilizado por la herramienta para hacer predicciones («genomas de calibración»). Para PAPRICA, se obtuvo una lista de 5.628 genomas de calibración de los archivos precalificados de PAPRICA (PAPRICA / ref_genome_database/ * / genome_data.final.,csv, donde » * » es bacteria o archaea). Los genomas de calibración se compararon con SILVA OTUs a través de la alineación global del gen 16S en un umbral de similitud del 99%, utilizando vsearch. Se asumió que las OTUs coincidentes tenían un NSTD igual a cero, y para todas las otras Otus De SILVA, el nstd se calculó con base en el árbol derivado de SILVA y utilizando el paquete R castor . Una coincidencia aproximada de genomas con OTUs (i. e.,, al 99% de similitud) se eligió para asegurar que se incluyan tantos genomas de calibración como sea posible; nótese que SILVA OTUs están agrupados en esa similitud y que el error potencialmente introducido en los NSTDs y NSTIs es insignificante (< 1% de sustituciones de nucleótidos por sitio). Para PICRUSt, se descargó una tabla del sitio web del proyecto en la que se enumeran los ID de IMG (genomas microbianos integrados) para 2.887 genomas de calibración (https://github.com/picrust/picrust/tree/master/tutorials/picrust_starting_files.zip, archivo GG_to_IMGv350.txt). Los ID de IMG fueron traducidos a ID de secuencia GG2013 usando el gg_13_5_img.,tabla de búsqueda txt descargada del Sitio Web de Greengenes (http://greengenes.secondgenome.com/downloads). Los ID de GG2013 coincidentes se asignaron a SILVA Otus a través de la alineación de secuencia global 16S con vsearch, con un umbral de similitud del 99%. Los NSTDs De SILVA OTUs fueron calculados de la misma manera que para PAPRICA. Para copyright, se descargó una tabla de búsqueda desde la página de Github del proyecto que mapea genomas de calibración a secuencias GG2012 (https://github.com/fangly/AmpliCopyrighter, archivo AmpliCopyrighter-0.46/ preprocessing/data / img_to_gg.txt)., Las secuencias de GG2012 listadas en esa tabla fueron mapeadas A SILVA OTUs, y se calcularon los TSST para todos los SILVA Otus, de manera similar a como para PICRUSt. Para determinar los NSTDs para los genomas examinados en este estudio (por separado para Copyright, PICRUSt y PAPRICA), los genomas se asignaron a SILVA OTUs a través de la alineación global de su secuencia 16S más larga disponible con una similitud del 99%. Para cada genoma, la NSTD de la SILVA OTU más cercana se tomó como la nstd del genoma. Para determinar los NSTDs para todos los Greengenes OTUs, mapeamos Greengenes Otus a SILVA Otus a través de la alineación global con una similitud del 99%., Para determinar los NSTDs de las Uto recuperadas de las comunidades microbianas muestreadas, se utilizaron directamente los NSTDs De SILVA Otus utilizados como semillas durante la recolección de Uto de referencia cerrada. Al comparar dos herramientas de predicción de GCN en una OTU (por ejemplo, Figs. 3 y 4 y archivo adicional 1: Figura S8), en los casos en que los dos NSTDs diferían, se utilizó su media aritmética. Para calcular el R2 entre dos herramientas de predicción GCN cualesquiera, o entre una herramienta de predicción GCN y el «gcns verdadero,» como una función del NSTD(Figs., 2 y 3d-f), agrupamos los OTUs o genomas utilizados en la comparación en intervalos nstd de igual tamaño y calculamos el R2 por separado para cada intervalo. Solo se consideraron los intervalos NSTD con al menos 10 Uto o genomas.