La correction du nombre de copies du gène de l'ARNr 16S dans les enquêtes sur le microbiome reste un problème non résolu | Microbiome

Construction de L’arbre dérivé de SILVA

bien que l’Arbre De SILVA original soit bien organisé taxonomiquement, il est principalement destiné à être utilisé comme arbre guide, et le recalcul des longueurs de branches est généralement conseillé pour les analyses phylogénétiques en aval ., Ici, pour construire un arbre phylogénétique avec des longueurs de branches plus significatives en utilisant OTUs dans la base de données SILVA non redondant (NR99) 16S (release 128; ), nous avons procédé comme suit. Les séquences SSU représentatives alignées dans SILVA ont été réduites en enlevant d’abord les positions nucléotidiques avec >95% de lacunes, puis en enlevant les 5% de positions nucléotidiques les plus entropiques. Les identités taxonomiques fournies par SILVA pour OTUs au niveau du domaine, du phylum et de la classe ont été utilisées pour créer des contraintes de division pour FastTree , en contraignant chaque taxon à être d’un seul côté d’une division et monophylétique., Les taxons comptant moins de 10 OTUs ont été omis des contraintes. Au total, 354 contraintes ont ainsi été définies. En utilisant les contraintes générées taxonomiquement et en prenant L’arbre SILVA original Comme arbre de départ, nous avons construit un arbre phylogénétique à partir des alignements réduits avec FastTree v2.1.10 (options « -spr 4-gamma-fastest-no2nd-constraintWeight 100”). L’arbre phylogénétique a été redémarré de sorte que les bactéries et les archées sont divisées à la racine. Notre arbre dérivé de SILVA est fourni en tant que Fichier supplémentaire 2., Pour toutes les analyses en aval, les chloroplastes, les mitochondries et les eucaryotes ont été omis de l’arbre. Dans l’article principal, nous décrivons nos analyses en utilisant cet arbre dérivé de SILVA (Fig. 1); des résultats analogues pour L’arbre SILVA original sont présentés dans le fichier supplémentaire 1: Figure S1.

distribution phylogénétique des 16s GCNs

pour examiner la façon dont les 16s GCNs sont distribués phylogénétiquement et pour évaluer leur prévisibilité générale à l’aide de diverses méthodes phylogénétiques, nous avons procédé comme suit., Un total de 8 767 génomes bactériens et archéens annotés avec le statut D’achèvement « génome complet” ont été téléchargés De La base de données NCBI RefSeq le 4 janvier 2018. Les génomes téléchargés ont été vérifiés pour une contamination potentielle à l’aide de checkM 1.0.6 (option « reduced_tree”), qui est basée sur la détection de gènes marqueurs conservés (assembly et checkm summaries dans le fichier supplémentaire 3). Les génomes présentant un niveau de contamination supérieur à 1% ou une hétérogénéité de souche supérieure à 1% ont été rejetés, nous laissant avec 6 868 génomes complets pour analyse en aval (fichier supplémentaire 4).,

pour chaque génome, les GCN 16S ont été déterminés en utilisant deux approches: Premièrement, nous avons compté le nombre de séquences d’ARNr 16S annotées dans les annotations NCBI (fichiers rna_from_genomic.Fna). Deuxièmement, nous avons utilisé des modèles de covariance avec le programme cmsearch (dans le cadre de INFERNAL version 1.1.2, options »no noali –cut_nc ») pour rechercher des séquences d’ARNr 16S dans les génomes assemblés (fichiers genomic.Fna). Des modèles de covariance distincts pour les gènes ARNr 16S archéaux et bactériens ont été obtenus à partir de la base de données Rfam (accessions RF00177 et RF01959)., Un tableau répertoriant les ng calculés à l’aide des deux méthodes est fourni en tant que Fichier supplémentaire 5. Seuls les génomes pour lesquels les deux méthodes ont donné les mêmes GCN 16S ont été considérés pour une analyse ultérieure, donnant des GCN 16S pour 6 780 génomes (”génomes de haute qualité », Fichier supplémentaire 6). L’exactitude de ces GCN a été vérifiée par comparaison avec la base de données de numéro de copie D’opéron D’ARN ribosomique (rrndb, consultée le 7 juin 2017; ) chaque fois qu’une adhésion d’assemblage de génome était présente dans le rrndb (attribut rrnDB « ID d’enregistrement de source de données”)., Sur 5 616 génomes de haute qualité testés, nous avons trouvé un accord presque parfait avec le rrnDB (R2>0.999; fichier supplémentaire 1: Figure S2). les résumés de qualité checkM pour l’ensemble de génomes de haute qualité sont fournis sous forme de fichier supplémentaire 7.

Les Tips de L’arbre dérivé de SILVA ont été cartographiés à des génomes de haute qualité, dans la mesure du possible, comme suit: premièrement, les séquences représentatives 16S des Otus De SILVA ont été alignées sur la plus longue séquence d’ARNr 16S de chaque génome à l’aide de vsearch 2.3.,4 au maximum (100%) de similarité (vsearch options « –brin à la fois –usearch_global –maxaccepts 0 –top_hits_only –iddef 0 –id 1.0”). Si un OTU s’alignait sur plusieurs génomes, tous les génomes étaient initialement conservés. Ensuite, pour chaque paire OTU-génome alignée, nous avons comparé L’ID de taxon NCBI (« taxid”) de L’OTU à celui du génome. Les taxids OTU ont été obtenus à partir d’une table de recherche fournie par SILVA (https://www.arb-silva.de/fileadmin/silva_databases/release_128/Exports/taxonomy/taxmap_embl_ssu_ref_128.txt.gz). Les taxidés du génome ont été obtenus à partir de tables de recherche fournies par NCBI (ftp://ftp.ncbi.nlm.nih.gov/genomes/genbank/* / assembly_summary.txt, où « *” est soit « bactéries” ou « archées”)., Toute paire OTU-génome alignée avec des taxidés non identiques a été omise. Parmi les paires OTU-génome restantes avec des taxidés identiques, nous n’avons conservé que le premier génome aligné pour chaque OTU. Un total de 9 395 otu a ainsi pu être cartographié sur l’un des génomes. Pour chaque OTU cartographiée, nous avons supposé un GCN égal au GCN compté pour le génome correspondant. Pour tous les autres Otu, nous avons supposé un GCN inconnu.

toutes les analyses phylogénétiques ont été effectuées à l’aide du paquet r castor , disponible au réseau complet D’Archives R (CRAN). NSTDs pour tous les tips en ce qui concerne les tips mappés à un génome séquencé (Fig., 1b) ont été calculés à l’aide de la fonction castor find_nearest_tips. La fonction d’autocorrélation phylogénétique (ACF) des GCN 16S connus à travers L’arbre dérivé de SILVA (Fig. 1a) a été calculé à l’aide de la fonction castor get_trait_acf sur la base de 108 paires de pointes (options « Npairs=1E8, Nbins=100”), choisies au hasard parmi les pointes avec GCN connu. La fonction get_trait_acf choisit au hasard des paires OTU sur l’arbre, les classe dans l’un des nombreux intervalles de distance phylogénétique et calcule l’autocorrélation de Pearson entre les GCN des paires OTU dans chaque bin., Notez que cette analyse ne suppose pas que le GCNs évolue linéairement avec la distance phylogénétique. Au lieu de cela, L’ACF mesure simplement la corrélation statistique entre GCNs sur des pointes distinctes, à condition que les pointes soient à une certaine distance phylogénétique les unes des autres.,

Les GCN ont été reconstruits sur L’arbre dérivé de SILVA en utilisant la parcimonie maximale de Sankoff (fonction hsp_max_parsimony, avec l’option transition_costs définie sur « exponentielle”, « proportionnelle” ou « all_equal”), les contrastes indépendants phylogénétiques (fonction hsp_independent_contrasts), la parcimonie de changement au carré pondéré (fonction hsp_squared_change_parsimony), la moyenne des sous-arbres (fonction hsp_subtree_averaging), et la probabilité maximale des modèles MK avec Rerooting (fonction hsp_mk_model_rerooting avec les options root_prior=‘empirical’, optimization_algorithm=‘nlminb’, ntrials=5, rate_model=‘er’).,

pour calculer la fraction de variance validée croisée prédite par (aka. coefficient de détermination à validation croisée de) chaque méthode (\(R ^ {2}_{\text {cv}}\);) en fonction de la NSTD (Fig. 1c), nous avons procédé comme suit. Nous avons choisi au hasard 2% des pointes avec GCN 16S connu à exclure de l’entrée aux reconstructions et à utiliser comme un « ensemble de test” indépendant par la suite. Selon le seuil nstd considéré (par exemple 10% de substitutions par site), nous avons également exclu tous les tips dont la distance phylogénétique par rapport à l’ensemble de tests était inférieure au seuil NSTD., Les autres tips avec des GCN connus (”training set ») ont été utilisés comme entrées pour les reconstructions, et les GCN prédits pour l’ensemble d’essai ont ensuite été comparés aux GCN connus de l’ensemble d’essai. Ce processus a été répété trois fois et le R2 résultant a été moyenné sur toutes les répétitions, donnant un \(R^{2}_{\text {cv}}\) pour chaque coupure nstd considérée. Le script R pour analyser et reconstruire 16s GCNs à travers L’arbre dérivé de SILVA est disponible en tant que Fichier supplémentaire 8. À titre de comparaison, toutes les analyses ci-dessus ont également été effectuées à l’aide de L’arbre guide SILVA original (fichier supplémentaire 1: Figure S1).,

Evaluation des outils de prédiction GCN 3rd party sur les génomes séquencés

pour tester la précision prédictive de CopyRighter , PICRUSt et PAPRICA pour les génomes avec des GCN connus , nous avons comparé leurs prédictions avec les GCN comptés dans les génomes séquencés (de haute qualité). Pour évaluer la précision prédictive de CopyRighter sur les génomes, nous avons procédé comme suit: Nous avons d’abord téléchargé la table de recherche précalculée répertoriant les prédictions de CopyRighter pour la base de données d’ARNr Greengenes 16S (sortie Octobre 2012, « GG2012”; ), à partir du Github du projet le 6 juin 2017 (v0.,46): https://github.com/fangly/AmpliCopyRighter (Copyright-0.46/data/201210/ssu_img40_gg201210.txt). Nous avons ensuite aligné la plus longue séquence d’ARNr 16S de chaque génome sur OTUs (clustered at 99% similarity) dans la base de données Greengenes en utilisant vsearch (options vsearch « strand strand both both usearch_global max maxhits 1 Max maxaccepts 10 Top top_hits_only”), En choisissant toujours la meilleure correspondance dans Greengenes et en ne gardant que les génomes qui correspondent à une entrée Greengenes par au moins 99% de similarité (5688 génomes cartographiés)., Pour chaque génome cartographié, nous avons pris le GCN prédit par le copyright pour L’entrée Greengenes correspondante comme prédiction du copyright pour le génome. Cette prédiction a ensuite été comparée au GCN compté à partir de la séquence du génome. Un histogramme des prédictions de CopyRighter à travers les génomes cartographiés est montré dans le fichier supplémentaire 1: Figure S4B. la précision prédictive de CopyRighter a été mesurée en termes de fraction de variance expliquée (R2), en fonction de la NSTD d’un génome (Fig. 1a). Les DSTN des génomes ont été calculés comme décrit dans une section distincte ci-dessous.,

Une approche similaire a été utilisée pour PICRUSt : la table de recherche précalculée répertoriant les prédictions de PICRUSt pour la base de données Greengenes (version mai 2013; « GG2013”) a été téléchargée sur le site Web du projet le 6 juin 2017 (v1.1.1):https://picrust.github.io/picrust/picrust_precalculated_files.html(16s_13_5_precalculated.onglet.gz). Un total de 5 708 génomes de haute qualité ont pu être mappés à un OTU (similarité de 99%) dans GG2013. Un histogramme des prédictions de PICRUSt à travers tous les génomes cartographiés est montré dans le fichier supplémentaire 1: Figure S4C. la précision prédictive de PICRUSt a été mesurée en termes de R2 en fonction de la NSTD d’un génome (Fig., 1b), de même que le copyright.

pour évaluer la précision prédictive de PAPRICA sur les génomes, nous avons procédé comme suit: Nous avons téléchargé et installé PAPRICA à partir du Github du projet le 6 juin 2017 (v0.4.0 b):https://github.com/bowmanjeffs/paprica. Cette version comprend des arbres de référence précalculés (un pour les archées et un pour les bactéries) et des tableaux répertoriant 16S GCN pour les génomes d’étalonnage de l’outil représentés dans les arbres de référence. Nous avons utilisé la plus longue séquence d’ARNr 16S de chaque génome comme entrée dans le pipeline PAPRICA (commande « paprica-run.sh »), séparément pour les archées et les bactéries., Le pipeline produit, entre autres, un tableau énumérant l’abondance non corrigée de chaque séquence d’entrée unique (celle-ci peut être supérieure à 1 si plusieurs génomes partagent la même séquence d’ARNr 16S) et l’abondance corrigée correspondante (après division par le GCN 16S prédit). Nous avons utilisé ce tableau pour obtenir le GCNs 16S prédit par PAPRICA pour les séquences 16S uniques (représentant 3473 séquences 16S), en divisant l’abondance non corrigée par l’abondance corrigée. Nous avons ensuite comparé ces GCNs prédits aux GCNs comptés dans les séquences du génome, de la même manière que ci-dessus., Un histogramme des prédictions de PAPRICA à travers tous les génomes représentés est montré dans le fichier supplémentaire 1: Figure S4D. la précision prédictive de PAPRICA a été mesurée en termes de R2 en fonction de la NSTD d’un génome (Fig. 1a), de même que le copyright.

comparaison des outils de prédiction GCN 3rd party à travers Greengenes

pour comparer les prédictions de CopyRighter à celles de PICRUSt à travers tous les Otu dans Greengenes (Fig. 3a), nous avons d’abord mappé tous les Otu dans GG2013 vers Otu dans GG2012 en utilisant vsearch (avec les options « strand strand both US usearch_global”)., Nous n’avons conservé que des correspondances à 100% de similarité (153 375 sur 203 452 Otu en GG2013). Pour chaque OTU mappée dans GG2013, nous avons comparé le GCN correspondant prédit par PICRUSt au GCN prédit par CopyRighter pour L’OTU apparié dans GG2012. Pour calculer les distributions de fréquence des GCN prédites par Copyghter et PICRUSt sur toutes les Otu de Greengenes (histogrammes dans le fichier supplémentaire 1: Figure S3A, B), Nous avons utilisé les GCN listés dans leurs tables de recherche précalculées.

pour comparer PAPRICA à PICRUSt à travers Greengenes (fig., 3b), nous avons procédé comme suit: des séquences représentatives D’OTUs dans GG2013 ont été divisées en séquences archéales et bactériennes. Chaque fichier fasta résultant a été utilisé comme entrée dans le pipeline PAPRICA pour prédire le GCN 16S correspondant, comme décrit ci-dessus pour les génomes. Cela a donné un GCN prévu pour toutes les entrées de Greengenes. Ces prédictions ont été comparées aux valeurs GCN précalculées fournies par PICRUSt. Ces prédictions ont également été utilisées pour calculer la distribution de fréquence des NCG prédites par PAPRICA sur les Greengenes (fichier supplémentaire 1: Figure S3C). Pour comparer CopyRighter à PAPRICA (Fig., 3c), nous avons procédé comme décrit ci-dessus pour la comparaison de copyright à PICRUSt.

comparaison des outils de prédiction GCN 3rd party à travers les communautés microbiennes

pour comparer CopyRighter, PICRUSt et PAPRICA à travers OTUs dans diverses communautés microbiennes, nous avons procédé comme suit. Des données de séquence d’amplicon d’ARNr 16S accessibles au public provenant de divers échantillons environnementaux ont été téléchargées à partir des Archives européennes de nucléotides (http://www.ebi.ac.uk/ena). Seules les données de séquence Illumina provenant d’amplicons obtenus à l’aide d’amorces sensibles aux bactéries et/ou aux archées ont été prises en compte., Les échantillons ont été choisis pour couvrir un large éventail d’environnements, y compris l’océan, les sédiments marins et lacustres, le sol, les lacs salins et hypersalins, les évents hydrothermaux, les sources chaudes, les bioréacteurs et les microbiomes associés aux animaux. Toutes les données de séquençage ont été traitées de la même manière, si possible, comme suit. Les lectures de fin appariées superposées ont été fusionnées à l’aide de flash v1.2.11 (options –min-overlap=20 –max-overlap=300 –max-mismatch-density 0.25 –phred-offset=33 –allow-outies), et les lectures de fin appariées non superposées ont été omises. Les lectures à une extrémité ont été maintenues inchangées., Toutes les lectures à extrémité unique et les lectures à extrémité jumelée fusionnées ont ensuite été filtrées en qualité à l’aide de vsearch v2.4.3 (options –fastq_ascii 33 –fastq_minlen 120 –fastq_qmin 0 –fastq_maxee 1 –fastq_truncee 1 –fastq_maxee_rate 0.005 –fastq_stripleft 7). Les échantillons avec plus de 20 000 lectures filtrées de qualité ont été raréfiés jusqu’à 20 000 lectures pour réduire le temps de calcul, en choisissant au hasard des lectures sans remplacement., Les séquences filtrées de qualité ont été regroupées en unités taxonomiques opérationnelles (Otu; à 97% de similarité) par alignement global de référence fermée par rapport à la base de données de référence non redondante (NR99) SILVA SSU (release 128; ), en utilisant vsearch. Les deux brins ont été considérés pour l’alignement (option vsearch both strand both). Les séquences ne correspondant à aucune entrée de base de données à 97% de similarité ou plus ont été ignorées. Notez que les Otu étaient donc représentées par les entrées SILVA, à savoir celles utilisées pour ensemencer les grappes. Les chloroplastes, les mitochondries et tout eucaryote ont été omis., Les uto représentées par moins de cinq lectures dans tous les échantillons ont été omises. Enfin, tous les échantillons avec moins de 2 000 lectures comptabilisées par les Otu ont été omis. Cela a donné une table OTU avec 635 échantillons et 65 673 Otu représentées par 4 827 748 lectures (en moyenne 734 Otu par échantillon). Les numéros d’accès des échantillons, les coordonnées, les dates d’échantillonnage, les publications originales, les plates-formes de séquençage, les longueurs de lecture filtrées par la qualité, le nombre de lectures et les régions d’amorce couvertes (le cas échéant) sont fournis dans le fichier supplémentaire 9.,

Pour prédire GCNs pour OTUs dans chaque échantillon à l’aide de CopyRighter, nous avons utilisé la même approche que pour les génomes: Représentant 16S séquences de Otu ont été alignés pour GG2012 à l’aide de vsearch (options « –brin à la fois –usearch_global –iddef 0 –id 0.99 –maxhits 1 –maxaccepts 10 –top_hits_only”), en omettant toute OTUs ne correspond pas à un Greengenes entrée par au moins 99% de similarité. Pour chaque OTU conservée, le GCN répertorié par le copyright pour L’entrée Greengenes correspondante a été pris comme prédiction du copyright. Pour PICRUSt, nous avons procédé de manière analogue, en utilisant GG2013 au lieu de GG2012., Pour PAPRICA, nous avons procédé de manière analogue, en utilisant les prédictions GCN de PAPRICA calculées précédemment pour GG2013 (voir section précédente).

pour comparer deux outils donnés (CopyRighter vs. PICRUSt, PICRUSt vs. PAPRICA, ou CopyRighter vs. PAPRICA) pour un échantillon spécifique, seuls les Otu ayant au moins une lecture dans l’échantillon et ayant une prédiction GCN des deux outils ont été considérés. Nous avons mesuré l’accord entre deux outils en termes de fraction de variance dans les prédictions du 1er outil qui a été expliquée par les prédictions du 2e outil (R2)., Nous avons calculé le NSTI de l’échantillon (indice de taxons séquencés le plus proche) selon , c’est-à-dire comme la moyenne arithmétique NSTD sur toutes les Otu considérées dans la comparaison et pondérée par les fréquences relatives des OTU. Des détails sur la façon dont les NSTDs ont été calculés sont fournis dans la section ci-dessous. Pour chaque paire d’outils comparés, nous avons ainsi obtenu 635 NSTI et 635 R2s sur 635 échantillons, illustrés à la Fig. 4. Les coefficients de corrélation de Pearson (r2) entre les isn et R2 ont été calculés pour chaque paire d’outils, séparément pour les échantillons associés aux animaux et les échantillons non associés aux animaux., Les significations statistiques (valeurs P) des coefficients de corrélation ont été estimées à l’aide d’un test de permutation avec 1000 permutations. Fichier supplémentaire 1: Les Figures S6 et S7 montrent les NMC prédits par chaque outil pour diverses communautés microbiennes. Nous montrons également des écarts relatifs entre les outils (|A−B|/((A+B)/2), Où A et B sont des GCN prédits par deux outils pour le même OTU) et les Nstd pour les Otu dans divers échantillons (fichier supplémentaire 1: Figure S8).,

évaluation et comparaison des outils de prédiction GCN en fonction de la NSTD

pour examiner la précision prédictive de Copyghter, PICRUSt et PAPRICA en fonction de la NSTD D’un OTU ou du génome, nous avons procédé comme suit. Pour chaque OTU dans SILVA, et séparément pour chaque outil, nous avons calculé la NSTD comme la distance phylogénétique au génome séquencé le plus proche utilisé par l’outil pour faire des prédictions (« génomes d’étalonnage”). Pour PAPRICA, une liste de 5 628 génomes d’étalonnage a été obtenue à partir des fichiers précalculés de PAPRICA (PAPRICA/ref_genome_database/*/genome_data.final.,csv, où » * » est une bactérie ou une archée). Les génomes d’étalonnage ont été appariés à SILVA OTUs via l’alignement global du gène 16S à un seuil de similarité de 99%, en utilisant vsearch. Les Otu appariées ont été supposées avoir une NSTD égale à zéro, et pour toutes les autres OTU SILVA, la NSTD a été calculée sur la base de L’arbre dérivé de SILVA et en utilisant le castor du paquet R. Une correspondance approximative des génomes avec les OTUs (c.-À-D.,, à 99% de similarité) a été choisi pour s’assurer que le plus grand nombre possible de génomes d’étalonnage sont inclus; notez que les OTU SILVA sont eux-mêmes regroupés à cette similitude et que l’erreur potentiellement introduite dans les NSTDs et les NSTI est négligeable (< 1% de substitutions nucléotidiques par site). Pour PICRUSt, un tableau a été téléchargé à partir du site Web du projet répertoriant les ID IMG (Integrated Microbial Genomes) pour 2 887 génomes d’étalonnage (https://github.com/picrust/picrust/tree/master/tutorials/picrust_starting_files.zip, fichier GG_to_IMGv350.txt). Les ID IMG ont été traduits en ID de séquence GG2013 en utilisant le gg_13_5_img.,table de recherche txt téléchargée depuis le site Web de Greengenes (http://greengenes.secondgenome.com/downloads). Les ID gg2013 appariés ont ensuite été mappés à SILVA OTUs via l’alignement de séquence global 16S avec vsearch, à un seuil de similarité de 99%. Les DSTN De SILVA Otu ont ensuite été calculées de la même manière que pour PAPRICA. Pour CopyRighter, une table de recherche a été téléchargée à partir de la page Github du projet qui mappe les génomes d’étalonnage aux séquences GG2012 (https://github.com/fangly/AmpliCopyrighter, fichier AmpliCopyrighter-0.46/preprocessing/ data/img_to_gg.txt)., Les séquences gg2012 répertoriées dans ce tableau ont été mappées aux OTU SILVA, et les Nstd ont été calculées pour toutes les OTU SILVA, de la même manière que pour PICRUSt. Pour déterminer les NSTDs pour les génomes examinés dans cette étude (séparément pour CopyRighter, PICRUSt et PAPRICA), les génomes ont été mappés à SILVA OTUs via un alignement global de leur plus longue séquence 16S disponible à 99% de similarité. Pour chaque génome, le NSTD de L’OTU SILVA le plus étroitement apparié a été pris comme NSTD du génome. Pour déterminer les DSTN pour tous les Otu de Greengenes, nous avons cartographié les Otu de Greengenes aux OTU De SILVA via un alignement global à 99% de similarité., Pour déterminer les DSTN des Otu récupérés dans les communautés microbiennes échantillonnées, nous avons utilisé directement les DSTN des Otus SILVA utilisés comme graines lors de la cueillette des OTU de référence fermée. Lors de la comparaison de deux outils de prédiction GCN sur un OTU (par exemple, Figs. 3 et 4 et fichier supplémentaire 1: Figure S8), dans les cas où les deux Nstd différaient, nous avons utilisé leur moyenne arithmétique. Pour calculer le R2 entre deux outils de prédiction GCN quelconques, ou entre un outil de prédiction GCN et le « vrai GCNs », en fonction de la NSTD (Figs., 2 et 3D-f), Nous avons regroupé les Otu ou génomes utilisés dans la comparaison dans des intervalles NSTD de taille égale et calculé le R2 séparément pour chaque intervalle. Seuls les intervalles NSTD avec au moins 10 OTUs ou génomes ont été considérés.

La Correction du nombre de copies du gène de l’ARNr 16S dans les enquêtes sur le microbiome reste un problème non résolu