Détection de longs locus répétés terminaux dérivés d'un rétrovirus endogène chez la sauvagine à l'aide de

Blog

MaisonMaison / Blog / Détection de longs locus répétés terminaux dérivés d'un rétrovirus endogène chez la sauvagine à l'aide de

Nov 06, 2023

Détection de longs locus répétés terminaux dérivés d'un rétrovirus endogène chez la sauvagine à l'aide de

Rapports scientifiques volume 13,

Rapports scientifiques volume 13, Numéro d'article : 7380 (2023) Citer cet article

556 accès

2 Altmétrique

Détails des métriques

Les rétrovirus endogènes (ERV) sont des éléments génétiques présents dans le génome qui conservent des traces d'infections virales passées. La caractérisation des VRE peut fournir des informations cruciales sur l'évolution aviaire. Cette étude visait à identifier de nouveaux loci à longue répétition terminale (LTR) dérivés des VRE (ERV-LTR) absents du génome de référence à l'aide de données de séquençage du génome entier de la sauvagine rouge, de la sauvagine grise, de la sauvagine de Ceylan et de la sauvagine verte. Au total, 835 locus ERV-LTR ont été identifiés parmi les quatre espèces de Gallus. Le nombre de locus ERV-LTR détectés chez la sauvagine rouge et ses sous-espèces la sauvagine grise, la sauvagine de Ceylan et la sauvagine verte était de 362, 216, 193 et ​​128, respectivement. L'arbre phylogénétique était congruent avec les arbres signalés précédemment, suggérant la possibilité d'inférer des relations entre les populations passées de sauvagine à partir des locus ERV-LTR identifiés. Parmi les locus détectés, 306 ERV-LTR ont été identifiés à proximité ou à l'intérieur des gènes, et certains étaient associés à l'adhésion cellulaire. Les séquences ERV-LTR détectées ont été classées en famille de rétrovirus aviaires endogènes, sous-groupe E du virus de la leucose aviaire, Ovex-1 et ERV liés au virus de la leucémie murine. De plus, la séquence de la famille EAV a été divisée en quatre motifs en combinant les régions U3, R et U5. Ces résultats contribuent à une compréhension plus complète des caractéristiques des VRE de la sauvagine.

Lors d'une infection rétrovirale, le génome viral est transcrit de manière inverse et intégré dans le génome de l'hôte en tant que provirus. En principe, le provirus a toutes les conditions pour sa réplication et se compose d'une région interne codant pour des gènes viraux (gag, pro/pol et env), qui sont flanqués de deux répétitions terminales longues (LTR) identiques lors de l'intégration. Adjacent au provirus se trouve une courte duplication du site cible (TSD) de 4 à 8 pb dans la séquence du génome de l'hôte générée lors de l'intégration. La transmission verticale peut amener ces virus à infecter les cellules germinales et les tissus reproducteurs, entraînant la formation de rétrovirus endogènes (ERV) au sein de la progéniture. Progressivement, les VRE peuvent atteindre une fréquence élevée au sein des populations et éventuellement se fixer au sein des espèces1. Les VRE aviaires typiques comprennent les familles du virus de la leucose aviaire (ALV) et des rétrovirus aviaires endogènes (EAV). La famille ALV comprend plusieurs sous-groupes et les VRE du sous-groupe E, appelés ALV-E, conservent souvent une intégrité structurelle élevée2. Une séquence connue sous le nom d'EAV-HP au sein de la famille EAV n'a pas le gène pol, tandis que EAV-0 et EAV-51 ont le gène pol mais n'ont pas le gène env3. Il a été suggéré que l'ALV-E n'est détecté que chez Gallus gallus, y compris la sauvagine rouge (G. gallus gallus) et les poulets commerciaux, alors que la famille EAV pourrait être présente dans différentes espèces de Gallus3.

Environ 5 % du génome humain est dérivé des VRE, tandis que les VRE constituent environ 3 % du génome du poulet4,5. Cependant, il existe probablement un nombre important de VRE qui n'ont pas été découverts chez les poulets. Ces VRE ont joué un rôle dans la formation de la diversité des espèces d'oiseaux et ont causé des pertes économiques à l'industrie avicole en raison de maladies génétiques6,7,8. La caractérisation des VRE fournira des informations essentielles sur l'évolution aviaire.

L'analyse de l'ADN mitochondrial indique que la volaille rouge de la jungle est une espèce ancestrale de poulets9,10. En plus de la sauvagine rouge, trois autres espèces appartenant au genre Gallus ont été identifiées, la sauvagine grise (G. sonneratii), la sauvagine de Ceylan (G. lafayetii) et la sauvagine verte (G. varius). La sauvagine rouge est répartie dans une grande partie de l'Asie du Sud-Est et dans certaines parties de l'Asie du Sud, tandis que les trois autres espèces ont des aires de répartition plus restreintes comme suit: la sauvagine grise dans le centre et le sud de l'Inde, la sauvagine de Ceylan au Sri Lanka et la sauvagine verte à Java et dans les îles environnantes. Des études récentes de génétique moléculaire suggèrent que diverses espèces de Gallus contribuent à la composition génétique du poulet. Cependant, l'origine et l'histoire de la diversité génétique chez les poulets ne sont que partiellement comprises11,12,13. Dans cette étude, l'objectif était d'identifier les locus de LTR dérivés de l'ERV (ERV-LTR) dans le génome en utilisant les données du génome entier pour le genre Gallus, y compris les sous-espèces. De plus, en comparant les locus ERV-LTR parmi les espèces et les séquences détectées des ERV-LTR, les caractéristiques des ERV-LTR du genre Gallus ont été clarifiées.

Ici, des lectures appariées de 100 pb ont été cartographiées à l'aide de BWA-MEM14, et la profondeur moyenne globale de la séquence était de 30, 6 × (13, 5–42, 9) pour tous les oiseaux de la jungle (tableau S1). Les résultats de la cartographie sont présentés dans le tableau S1. Plus de 95,3% des lectures appariées pour chaque sauvagine ont été cartographiées sur le génome de référence de Gallus, alors que seulement 1,56 à 31,59% n'ont pas été correctement cartographiées (lectures incorrectes). De plus, 0,10 à 1,86 % des lectures étaient des singletons mappés sur un seul côté. Le processus analytique (voir la section "Méthodes" pour plus de détails) a été mené conformément à la méthodologie des études précédentes15,16. Le nombre total de locus d'insertion ERV-LTR candidats identifiés pour chaque individu variait de 39 à 2011 (tableau S1) sur la base du logiciel RetroSeq17. Ensuite, l'Integrated Genome Viewer (IGV)18 a été utilisé pour confirmer la présence ou l'absence de TSD pour tous les loci détectés pour chaque individu. De plus, des contigs ont été construits à l'aide des lectures extraites des TSD et analysés à l'aide de blastn19. Au total, 835 locus ERV-LTR ont été identifiés. La plupart des ERV-LTR identifiés étaient liés à la région LTR de la famille EAV (EAV-HP, EAV-51, EAV-0, ev/J ou LTR endogène au poulet). Vingt séquences LTR d'ALV-E ont été identifiées, et ces séquences n'étaient présentes que chez la sauvagine rouge et ses sous-espèces (tableau S2). Dans chr2: 133 314 053, toutes les espèces et sous-espèces avaient un contig similaire au LTR du rétrovirus endogène apparenté au virus de la leucémie murine (MLV) (DQ280312). De plus, sur chr3:54,480,182, toutes les espèces et sous-espèces, à l'exception de la sauvagine verte, avaient un Ovex1 (FJ406461). Parmi les VRE détectés, 306 étaient présents à proximité ou à l'intérieur du gène (tableau S2). L'analyse Gene Ontology (GO) utilisant ces ensembles de gènes a montré six termes GO (tableau S3). La catégorie GO la mieux classée était "l'adhésion cellulaire" et comprenait des gènes tels que RELN, CNTN5, CDH20, CDH7, TENM1, SPON1, NRXN3 et CDH4.

Le nombre de locus ERV détectés dans la sauvagine rouge fusionnée, la sauvagine grise, la sauvagine de Ceylan et la sauvagine verte était de 362, 216, 193 et ​​128, respectivement (tableau 1). Le nombre de locus ERV détectés dans la sauvagine rouge et ses sous-espèces variait de 61 à 123. Le diagramme de Venn montre les VRE avec des loci partagés entre les sous-espèces ou les espèces (Fig.1A et B). Parmi les espèces, 50 loci ont été détectés comme communs entre deux espèces ou plus, la sauvagine grise et la sauvagine de Ceylan présentant le plus haut degré de similitude entre les espèces, avec 36 loci en commun. En revanche, aucun locus commun n'a été détecté entre la sauvagine verte et la sauvagine rouge. Parmi les sous-espèces de sauvagine rouge, 13 loci ERV communs ont été détectés, les loci les plus communs étant identifiés entre la sauvagine rouge et Gallus gallus spadiceus en Thaïlande, avec 57 VRE partagés. L'arbre de regroupement créé sur la base de tous les locus est illustré à la Fig. 1C. L'arbre s'est ramifié dans l'ordre suivant : sauvagine verte, sauvagine de Ceylan, sauvagine grise et sauvagine rouge.

Nombre de locus de rétrovirus endogènes (ERV) détectés parmi les espèces et sous-espèces et arbre phylogénétique. (A) Diagramme de Venn indiquant le nombre de loci ERV sur quatre espèces et le chevauchement entre chaque loci ERV. (B) Diagramme de Venn indiquant le nombre de loci ERV dans la sauvagine rouge et ses cinq sous-espèces et le chevauchement entre chaque loci ERV. (C) Arbre phylogénétique construit en fonction de la présence ou de l'absence de locus ERV. La barre indique chaque distance.

Au total, 367 loci absents de la référence et possédant des séquences TSD sur les séquences contig flanquantes en 5 'et 3' ont été obtenus. Parmi ceux-ci, 79 loci ont été identifiés dans plusieurs espèces ou sous-espèces. Ces locus et séquences sont répertoriés dans le tableau S4. Les séquences obtenues à la même position étaient très similaires. Par exemple, parmi les groupes, neuf substitutions de nucléotides ont été identifiées à 346 pb sur chr3:99,634,554. L'analyse phylogénétique a révélé que 362 de ces séquences appartiennent aux LTR de la famille EAV. Simultanément, les cinq loci restants étaient des LTR des rétrovirus endogènes liés à ALV-E, Ovex1 et MLV à trois, un et un loci, respectivement (Fig. 2A). Les LTR de la famille EAV ont ensuite été divisées en quatre groupes en fonction de leurs modèles de séquence, les séquences LTR étant divisées en régions U3, R et U5 (Fig. 2B et C). LTR-D était compatible avec EAV-21-3 (n° d'accès AJ6232390). LTR-A partageait les régions R et U5 avec LTR-D et U3 (conformément à U3 de l'accession AJ6232391) avec LTR-B. LTR-C était compatible avec la séquence de M31065 dans toutes les régions. De même, LTR-B et LTR-C partageaient des régions R et U5 identiques, mais les régions U3 étaient distinctes.

Arbre phylogénétique et structure de chaque répétition terminale longue de rétrovirus endogène intact (ERV-LTR). (A) Arbre phylogénétique construit sur la base de la longue séquence de répétition terminale. (B) Alignement de la séquence représentative de quatre modèles de la famille des virus aviaires endogènes (EAV). (C) Schéma de principe de la séquence EAV-LTR détectée. Des motifs identiques indiquent des séquences homologues.

Après avoir ajusté les données de séquence obtenues dans cette étude sur la base de critères stricts, plus de 95 % de toutes les paires de lecture ont été cartographiées sur le génome de référence de Gallus, bien qu'une certaine variation de profondeur ait été observée. Ainsi, les données de séquence assemblées ont été considérées comme de haute qualité. De plus, la détection des ERV-LTR de la sauvagine a été tentée en utilisant des paires incorrectes et des lectures de séquences singleton qui ne correspondaient pas correctement au génome de référence. Au total, 835 locus ERV-LTR ont été détectés dans le génome de Gallus. Ce résultat est très fiable car la présence de TSD a été confirmée visuellement à l'aide d'IGV pour les points de rupture détectés par RetroSeq, et le contig créé en collectant les séquences environnantes contenait également des séquences ERV-LTR. Des études antérieures ont rapporté l'utilisation des génomes de G. gallus et des données de séquençage de nouvelle génération pour détecter le VRE20,21. Par exemple, une étude a utilisé le logiciel obsERVer en conjonction avec le génome de référence Galgal5 pour détecter l'ALV-E chez les poulets commerciaux, ce qui a permis d'identifier l'ALV-E à 20 loci20. De même, 75,22 ± 9,52 sites d'intégration pour EAV-HP ont été identifiés chez des poulets commerciaux, des poulets indigènes et des oiseaux sauvages rouges utilisant Galgal421. Bien que les variations dans les méthodologies et les génomes de référence rendent les comparaisons directes difficiles, l'accumulation de telles découvertes contribuera sans aucun doute à une compréhension plus complète des caractéristiques des rétrovirus endogènes du poulet. La méthode basée sur RetroSeq utilisée dans cette étude cible principalement les locus ERV-LTR non de référence, qui, en théorie, sont exclus du génome de référence de G. gallus. En conséquence, 835 ERV-LTR non de référence ont été identifiés à des positions génomiques uniques.

Le nombre de locus ERV-LTR identifiés chez la sauvagine rouge et ses sous-espèces était relativement faible par rapport au nombre de locus ERV-LTR détectés chez d'autres espèces. Cet écart pourrait être attribué à l'utilisation du génome de référence de la sauvagine rouge, ce qui aurait pu entraîner une sous-estimation du nombre de VRE-LTR présents, car il ne prend pas en compte les VRE-LTR uniques à la sauvagine rouge qui sont déjà présents dans le génome de référence. En outre, la méthode utilisée dans cette étude pourrait ne pas encore être en mesure de détecter tous les loci ERV-LTR non de référence, car une quantité suffisante de paires et de singletons inappropriés est essentielle pour la détection. Chez une sauvagine verte spécifique, un nombre significativement élevé de paires incorrectes (31,59%) a été observé. Cet individu présentait une valeur plus élevée (2 011 locus) que les autres individus, même après filtrage RetroSeq. Cependant, les locus ERV-LTR finaux identifiés n'étaient pas significativement différents de ceux des autres, indiquant qu'un certain seuil de données était suffisant pour détecter les ERV-LTR non de référence. Néanmoins, sur 835 emplacements obtenus, seuls 367 contigs avec des TSD des deux côtés ont été obtenus. Cette différence est en partie due au nombre insuffisant de lectures, qui pourrait être amélioré dans une certaine mesure en augmentant la taille des données. Néanmoins, il a été noté que chez l'homme, les VRE ont tendance à s'accumuler dans des régions du génome peu complexes et répétitives22,23,24. De plus, la détection des ERV contenant des régions gag, pol et env, ainsi que des solo-LTR, pose un défi lors de l'utilisation d'un séquençage à lecture courte. Par conséquent, l'utilisation de technologies de séquençage à lecture longue, telles que le séquençage en temps réel d'une seule molécule et le séquençage des nanopores, doit être envisagée pour déterminer la séquence d'insertion complète.

La famille ALV est plus jeune que la famille EAV car on ne la trouve que chez les poulets domestiques et la sauvagine rouge, alors que la famille EAV est restreinte à toutes les espèces de Gallus25. Cette étude a détecté le LTR dérivé de la famille EAV chez toutes les espèces, alors que celui de l'ALV-E n'a été détecté que chez la sauvagine rouge et ses sous-espèces, ce qui est cohérent avec les rapports précédents. Par conséquent, on pense que l'ALV-E est une séquence intériorisée dans le génome de la sauvagine rouge après la divergence de la population de sauvagine rouge du genre Gallus. On pense que les espèces avec des VRE au même locus ont divergé après que leur ancêtre commun a été infecté par un rétrovirus, qui a été intériorisé. Une étude précédente26 a estimé l'âge de divergence approximatif du genre Gallus. Ils ont calculé que la sauvagine rouge et la sauvagine grise ont divergé de 2,56 mya la sauvagine rouge et la sauvagine de Ceylan ont divergé de 2,88 mya, la sauvagine grise et la sauvagine de Ceylan ont divergé de 1,77 mya, et la sauvagine verte et les autres espèces de Gallus ont divergé d'environ 4,0 à 4,1 mya. Dans l'ensemble, l'arbre phylogénétique construit à partir des locus ERV-LTR obtenus dans cette étude était généralement cohérent avec les relations phylogénétiques précédemment rapportées. Cependant, cela ne reflétait pas l'âge de la ramification (Fig. 1C).

Trois loci (chr3 : 40 992 728, chr3 : 101 202 255 et chr11 : 7 946 729) n’étaient pas compatibles avec les relations phylogénétiques précédemment rapportées. Par exemple, sur chr3: 101 202 255, les ERV-LTR n'ont été détectés que chez la sauvagine rouge, la sauvagine de Ceylan et la sauvagine verte, mais pas chez la sauvagine grise. Ces ERV-LTR pourraient avoir été perdus du locus par recombinaison ou d'autres mécanismes au cours de la spéciation. Alternativement, il aurait pu y avoir des cas d'introgression entre les espèces évolutivement éloignées. Des recherches antérieures ont suggéré que l'introgression de la sauvagine verte aux poulets domestiques aurait pu se produire sur le chromosome 512. De plus, l'analyse des données du génome entier a démontré un mélange entre les espèces de sauvagine verte et de sauvagine rouge en Indonésie26.

Une comparaison des séquences LTR au même locus a révélé des substitutions de nucléotides parmi les espèces et les sous-espèces. De plus, plusieurs modèles de séquence ont été observés dans les régions U3, R et U5 du LTR de la famille EAV dans cette étude. Cette variation pourrait être une conséquence de la recombinaison intra-familiale, comme précédemment rapporté27. Bien que ces substitutions et variations de LTR ne reflètent pas nécessairement une divergence génétique, elles pourraient soutenir l'approximation de l'histoire complexe de l'introgression passée. Un examen plus approfondi de la diffusion des VRE dans des régions contiguës pourrait améliorer notre compréhension de la spéciation. Contrairement aux analyses phylogénétiques précédentes basées sur des séquences cartographiées sur un génome de référence, cette étude a utilisé des séquences qui n'existent pas dans le génome de référence, ce qui pourrait faciliter des analyses phylogénétiques plus détaillées en conjonction avec les méthodes précédentes.

Dans la présente étude, 306 séquences ERV ont été détectées dans les gènes, dont certaines étaient associées à l'adhésion cellulaire. La présence d'ERV dans le génome du poulet affecte l'hôte. Par exemple, l'un des effets connus des VRE sur les poulets est le phénotype coquille d'œuf bleu; le gène SLCO1B3 est exprimé dans l'utérus des poules qui pondent des œufs à coquille bleue mais pas chez les poules sans coquille bleue8. Une insertion de EAV-HP a été identifiée dans la région flanquante 5 'de SLCO1B3, et l'hybridation in situ a révélé EAV-HP dans la région flanquante 5' de SLCO1B38. L'hybridation in situ a montré que l'insertion EAV-HP était associée au phénotype coquille d'œuf bleu. Dans la présente étude, l'insertion de LTR dans des gènes liés à l'adhésion cellulaire, tels que RELN, CNTN5, CDH20, CDH7, TENM1, SPON1, NRXN3 et CDH4, a été détectée. La région U3 d'un LTR contient des séquences activatrices et promotrices qui pilotent la transcription virale28. Il contient d'autres signaux régulateurs de la transcription, tels que la boîte TATA29. La séquence LTR insérée dans CNTN5 et NRXN3 contenait la boîte TATA, suggérant que l'insertion de ERV-LTR pourrait avoir joué un rôle dans l'évolution des processus d'adhésion cellulaire. Des recherches supplémentaires sont nécessaires pour comprendre complètement les mécanismes par lesquels les ERV-LTR influencent l'évolution de l'adhésion cellulaire et d'autres processus biologiques. De plus, si les ERV-LTR des poulets commerciaux sont presque aussi diversifiés, en termes de polymorphismes ERV, que les ERV-LTR des oiseaux sauvages détectés dans cette étude, les futures analyses ERV des poulets commerciaux et indigènes pourraient être une source importante de nouveauté génétique. pour les programmes d'élevage de poulets.

Les données WGS obtenues par Illumina HiSeq 2000 ou 2500, à partir d'un total de 39 individus12,30, dont 16 oiseaux sauvages rouges, 8 oiseaux sauvages Gy, 10 oiseaux sauvages de Ceylan et 5 oiseaux sauvages verts, ont été obtenues au format fastq auprès de l'European Nucleotide Archive (Study Les accessions étaient PRJNA432200 et PRJNA552030). La sauvagine rouge comprenait la sous-espèce, trois Gallus gallus murghi, deux Gallus gallus bankiva et sept au total G. g. spadiceus provenant de populations d'Inde, de Thaïlande et du Vietnam. Les identifiants d'accession sont répertoriés dans le tableau S1. Les nucléotides avec des scores de faible qualité dans ces lectures ont été coupés et les adaptateurs ont été supprimés avec Trimmomatic v.0.36 en utilisant les paramètres ILLUMINACLIP : TruSeq3-PE:2:30:10, LEADING:3, SLIDINGWINDOW:4:20 et MINLEN:3031 . Les lectures ont été cartographiées sur le génome de référence de G. gallus (GRCg6a, accession d'assemblage GenBank : GCF_000002315.6) à l'aide des algorithmes Burrows-Wheeler Aligner et Mem. Les données ont été produites au format BAM.

La détection du VRE a été effectuée selon une méthode antérieure15,16. Les types de paires de lectures cartographiées sur le génome de référence ont été définis et extraits de lectures de séquences utiles pour cette étude. La plupart des lectures appariées ont été obtenues à partir de la carte WGS du génome de référence. Cependant, des paires de lecture non concordantes peuvent également se produire avec des tailles et des orientations de plage inattendues. Les paires non appropriées sont celles dans lesquelles l'extrémité 5 'ou 3' correspond à une séquence contig dans le génome de référence et l'autre extrémité correspond entièrement ou partiellement à un locus inattendu. Un singleton fait référence à la cartographie du génome de référence. Un singleton fait référence à une extrémité d'une paire de lecture qui ne correspond pas au génome de référence, tandis qu'une paire de lecture non mappée fait référence aux deux extrémités d'une paire de lecture qui ne correspondent pas au génome de référence (Fig. 3). Des paires de lecture non concordantes peuvent fournir un aperçu des lieux liés à LTR en tant qu'ancres. Le logiciel RetroSeq a été utilisé pour détecter les éléments de transposon (ET) non de référence à l'aide de lectures non concordantes17. Le flux de processus est illustré à la Fig. 3. Les séquences ERV utilisées pour RetroSeq ont été obtenues auprès du National Center for Biotechnology Information (NCBI, Bethesda, MD, USA) et sont répertoriées dans le tableau S5. Le génome de référence était GRCg6a, qui ne contenait que des autosomes et des chromosomes sexuels. Dans l'étape "d'appel" de RetroSeq, les positions d'insertion TE (points d'arrêt) ont été estimées à l'aide des lectures détectées dans la phase de "découverte", comme indiqué précédemment. L'étape d'appel a été définie sur ≥ 10 pour réduire les faux positifs, et l'option de profondeur de lecture maximale par appel a été définie sur 10 000 pour augmenter la couverture BAM. Toutes les autres options RetroSeq ont été utilisées avec leurs valeurs par défaut. Un minimum de sept points d'arrêt au niveau du filtre a été utilisé. Un point de rupture détecté à moins de 500 pb a été considéré comme identique et exclu. L'IGV a été utilisé pour détecter les locus contenant des TSD. En utilisant la fonctionnalité de script batch d'IGV, une capture d'écran a été obtenue à chaque locus génomique détecté par le pipeline d'analyse RetroSeq et a été soigneusement examinée. Les locus étaient présumés être des TSD s'ils étaient mappés sur des lectures détectées pendant la phase de "découverte" soit du côté 5 'ou 3', se chevauchant de 1 à 10 pb (Fig. 3). Les lectures 5 'et 3' cartographiées à moins de 150 pb des TSD ont été extraites à l'aide de SAMtools32. L'ensemble de lecture extrait a été utilisé pour générer le contig à l'aide du logiciel CAP333. Les séquences de contig obtenues à l'aide de CAP3 ont été utilisées pour une recherche blastn19. La valeur e la plus faible a été utilisée pour déterminer la classe VRE. Chaque séquence de 200 pb en amont et en aval du point de cassure a été extraite du génome de référence et soumise à blastn pour éliminer la possibilité de détecter des séquences ERV dans le génome de référence. Les locus qui correspondaient aux VRE ont été exclus de l'analyse. Une séquence n'existant pas dans le génome de référence a été déduite de la séquence contiguë obtenue au sein de la région délimitée de part et d'autre par la séquence TSD ou la séquence de six paires de bases respectivement sur les côtés adjacents 5' et 3' du TSD, si la longueur du TSD était insuffisante.

Pipeline pour la détection des répétitions terminales longues des rétrovirus endogènes Gallus non de référence (ERV-LTR) dans les données de lecture du séquençage du génome entier (WGS). Dans le panneau supérieur droit, la ligne noire indique la séquence du génome de référence du poulet. Les cases bleues et rouges reliées par des lignes indiquent les extrémités 5 'et 3' d'une lecture de séquençage appariée. La plupart des lectures appariées ont été identifiées comme un mappage approprié, alors qu'un petit pourcentage d'entre elles étaient un mappage incorrect. Paire appropriée : les deux extrémités de la séquence appariée sont mappées avec précision (a). Lecture discordante et lecture fractionnée : une extrémité de la séquence appariée a été cartographiée avec précision, tandis que l'autre extrémité n'a été que partiellement identifiée au locus attendu sur le génome de référence. La séquence non identifiée pourrait être cartographiée n'importe où ailleurs sur le génome de référence (b, c). Singleton : une extrémité de la séquence appariée a été cartographiée avec précision, tandis que l'autre extrémité n'a pas été cartographiée sur le génome de référence (d). Paires de lecture non cartographiées : aucune lecture cartographiée sur le génome de référence (e). Des lectures discordantes, des lectures fractionnées et des singletons ont été utilisés pour l'analyse RetroSeq. Dans le panneau du milieu droit, une vue représentative de l'Integrative Genomics Viewer (IGV) est utilisée pour confirmer la présence de duplications de sites cibles (TSD) à chaque locus, détectées à l'aide de RetroSeq, extraire les lectures de support des loci TSD, effectuer un assemblage local , et analysez les contigs pour la présence de jonctions de rétrovirus endogènes (ERV)-génome des deux côtés. "A" désigne les individus qui ont le TSD, et "B" désigne les individus qui n'ont pas le TSD. Le panneau inférieur droit montre un schéma conceptuel de l'assemblage local de novo à l'aide de CAP3. Les séquences en rouge indiquent les séquences non présentes sur le génome de référence, et les séquences en violet indiquent les TSD.

Les locus ERV identifiés ont été examinés pour les insertions dans le gène à l'aide d'IGV. Les analyses GO pour chaque gène avec une séquence ERV ont été effectuées à l'aide du package R clusterProfiler34. La présence ou l'absence de VRE à chaque locus a été supposée égale à un ou zéro pour le regroupement des espèces et des sous-espèces. L'arbre phylogénétique basé sur le clustering a été généré à l'aide de la fonction « dist.binary » avec ade435 et « hclust » à l'aide du package ape36 du logiciel R37. Les séquences ERV-LTR de chaque locus ont été alignées à l'aide de ClustalW38 et un arbre phylogénétique a été construit à l'aide de la méthode du maximum de vraisemblance dans MEGA X39,40. Les arbres phylogénétiques et les alignements ont été visualisés à l'aide de FigtTee v1.4.4 (http://tree.bio.ed.ac.uk/software/figtree/) et Mview v1.6741, respectivement.

Les séquences LTR de chaque locus et de chaque junglefowl sont répertoriées dans le tableau S4. Les ensembles de données utilisés et/ou analysés au cours de l'étude en cours sont disponibles auprès de l'auteur correspondant sur demande raisonnable.

Boeke, JD & Stoye, JP Rétrotransposons, rétrovirus endogènes et évolution des rétroéléments. Dans Retroviruses (eds Hughes, S. & Varmus, H.) 343–435 (Cold Spring Harbor Laboratory Press, 1997).

Benkel, BF Tests de diagnostic spécifiques au locus pour les locus viraux endogènes de type leucose aviaire chez les poulets. Poule. Sci. 77, 1027-1035 (1998).

Article CAS PubMed Google Scholar

Sacco, MA & Nair, VK Prototypes de rétrovirus aviaires endogènes du genre Gallus. J. Gen. Virol. 95, 2060-2070 (2014).

Article CAS PubMed Google Scholar

Lander, ES et al. Séquençage initial et analyse du génome humain. Nature 409, 860–921 (2001).

Article ADS CAS PubMed Google Scholar

Huda, A., Polavarapu, N., Jordan, IK & McDonald, JF Rétrovirus endogènes du génome du poulet. Biol. Direct. 3, 1–5 (2008).

Article Google Scholar

Bai, J., Payne, LN & Skinner, MA HPRS-103 (virus de la leucose aviaire exogène, sous-groupe J) a un gène env lié à ceux des éléments endogènes EAV-0 et E51 et un élément E trouvé auparavant uniquement dans les virus du sarcome. J. Virol. 69, 779–784 (1995).

Article CAS PubMed PubMed Central Google Scholar

Smith, LM et al. Nouvelles séquences rétrovirales endogènes dans le génome du poulet étroitement liées au virus de la leucose aviaire HPRS-103 (sous-groupe J). J. Gen. Virol. 80, 261-268 (1999).

Article CAS PubMed Google Scholar

Wang, Z. et al. Une insertion EAV-HP dans la région flanquante 5 'de SLCO1B3 provoque une coquille d'œuf bleue chez le poulet. PLoS Genet. 9, e1003183. https://doi.org/10.1371/journal.pgen.1003183 (2013).

Article CAS PubMed PubMed Central Google Scholar

Fumihito, A. et al. Une sous-espèce de la sauvagine rouge ( Gallus gallus gallus ) suffit comme ancêtre matriarcal de toutes les races domestiques. Proc. Natl. Acad. Sci. États-Unis 91, 12505–12509 (1994).

Article ADS CAS PubMed PubMed Central Google Scholar

Fumihito, A. et al. Origine monophylétique et schémas de dispersion uniques des volailles domestiques. Proc. Natl. Acad. Sci. États-Unis 93, 6792–6795 (1996).

Article ADS CAS PubMed PubMed Central Google Scholar

Eriksson, J. et al. L'identification du gène Yellow skin révèle une origine hybride du poulet domestique. PLoS Genet. 4, e1000010. https://doi.org/10.1371/journal.pgen.1000010 (2008).

Article CAS PubMed PubMed Central Google Scholar

Lawal, RA et al. L'ascendance du génome des espèces sauvages des poulets domestiques. BMC Biol. 18, 13. https://doi.org/10.1186/s12915-020-0738-1 (2020).

Article CAS PubMed PubMed Central Google Scholar

Nishibori, M., Shimogiri, T., Hayashi, T. & Yasue, H. Preuve moléculaire de l'hybridation des espèces du genre Gallus à l'exception de Gallus varius. Anim. Genet. 36, 367–375 (2005).

Article CAS PubMed Google Scholar

Li, H. Alignement des lectures de séquences, des séquences de clones et des contigs d'assemblage avec BWA-MEM. arXiv:1303.3997v2 ; https://doi.org/10.48550/arXiv.1303.3997 (2013).

Ishihara, S. et al. Détection de locus de rétrovirus endogènes porcins non de référence dans le génome de porc natif vietnamien. Sci. Rep. 12, 10485. https://doi.org/10.1038/s41598-022-14654-4 (2022).

Article ADS CAS PubMed PubMed Central Google Scholar

Wildschutte, JH et al. Découverte d'insertions de rétrovirus endogènes non fixés dans diverses populations humaines. Proc. Natl. Acad. Sci. États-Unis 113, E2326–E2334. https://doi.org/10.1073/pnas.1602336113 (2016).

Article CAS PubMed PubMed Central Google Scholar

Keane, TM, Wong, K. & Adams, DJ RetroSeq : découverte d'éléments transposables à partir de données de séquençage de nouvelle génération. Bioinformatique 29, 389–390 (2013).

Article CAS PubMed Google Scholar

Thorvaldsdóttir, H., Robinson, JT & Mesirov, JP Integrative Genomics Viewer (IGV) : visualisation et exploration de données génomiques hautes performances. Bref. Bioinformer. 14, 178-192 (2013).

Article PubMed Google Scholar

Altschul, SF, Gish, W., Miller, W., Myers, EW & Lipman, DJ Outil de recherche d'alignement local de base. J. Mol. Biol. 215, 403–410 (1990).

Article CAS PubMed Google Scholar

Mason, AS et al. Identification et caractérisation des insertions endogènes du sous-groupe E (ALVE) du virus de la leucose aviaire dans les données de séquençage du génome entier du poulet. Foule. ADN 11, 22. https://doi.org/10.1186/s13100-020-00216-w (2020).

Article CAS PubMed PubMed Central Google Scholar

Wragg, D. et al. L'analyse à l'échelle du génome révèle l'étendue de l'intégration EAV-HP chez le poulet domestique. BMC Génom. 16, 784. https://doi.org/10.1186/s12864-015-1954-x (2015).

Article CAS Google Scholar

Gemmell, P., Hein, J. & Katzourakis, A. Les rétrovirus endogènes orthologues présentent une sélection directionnelle depuis la scission chimpanzé-humain. Rétrovirologie 12, 52. https://doi.org/10.1186/s12977-015-0172-6 (2015).

Article CAS PubMed PubMed Central Google Scholar

Tokuyama, M. et al. L'analyse ERVmap révèle la transcription à l'échelle du génome des rétrovirus endogènes humains. Proc. Natl. Acad. Sci. États-Unis 115, 12565–12572. https://doi.org/10.1073/pnas.1814589115 (2018).

Article ADS CAS PubMed PubMed Central Google Scholar

Xiang, Y. & Liang, H. La régulation et les fonctions du rétrovirus endogène dans le développement embryonnaire et la différenciation des cellules souches. Cellules souches Int. 2021, 6660936. https://doi.org/10.1155/2021/6660936 (2021).

Article PubMed PubMed Central Google Scholar

Borisenko, L. & Rynditch, AV Séquences nucléotidiques complètes de rétrovirus endogènes apparentés à l'ALV disponibles à partir du projet de séquence du génome du poulet. Feuille Biol. 50, 136–141 (2004).

CAS Google Scholar

Guo, Y. et al. La recherche sur la structure fine et le mélange de la population mondiale de poulets révèle des liens entre les populations et des événements importants dans l'histoire de la reproduction. Évol. Appl. 15, 553–564 (2022).

Article PubMed Google Scholar

Sanchez, DH, Gaubert, H., Drost, HG, Zabet, NR et Paszkowski, J. Recombinaison haute fréquence entre les membres d'une famille de rétrotransposons LTR pendant les rafales de transposition. Nat. Commun. 8, 1283. https://doi.org/10.1038/s41467-017-01374-x (2017).

Article ADS CAS PubMed PubMed Central Google Scholar

Grandi, N. & Tramontano, E. Les rétrovirus endogènes humains sont d'anciens éléments acquis qui façonnent encore les réponses immunitaires innées. Devant. Immunol. 9, 2039. https://doi.org/10.3389/fimmu.2018.02039 (2018).

Article CAS PubMed PubMed Central Google Scholar

Benachenhou, F. et al. Structure conservée et histoire évolutive déduite des longues répétitions terminales (LTR). Foule. ADN 4, 5. https://doi.org/10.1186/1759-8753-4-5 (2013).

Article CAS PubMed PubMed Central Google Scholar

Mariadassou, M. et al. Découvrir l'histoire du genre Gallus grâce au séquençage complet du génome. Mol. Phylogénète. Évol. 158, 107044. https://doi.org/10.1016/j.ympev.2020.107044 (2021).

Article PubMed Google Scholar

Bolger, AM, Lohse, M. & Usadel, B. Trimmomatic : Un trimmer flexible pour les données de séquence Illumina. Bioinformatique 30, 2114–2120 (2014).

Article CAS PubMed PubMed Central Google Scholar

Li, H. et al. Le format d'alignement/carte de séquence et SAMtools. Bioinformatique 25, 2078-2079 (2009).

Article PubMed PubMed Central Google Scholar

Huang, X. & Madan, A. CAP3 : Un programme d'assemblage de séquences d'ADN. Génome Res. 9, 868–877 (1999).

Article CAS PubMed PubMed Central Google Scholar

Yu, G., Wang, LG, Han, Y. & He, QY ClusterProfiler : un package R pour comparer des thèmes biologiques entre des clusters de gènes. OMICS J. Intégr. Biol. 16, 284-287 (2012).

Article CAS Google Scholar

Dray, S. & Dufour, AB Le package ade4 : Implémentation du diagramme de dualité pour les écologistes. J. Stat. Logiciel https://doi.org/10.18637/jss.v022.i04 (2007).

Article Google Scholar

Paradis, E. & Schliep, K. ape 5.0: un environnement pour la phylogénétique moderne et les analyses évolutives dans R. Bioinformatics 35, 526–528 (2019).

Article CAS PubMed Google Scholar

Équipe de base R. R : Un langage et un environnement pour le calcul statistique. Fondation R pour le calcul statistique, Vienne. https://cran.r-project.org (2020).

Thompson, JD, Higgins, DG & Gibson, TJ CLUSTAL W : amélioration de la sensibilité de l'alignement progressif de séquences multiples grâce à la pondération de séquence, aux pénalités d'écart spécifiques à la position et au choix de la matrice de pondération. Nucleic Acids Res. 22, 4673–4680 (1994).

Article CAS PubMed PubMed Central Google Scholar

Kumar, S., Stecher, G., Li, M., Knyaz, C. & Tamura, K. MEGA X : analyse de la génétique évolutive moléculaire sur des plates-formes informatiques. Mol. Biol. Évol. 35, 1547-1549 (2018).

Article CAS PubMed PubMed Central Google Scholar

Stecher, G., Tamura, K. & Kumar, S. Analyse génétique évolutive moléculaire (MEGA) pour macOS. Mol. Biol. Évol. 37, 1237-1239 (2020).

Article CAS PubMed PubMed Central Google Scholar

Brown, NP, Leroy, C. & Sander, C. MView : une recherche de base de données compatible Web ou une visionneuse d'alignements multiples. Bioinformatique 14, 380–381 (1998).

Article CAS PubMed Google Scholar

Télécharger les références

Ce travail a été soutenu par la Japan Society for the Promotion of Science Grant-in-Aid for Early-Career Scientists, Grant Number 22K14907. Les calculs ont été partiellement effectués sur le supercalculateur NIG du ROIS National Institute of Genetics. L'auteur tient à remercier Editage (www.editage.com) pour l'édition en anglais.

Département des sciences animales, Nippon Veterinary and Life Science University, 1-7-1 Kyonancho, Musashino, Tokyo, 180-8602, Japon

Shinya Ishihara

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

SI a effectué toutes les expériences, l'analyse des données et la rédaction du manuscrit final.

Correspondance à Shinya Ishihara.

L'auteur ne déclare aucun intérêt concurrent.

Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui autorise l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur tout support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel de tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Ishihara, S. Détection de longs locus répétés terminaux dérivés d'un rétrovirus endogène chez la sauvagine en utilisant le séquençage du génome entier. Sci Rep 13, 7380 (2023). https://doi.org/10.1038/s41598-023-34520-1

Télécharger la citation

Reçu : 26 janvier 2023

Accepté : 03 mai 2023

Publié: 06 mai 2023

DOI : https://doi.org/10.1038/s41598-023-34520-1

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.