Accéder directement au contenu Accéder directement à la navigation
Thèse

Novel components at the periphery of long read genome assembly tools

Pierre Marijon 1, 2, 3 
1 BONSAI - Bioinformatics and Sequence Analysis
Université de Lille, Sciences et Technologies, Inria Lille - Nord Europe, CRIStAL - Centre de Recherche en Informatique, Signal et Automatique de Lille - UMR 9189, CNRS - Centre National de la Recherche Scientifique
Résumé : Le séquençage de l'information génétique a permis de mieux comprendre un grande nombre de phénomènes biologiques, maladies génétiques, évènements de spéciations, mécanismes fondamentaux du fonctionnement de nos cellules. Les techniques de séquençage ont beaucoup évolué depuis la méthode de Sanger (1977). De nos jours, les technologies de séquençage de troisième génération permettent le séquençage d'un génome complet à moindre coût, produisent des lectures (fragments de genomes) plus longs, mais nécessitent la création d'outils d'assemblage spécifiques pour tenir compte d'un taux d'erreur élevé dans les lectures produites. L'étude des méthodes utilisées par les outils d'assemblage de lectures de troisième génération a permis d'observer que des améliorations des assemblages étaient possibles sans toutefois modifier les outils eux-mêmes. Certaines améliorations sont proposées dans ce travail de thèse, et sont mises en œuvre à travers des outils proposés à la communauté. yacrd et fpa interviennent en amont de l'assemblage en lui-même pour améliorer l'ensemble des lectures données en entrée à un assembleur. knot analyse et combine le résultat d'un assemblage avec les données brutes, pour donner des pistes permettant d'améliorer l'assemblage final.
Type de document :
Thèse
Liste complète des métadonnées

Littérature citée [135 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-02441360
Contributeur : Pierre Marijon Connectez-vous pour contacter le contributeur
Soumis le : mercredi 15 janvier 2020 - 17:34:53
Dernière modification le : jeudi 24 mars 2022 - 03:42:53
Archivage à long terme le : : jeudi 16 avril 2020 - 16:42:24

Fichier

Th_se.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : tel-02441360, version 1

Citation

Pierre Marijon. Novel components at the periphery of long read genome assembly tools. Computer Science [cs]. University of Lille, 2019. English. ⟨tel-02441360⟩

Partager

Métriques

Consultations de la notice

190

Téléchargements de fichiers

370