Algorithmique pour la recherche de motifs approchée et application à la recherche de cibles de microARN - CRISTAL-BONSAI Accéder directement au contenu
Thèse Année : 2016

Algorithms for approximate string matching and application to microRNA target search

Algorithmique pour la recherche de motifs approchée et application à la recherche de cibles de microARN

Résumé

Approximate string matching consists in identifying the occurrences of a motif within a text, modulo a given distance. This problem has many applications in bioinformatics for the analysis of biological sequences. For instance, microRNAs are short RNA molecules regulating the expression of genes by specific recognition of their sequence motif on the target gene. Understanding the mode of action of microRNAs requires the ability to identify short motifs, around 21 nucleotides in size, comprising up to 3-4 errors in a text whose size is in the order of 108-109 , representing a genome. In this thesis, I have proposed an efficient algorithm for the approximate search of short motifs. This algorithm is based on a new type of seeds containing errors, the 01∗ 0 seeds, and uses a compressed index structure, the FM-index. I have implemented this algorithm in a freely available software, Bwolo. I demonstrate experimentally the advantage of this approach and compare it to the state of the art of existing tools. I also show how Bwolo can be used and have set up an original study on the distribution of potential miRNA target sites in two plant genomes, Arabidopsis thaliana and Arabidopsis lyrata.
La recherche de motifs approchée consiste à identifier les occurrences d’un motif modulo une certaine distance au sein d’un texte. Ce problème trouve de nombreuses applications en bio-informatique pour l’analyse de séquences biologiques. Par exemple, les microARN sont des petits ARN qui régulent l’expression des gènes par reconnaissance d’un motisimilaire. Comprendre le mode d’action des microARN demande de pouvoir localiser de courts motifs, environ 21 nucléotides, comprenant jusqu’à 3 ou 4 erreurs dans un texte de l’ordre de 108 à 109 nucléotides, représentant un génome. Dans cette thèse, nous proposons un algorithme efficace pour la recherche de motifs approchée, qui se base sula définition d’un nouveau type de graines avec erreurs, les graines 01∗0, et qui exploite une structure d’index compressée, le FM-index. Cet algorithme a été mis en œuvre dans un logiciel librement disponible, appelé Bwolo. Nous démontrons expérimentalemenl’avantage de cette approche en nous comparant à l’état de l’art des outils existants. Nous montrons également comment utiliser Bwolo pour mettre en place une analyse originale sur l’étude de la distribution des cibles potentielles de miARN dans deux génomes de plantes, Arabidopsis thaliana et Arabidopsis lyrata.
Fichier principal
Vignette du fichier
these.pdf (1.85 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-01576433 , version 1 (23-08-2017)

Identifiants

  • HAL Id : tel-01576433 , version 1

Citer

Christophe Vroland. Algorithmique pour la recherche de motifs approchée et application à la recherche de cibles de microARN . Bio-informatique [q-bio.QM]. Université Lille 1 Sciences et technologies, 2016. Français. ⟨NNT : ⟩. ⟨tel-01576433⟩
369 Consultations
957 Téléchargements

Partager

Gmail Facebook X LinkedIn More