Statistique bayésienne et applications en génétique des populations - BCM : Biologie Computationnelle et Mathématique Accéder directement au contenu
Hdr Année : 2012

Bayesian statistics and applications to populations genetics

Statistique bayésienne et applications en génétique des populations

Michael G B Blum
  • Fonction : Auteur
  • PersonId : 854172

Résumé

Statistical approaches in population genetics have two distinct objectives, which consist of describing the data and of inferring the evolutionary processes that generated the observed patterns. The first chapter of this thesis describes my contributions to Approximate Bayesian Computation (ABC), which allows to compare and to infer the evolutionary processes that shaped genetic variation. First, I describe asymptotic results, which provide biases and variances of posterior estimates obtained with approximate Bayesian Computation. The results highlight what are the benefits of using regression-adjustment methods and of reducing the dimension of the descriptive statistics used in ABC. Then, I present an original method for ABC that both performs regression-adjustment and dimension reduction. An analysis where we compare different methods of dimension reduction ends the first chapter. The second chapter of the thesis is devoted to the goal of describing the data in a spatial context. The statistical methods we propose are based on the concept of isolation by distance (IBD), which is a particular form of spatial autocorrelation where correlation decays with distance. With a Kriging approach, we can characterize non-stationary patterns of isolation by distance where the decay of correlation with distance varies over the sampling range. We also propose an anisotropic extension of the concept of isolation by distance and we provide a characterization and a test for anisotropy using a regression equation. The conclusion of this thesis deals with some important caveats: the difficulty of interpreting statistical results, the robustness of the results with respect to the sampling scheme and the too often neglected goodness-of-fit. The thesis ends with some perspectives about how Bayesian methods could scale with the massive dimension of the data produced in genetics.
Les approches statistiques en génétique des populations visent deux objectifs distincts qui sont la description des données et la possibilité d'inférer les processus évolutifs qui ont généré les patrons observés. Le premier chapitre de ce manuscrit décrit nos apports théoriques et méthodologiques concernant le calcul bayésien approché (Approximate Bayesian Computation) qui permet de réaliser l'objectif d'inférence des processus évolutifs. Je décris des résultats asymptotiques qui permettent de décrire des propriétés statistiques du calcul bayésien approché. Ces résultats mettent en évidence à la fois l'intérêt des méthodes dites avec ajustement qui reposent sur des équations de régression et aussi l'intérêt de réduire la dimension des descripteurs statistiques utilisés dans le calcul bayésien approché. Je présente ensuite une méthode originale de calcul bayésien approché qui permet de manière conjointe d'effectuer des ajustements et de réduire la dimension des descripteurs statistiques. Une comparaison des différentes méthodes de réduction de dimension clos le premier chapitre. Le deuxième chapitre est consacré à l'objectif de description des données et se place plus particulièrement dans un cadre spatial. Les méthodes statistiques proposées reposent sur le concept d'isolement par la distance qui est une forme particulière de l'autocorrélation spatiale où la corrélation entre individus décroit avec la distance. Une approche originale de krigeage nous permet de caractériser des patrons d'isolement par la distance non-stationnaire où la manière avec laquelle la corrélation entre individus décroit avec la distance dépend de l'espace. Une deuxième extension que nous proposons est celle d'isolement par la distance anisotrope que nous caractérisons et testons à partir d'une équation de régression. La conclusion de ce manuscrit met l'accent sur les problèmes d'interprétation des résultats statistiques, l'importance de l'échantillonnage et la nécessité de tester l'adéquation des modèles aux données. Je conclus par des perspectives qui se proposent de faire passer l'analyse statistique bayésienne à l'échelle des données massives produites en génétique.
Fichier principal
Vignette du fichier
HDR_MichaelBLUM_03122012.pdf (4.95 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00766196 , version 1 (17-12-2012)

Identifiants

  • HAL Id : tel-00766196 , version 1

Citer

Michael G B Blum. Statistique bayésienne et applications en génétique des populations. Statistiques [math.ST]. Université de Grenoble, 2012. ⟨tel-00766196⟩
2138 Consultations
2899 Téléchargements

Partager

Gmail Facebook X LinkedIn More