Méthodes statistiques et stratégies d'études d'association de phénotypes complexes: études pan-génomiques de la maladie de Parkinson

Research output: Types of ThesisDoctoral thesis

Abstract

Mon travail de thèse s'intéresse aux méthodes statistiques et stratégies d'étude de la composante génétique de maladies complexes chez l'homme et spécifiquement de la Maladie de Parkinson (MP). Ces travaux sont principalement développés dans le cadre d'études d'association pan-génomiques dans deux contextes : détection de variants fréquents et détection de variants rares. Le criblage du génome entier (GWAS) est une stratégie d'étude optimale à condition de bien contrôler les niveaux des erreurs de type I et de type II. En effet, un grand nombre de tests statistiques sont réalisés ; des problèmes de stratification de population sont possibles et leurs effets doivent être contrôlés. Par ailleurs, malgré leurs tailles d'échantillon relativement importantes, les études GWAS, basées sur le test simple-marqueur, peuvent s'avérer individuellement peu puissantes pour détecter des variants génétiques fréquents à effets faibles. L'utilisation des tests multi-marqueur peut optimiser l'utilisation de la variabilité génétique et donc augmenter la puissance des études GWAS. Je me suis intéressé à l'étude de ces tests et spécifiquement le test " SNP-Set " basé sur la méthode statistique de noyau et le test haplotypique. J'ai étudié les aspects théoriques de ces tests et j'ai évalué leurs propriétés statistiques dans nos données empiriques de MP. Ainsi pour nos analyses de MP, j'ai développé des techniques d'imputations et de méta-analyses afin d'augmenter la couverture de la variabilité génétique et la taille d'échantillon. L'analyse d'association pour des variants rares présente plusieurs défis. Le test d'association simple-marqueur ne permet pas d'étudier tels variants et le coût des analyses à grande échelle de données de séquence reste prohibitif pour l'étude de maladies complexes. Notre design d'étude est une approche alternative qui repose sur la combinaison de données publiques de séquence aux données GWAS. Différents tests d'association pour l'étude de variants rares ont été récemment proposés mais leurs propriétés statistiques sont à ce jour mal connues. Par ailleurs, à l'échelle pan-génomique, les erreurs de type I et de type II de ces méthodes peuvent être influencées par certains facteurs comme la longueur du gène, l'hétérogénéité allélique dans le gène, le LD entre SNPs, le chevauchement entre gènes et la corrélation SNPs fréquents et maladie. J'ai évalué les propriétés statistiques de plusieurs de ces méthodes dans des données simulées et aussi dans nos données de MP. Nous montrons que plusieurs méthodes, basées sur le modèle linéaire mixte, sont mathématiquement équivalentes et que certaines sont des cas particuliers d'autres. En conclusion, nous avons développé des stratégies et méthodes d'analyse, combinant des approches complémentaires (Maladie commune-variant fréquent vs Maladie commune -variant rare) dans le but d'optimiser la caractérisation de la composante génétique de MP en particulier et de maladies complexes en générale.
Original languageFrench
Publication statusPublished - 2012
Externally publishedYes

Cite this