Recherche
Problèmes d’imputation dans les études génétiques de méthylation : un modèle de corrégionalisation linéaire (LMC) avec covariables.
Post- Doctorat, Département des sciences de la décision, HEC et UQAM, Montréal, Québec, Canada
2021 - 2022La méthylation est un processus qui modifie les sites CpG de l’ADN par l'addition d'un groupe méthyle. Ce phénomène est nécessaire au fonctionnement du corps. La méthylation est mesurée sur tous les sites, mais sujette aux valeurs manquantes. L’objectif est d’imputer le niveau de méthylation sur les sites manquants ; c’est un problème d’imputation en grande dimension avec covariables. Dans cette présentation, nous proposons une méthode pour prédire les niveaux de méthylation manquants à partir de ceux observés et des covariables. Cette méthode capture les structures de corrélation du niveau de méthylation entre les sites et les échantillons. La fonction de régression reliant le niveau de méthylation aux covariables est modélisée par une combinaison linéaire des facteurs observés et latents (LMC). Nous supposons que les effets des facteurs sont des processus Gaussiens. Les prédictions pour les données manquantes sont obtenues par des équations conditionnelles aux données observées.
Processus Gaussiens non séparable (modèle linéaire de corrégionalisation), Méthodes d'imputation
Identification des facteurs impactant la transmission d’un virus
Post- Doctorat, BioSP, INRAE Avignon
2019 - 2021Ce post-doctorat s’inscrit dans le projet ANR SMITID. Le but du projet est de développer des méthodes statistiques pour inférer les transmissions de maladies infectieuses à partir de données de séquençage haut-débit. Le but du post-doc est de développer des méthodes statistiques permettant de détecter l’impact des facteurs environnementaux une fois l’arbre de transmission inféré.
Tests de permutations, corrélation de Spearman, grippe équine, covid-19, rage canine
Covid-19 : prediction des décès dans le monde
L'objectif est de prédire à plus ou moins long terme le nombre de décès par pays en s'appuyant sur d'autres pays en avance à l'aide de modèle de mélange. La méthodologie développée est résumée sur le blog de BioSp et décrite en détail dans le preprint. Ma collaboration à permis, entre autre, d'utiliser le code R pour améliorer la visualisation des graphiques interactif via plotly sur l'application Shiny dédié à ces recherches.
Plotly, RShiny, modèle de mélange
Covid-19 : prediction des lits en RSI dans le Vaucluse
L'objectif est de prédire la date à laquelle les lits en réanimation et en soins intensifs (RSI) seront touc occupés dans le département du Vaucluse. La méthode s'appuie sur l'évolution temporelle d'occupation des lits en RSI dans les autres départements de France. Un résumé des résultats est disponible sur le blog de BioSP dédié à la pandémie de Covid-19.
Clustering, regression linéaire
Krigeage pour la conception de turbomachines : grande dimension et optimisation robuste
Doctorat, ICJ, Lyon1, École centrale de Lyon soutenue en octobre 2018
2015 - 2018Cette thèse s’inscrit dans le projet ANR PEPITO pour l’industrie du transport. Le projet est en collaboration avec des industriels (Valéo, Intes, InModelia) et d’autres universitaires. Le but est de construire des turbomachines efficaces. Le code numérique utilisé par Valéo pour simuler le fonctionnement des turbomachines est trop coûteux et ne peut être utilisé directement pour répondre à la problématique.
Algorithmes data-based pour la construction d'un noyau isotrope par groupe pour le métamodèle de krigeage en grande dimension
Les algorithmes développés utilisent uniquement les données disponibles pour construire les groupes du noyau isotrope par groupe. les méthodes sont basées sur de la combinatoire et du clustering. L'article publié correspondant est disponible ici.
Stratégies d'optimisation robuste sur métamodèle de krigeage
La problématique de la robustesse est prise en compte avec la création de deux critères moyenne/variance basés sur le développement de Taylor. Le métamodèle utilisé est un co-krigeage avec dérivées. Les sept stratégies développées suivent un schéma séquentiel classique d'enrichissement du plan d'apprentissage. Le choix des points d'enrichissement se base sur des critères d'amélioration attendu, sur des méthodes de clustering et sur un algorithme génétique d'optimisation multi-objectif (NSGA II). L'article publié est disponible ici et l'article in proceeding est disponible ici.
Performance du modèle de krigeage sur des données de fondation
Mission, Freelance, Fondasol
2019Étude préliminaire sur la qualité de prédiction du modèle de krigeage sur des mesures de fondations.
Krigeage, Création de rapport Rmarkdown
Etude morphofonctionnelle de la surface auriculaire iliaque chez les félidés
Collaboration avec Pallandre, J-P. (Museum national d'histoire naturelle)
2018Etude des liens entre la forme de la surface auriculaire de l’articulation sacro-iliaque des félins et la sélection de leurs proies, le type de morsures infligées et leur masse corporelle. Création d'une application R-Shiny. L'article publié est disponible ici.
Test post-hoc, R-Shiny
Comparaison de métamodèles
Stage M2, ICJ, Lyon1, École Centrale de Lyon
2015Ce stage se place dans le même contexte que celui de la thèse. Plusieurs études préliminaires ont été effectuées : comparaison des métamodèles (krigeage, régression linéaire et modèle additif généralisé), réduction de dimension par l’analyse de sensibilité, méthode de co-krigeage.
Krigeage, co-krigeage, régression linéaire, modèle additif généralisé, validation croisée
Identification des fraudeurs et des fuites sur les compteurs d'eau
Stage M1, United Water, Paramus, New Jersey
2014Analyse des données de consommation d’eau d’une ville pour détecter les fraudes et les fuites. Les données sont transmises par les compteurs d’eau de façon automatique et toutes les minutes (Big Data). Il faut effectuer la mise à jour, la validation et l’analyse des données. Les méthodes développées se basent sur les tests statistiques, la régression linéaire et l’analyse de la variance.