Recherche

Adaptation des méthodes de factorisation matricielle au cas de données manquantes dans les études génétiques de méthylation.

Post- Doctorat, Département des sciences de la décision, HEC et UQAM, Montréal, Québec, Canada

2019 - 2021

La méthylation de l’ADN est un processus qui modifie les sites CpG de l’ADN par l’addition d’un groupement méthylé. Ce phénomène est nécessaire au bon fonctionnement du corps. Cependant, l’altération généralisée de ce processus de méthylation peut-être, par exemple, une caractéristique des cellules cancéreuses. C’est pourquoi l’étude de ce phénomène est primordial dans la prévention et la compréhension de certaines maladies. Les données étudiées correspondent au niveau de méthylation sur les sites CpG pour différents échantillons. Ce niveau est mesuré par séquençage (26 millions de sites) ou par array (800-400 K sites). Les échantillons correspondent à des sujets ou à des cellules. Le niveau de méthylation dépend de la position du site sur l’ADN ainsi que des variables décrivant les échantillons. En pratique la méthylation est mesurée par séquençage pour un petit nombre d’échantillons et par arrays pour la plupart des échantillons. L’objectif est d’imputer le niveau de méthylation sur les sites manquants. Nous nous retrouvons face à un problème d’imputation en grande dimensions avec variables explicatives. L'objectif est de développer une méthode permettant de prédire le niveau de méthylation en se basant sur les autres sites et sur les informations liées aux échantillons.

Modèle additif (GAM), processus Gaussiens non séparable (modèle linéaire de corrégionalisation), inférence bayesienne (MCMC, Gibbs, Variational Bayes)


Identification des facteurs impactant la transmission d’un virus

Post- Doctorat, BioSP, INRAE Avignon

2019 - 2021

Ce post-doctorat s’inscrit dans le projet ANR SMITID. Le but du projet est de développer des méthodes statistiques pour inférer les transmissions de maladies infectieuses à partir de données de séquençage haut-débit. Le but du post-doc est de développer des méthodes statistiques permettant de détecter l’impact des facteurs environnementaux une fois l’arbre de transmission inféré.

Tests de permutations, corrélation de Spearman, grippe équine, covid-19, rage canine


Covid-19 : prediction des décès dans le monde

L'objectif est de prédire à plus ou moins long terme le nombre de décès par pays en s'appuyant sur d'autres pays en avance à l'aide de modèle de mélange. La méthodologie développée est résumée sur le blog de BioSp et décrite en détail dans le preprint. Ma collaboration à permis, entre autre, d'utiliser le code R pour améliorer la visualisation des graphiques interactif via plotly sur l'application Shiny dédié à ces recherches.

Plotly, RShiny, modèle de mélange


Covid-19 : prediction des lits en RSI dans le Vaucluse

L'objectif est de prédire la date à laquelle les lits en réanimation et en soins intensifs (RSI) seront touc occupés dans le département du Vaucluse. La méthode s'appuie sur l'évolution temporelle d'occupation des lits en RSI dans les autres départements de France. Un résumé des résultats est disponible sur le blog de BioSP dédié à la pandémie de Covid-19.

Clustering, regression linéaire

Krigeage pour la conception de turbomachines : grande dimension et optimisation robuste

Doctorat, ICJ, Lyon1, École centrale de Lyon soutenue en octobre 2018

2015 - 2018

Cette thèse s’inscrit dans le projet ANR PEPITO pour l’industrie du transport. Le projet est en collaboration avec des industriels (Valéo, Intes, InModelia) et d’autres universitaires. Le but est de construire des turbomachines efficaces. Le code numérique utilisé par Valéo pour simuler le fonctionnement des turbomachines est trop coûteux et ne peut être utilisé directement pour répondre à la problématique.

Algorithmes data-based pour la construction d'un noyau isotrope par groupe pour le métamodèle de krigeage en grande dimension

Les algorithmes développés utilisent uniquement les données disponibles pour construire les groupes du noyau isotrope par groupe. les méthodes sont basées sur de la combinatoire et du clustering. L'article publié correspondant est disponible ici.


Stratégies d'optimisation robuste sur métamodèle de krigeage

La problématique de la robustesse est prise en compte avec la création de deux critères moyenne/variance basés sur le développement de Taylor. Le métamodèle utilisé est un co-krigeage avec dérivées. Les sept stratégies développées suivent un schéma séquentiel classique d'enrichissement du plan d'apprentissage. Le choix des points d'enrichissement se base sur des critères d'amélioration attendu, sur des méthodes de clustering et sur un algorithme génétique d'optimisation multi-objectif (NSGA II). L'article publié est disponible ici et l'article in proceeding est disponible ici.

Performance du modèle de krigeage sur des données de fondation

Mission, Freelance, Fondasol

2019

Étude préliminaire sur la qualité de prédiction du modèle de krigeage sur des mesures de fondations.

Krigeage, Création de rapport Rmarkdown


Etude morphofonctionnelle de la surface auriculaire iliaque chez les félidés

Collaboration avec Pallandre, J-P. (Museum national d'histoire naturelle)

2018

Etude des liens entre la forme de la surface auriculaire de l’articulation sacro-iliaque des félins et la sélection de leurs proies, le type de morsures infligées et leur masse corporelle. Création d'une application R-Shiny. L'article publié est disponible ici.

Test post-hoc, R-Shiny

Comparaison de métamodèles

Stage M2, ICJ, Lyon1, École Centrale de Lyon

2015

Ce stage se place dans le même contexte que celui de la thèse. Plusieurs études préliminaires ont été effectuées : comparaison des métamodèles (krigeage, régression linéaire et modèle additif généralisé), réduction de dimension par l’analyse de sensibilité, méthode de co-krigeage.

Krigeage, co-krigeage, régression linéaire, modèle additif généralisé, validation croisée

Identification des fraudeurs et des fuites sur les compteurs d'eau

Stage M1, United Water, Paramus, New Jersey

2014

Analyse des données de consommation d’eau d’une ville pour détecter les fraudes et les fuites. Les données sont transmises par les compteurs d’eau de façon automatique et toutes les minutes (Big Data). Il faut effectuer la mise à jour, la validation et l’analyse des données. Les méthodes développées se basent sur les tests statistiques, la régression linéaire et l’analyse de la variance.

Régression linéaire, Anova, test d'adéquation à une loi, mise à jour automatique de données, création de rapports automatique