Séminaires

De MIAT INRA
Aller à : navigation, rechercher

Séminaires de l'unité MIAT :

Pyrenees-morning.jpg

Le séminaire de l'équipe MIAT de l'INRA de Toulouse est un endroit d'échanges scientifiques et techniques entre les membre de l'unité et des experts en mathématiques, informatique, agro-écosystèmes, bioinformatique, etc. Les présentations peuvent être sur des travaux en cours, des projets finalisés hautement spécialisés ou à valeur plus éducative / informationnelle. Les aspects mis en avant peuvent être d'ordre méthodologique ou applicatif. Les annonces de séminaires pertinents sont relayés sur les listes de diffusion de la plateforme biostatistique de l'IMT (contact S. Déjean) ou ROAD-T (Recherche Opérationnelle et Aide à la Décision à Toulouse, contact M. Mongeau).

Les présentations peuvent être en français ou en anglais pour une durée d'une heure (45min + questions). Sauf contre-indication, les séminaires ont lieu dans la salle de réunion MIAT à 10h30 le vendredi. L'accès à l'unité MIAT de l'INRA Auzeville/Castanet est indiqué ici (nous sommes à moins de 30 mètres de la réception !).


Séminaires de l'année en cours et séminaires futurs  :

Pas de séminaire le 19 octobre (soutenance de thèse de A. Imbert).

  • 12/10/2018 : Inférence de données de réseaux multipartites par modèles à blocs latents et stochastiques. Application en écologie et ethnobiologie. Sophie Donnet (MIA Paris)
Résumé : Modéliser les relations entre entités (individus, insectes, plantes...) est une problématique classique en sciences sociales et en écologie et regrouper les entités étudiées en fonction des motifs observés dans le réseau permet de comprendre la topologie du réseau. Les modèle à blocs stochastiques ou latents sont une approche répandue pour regrouper les individus partageant le même comportement d'interaction. Dans ce travail, nous nous intéressons au cas où nous cherchons à modéliser des réseaux multipartites, i.e. des réseaux dans lesquels les entités appartiennent à des groupes fonctionnels prédéfinis. Les modèles à blocs stochastiques ou latents reposent sur l'introduction des variables latentes, rendant leur vraisemblance incalculable de façon explicite dès que la taille des réseaux augmente. Nous utilisons alors une version stochastique de l'algorithme EM. La pertinence de notre modèle et de notre méthode d'inférence est illustrée sur données simulées et réelles.
  • 21/09/2018 : Données de la recherche… Vers l’ouverture Nathalie Gandon (CODIR - Département MIA, INRA)
Résumé : Présentation des contextes (international, national et institutionnel), du cadre juridique et des offres de service inra autour de l’open data.
  • 14/09/2018 : Inférence des cause de la reprogrammation cellulaire par abduction Franck Delaplace (IBISC, Université d'Evry)
Résumé : La médecine de réseau a pour objectif de définir la maladie à l’échelle des réseaux biologiques afin de mieux comprendre les mécanismes causaux de celle-ci. Des études dans ce domaine ont montré que la reprogrammation comportementale observée dans des maladies complexes telles que le cancer est causée par une modification du câblage du réseau moléculaire. La transition entre cellule saine et malade et inversement peuvent s'interpréter à l'échelle moléculaire comme une reprogrammation cellulaire induite par des perturbations topologiques des réseaux moléculaires induisant des changements du destin cellulaire. Pour la modélisation, l’objectif est d’inférer les actions topologiques sur un réseau induisant une variation de la dynamique incarnant ces transitions. Nous proposons un cadre théorique étendant les réseaux Booléens, appelé réseau booléen contrôlé où les actions de réseau topologique sont définies comme des contrôles de la dynamique. Sur la base de ce cadre, nous présentons un nouvel algorithme utilisant des principes de raisonnement abductif qui infère les perturbations causales minimales conduisant à un comportement attendu aux états stables de la dynamique. Ce cadre de modélisation s’applique à priori à un grand nombre de situation biologique d’alteration du destin cellulaire reposant sur sa reprogrammation. Nous l’illustrerons sur un modèle du cancer du sein, que nous considérons comme une preuve de concept, en inférant à la fois les oncogènes, les suppresseurs de tumeurs et des cibles thérapeutiques. Travail joint avec Célia Biane

Pas de séminaire en juillet et août (vacances scolaires)

Pas de séminaire le 29 juin (journée des stagiaires le 26)

  • 22/06/2018 : Recent evolutions in genome assembly : our experiences with data and tools Christophe Klopp (MIAT) diaporama
Résumé : The availability of a good quality reference genome enables and simplifies a lot of genomic analysis. Therefore, for the last thirty years, communities have agreed to spend a lot of money and time to produce such a reference. The estimated cost for generating the initial 'draft' human genome sequence is ~$300 million worldwide (1). Second generation short read sequences have been used to produce new reference genomes of often low to medium quality. The now available third generation sequencers, producing long reads, have opened an new area of numerous, cheap, high quality reference genomes. First PacBio and then Oxford nanopore machines have been acquired by the Get-Plage local sequencing platform and enabled local teams to produce assemblies which are acknowledged by their community on the international level. The best examples in the last years is the sunflower and in the last months, the rose. Sigenae and Genotoul Bioinfo take also part in this adventure. The talk will present third generation sequencing data quality, assembly steps and results. It will also explain how other new data types help to go from contigs to chromosomes. (1) https://www.genome.gov/27565109/the-cost-of-sequencing-a-human-genome/

Pas de séminaire le 15 juin (visite du département).

  • 8/06/2018 : How computers break (serious) puzzles Thomas Schiex (MIAT, INRA)
Résumé : Exposé de vulgarisation scientifique donné dans le cadre de la journée « Machine Learning for Artificial Intelligence » à l'Académie des Sciences.

Pas de séminaire le 1e juin (JFRB 2018).

  • 25/05/2017 : Séminaire des doctorants - salle Marc Ridet Programme détaillé
    • 09h30 - 09h50 Manon Ruffini (MIAT) Models and methods for computational protein design
    • 09h50 - 10h10 Camille Champion (IMT) Research and development of innovative mathematical algorithms using cluster-based statistical interactions of metagenomic data in biomedicine
    • 10h10 - 10h30 Ivana Aleksovska (Meteo-France, MIAT) Improve short and medium term predictions of agronomic models by taking into account the uncertainty of weather forecast
    • 10h30 - 11h00 pause
    • 11h00 - 11h20 Arij Azzabi (Institut supérieur de gestion de Tunis, MIAT) La représentation compacte des jeux ordinaux
    • 11h20 - 11h40 Céline Bougel (INSERM) Amélioration des outils statistiques utilisés dans les essais de prévention du déclin des fonctions cognitives
    • 11h40 - 12h00 Malo Le Boulch (GenPhySE) Inférence fonctionnelle des communautés bactériennes complexes à partir de données issues de métagénomiques
    • 12h00 - 14h00 déjeuner partagé
    • 14h00 - 14h20 Walid Ben Saoud Benjerri (MIAT) Algorithmes d'alignement de petits ARN
    • 14h20 - 14h40 Adrien Lagrange (Dynafor) Du démélange pixellique à la classification thématique - Apprentissage multirésolution pour l'analyse hiérarchique d'images hyperspectrales et hypertemporelles
    • 14h40 - 15h00 Marie-Anne Vedy-Zecchini (AGIR) Analyse et modélisation des effets du système de culture et de la situation de production sur les principaux bioagresseurs du tournesol pour la mise au point de stratégies de protection agroécologique
    • 15h00 - 15h20 Sara Maqrot (MIAT) Méthodes approchées d'optimisation combinatoire en programmation mathématique. Application à la conception des systèmes vergers-maraîchers
    • 15h20 - 15h50 pause
    • 15h50 - 16h10 Étienne Auclair (MIAT) Réseau bayésien dynamique étiqueté multicontact pour l'apprentissage de réseaux écologiques
    • 16h10 - 16h30 Alyssa Imbert (MIAT) Imputation multiple hot-deck pour l'inférence de réseaux RNA-Seq
    • 16h30 - 16h50 Sébastian Le Coz (MIAT) Modélisation de la dynamique des adventices dans un agrosystème
  • 18/05/2018 : Mémoire et apprentissage chez les plantes Frédérick Garcia (futur MIAT, INRA)
Résumé : Dans cet exposé, je développerai l'idée qu'au delà de la vision traditionnelle orientée croissance et développement, les plantes peuvent être étudiées en tant qu’entités actives dont la dynamique au cours du temps est l'expression d'un comportement propre. Ces comportements semblent en particulier le siège de phénomènes d'apprentissage, où des mémoires biologiques sont exploitées, et je décrirai les principaux résultats expérimentaux soutenant cette hypothèse. Je présenterai enfin des pistes pour de nouvelles expérimentations et pour la modélisation de ces processus.

Pas de séminaire le 11 mai (pont de l'ascension).

  • 4/05/2018 : Statistical model of non-Gaussian process with wavelet scattering moments Sixin Zhang (ENS, Paris)
Résumé : One of the most challenging problems in statistical modeling is to define a minimal set of statistics so as to infer a stochastic model from few observational data of the underlying random process. We propose such set of statistics based on the wavelet scattering transform. Our goal is to model the non-Gaussianarity and the long-range interaction of the data, in particular when there is complex geometry and transient structures at multiple scales such as Turbulence. We follow the maximum entropy principle to infer a stochastic model given a set of statistical moment constraints. It results in a Gibbs distribution which is common in statistical physics to describe the equilibrium states. In this talk, I will discuss the current state-of-art methods to model the texture as a stationary and ergodic random process, including convolutional neural network based approach. We compare different methods quantitatively by estimating the power spectrum, and the entropy of the random process. Numerical results on isotropic Turbulence will be presented.

Pas de séminaire les 20 et 27 avril (vacances scolaires).

  • 13/04/2018 : How to support Cooperative Decision Making ? Pascale Zaraté (IRIT)
Résumé : Decision Support Systems are designed to support decision makers facing unstructured problems. They were developed to interactively simulate the problem in order to propose part of the solution to the user. In organizations, decision making processes generally involve a group of individuals, rather than just one person. Cooperative Decision Making processes are defined as processes in which several decision makers are involved. We developed two kinds of support for such Cooperative Decision Making Processes. These two approaches are based on a Multi-Criteria Decision Analysis paradigm. In one hand, we developed Recommender Systems able to recommend a solution to a given decision problem adapted to the user’s preferences. These systems are based on a preference mining approach. In another hand, Group Decision Support Systems (GDSS) are designed to support groups involved in a decisional process. An overview of GDSS is presented, and a particular system called GRoUp System (GRUS) is demonstrated. A new methodology to use it, is also presented in order to promote cooperation among stakeholders.
  • 6/04/2018 : Bacterial populations in the Durance river: a data-driven analysis on the causes of spatial and genetic heterogeneity Davide Martinetti (BIOSP, INRA)
Résumé : Sampled bacterial populations from the Durance river water and its tributaries show high variability and heterogeneity. The most natural hypothesis of a bacterial flow that follows the orography of the river, from upstream to downstream, seems to be too weak and it is sometimes not verified. We hence look for other possible explanations that can bring some light on the sources and potential dissemination of a family of bacteria, /Pseudomonas Syringae,/ a potential plant pathogen. Amongst the possible causes of biological heterogeneity in the bacterial population, we investigate the effects of land use at different spatial scales (circular buffer of different radius and watershed), geographical distance and rainfall patterns. To the date, we are pioneering the introduction of rainfall patterns in such type of studies. This involves handling big amounts of data of different types, such as historical air-mass trajectories and precipitation records. The preliminary results of this study shows that geographical distance between sampling sites is seldom an efficient predictor of bacterial diversity, while rainfall patterns and land use seem to play a major role. Key words: bacterial populations, land use, air-mass trajectories, precipitations, comparison of distance matrices, clustering, R
  • 30/03/2018 : Clustering transformed compositional data using K-means, with applications in gene expression and bicycle sharing system data Antoine Godichon (INSA Rouen)
Résumé : We present a relevant strategy for clustering compositional data (i.e., data blonging to the simplex). This work is motivated by the analysis of two sets of compositional data, both focused on the categorization of profiles but arising from considerably different applications : (1) identifying groups of co-expressed genes from high-throughput RNA sequencing data, in which a given gene may be completely silent in one or more experimental conditions ; and (2) finding patterns in the usage of stations over the course of one week in the Velib bicycle sharing system in Paris, France. For both of these applications, we focus on the use of appropriately chosen data transformations, including the Centered Log Ratio and a novel extension we propose called the Log Centered Log Ratio, in conjunction with the K-means algorithm.
  • 23/03/2018 : Computational approaches for high-resolution profiling of immune responses: applications to vaccine studies Nicolas Tchitchek (CEA)
Résumé : Flow, hyperspectral and mass cytometry are experimental techniques measuring cell marker expressions at the single cell level. The recent increase in the number of markers simultaneously measurable has led to the development of new automatic gating algorithms. Especially, the SPADE algorithm has been proposed as a novel way to identify clusters of cells having similar phenotypes in high-dimensional cytometry data. While SPADE or other cell clustering algorithms are powerful approaches, complementary analysis approaches are needed to characterize better and interpret the identified cell clusters. I will present here two new bioinformatics tools, named SPADEVizR and CytoCompare, that have been developed to better characterize and interpret cell clusters. The capabilities of these algorithms will be illustrated using mass cytometry profiles obtained in the context of vaccine studies in non-human primates. On the one hand, SPADEVizR can identify cell clusters having relevant biological behaviors, to integrate them with additional biological variables, and to construct predictive models. Several visualization methods, such as volcano plots, streamgraphs, parallel coordinates, heatmaps are available to better define the phenotypes of the cell clusters. On the other hand, CytoCompare can statistically compare the phenotypes of cell clusters identified by different automatic gating algorithms or using different cell clustering settings. Such phenotypic comparisons allow quantifying the sensitivity of cell clustering algorithms. This software is essential to optimize the clustering parameters and to property interpreter complex cytometry data. I will also outline the current computational and data mining challenges in high-dimensional cytometry analysis.
  • 16/03/2018 : Attribuer un événement météorologique extrême au changement climatique : le problème de la définition Julien Cattiaux (Météo France, Toulouse)
Résumé : Canicule, vague de froid, sécheresse, forte pluie... A chaque événement météorologique marquant, la même question revient : est-ce dû au changement climatique ? Une manière d'y répondre est d'évaluer de combien le changement climatique a modifié la probabilité que l'événement se produise, i.e. calculer la "fraction de risque attribuable". Le résultat est cependant sensible à la définition choisie pour l'événement, et en particulier à l'échelle spatio-temporelle sélectionnée. Jusqu'à présent, ce choix est souvent fait de façon arbitraire, sur la base de régions géographiques et/ou périodes de temps prédéfinies. Nous proposons ici une méthode plus objective, consistant à identifier automatiquement l'échelle de temps et d'espace à laquelle l'événement a été le plus extrême. La méthode est illustrée sur deux cas d'étude (canicule européenne de l'été 2003, précipitations intenses de septembre 2013 au Colorado) et les conséquences sur la fraction de risque attribuable sont discutées.
  • 09/03/2018 : Destination prediction by trajectory distribution based model Brendan Guillouet (INSA de Toulouse)
Résumé : Monitoring and predicting road traffic is of great importance for traffic managers. With the increase of mobile sensors, such as GPS devices and smartphones, much information is at hand to understand urban traffic. In the last few years, a large amount of research has been conducted in order to use this data to model and analyze road traffic conditions. In this talk we propose a new method to predict the final destination of vehicle trips based on their initial partial trajectories. We first review how we obtained clustering of trajectories that describes user behaviour. Then, we explain how we model main traffic flow patterns by a mixture of 2d Gaussian distribution. This yielded a density based clustering of locations, which produces a data driven grid of similar points within each pattern. We present how this model can be used to predict the final destination of a new trajectory based on their first locations using a two step procedure: We first assign the new trajectory to the clusters it mot likely belongs. Secondly, we use characteristics from trajectories inside these clusters to predict the final destination. Finally, we present experimental results of our methods for classification of trajectories and final destination prediction on datasets of timestamped GPS-Location of taxi trips. We test our methods on two different datasets, to assess the capacity of our method to adapt automatically to different subsets.

Pas de séminaire les 23 février et 2 mars 2018 (vacances scolaires).

  • 16/02/2018 : A constrained kernel density estimator for location-scale mixture models based on copulas Gildas Mazo (MaIAGE, INRA)
Résumé : In this communication we shall present copula-based semiparametric mixture models as a way to model heterogeneous populations. Copulas can cope with complex dependence structures while the nonparametric estimation of the marginals alleviate one's effort in the modeling task. Estimation is performed by two EM-like algorithms and one of them will be shown to perform better by taking into account the inherent structure of the problem into account.
  • 9/02/2018 : Maladie de Parkinson: une entité cliniquement définie, une seule entité étiologique ? Maria Martinez (INSERM Toulouse) diaporama
Résumé : Élucider la relation génotype-phénotype d'une maladie hétérogène et complexe, comme la maladie de Parkinson (PD), est l'un des défis majeurs pour le démembrement de son étiologie. La caractérisation génomique de patients ou sous-groupes de patients est une étape clé vers l'amélioration de l'utilité de la médecine génomique et de la précision de l'estimation du risque/progression de la maladie. S'affranchir de la simple stratification empirique des patients soulève plusieurs défis du fait du mélange de types de données (binaires, catégorielles, quantitatives ; longitudinales ou pas) et de la haute dimensionnalité des données, combinées ou pas aux données pan-génomiques. Après une revue de l'épidémiologie, des symptômes cliniques et outils de diagnostique de PD, des succès récents des méta-GWAS et aussi de leurs limites, j'exposerai un projet qui vient de débuter dont l'objectif général est d'identifier des sous-groupes de patients dans lesquels les mécanismes biologiques impliqués pourraient être plus homogènes. Le design d'étude repose sur le développement d'analyses de clustering et de modèles linéaires multivariés à effets mixtes. Les avantages et limites de chaque approche seront discutés.
  • 2/02/2018 : Metagenomic and clinical impact Nicolas Pons (MetaGénoPolis, INRA Jouy-en-Josas)
Résumé : The human body is inhabited by many different microbial communities, which are especially abundant (~2kg) in the gut. The intestinal microbiota is now considered as an organ and plays a major role in health and disease. Perturbation of this ecosystem could be responsible for a plethora of multifactorial complex diseases such as obesity, diabetes and cancer, for which few curative approaches exist. Recently the new science of metagenomics emerged along with the appearance of high-throughput sequencing technologies. Metagenomics constitutes a powerful “microscope” that allows us to characterize composition, properties and dynamics of a microbial ecosystem by studying their genetic repertoire (the metagenome). This is helping our holistic view of complex microbial ecosystems as well as our understanding of their role in human diseases. Considerable effort from the scientific community in the context of international consortiums have already shown the importance of gut microbiota in diseases such as obesity, diabetes, liver cirrhosis and others are ongoing. However, many problems are yet to be solved such as data processing of increasingly bigger datasets as well as the misadaptation of actual bio-statistical approaches. Indeed actual statistical methods are not well adapted in problems such as variable selection in a context of a big dimensions and complex interdependence. Even though metagenomics offers a great potential in exploring and understanding the role of microbial ecosystems in human health, this research field needs strong interdisciplinary collaborations between clinicians, biologists, bioinformaticians and biostatisticians.
  • 26/01/2018 : Exact and Approximate Inference in Graphical Models -- Variable Elimination and beyond Régis Sabbadin (MIAT, INRA)
Résumé : Dans cet exposé, qui se veut didactique, je présenterai le cadre des modèles graphiques stochastiques, utilisé pour la représentation de connaissances incertaines. Ce modèle, très général, regroupe la plupart des modèles stochastiques à variables de domaines finis (chaines de Markov, HMM, Réseaux Bayesiens, Champs Markoviens...). Je présenterai les questions d'inférence (calcul de mode, de marginales) classiquement associées à ce cadre, ainsi que des outils algorithmiques basiques d'inférence exacte ("variable elimination") et approchée ("(loopy) belief propagation") applicables pour résoudre ces questions. Cette présentation est basée sur l'article suivant: N. Peyrard et al. Exact and approximate inference in graphical models: variable elimination and beyond, 2017. https://arxiv.org/pdf/1506.08544.pdf
  • 19/01/2018 : Maximum du mouvement brownien réfléchi sur un horizon fini et autres quantités d'intérêt - Application au score local Agnès Lagnoux (Institut de Mathématiques de Toulouse)
Résumé : Le score local est un outil probabiliste très utilisé par les biologistes pour comparer ou étudier les séquences d'acides aminés ou de nucléotides comme l'ADN. En modélisant le score local à l'aide d'une marche aléatoire et après normalisation, le processus à temps continu sous-jacent est le mouvement brownien. Nous étudions notamment le maximum du mouvement brownien réfléchi afin d'en déduire des propriétés sur le score local. Travail en collaboration avec Claudie Chabriac, Sabine Mercier et Pierre Vallois.
  • 12/01/2018 : Algorithmes gradient-proximaux pour l'inférence statistique Gersende Fort
Résumé : L'estimation statistique sous contraintes comme l'approche bayésienne de l'estimation statistique, peuvent être vues comme un problème d'optimisation d'une fonction objectif se décomposant en la somme d'un terme explicite, et d'un terme non calculable de façon exacte. Le bien-fondé des solutions algorithmiques proposées reste souvent un problème ouvert. Après avoir introduit des motivations en inférence statistique dans des modèles à vraisemblance non explicite (modèles à données cachées, ou modèles de Gibbs avec constante de normalisation incalculable), nous présenterons tout d'abord des solutions algorithmiques exploitant des techniques d'optimisation d'ordre 1, pour répondre à ces problèmes d'optimisation dans le cas où la fonction objectif est la somme d'un terme régulier de gradient non explicite mais approchable par des techniques Monte Carlo, et d'un terme convexe dont l'opérateur proximal associé est explicite. Nous donnerons ensuite des résultats de convergence dans le cas où la fonction objectif est convexe, et où la perturbation Monte Carlo dans l'approximation du gradient est biaisée (l'intérêt de cela étant de traiter des approximations Monte Carlo de type "par Chaînes de Markov (MCMC)"). Nous commenterons notamment le lien avec les algorithmes d'Approximation Stochastique. Enfin, nous discuterons des conséquences de ces résultats théoriques sur la mise en oeuvre de l'algorithme : lien entre pas d'apprentissage et nombre de points Monte Carlo; techniques d'accélération à la Nesterov.
  • Vendredi 5 janvier : soutenance de thèse de Franck Cerutti Évolution et coévolution des petits ARNs régulateurs et des gènes codants chez les bactéries

La soutenance aura lieu à partir de 14h, salle Marc Ridet (INRA Toulouse).

Pas de séminaire du 23 décembre au 5 janvier (vacances scolaires).

  • 22/12/2017 : La génétique des populations “non usuelle” Diane Bailleul
Résumé : Les modèles de génétique des populations ne considèrent que les cas extrêmes : reproduction strictement sexuée, reproduction asexuée, équilibre d’Hardy-Weinberg... Et pourtant, la clonalité partielle est un trait d’histoire de vie largement répandu dans l’Arbre du vivant. Les espèces cultivées subissent des pressions anthropiques qui altèrent les cycles de vie. Les espèces marines à large taille de populations et à fort potentiel de migration ne montrent généralement pas de structuration génétique, même lorsque les données de tags indiquent des stocks séparés. Comprendre la dynamique et l’évolution de ces espèces marginales du point de vue des modèles de génétique est donc un défi majeur pour la préservation des écosystèmes variés auxquelles elles se rattachent. Le package RClone a été créé pour gérer les jeux de données partiellement clonaux, permettant (i) de vérifier la fiabilité de l'ensemble de données pour discriminer les génotypes multi-locus (MLG), (ii) la détermination de MLG et la détermination semi-automatique des lignées clonales (iii) le calcul des indices de richesse et d’uniformité basé sur les MLG ou les MLL, et (iv) la description de plusieurs composantes spatiales de la clonalité. Une amélioration majeure par rapport aux logiciels existants est la capacité à déterminer le seuil permettant de regrouper des MLG similaires en MLL sur la base de simulations. A l’échelle d’un agroécosystème, l’étude de données génotypiques couplées à des méthodes d’assignations aux variétés commerciales existantes a permis de mettre en évidence un lien entre la diversité variétale des champs de colza cultivés et la diversité variétale des populations férales de l’année suivante. La modélisation des flux efficaces de graines par une méthode de maximum de vraisemblance a permis d’identifier des dynamiques de dispersion locales au sein des agroécosystèmes. Les distances moyennes de dispersion estimées varient de la dizaine de mètres au kilomètre. Le requin peau bleu est un top prédateur pélagique avec l’une des aires de distribution les plus large. L'analyse génétique de plus de 200 échantillons a permis de détecter des signatures de goulots d'étranglement génétiques mais une homogénéité génétique quasi-complète. Cette panmixie apparente pourrait être expliquée par un effet de retard génétique, illustré par des simulations de changements démographiques non détectables par l'analyse génétique standard avant une longue phase de transition introduite ici comme la « population grey zone ». Ces résultats peuvent englober des scénarios explicatifs distincts s'étendant d'une population démographique unique à plusieurs populations indépendantes. Cette limitation empêche la délimitation génétique des stocks et donc la capacité d'anticiper les conséquences des appauvrissements sévères à toutes les échelles.
  • Lundi 18 décembre : soutenance de thèse de Clément Viricel Contributions au développement d'outils computationnels de design de protéines : méthodes et algorithmes de comptage avec garantie

La soutenance aura lieu à partir de 10h à l'INSA de Toulouse (amphithéâtre Fourier) et sera suivie d'un pot dans la salle de repos du bâtiment GPE de l'INSA à 16h.

  • Pas de séminaire le 15 décembre : soutenance de thèse de Jérôme Mariette. Apprentissage statistique pour l'intégration de données omiques

La soutenance aura lieu à partir de 13h30 à l'INSA de Toulouse (salle des thèses) et sera suivie d'un pot dans le hall génome de l'INRA de Toulouse.

  • 8/12/2017 : Quelques problèmes d'optimisation sous contraintes de la vigne à la cave Philippe Vismara (LIRMM, Montpellier SupAgro)
Résumé : Dans cet exposé nous verrons quelques applications de la Programmation par Contraintes à des problèmes en viticulture et en œnologie : l'assemblage de vin sous contraintes, l'optimisation du trajet en vendange sélective ou d'autres problèmes de tournées qui nous ont amenés à définir une nouvelle contrainte de circuit adaptée aux tournées incomplètes.
  • 1/12/2017 : Modélisation probabiliste de la co-évolution dans les communautés proies-prédateurs Manon Costa (Institut de Mathématiques de Toulouse)
Résumé : Dans cet exposé nous étudions la co-évolution de phénotypes de proies et de prédateurs sous l'effet de la sélection naturelle. Nous présenterons plusieurs modèles pour étudier ce problème, tout d'abord en utilisant des échelles de temps proche des dynamiques adaptatives puis en s'intéressant à des communautés de type arbres-insectes dans lesquelles les dynamiques des prédateurs sont plus rapides que celles de leurs proies.
  • 24/11/2017 : Techniques for de novo genome and metagenome assembly Rayan Chikhi (CNRS, Université de Lille) diaporama
Résumé : This talk will cover recent techniques in genome and metagenome de novo assembly for Illumina data. It will provide insights into what assembly quality to expect, and the implications for secondary analysis. It can be useful to understand what assemblers do, in order to set expectations with respect to how repetitions are handled, why coverage is imperfect, whether strain-variation is kept, etc. I'll present our resource-efficient genome and metagenome assembly pipeline, Minia 3, and also discuss other assemblers (SPAdes, MEGAHIT). Some technical ingredients that will be covered are: fast unitigs construction, multi-k assembly, assembly graph simplifications.
  • 17/11/2017 : Cross-validation issues in genomic selection Andres Legarra-Albizu (GenPhySE, INRA, Toulouse)
Résumé : Performance of genomic selection is typically evaluated by cross-validation. In this work we review and point out some problems and features of the cross-validation metrics, including which statistics should be used, how to split the data, and problems of precorrected data. Then we propose a semiparametric alternative using statistics derived from the "Method R".
  • 10/11/2017 : Revue des travaux réalisés dans le projet Sal Host Trop Ludovic Mallet (MIAT)
Résumé : Host tropism and host-pathogen interplay of typhoidal Salmonella enterica The species Salmonella enterica is one of the most prevalent human and animal pathogens, it includes Non Typhoïdal Salmonella (NTS) serovars like Typhimurium and Enteridis, that are generalist pathogens with broad host specificity and Typhoïdal Salmonella (TS) serovars, like Typhi and Paratyphi A, that are specialized pathogens strictly adapted to the human host and the cause of an invasive, dangerous disease known as enteric (typhoid) fever. The SalHostTrop project aims at identifying, characterizing and understanding the human-restricted tropism of Typhoidal Salmonella (TS) using comparative dual-RNAseq sequencing and other complementary approaches. We combine state of the art genome and transcriptome sequencing methods to decipher the molecular basis of host-tropism in clinical strains. We contrast the comparative genomics and differential expression analyses to explore and assess the variability and plasticity of pathogenesis routes among and between typhoidal and non-typhoidal serovars. We present our on-going work including the Pacbio long-read genomic sequencing, assembly and annotation of a new S. Typhi strain (120130191) and the dual RNAseq data analysis of a pilot experiment of S. Typhimurium and S. Paratyphi A during human epithelial cells infection. The new S. Typhi strain includes one circularized complete chromosome and one plasmid of about 4.78 Mb with 4638 coding genes and 106.7 kb with 128 coding genes, respectively. The dual RNAseq pilot first analyses demonstrate the feasibility of the protocol to target both pathogen and host transcripts simultaneously during infection. We also built a S. enterica subsp. enterica reference phylogenetic tree from the super-alignment of Salmonella core genes in 214 complete genomes of various serotypes that is in agreement with previous studies and will be used to explore pseudogene content of serotypes according to their evolutionary history.

Pas de séminaire les 27 octobre et 3 novembre (vacances scolaires).

  • 20/10/2017 : Sensibilité des peupliers à la flexion : Analyse transcriptomique et inférence de réseau de gènes Lise Pomies (MIAT)
Résumé : Les arbres sont capables de percevoir les flexions de leur tronc et branches causées par le vent et d’y répondre. Au niveau physiologique la réponse se traduit par des modifications de croissances et de structure du bois. Au niveau moléculaire, seuls quelques acteurs de cette réponse ont été identifiés à des temps très précoces. Mes travaux de thèse consistaient à : (1) Caractériser et comprendre la réponse transcriptomique du peuplier à la flexion à partir de mesures cinétiques de l’expression obtenues avec des puces ADN. (2) Modéliser le réseau de régulation de gènes contrôlant cette réponse, bien que le ratio nombre de gènes sur nombre de mesures de l’expression était très défavorable à cette modélisation.

Pas de séminaire le 13/10 pour cause d'invité le 09/10.

  • 09/10/2017 à 11h : Overview of first-order optimization methods for the LP relaxation of the Weighted CSP Problems: classification, experience, comparison Bogdan Savchynskyy and Stefan Haller (Heidelberg University, Allemagne)
Résumé : We will review a majority of existing solvers for the local polytope relaxation of the weighted constraint satisfaction problem. The problem is also known as maximum a posteriori/maximum probable explanation inference in undirected graphical models. The relaxation is often referred to as "linear programming (LP) relaxation". We will consider several dual formulations of the relaxation and treat them as unconstrained large-scale concave problems. The core of our talk is a comparison of approximate solvers for this problem. These solvers are based on subgradient, proximal point, smoothing and block-coordinate descent techniques. Based on the comparison, we will conclude about key properties of an "ideal" (so far non-existing) solver.

Pas de séminaire le 6 octobre (journée RECORD).

  • 29/09/2017 : Vers une prévision des incertitudes en météorologie Laure Raynaud (Météo France)  diaporama
Résumé : Malgré les progrès réguliers des prévisions météorologiques, celles-ci demeurent imparfaites et, surtout, incertaines. Ces erreurs de prévision combinent de façon indissociable les imperfections des observations, d'autres de la modélisation, qui peuvent faire l’objet d'améliorations sans pouvoir être totalement supprimées. C'est pourquoi on affiche parfois une confiance limitée dans les prévisions annoncées : les prévisions sont incertaines et l'intérêt pour quantifier cette incertitude ne cesse de grandir. Pour ce faire, le recours à des techniques de prévision probabiliste s'impose. Après quelques quelques rappels autour de la notion de prévisibilité de l'atmosphère, on présentera les méthodes probabilistes mises en oeuvre quotidiennement dans les centres de prévision opérationnels, ainsi que l'information utile que les utilisateurs peuvent en retirer.
  • 22/09/2017 : Annotating long non-coding RNAs in model and non-model organisms using a Random Forest strategy Valentin Wucher (CRG, Barcelone, Espagne) diaporama
Résumé : Le séquençage du transcriptome (RNA-seq) est devenu un standard pour identifier et caractériser les différentes populations d'ARN. Néanmoins, l'une des principales difficultés consiste à pouvoir classer les nouveaux transcrits et notamment différencier les ARN qui seront traduits en protéines (ARNm/mRNA) des ARN longs non-codants (ARNlnc/lncRNA). Dans ce but, nous avons développé FEELnc (FlExible Extraction of LncRNAs), un programme ne nécessitant pas d'alignements de séquences (alignment-free) et qui permet d'annoter les ARNlnc via une stratégie Random Forest basée/entraînée sur les fréquences de multiples k-mer et une définition d'ORF relâchée. Comparées avec 5 autres méthodes, les performances de FEELnc montrent des résultats similaires ou meilleurs sur des jeux de données connus de lncRNA/mRNAs issus de l'annotation de référence GENCODE (homme et souris) et NONCODE (base de données d'ARNlnc chez des espèces non-modèles). FEELnc automatise aussi l'annotation des ARNlnc en sous-classes distinctes (génique et intergéniques) et permet d'identifier des ARNlnc même sans séquences d'ARN longs non-codants en apprentissage, ce qui permet son utilisation pour des espèces non-modèles. FEELnc a été utilisé chez 3 espèces non-modèles : le chien, le poulet et l'algue (Ectocarpus), permettant l'identification de plusieurs ARNlnc.
  • 15/09/2017 : Mesures de dépendance et échantillonnage Monte-Carlo multi-niveaux pour la quantification d'incertitudes et l'analyse de sensibilité Matthias De Lozzo (CERFACS Toulouse) diaporama
Résumé : Les outils de quantification d'incertitudes et d'analyse de sensibilité permettent d'étudier l'impact des paramètres incertains d'un simulateur numérique sur sa sortie (moments centraux, quantiles, probabilités de dépassement de seuil, parts de variabilité de la sortie imputables aux différents paramètres, etc.). Requérant un nombre important d'évaluations du simulateur, il est courant de remplacer ce dernier par un modèle de substitution (krigeage, chaos polynomial, ...). Néanmoins, une erreur de métamodèle vient dans ce cas s'ajouter à celle d'échantillonnage. Pour palier ceci, cet exposé présente deux types de travaux récents et en cours se passant de métémodèle. Un premier consiste à remplacer les indices de sensibilité usuels par des nouveaux basés sur des mesures de dépendance s'appuyant sur la théorie des RKHS et moins gourmand en simulations. Un second vise à remplacer les méthodes d'échantillonnage de type Monte-Carlo par des méthodes d'échantillonnage de type Monte-Carlo multi-niveaux faisant appel à des évaluations de versions dégradées et plus rapides du simulateur. Ces travaux sont appliquées à des problématiques de sciences de l'environnement.
Résumé : Integrating the increasing number of available multi-omics cancer data remains one of the main challenges to improve our understanding of cancer. Our approach is based on AMARETTO, an algorithm that integrates DNA methylation, DNA copy number and gene expression data to identify cancer driver genes and associates them to modules of co-expressed genes. We then propose a pancancer version of AMARETTO by connecting all modules in pancancer communities. This leads to the identification of major oncogenic pathways and master regulators involved in different cancers.

Séminaires passés / Past seminars  :

Lien vers la Liste des séminaires passés de l'unité MIAT.

Contacts:

Si vous souhaitez présentez vos travaux durant le séminaire MIAT, n'hésitez pas à contacter Victor Picheny ou Nathalie Villa-Vialaneix.

Génotoul BioInfo
Équipe RECORD
IMABS
Outils personnels