Séminaires

De MIAT INRA
Révision datée du 5 décembre 2018 à 11:38 par Mazytnicki (discussion | contributions) (Séminaires de l'année en cours et séminaires futurs  :)
Aller à : navigation, rechercher

Séminaires de l'unité MIAT :

Pyrenees-morning.jpg

Le séminaire de l'équipe MIAT de l'INRA de Toulouse est un endroit d'échanges scientifiques et techniques entre les membre de l'unité et des experts en mathématiques, informatique, agro-écosystèmes, bioinformatique, etc. Les présentations peuvent être sur des travaux en cours, des projets finalisés hautement spécialisés ou à valeur plus éducative / informationnelle. Les aspects mis en avant peuvent être d'ordre méthodologique ou applicatif.

Les présentations peuvent être en français ou en anglais pour une durée d'une heure (45min + questions). Sauf contre-indication, les séminaires ont lieu dans la salle de réunion MIAT à 10h30 le vendredi. L'accès à l'unité MIAT de l'INRA Auzeville/Castanet est indiqué ici (nous sommes à moins de 30 mètres de la réception !).



Séminaires de l'année en cours et séminaires futurs  :

Pas de séminaire le 1er et 8 mars (vacances scolaires)

  • 21/02/2019 : Au-delà des conteneurs : Environnements logiciels reproductibles avec GNU Guix. Ludovic Courtès (INRIA Bordeaux, SED).
Résumé : La reproductibilité des expériences impliquant du logiciel est un enjeu scientifique majeur. Docker et Singularity peuvent répliquer un environnement logiciel mais permettent difficilement d’aller au-delà et d’expérimenter. Peut on concilier reproductibilité et expérimentation pour les environnements logiciels ? GNU Guix est comparable à apt-get, yum ou CONDA, mais il fournit des binaires reproductibles et un suivi de leur provenance. Il peut aider à la gestion d’environnements comme VirtualEnv ou encore provisionner des conteneurs. J’évoquerai notre expérience avec Guix en calcul intensif (HPC) et son positionnement par rapport à des outils comme Singularity ou EasyBuild. Enfin j'expliquerai comment nous cherchons à intégrer la notion de déploiement au cœur d’applications telles que Jupyter ou les outils de gestion de pipelines. Liens : https://guix-hpc.bordeaux.inria.fr/ et https://gnu.org/s/guix
  • 1/02/2019 : Sociétés rurales du passé et du présent : Une approche par Modélisation sociale multi-agents spatialisée. Medhi Saqalli (UMR GEODE, CNRS).
  • 25/01/2019 : Titre à venir. Sabine Mercier (UT2J, IMT).
  • 18/01/2019 : Classification des essences arborées à partir de séries temporelles d'images satellitaires. David Sheeren (ENSAT, Toulouse).
  • 11/01/2019 : Titre à venir. Sylvie Doutre(Université Toulouse 1, UMR IRIT).
  • Exceptionnellement mardi 8/01/2019 : Une méta-analyse transcriptomique identifie une réponse globale aux stress chez la plante modèle Arabidopsis. Marie-Laure Martin-Magniette (MIA Paris & IPS2).
Résumé : La réponse des plantes aux stress est contrôlée par de nombreux réseaux d’interactions moléculaires. Au niveau transcriptomique, ces réseaux peuvent être explorés par des approches de « coupable par association » pour identifier des modules fonctionnels contrôlant la physiologie de la plante. La quantité des jeux transcriptomiques disponibles dans les bases de données publiques internationales constituent une ressource génomique importante mais leur diversité peut également être considérée comme une limitation pour des méta-analyses car les jeux de données peuvent être très hétérogènes dans leur construction. Pour limiter cet inconvénient, dans notre projet, nous avons considéré presque 400 comparaisons transcriptomiques décrivant des réponses aux stress de la plante modèle Arabidopsis thaliana, toutes produites au cours des 15 dernières années par la plateforme de notre institut avec des protocoles standardisés (Gagnot et al (2008) NAR 36:D986-90). Ces comparaisons ont été divisées en 18 catégories (9 stress biotiques et 9 stress abiotiques) et pour chaque catégorie, nous avons identifié des groupes de gènes co-exprimés à l’aide d’un modèle de mélange gaussien. Au total, 634 groupes de co-expression ont été identifiés et leur annotation a montré de nombreux enrichissements fonctionnels. Tous les résultats par catégorie de stress sont disponibles dans le module GEM2Net (https://tools.ips2.u-psud.fr/GEM2NET) de la base de données CATdb (Zaag et al (2015) NAR 43:D1010–D1017). Les analyses de co-expression étant faites par catégorie de stress, nous les avons ensuite intégrées pour construire à l’aide de modèle de mélange de graphes un réseau de co-régulation impliquant 2274 gènes regroupés en 43 communautés stables. Une analyse topologique de ce réseau de co-régulation a permis d’identifier 4 grandes fonctions biologiques et une organisation hiérarchique entre ces 4 grandes fonctions qui est la réponse globale aux stress des plantes. L’objectif de cet exposé est de présenter les différentes étapes de ce projet, la méthodologie employée et l’apport de la modélisation statistique.

Pas de séminaire les 21 et 28 décembre, ainsi que le 4 janvier (vacances scolaires)

  • 14/12/2018 : Les temps de coalescence pour trois gènes permettent de distinguer entre changement de taille et structure. Simona Grusea (INSA Toulouse).
Résumé : La quantité croissante de données génomiques actuellement disponibles élargit les horizons de l'inférence en génétique des populations. Un large éventail de méthodes a été publié permettant de détecter et de dater les changements majeurs dans la taille d'une population au cours de l'histoire de l'espèce. En même temps, il est de plus en plus reconnu que la structure d'une population peut générer des données génétiques similaires à celles générées dans les modèles de changement de taille. Récemment, nous avons montré que, quel que soit le modèle de structure de population, il est toujours possible de trouver un modèle panmictique, avec une fonction particulière de changement de taille, ayant une distribution identique de Tk (le premier temps de coalescence pour un échantillon de taille k). Cela implique que l'on ne peut pas distinguer entre un modèle panmictique et un modèle structuré lorsque nous basons notre analyse uniquement sur un seul temps de coalescence. Je présenterai dans cet exposé un travail récent dans lequel, basé sur une étude analytique de la matrice de taux du processus des lignées ancestrales, nous obtenons de nouveaux résultats théoriques sur la distribution jointe des temps de coalescence T3 et T2 pour un échantillon de trois gènes dans une modèle à n îles symétrique. En particulier, nous montrons que cette distribution est toujours différente de celle obtenue dans une population panmictique, quel que soit le scénario de changement de taille de population. La distribution jointe des temps de coalescence (T3, T2) pour un échantillon de trois gènes contient donc suffisamment d'information pour permettre de distinguer entre une population panmictique et un modèle à n îles symétrique.
  • 07/12/2018 : Recent algorithmic advances for combinatorial optimization in graphical models. Simon de Givry (MIAT).
Résumé : By representing the constraints and objective function in fac-torized form, graphical models can concisely define various NP-hard combinatorial optimization problems. They are therefore extensively used in several areas of computer science and artificial intelligence. Graphical models can be deterministic or stochastic, optimize a sum or product of local functions, defining a joint cost or probability distribution. Simple transformations exist between these two types of models, but also with MaxSAT and integer programming. During the past ten years, we have been developing a graphical model solver called toulbar2 and we report on a large comparison of exact solvers which are all state-of-the-art for their own target language. We present recent algorithmic advances in toulbar2 including generalized clique cuts and parallel variable neighborhood search methods that make the solver very competitive on several benchmarks coming from probabilistic inference, computer vision and pattern recognition, weighted MaxSAT, and weighted MaxCSP competitions. Solver toulbar2 is available at http://www.inra.fr/mia/T/toulbar2.
  • 30/11/2018 : Inférence de traits fonctionnels à partir de données métagénomiques par NMF. Sandra Plancade (INRA MAIAGE, ISBA Louvain)
Résumé : La métagénomique étudie le matériel génétique d'un écosystème bactérien, qui désigne l'ensemble des bactéries présentes dans un milieu donné, dans le but de caractériser l'écosystème et les fonctions qui y sont réalisées, ainsi que leur association avec des phénotypes. Dans ce contexte, la NMF (Nonnegative Matrix Factorization), une technique de réduction de dimension sous contraintes de positivité, permet simultanément la comparaison d'échantillons biologiques et l'inférence de structures existantes dans l'écosystème. Dans cet exposé, je présenterai une méthode d'exploration des voies métaboliques associées au processus de digestion des fibres, à partir de mesures métagénomiques dans l'intestin. Cette approche s’appuie sur la construction préalable d’une liste de traits fonctionnels élémentaires caractérisés par un groupe de gènes microbiens, à partir d’une base d’annotation fonctionnelle rassemblant des connaissances biologiques. Une matrice d'abondances en traits fonctionnels pour un ensemble d’individus est alors calculée à partir de mesures métagénomiques. Le modèle biologique considéré suppose l’existence de voies métaboliques caractérisées par une proportion en chacun des traits fonctionnels, et de profils métaboliques individuels définis par une composition en chacune des voies, ce qui correspond à une décomposition NMF. La modélisation est complétés par des contraintes permettant l'inclusion de connaissances biologiques et biochimiques.
  • 23/11/2018 : Viability theory and management of sustainability.  Guillaume Deffuant (IRSTEA, LISC)
Résumé : This talk introduces viability theory and its potential in the management of sustainability. Viability theory addresses the problem of maintaining a dynamical system within a given subset of states, generally called the constraint set. Instead of optimising a criterion, the control strategy thus aims at avoiding crossing the limits of this constraint set. In the case of deterministic dynamics, the main theoretical concept of this theory is the viability kernel. This set includes all states from which there exists a control strategy maintaining the system indefinitely in the constraint set. Different viable control policies can be derived from the viability kernel, which makes this set of high practical interest. The viability kernel has also been used in a mathematical definition of resilience: the resilient states are the ones from which the viability kernel is reachable. Recently, this theory has been completed by other types of sets in a general theory of sustainable management, when making the hypothesis that standard or emergency controls can be applied depending on the situation. The practical application of these theories depends on the algorithms approximating viability kernels and reachable sets, which, unfortunately, face the famous dimensionality curse. The talk finally reports recent progress in improving these algorithms and some remaining challenges.
  • 16/11/2018 : How much maths does a biologist need, and vice versa? Toni Reverter-Gomez (CSIRO, Australie) en salle de conférence Marc Ridet
Séminaire IMABS
Résumé : “Every new body of discovery is mathematical in form, because there is no other guidance we can have” (Charles Darwin, 1809–1882). Biology is now awash with information, often with gigabytes of molecular data (DNA sequences; RNA expression levels; protein, metabolic, and methylation profiles) for each individual in a study. Hidden within this vast mass of data are hopefully strong signals that can be exploited for novel insight, and the search for such signals goes under a number of different names such as bioinformatics and systems biology. A number of molecular biologists are very proficient in generating such data, but only a handful of researchers have the requisite skills to develop and use the next generation of high dimensional statistics needed to find true associations. From a diametrically opposed side, Mathematicians have devoted enormous efforts to develop quantitative theory of the structure, organization, and dynamics of living systems. Questions such as at what speed should humans change from walking to running? Or how should an individual animal divide its resources, between growth and reproduction, to maximize its fitness? Are illuminated by the powerful methods of optimization theory. With a preference for quantitative genetics and genomics, in this seminar I will offer an opinionated overview of positives, and not so positives synergies between biology and mathematics.
  • Exceptionnellement mercredi 7/11/2018 : Inference for high-dimensional Poisson regression problems. Vincent Rivoirard (Université Paris-Dauphine, CEREMADE).
Résumé : Sparse linear regression problems appear in a variety of settings, but often the noise contaminating observations cannot accurately be described as bounded by or arising from a Gaussian distribution. Poisson observations in particular are a characteristic feature of several real-world applications. Previous work on sparse Poisson regression problems encountered several limiting technical hurdles. This talk describes a novel alternative analysis approach for sparse Poisson inverse problems that (a) sidesteps the technical challenges present in previous work, (b) admits estimators that can readily be computed using off-the-shelf LASSO algorithms, and (c) hints at a general weighted LASSO framework for broad classes of problems. At the heart of this new approach lies a weighted LASSO estimator for which data-dependent weights are based on Poisson concentration inequalities. Unlike previous analyses of the weighted LASSO, the proposed analysis depends on conditions which can be checked or shown to hold in general settings with high probability.

Pas de séminaire le 2 novembre (vacances scolaires)

  • 26/10/2018 : De la recherche à l'innovation à l'INRA. Exemple du domaine d'Innovation "Agriculture Numérique". Denis Allard (BioSP -- CPI Agriculture Numérique, Dept. MIA, INRA)
Résumé : Le domaine d'innovation (DI) "Agriculture de Précision", comme les 15 autres domaines de l'innovation définis à l'INRA sont l'un des éléments de la politique partenariat-transfert-innovation (PTI) mise en place à l'INRA depuis 2015 environ. Après avoir rappeler quelques éléments généraux concernant la PTI de l'INRA, et les missions couvertes par un DI, je détaillerai quelques enjeux de recherche relevant du DI "Agriculture Numérique".
  • 19/10/2018 : Séminaire remplacé par la soutenance de thèse de A. Imbert: Intégration de données hétérogènes complexes à partir de tableaux de tailles déséquilibrées qui débutera à 14h en salle Marc Ridet
Résumé : Les avancées des nouvelles technologies de séquençage ont permis aux études cliniques de produire des données volumineuses et complexes. Cette complexité se décline selon diverses modalités, notamment la grande dimension, l'hétérogénéité des données au niveau biologique (acquises à différents niveaux de l'échelle du vivant et à divers moments de l'expérience), l'hétérogénéité du type de données, le bruit (hétérogénéité biologique ou données entachées d'erreurs) dans les données et la présence de données manquantes (au niveau d'une valeur ou d'un individu entier). L'intégration de différentes données est donc un défi important pour la biologie computationnelle. Cette thèse s'inscrit dans un projet de recherche clinique sur l'obésité, DiOGenes, pour lequel nous avons fait des propositions méthodologiques pour l'analyse et l'intégration de données. Ce projet est basé sur une intervention nutritionnelle menée dans huit pays européens et vise à analyser les effets de différents régimes sur le maintien pondéral et sur certains marqueurs de risque cardio-vasculaire et de diabète, chez des individus obèses. Dans le cadre de ce projet, mes travaux ont porté sur l'analyse de données transcriptomiques (RNA-Seq) avec des individus manquants et sur l'intégration de données transcriptomiques (nouvelle technique QuantSeq) avec des données cliniques. La première partie de cette thèse est consacrée aux données manquantes et à l'inférence de réseaux à partir de données d'expression RNA-Seq. Lors d'études longitudinales transcriptomiques, il arrive que certains individus ne soient pas observés à certains pas de temps, pour des raisons expérimentales. Nous proposons une méthode d'imputation multiple hot-deck (hd-MI) qui permet d'intégrer de l'information externe mesurée sur les mêmes individus et d'autres individus. hd-MI permet d'améliorer la qualité de l'inférence de réseau. La seconde partie porte sur une étude intégrative de données cliniques et transcriptomiques (mesurées par QuantSeq) basée sur une approche réseau. Nous y montrons l'intérêt de cette nouvelle technique pour l'acquisition de données transcriptomiques et l'analysons par une approche d'inférence de réseau en lien avec des données cliniques d'intérêt.
  • 12/10/2018 : Inférence de données de réseaux multipartites par modèles à blocs latents et stochastiques. Application en écologie et ethnobiologie. Sophie Donnet (MIA Paris, INRA)
Résumé : Modéliser les relations entre entités (individus, insectes, plantes...) est une problématique classique en sciences sociales et en écologie et regrouper les entités étudiées en fonction des motifs observés dans le réseau permet de comprendre la topologie du réseau. Les modèle à blocs stochastiques ou latents sont une approche répandue pour regrouper les individus partageant le même comportement d'interaction. Dans ce travail, nous nous intéressons au cas où nous cherchons à modéliser des réseaux multipartites, i.e. des réseaux dans lesquels les entités appartiennent à des groupes fonctionnels prédéfinis. Les modèles à blocs stochastiques ou latents reposent sur l'introduction des variables latentes, rendant leur vraisemblance incalculable de façon explicite dès que la taille des réseaux augmente. Nous utilisons alors une version stochastique de l'algorithme EM. La pertinence de notre modèle et de notre méthode d'inférence est illustrée sur données simulées et réelles.
  • 05/10/2018 : Input output kernel regression for protein-protein interaction prediction and metabolite identification. Céline Brouard (INRA, MIAT) diaporama
Résumé : Many real world learning tasks require predicting outputs that correspond to complex structured objects or to multiple interdependent outputs. Structured prediction approaches making use of the statistical  dependencies between the output parts, have been shown to achieve an improved prediction performance in several applications. I will present  a kernel-based structured output prediction approach, called Input Output Kernel Regression. In this approach the internal structure of the output data is encoded using a kernel function, that measures the similarity between two outputs. This approach is based on the idea of  using the kernel trick in the output space and making predictions in a feature space associated with the output kernel. I will focus in my presentation on two applications of this work. The first application is the prediction of protein-protein interactions. Another application will be presented on the metabolite identification problem, that consists in determining the molecular structure of an  unknown metabolite from tandem mass spectrometry data.
  • 28/09/2018 : La plateforme Souk. Gilles Tredan (LAAS, Toulouse)
Résumé : Depuis 2012, une partie de nos recherches porte sur la caractérisation des structures d’interaction sociales. Nous avons pour cela développé une plateforme d’observation sociale des « cinétiques » humaines : SOUK (Social Observation of hUman Kinetics). Le principe de cette plateforme est de pouvoir collecter avec une grande précision spatiale et temporelle la position des individus d’une foule dense. SOUK fonctionne à la manière d’un GPS inversé plutôt précis (15cm) et rapide (1-4 hz). Grâce à ce système, il est possible de suivre le déplacement de groupes d'individus (jusqu'à 60 personnes) dans des espaces délimités, et d’analyser les mobilités et interactions au sein de ces groupes. Cet outil a été déployé lors de plusieurs campagnes expérimentales à Toulouse et à Milan dans des contextes variés : personnes dans une foule, danseurs, évènements sociaux (buffets), animaux au sein d’un troupeau... Lors de cette présentation a vocation panoramique, j'aborderai quelques résultats et perspectives issus de l’analyse des données ainsi collectées.
  • 21/09/2018 : Données de la recherche… Vers l’ouverture Nathalie Gandon (CODIR - Département MIA, INRA) diaporama
Résumé : Présentation des contextes (international, national et institutionnel), du cadre juridique et des offres de service inra autour de l’open data.
  • 14/09/2018 : Inférence des causes de la reprogrammation cellulaire par abduction Franck Delaplace (IBISC, Université d'Evry) diaporama
Résumé : La médecine de réseau a pour objectif de définir la maladie à l’échelle des réseaux biologiques afin de mieux comprendre les mécanismes causaux de celle-ci. Des études dans ce domaine ont montré que la reprogrammation comportementale observée dans des maladies complexes telles que le cancer est causée par une modification du câblage du réseau moléculaire. La transition entre cellule saine et malade et inversement peuvent s'interpréter à l'échelle moléculaire comme une reprogrammation cellulaire induite par des perturbations topologiques des réseaux moléculaires induisant des changements du destin cellulaire. Pour la modélisation, l’objectif est d’inférer les actions topologiques sur un réseau induisant une variation de la dynamique incarnant ces transitions. Nous proposons un cadre théorique étendant les réseaux Booléens, appelé réseau booléen contrôlé où les actions de réseau topologique sont définies comme des contrôles de la dynamique. Sur la base de ce cadre, nous présentons un nouvel algorithme utilisant des principes de raisonnement abductif qui infère les perturbations causales minimales conduisant à un comportement attendu aux états stables de la dynamique. Ce cadre de modélisation s’applique à priori à un grand nombre de situation biologique d’alteration du destin cellulaire reposant sur sa reprogrammation. Nous l’illustrerons sur un modèle du cancer du sein, que nous considérons comme une preuve de concept, en inférant à la fois les oncogènes, les suppresseurs de tumeurs et des cibles thérapeutiques. Travail joint avec Célia Biane
  • 7/09/2018 : SAA-ILP approach for multi-objective landscape optimization under uncertainty: theory and application Yann Dujardin (MIAT)
Résumé : Theory: The Graph-based Markov Decision Process (GMDP) framework forms a class of MDP with factored state and action spaces, which has been studied for the past ten years. Since state and action spaces share the same graphical structure, it may be useful to model the control of spatial processes or collaborative multi-agent decision problems with local interactions. The concept of local policies in GMDP is especially useful, since it leads to interpretable objects, unlike optimal global policies which usually require exponential space to represent. Several time efficient algorithms to compute approximate local policies in GMDP have been proposed in the last decade. On the other hand, while efficient in practice, existing algorithms come without any performance guarantee on the returned local policies. Furthermore, while real-world collaborative decision problems modeled by GMDP generally contain several objectives to be optimized, no attention has been given yet, to our knowledge, to multi-objective GMDP. Our first contribution is to propose a Sample Average Approximation (SAA) approach for GMDP combined with an original ILP formulation. Unlike existing algorithms for GMDP, we provide theoretical hardness results and performance guarantees. Then, we show how the SAA-ILP approach can model and solve multi-objective GMDP. Application: An agricultural landscape can be devised according to various criteria,often antagonist (all of them cannot be optimized simultaneously). When managing agro-ecosystems, finding "good compromise" solutions between these criteria is therefore critical. However, finding landscape management strategies that enable to reach satisfying trade-offs on different criteria is difficult for several reasons: 1) the processes involved in these strategies making are spatio-temporal processes, 2) decision must been made under uncertainty, 3) modeling and solving multi-objective optimization problems is more difficult that mono-objective ones. We consider the problem of finding best compromise solutions to a particular multi-objective landscape management problem under uncertainty. Possible decisions consist in assigning a sequence of cultures, over a time horizon, to every site of an agricultural network. These sequences will directly influence three criteria: total profit, biodiversity, and equity between the stakeholders. Sequences also influence pollinators dynamics, the position of which can itself influence the criteria in another way. Criteria are computed over a time horizon. The dynamics of the pollinators are spatio-temporal and subject to uncertainty. To solve this problem, we propose a multi-objective SAA-ILP-based solver that allows a decision-maker to interactively discover the agricultural landscape that corresponds to a (subjective) best compromise between the criteria.

Séminaires passés / Past seminars  :

Lien vers la Liste des séminaires passés de l'unité MIAT.

Contacts:

Si vous souhaitez présentez vos travaux durant le séminaire MIAT, n'hésitez pas à contacter Patrick Taillandier ou Matthias Zytnicki.

Génotoul BioInfo
Équipe RECORD
IMABS
Outils personnels