Aller à : navigation, rechercher

Séminaires de l'unité MIAT :


Le séminaire de l'équipe MIAT de l'INRA de Toulouse est un endroit d'échanges scientifiques et techniques entre les membre de l'unité et des experts en mathématiques, informatique, agro-écosystèmes, bioinformatique, etc. Les présentations peuvent être sur des travaux en cours, des projets finalisés hautement spécialisés ou à valeur plus éducative / informationnelle. Les aspects mis en avant peuvent être d'ordre méthodologique ou applicatif. Les annonces de séminaires pertinents sont relayés sur les listes de diffusion de la plateforme biostatistique de l'IMT (contact S. Déjean) ou ROAD-T (Recherche Opérationnelle et Aide à la Décision à Toulouse, contact M. Mongeau).

Les présentations peuvent être en français ou en anglais pour une durée d'une heure (45min + questions). Sauf contre-indication, les séminaires ont lieu dans la salle de réunion MIAT à 10h30 le vendredi. L'accès à l'unité MIAT de l'INRA Auzeville/Castanet est indiqué ici (nous sommes à moins de 30 mètres de la réception !).

Séminaires de l'année en cours et séminaires futurs  :

  • 24/11/2017 : Titre et intervenant à venir
  • 17/11/2017 : Titre et intervenant à venir
  • 10/11/2017 : Titre et intervenant à venir

Pas de séminaire les 27 octobre et 3 novembre (vacances scolaires).

  • 20/10/2017 : Titre et intervenant à venir

pas de séminaire le 13/10 pour cause d'invité le 09/10

  • 09/10/2017 : Titre à venir Bogdan Savchynskyy and Stefan Haller (Dresden University, Allemagne)
  • 06/10/2017 : Titre et intervenant à venir
  • 29/09/2017 : Titre à venir Laure Raynaud (Météo France)
  • 22/09/2017 : Titre à venir Valentin Wucher (CRG, Barcelone, Espagne)
  • 15/09/2017 : Titre et intervenant à venir
  • 08/09/2017 : Titre et intervenant à venir

Pas de séminaire entre le 7 juillet et le 1er septembre (vacances scolaires).

  • 30/06/2017 : Revealing the hidden structure of dynamic ecological networks Catherine Matias (CNRS, UPMC & Université Paris Diderot)
Résumé : Recent technological advances and long-term data studies provide interaction data that can be modelled through dynamic networks, i.e a sequence of different snapshots of an evolving ecological network. Most often time is the parameter along which these networks evolve but any other one-dimensional gradient (temperature, altitude, depth, humidity, . . . ) could be considered. Here we propose a statistical tool to analyse the underlying structure of these networks and follow its evolution dynamics (either in time or any other one-dimensional factor). It consists in extracting the main features of these networks and summarise them into a high-level view. We analyse a dynamic animal contact network and a seasonal food web and in both cases we show that our approach allows for the identification of a backbone organisation as well as interesting temporal variations at the individual level. Our method, implemented into the R package dynsbm, can handle the largest ecological datasets and is a versatile and promising tool for ecologists that study dynamic interactions.
  • 29/06/2017 : From Artificial Intelligence to Conservation Iadine Chadès (CSIRO, Brisbane)
Résumé : À travers mon expérience personnelle, je propose de partager les avancées et challenges autour de la prise de décisions dans l'incertain et l'optimisation dans le domaine de la biologie de la conservation.
  • 23/06/2017 : Accounting for Linkage Disequilibrium in genome scans for selection without individual genotypes : the local score approach Magali San Cristobal (Dynafor/MIA)
Résumé : Detecting genomic footprints of selection is an important step in the understanding of evolution. Accounting for linkage disequilibrium in genome scans increases detection power, but haplotype-based methods require individual genotypes and are not applicable on pool-sequenced samples. We propose to take advantage of the local score approach to account for linkage disequilibrium in genome scans for selection, cumulating (possibly small) signals from single markers over a genomic segment, to clearly pinpoint a selection signal. We applied the local score approach to Pool-Seq data obtained from a divergent selection experiment on behavior in quail, and obtain precise and biologically coherent selection signals, while competing methods fail to highlight any clear selection signature.

Pas de séminaire le 16 juin (Tolosanes).

  • 9/06/2017 : Integrating TARA Oceans datasets using unsupervised multiple kernel learning Jérôme Mariette (MIAT, INRA)
Résumé : In metagenomic analysis, the integration of various sources of information is a difficult task since produced datasets are often of heterogeneous types. These datasets can be composed of species counts, which need to be analysed with distances, but also species abundances, interaction networks or phylogenetic information which have been shown relevant to provide a better comparison between communities. Standard integration methods can take advantage of external information but do not allow to analyse heterogenous multi-omics datasets in a generic way. We propose a multiple kernel framework that allows to integrate multiple datasets of various types into a single exploratory analysis. Several solutions are provided to learn either a consensus meta-kernel or a meta-kernel that preserves the original topology of the datasets. This kernel is subsequently used in kernel PCA to provide a fast and accurate visualisation of similarities between samples, in a non linear space and from the multiple source point of view. A generic procedure is also proposed to improve the interpretability of the kernel PCA in regards with the original data. We applied our framework to the multiple metagenomic datasets collected during the TARA Oceans expedition. We demonstrate that our method is able to retrieve previous findings in a single analysis as well as to provide a new image of the sample structures when a larger number of datasets are included in the analysis.
Résumé : During the last decade, numerous studies have shown the important role of nuclear organization on gene expression regulation (Bickmore & Van Steensel, 2013). Genomic long-range interactions in cis (intra-chromosomal) and in trans (inter-chromosomal) are involved in the activation of tissue-specific gene networks (Fanucchi et al., 2013) and chromosome conformation profiling has been shown to provide insightful information about the establishment of complex genetic disorders during development (Lupianez et al., 2015; Won et al., 2016). However, how and to which extent the genome conformation regulates its function remains to be explained. It is now possible to characterize spatial interactions between pairs of loci genome-wide by high throughput Chromosome Conformation Capture approaches (Hi-C, Dekker et al 2013). Recent developments of the Hi-C technology allowed to comprehensively describe the nuclear organization of the genome in model species at high resolution (Rao et al 2014). Here we present the basis of Hi-C data generation and analysis. Using two current INRA projects as examples of application, we will briefly introduce the experimental protocol and the bioinformatics pipeline to process paired-end sequencing reads, map them on a genomic reference, quantify 3D interactions between pairs of genomic loci and generate contact matrices. Then, we will present an overview of the statistical analyses (exploratory analysis, clustering, differential analysis) and challenging questions that are still to be addressed.

Pas de séminaire le 26 mai (pont de l'Ascension).

  • 19/05/2017 : In silico identification of transcription factor binding sites Jimmy Vandel (LIRMM)
Résumé : Amongst the multiple levels of gene regulation, transcription regulation occurs through the binding of transcription factors (TF) to short specific DNA sequences (TF motifs).The small length of these TF motifs (10 to 20 nucleotides) coded with a limited alphabet (A,T,G or C) makes their identification difficult. Hence classical methods for TF binding-sites identification usually return lots of potential sites. But only a small fraction of these motifs occurrences are functionals due to other factors as epigenetic effects, sequence nucleotide composition or presence of associated motifs. Our aim is to improve identification of functionals TF binding sites on DNA through new scoring function based on linear models taking into account several TF motif scores and nucleotide compositions of genes sequences. We train and test this new scoring function using Chip-Seq data which identify DNA regions bound by a specific TF.
  • 12/05/2017 : Spectral mixture analysis - Beyond the linear mixing model Nicolas Dobigeon (ENSEEIHT) diaporama
Résumé : Spectral mixture analysis, aka spectral unmixing, is a crucial step while analyzing data provided by various imaging modalities, including astronomy, remote sensing and microscopy. It consists of decomposing the measurements into a set of elementary spectra and quantifying their respective proportions in the observed mixtures. A large majority of the unmixing approaches implicitly or explicitly assume that these measurements result from a linear combination of the elementary spectra. Recent advances, mainly conducted in the remote sensing and geoscience community, have attempted to overcome the intrinsic limitations of this linear mixing model. This talk will propose an overview of these linear and nonlinear mixing models and the main corresponding unmixing approaches.
  • 5/05/2017 : Design et Apprentissage de grands réseaux de régulation de gènes par rétro-ingénierie Clément Carré (MIAT)
Résumé : La connaissance complète du réseau de régulation est d'une importance capitale pour comprendre le fonctionnement des organismes vivants. Hélas, cette connaissance coûte très cher en temps et en argent pour identifier les gènes qui entrent en jeu dans cette régulation. Le machine learning peut nous permettre de prédire les noeuds intéressants du réseau, mais cette approche nécessite une connaissance a-priori d'une partie du réseau et nous avons voulu savoir comment optimiser l'acquisition de cette connaissance pour permettre une reconstruction optimale. La construction d'un modèle pour la génération de données de grande taille (FRANK) et les va-et-viens avec les données de la biologie nous a permis d'apporter des éléments de réponse à quelques unes de ces questions. Après une présentation de ce que sont les réseaux de régulation de gènes et leurs enjeux, je présenterais le modèle que nous avons mis en place avec FRANK. Enfin, dans une dernière partie, je présenterais quelques résultats de machine learning obtenu sur les données générées par FRANK in-silico et qui seront comparées avec les résultats obtenu sur un jeu de données réelles d'E. Coli, le tout dans l'objectif de répondre à des questions d'ordre biologique.
  • 28/04/2017 : Séminaire des doctorants - salle Marc Ridet Programme détaillé
    • 9h30-09h50 Walid Ben Saoud Benjerri (MIAT) Algorithmes d'alignement de petits ARN diaporama
    • 09h50-10h10 David Gaudrie (MIAT) Optimisation en haute dimension de l'aérodynamique interne et externe de véhicules diaporama
    • 10h10-10h30 Léonard Torossian (MIAT) Métamodélisation et optimisation robuste - application à la conception d'idéotypes sous incertitude climatique diaporama
    • 10h30-11h00 pause
    • 11h00-11h20 Patrick Tardivel (Toxalim) Procédure de tests multiple contrôlant la familywise error rate utilisant un estimateur de type lasso. Application en métabolomique' diaporama
    • 11h20-11h40 Alyssa Imbert (MIAT) Imputation multiple hot-deck pour l'inférence de réseaux RNA-Seq diaporama
    • 11h40-12h00 Cyriel Paris (GenPhySE) Application d'une méthode spectrale utilisant des séries temporelles pour estimer les paramètres de sélection d'une SNP dans un modèle de diffusion de Wright Fisher diaporama
    • 12h00-14h00 déjeuner
    • 14h00-14h20 Étienne Auclair (MIAT) Réseau bayésien dynamique étiqueté multicontact pour l'apprentissage de réseaux écologiques diaporama
    • 14h20-14h40 Marie-Anne Vedy-Zecchini (AGIR) Analyse et modélisation des effets du système de culture et de la situation de production sur les principaux bioagresseurs du tournesol pour la mise au point de stratégies de protection agroécologique diaporama
    • 14h40-15h00 Sébastien Le Coz (MIAT) Variational EM pour Factorised Hidden Markov Models avec retour de données
    • 15h00-15h30 pause diaporama
    • 15h30-15h50 Clément Viricel (MIAT) Algorithme d'optimisation et de comptage : Prédiction de différence en énergie libre suite à une mutation diaporama
    • 15h50-16h10 Franck Cerutti (MIAT) Comparaison de l'évolution des petits ARN régulateurs et des gènes codants au sein du genre Listeria'
    • 16h10-16h30 Adrien Lagrange (Dynafor) Du démélange pixellique à la classification thématique - Apprentissage multirésolution pour l'analyse hiérarchique d'images hyperspectrales et hypertemporelles diaporama
  • 21/04/2017 : La théorie du chaos et son potentiel applicatif pour l’étude des dynamiques environnementales Sylvain Mangiarotti (CESBIO, Université Toulouse 3)
Résumé : La théorie des systèmes dynamiques non linéaires–ou théorie du chaos–offre un support théorique particulièrement riche pour l’étude, la modélisation et le suivi des comportements dynamiques. Issue de cette théorie, la modélisation par technique globale a été initiée au début des années 1990. Elle permet aujourd’hui, partant de jeux de données de taille restreinte (une ou quelques séries temporelles) éventuellement courtes et acquises en conditions réelles, d’obtenir des modèles de petites dimensions sous forme d’équations aux dérivées ordinaires. Dans cet exposé, nous présenterons d’abord la technique de modélisation globale, et son intérêt pour modéliser des dynamiques mal identifiées (équations non ou mal connues) et pouvant présenter une imprévisibilité à plus ou moins long terme. Nous nous concentrerons ensuite sur trois types d’applications : la modélisation univariée appliquée à la modélisation des cultures céréalières en région semi-aride, la modélisation multivariée appliquée à l’inférence des liens causaux en éco-épidémiologie, et la détection des comportements dynamiques appliquée à la classification des cultures.

Pas de séminaire les 7 et 14 avril (vacances scolaires).

  • 31/03/2017 : Statistical modeling of gene-gene interaction in the context of case-control genome-wide association studies Mathieu Emily (AgroCampus Ouest) diaporama
Résumé : Case-control genome-wide association studies (GWAS) aim at investigating the genetic components of binary traits like major diseases. Single-locus approaches, whereby a large number of Single Nucleotide Polymorphisms (SNPs) are tested independently for association, have first been developed to analyse GWAS. Although such single-locus approaches have successfully identified regions of disease susceptibility, findings were of modest effect and a large proportion of the genetic heritability is still not covered for common complex diseases. Gene-gene interaction (or epistasis) is often cited as one of the main biological mechanism carrying the "missing heritability" in GWAS. Since human complex diseases are generally caused by the combined effect of multiple genes, the detection of genetic interactions is thus essential to improve our knowledge of the etiology of complex diseases. However, detecting gene-gene interaction raise issues from a statistical and a computational point-of-view. First, the lack of a "clear" definition of the term interaction makes the statistical modeling challenging. Next, the interaction-related combinatorics remains a burden for whole genome scanning. In this presentation, I will introduce several strategies to search for interaction. In a first part, I will focus on the detection of SNP-SNP interaction. In the second part, I will introduce proposed solutions to investigate interaction at the level of the gene. The evaluation of the methods will be assessed by the analysis of the so-called WTCCC data set composed of 5000 individuals (2000 cases and 3000 controls) and 500 000 SNPs.
Résumé : Nonnegative data decomposition & dictionary learning are popular research topics in machine learning and signal processing. They have notorious applications in text retrieval, spectral unmixing, collaborative filtering, image inpainting, etc. In this talk I will review common probabilistic dictionary-based models for nonnegative data and discuss two approaches for estimation, namely maximum joint likelihood estimation (MJLE, closely related to penalised nonnegative matrix factorisation) and the less usual maximum marginal likelihood estimation (MMLE) that involves the integration of the decomposition coefficients. MMLE provides a better-posed estimator than MJLE and furthermore embeds automatic model order selection, a surprising result validated empirically. I will present examples of decomposition of word counts from song lyrics for semantic analysis and examples of decomposition of spectrograms for audio source separation.
  • 17/03/2017 : Tests multiples d'indépendance pour des processus ponctuels : une approche Unitary Events par permutation basée sur le nombre de coïncidences Mélisande Albert (IMT, INSA de Toulouse) diaporama
Résumé : Les dépendances éventuelles entre zones du cerveau ou entre neurones, et en particulier le phénomène de synchronisation, sont communément admises comme faisant partie intégrante du code neuronal. Il est aujourd’hui possible d’enregistrer simultanément les temps de potentiels d’action (trains de spikes) de différents neurones. Une première étape consiste donc à comprendre si deux trains de spikes, modélisés par des processus ponctuels, correspondant à deux neurones, sont indépendants ou non. Après avoir présenté le contexte et les méthodes les plus utilisées en neurosciences, ainsi que leurs limites, je présenterai un test d’indépendance non-paramétrique entre deux processus ponctuels, basé sur le principe de permutation. Théoriquement, il est prouvé qu’il est de bon niveau (non asymptotique), et ce même lorsque les valeurs critiques sont approchées par des méthodes de Monte Carlo. Des garanties en termes de puissance asymptotique ont également été démontrées. Les performances pratiques ainsi qu’une comparaison avec les méthodes usuelles seront illustrées sur des données simulées. Ensuite, je présenterai la procédure de tests multiples permettant de détecter les synchronisations entre les trains de spikes. Cette méthode sera comparée également aux méthodes usuelles sur des données simulées avant d’être appliquées à de vraies données. Ce travail est en collaboration avec Yann Bouret, Magalie Fromont et Patricia Reynaud-Bouret.
Résumé : Interval methods are the only approaches that guarantee a numerical proof of optimality, even in the presence of round-off errors. Branch and bound algorithms based on interval methods nowadays exploit powerful refutation and contraction techniques stemming from interval analysis and constraint programming. State-of-the-art solvers are generally integrative methods: they invoke local optimization techniques on each subspace to find a good approximation of the global minimum. In this presentation, we propose a cooperative framework that hybridizes in a parallel fashion interval methods and evolutionary algorithms, a class of stochastic global optimization methods endowed with mechanisms that help escape from local minima. A comparison with cutting-edge interval solvers (Ibex, IBBA) and non-rigorous MINLP solvers (BARON, Couenne) on a subset of unconstrained and constrained benchmark problems shows that our approach is highly competitive. In particular, we provide a numerical proof of optimality for an open instance of the Lennard-Jones clusters with 5 atoms.
  • 3/03/2017 : Using Machine Learning and Integrative Approaches for Current Problems in Structural Biology Sergei Grudinin (NANO-D, INRIA Rhone-Alpes)
Résumé : Although the fundamental forces between atoms and molecules are almost fully understood at a theoretical level, and computer simulations have become an integral part of research activities, the application of these methods to large biomolecules still faces important practical difficulties due to the combinatorial explosion of possible interactions involved. Developing efficient protein structure prediction algorithms thus remains a major scientific challenge in computational biology. I will give an overview of computational methods for protein structure prediction developed in our group at Inria Grenoble. In particular, I will present how machine learning and optimization in general can be used in current problems of computational structural biology. More specifically, I will present our recent results on the prediction of properties of small molecules, on the prediction of protein-protein and protein-drug interactions, as well as individual protein folds at atomic level. I will also present some methods for efficient space exploration including FFT-accelerated techniques, symmetry-driven methods, SAXS-assisted optimization, and our recent developments in non-linear normal mode analysis.
  • 24/02/2017 : Modeling Symmetrical Protein Structures in the CASP/CAPRI Docking Experiment Dave Ritchie (LORIA, INRIA)
Résumé : One of the current challenges in structural biology is to predict how two or more protein molecules come together and bind to form a complex. This is often referred to as "the protein docking problem." Simulating protein docking accurately is computationally difficult, due to the enormous size of the search space and the delicate interplay of competing inter-molecular forces. As a first approximation, proteins may often be considered to be rigid 3D bodies. This allows the first part of the problem to be attacked efficiently using fast Fourier transform (FFT) based approaches. However, it is difficult to encode accurate potentials within the FFT paradigm. Thus, it seems, there is always a trade-off between speed and accuracy. In this presentation, I will introduce the basic principle of protein docking using FFT techniques. I will then describe a two-step approach to the docking problem in which a fast polar Fourier search is used to find a small list of feasible solutions which are then refined using more rigorous energy minimisation. In particular, I will focus on recent work to model symmetrical protein complexes. Several of the targets in the last CASP/CAPRI protein modeling and docking experiment were predicted by the CASP organisers to be symmetric homo-dimers. Thus, a new challenge for the CAPRI docking community was to predict structures of the final complexes using the monomer structures predicted by the CASP fold prediction community. Our results show that many of the CASP models are dockable in the sense that they can lead to acceptable models of symmetrical complexes, but that using NAMD energy minimization to pull out acceptable complexes from a large ensemble of docked CASP models is computationally expensive.

Pas de séminaire les 10 et 17 février (vacances scolaires).

  • 3/02/2017 : SNP calling from RNA-seq data without a reference genome: identification, quantification, differential analysis and impact on the protein sequence Vincent Lacroix (LBBE, Lyon)
Résumé : SNPs (Single Nucleotide Polymorphisms) are genetic markers whose precise identification is a prerequisite for association studies. Methods to identify them are currently well developed for model species, but rely on the availability of a (good) reference genome, and therefore cannot be applied to non-model species. They are also mostly tailored for whole genome (re-)sequencing experiments, whereas in many cases, transcriptome sequencing can be used as a cheaper alternative which already enables to identify SNPs located in transcribed regions. In this paper, we propose a method that identifies, quantifies and annotates SNPs without any reference genome, using RNA-seq data only. Individuals can be pooled prior to sequencing, if not enough material is available from one individual. Using pooled human RNA-seq data, we clarify the precision and recall of our method and discuss them with respect to other methods which use a reference genome or an assembled transcriptome. We then validate experimentally the predictions of our method using RNA-seq data from two non-model species. The method can be used for any species to annotate SNPs and predict their impact on the protein sequence. We further enable to test for the association of the identified SNPs with a phenotype of interest.
  • 27/01/2017 : Planification multi-agent sous incertitude dans des environnements non-stationnaires Aurélie Beynier (LIP6, Université Paris 6)
Résumé : Afin de résoudre des problèmes de décision multi-agents en environnements incertains, les Processus Décisionnels de Markov Décentralisés (DEC-POMDPs) ont connu un intérêt croissant au cours des dernières années. Ce modèle permet à un ensemble d'agents de prendre des décisions coopératives de façon distribuée à partir d'observations partielles sur l'environnement et les autres agents. Toutefois, comme cela est le cas pour les POMDPs, la dynamique de l’environnement est supposée stationnaire, c’est-à-dire que les probabilités de transitions entre états n'évoluent pas au cours du temps. Dans certains cadres applicatifs, cette hypothèse n'est pas vérifiée. Dans cet exposé, nous présenterons une approche permettant aux agents d'adapter leurs décisions en fonction de l'évolution de la dynamique du système. Nous envisagerons le problème de décision non-stationnaire comme une succession de « modes » où chaque mode est un problème de décision stationnaire. Nous aborderons la question de la détection du changement de mode et de l'apprentissage de la fonction de transition au sein d'un mode. Ces travaux seront illustrés sur un problème de patrouille multi-agent pour la détection d’événements anormaux.
  • 20/01/2017 : Utilisation de données météorologiques archivées pour construire des graphes de dispersion Samuel Soubeyrand (INRA, Biostatistique et Processus Spatiaux, Avignon)
Résumé : Nombre de modèles épidémiques incorporent des noyaux de dispersion qui sont, la plupart du temps stationnaires dans l'espace. Pourtant, la dispersion est un processus généralement non-stationnaire dans les situations réelles. Pour modéliser la non-stationnarité de la dispersion, différentes approches ont été envisagées (e.g. les trajectoires de moindre coût, les distances de résistance, l'utilisation de covariables permettant de moduler la force des sources d'agents de dissémination, les équations intégro-différentielles inhomogènes ou encore les modèles de dispersion atmosphérique). L'approche que nous présenterons pour modéliser la non-stationnarité de la dispersion repose sur l'utilisation de données météorologiques archivées. De telles données permettent de reconstruire les trajectoires passées des masses d'air et, en agrégeant ces trajectoires, d'estimer des graphes de dispersion potentielles au sein d'un ensemble de sites répartis dans l'espace. Nous discuterons lors de la présentation les applications et implications auxquelles ce type de graphes de dispersion devrait donner lieu.

Mercredi 17 janvier à 13h30, Charlotte Dayde soutiendra sa thèse intitulée Comprendre le processus de prise de décision opérationnelle en agriculture : Une approche en rationalité limitée, amphi Marc Ridet

Résumé : Afin d'expliquer la diversité des pratiques des agriculteurs, cette thèse explore le rôle des caractéristiques du processus de décision dans les choix opérationnels réalisés. Sur la base d'une méthode à deux volets (modélisation et enquêtes), nous avons proposé un modèle conceptuel du processus de prise de décision des agriculteurs, caractérisé les différences possibles au sein de ce processus (appelées modes de décisions), mis en évidence le lien entre ces modes et les pratiques, précisé les modalités de simplification du processus de décision et identifié de nouveaux leviers d'action pour l'accompagnement des agriculteurs. De nature générique, les modèles et les méthodes d'enquêtes proposés ont été appliqués à un cas d'étude qui à permis d'expliquer l'hétérogénéité des pratiques antifongiques des agriculteurs sur le blé tendre en Midi-Pyrénées par leurs caractéristiques personnelles, par les caractéristiques de leurs exploitations et par leurs modes de décision.
  • 13/01/2017 : Prédire un comportement physiologique à partir du génome grâce à la modélisation métabolique. Applications aux microalgues et pistes de recherche pour les interactions plantes-microorganismes. Caroline Baroukh (LIPM, INRA Toulouse)
Résumé : La modélisation métabolique est un outil performant pour mieux comprendre, prédire et optimiser les systèmes biologiques. Malheureusement, l’utilisation de ce type de modélisation est difficile à cause du manque de données expérimentales nécessaires pour définir et calibrer les cinétiques des réactions appartenant aux différents chemins métaboliques. C’est pourquoi, les modèles métaboliques sont souvent utilisés sous l’hypothèse d’état quasi-stationnaire. Cependant, pour certains procédés, comme la croissance photoautotrophique des microalgues, cette hypothèse ne semble pas être valable. Dans cette présentation, deux nouvelles méthodologies de modélisation métabolique qui relâchent l’hypothèse de quasi-stationnarité seront exposées. Ces méthodologies seront appliquées à la croissance de microalgues sous différents régimes trophiques. Des pistes sur l’application de la modélisation métabolique pour les interactions plantes-microorganismes seront également présentées.
  • 6/01/2017 : Spatial Gaussian process modeling with large data sets François Bachoc (IMT, Université Paul Sabatier, Toulouse)
Résumé : In the first part of the talk, we will introduce spatial Gaussian processes. Spatial Gaussian processes are widely studied from a statistical point of view, and have found applications in many fields, including geostatistics, climate science and computer experiments. Exact inference can be conducted for Gaussian processes, thanks to the Gaussian conditioning theorem. Furthermore, covariance parameters can be estimated, for instance by Maximum Likelihood. However, one limitation of Gaussian process models is that they entail computationally intensive calculations when the data-set size n is large. Hence, there is a lively research activity for designing and anayzing approximate procedures which are computationally cheaper. In the second part of the talk, we present a contributions in this direction. We propose a new procedure based on aggregating several Gaussian process models, each based on a different subset of the total data set. We support this procedure with asymptotic results.

Pas de séminaire les 23 et 30 décembre (vacances scolaires).

  • 16/12/2016 : Apprentissage rapide de champs de Markov conditionnels relaxés par méthodes bloc proximales duales stochastiques Guillaume Obozinski (Ecole des Ponts ParisTech)
Résumé : Le développement récent d'algorithmes stochastiques pour l'optimisation des grandes sommes finies de fonctions (SAG, SDCA, SVRG, SAGA) fournit, pour la résolution des problèmes de minimisation du risque empirique et du risque empirique régularisé, des algorithmes dont les vitesses de convergence représentent une nette amélioration par rapport à l'état de l'art antérieur. Les méthodes classiques d'apprentissage dans les modèles graphiques non-orientés s'appuient sur le calcul du gradient du problème primal qui nécessite de résoudre à chaque itération un problème d'inférence probabiliste difficile. Dans cet exposé je montrerai d'abord comment, sur la base d'une formulation variationnelle relaxée, il est possible de reformuler l'apprentissage des modèles graphiques non-orientés dans le dual de telle sorte que l'inférence ne soit plus nécessaire à chaque étape, mais que l'inférence et l'apprentissage se fassent simultanément de façon implicite dans le dual. Ensuite je montrerai comment des algorithmes de type stochastic dual coordinate ascent (SDCA) peuvent être appliqués à l'apprentissage de ces modèles et obtiennent en pratique des vitesses de convergence linéaires.
  • 9/12/2016 : High-throughput manual-quality annotation of full-length long noncoding RNAs with Capture Long-Read Sequencing (CLS) Julien Lagarde (CRG, Barcelone)
Résumé : Efforts to decipher the functions of long noncoding RNAs depend on availability of full-length and comprehensive transcript annotations. The gold-standard manually-curated GENCODE collection remains far from complete: many genes models are fragmentary, while thousands more remain uncatalogued. To accelerate lncRNA annotation, we have developed RNA Capture Long Seq (CLS), combining targeted RNA capture with 3rd generation long-read sequencing (PacBio). We present a survey of the entire GENCODE intergenic lncRNA populations in matched human and mouse tissues at a depth of 2 million reads each. Mapping and merging these data more than doubles the annotation complexity of these loci. Novel splice junctions are supported by short-read sequencing and are enriched in known splicing motifs. Combining transcription initiation and termination data, we catalogue a non-redundant set of 7,843/3,025 end -to-end novel lncRNA transcript structures, respectively. This unique full-length dataset reveals fundamental similarities and differences of lncRNA and protein-coding genes for the first time. CLS removes a longstanding bottleneck of transcriptome annotation, generating manual-quality full-length transcript models at high-throughput scales.

Pas de séminaire le 2 décembre (Journée Bioinformatique et Biostatisque Genotoul).

  • 25/11/2016 : Présentations de Phyloligo/Contalocate et eukarHT Ludovic Mallet (MIAT, INRA)
Résumé : Sequencing projects often uncover more species or material than expected. Biological systems can be more complex than initially thought, sometime resulting in impromptu sequences in the sample. Whether it is natural: obligatory association of species, uncultivable organism, organelles, or unexpected: contamination, uncharacterised species association, such datasets often mix diverse species with different lifestyles prompting specific handling in downstream analyses and therefore a preliminary separation of the subsets. We propose a duet of tools: PhylOligo and ContaLocate to explore, identify and extract species-specific sequences based on oligonucleotide profile after a genome assembly was performed. The second part of the presentation will be about various machine learning methods over gene networks that we used with simulated horizontal transfers to assess the identification power by phylogeny-free methods of horizontally transferred genes in eukaryotes. diaporama
  • 18/11/2016 : Stochastic block model and logistic regression for networks: a variational Bayes approach Stéphane Robin (AgroParisTech, INRA) diaporama
Résumé : The stochastic block model (SBM) has become a standard tool for the analysis of network-structured data. This model is one of the many state-space models that have been proposed for network analysis and, as such, its inference raises specific issues that can be circumvented using variational (Bayes) techniques. Another general network model, still much less popular, is the W-graph model, which is characterized by the so called graphon function. We will show how an estimate of this function can be obtained using Bayesian averaging over a series of stochastic block models. This inferred graphon function provides a new description of the network, although its interpretation suffers from identifiability issues. When covariates are available, the logistic regression model constitutes a natural and simple tool to understand how they contribute to explain the topology of a (binary) network. We will show how the logistic model for graph can be combined with a graphon-like residual term. This residual term is supposed to characterize the residual structure of the network, that is not explained by the covariates. The goodness-of-fit of the logistic regression then amounts to check if the residual graphon function is constant. This presentation will be illustrated with several examples from social and life sciences. It is a joint work with Pierre Latouche (SAMM, Univ. Paris 1) and Sarah Ouadah (AgroParisTech/INRA).

Pas de séminaire les 28 octobre et 4 novembre (vacances scolaires) ni le 11 novembre (férié).

  • 21/10/2016 : Utilisation de la programmation dynamique stochastique duale (SDDP) pour produire et analyser des solutions coopératives dans des bassins versants internationaux Charles Rougé (University of Manchester, UK)
Résumé : L'exploitation des ressources en eaux de bassins transnationaux a été marqué au cours des dernières décennies par le développement et la gestion non-coopératives d'infrastructures. La recherche de politiques de développement et de gestion coopératives permet d'évaluer le coût de la non-coopération et de rechercher de mécanismes institutionnels internationaux. Cette présentation met l'accent sur l'utilisation d'un algorithme d'optimisation, SDDP, pour produire des politiques de gestion coopérative dans des bassins versants de grande échelle où d'autres algorithmes sont victimes de la « malédiction de la dimension ». Elle se focalise sur l'utilisation de SDDP dans des contextes dans lesquels les données sont rares, en prenant comme exemples les bassins du Tigre et de l'Euphrate au Moyen-Orient et dans une moindre mesure, le bassin du Zambèze en Afrique Australe. Le bassin du Zambèze est introduit pour démontrer l'impact de la rareté des données sur SDDP, et les solutions qui ont été apportées. Ensuite, l'analyse de la situation présente du Tigre et de l'Euphrate montre comment SDDP peut être utilisé de concert avec des techniques de télédétection pour mettre en évidence les vulnérabilités liés à l'état des ressources en eaux dans la région, et ce même dans un contexte conflictuel limitant drastiquement l'accès aux données. résumé en khuzdul (PDF)

Pas de séminaire le 14 octobre Colloque CARTABLE.

Résumé : Let (X_1,…,X_n) be a d-dimensional i.i.d sample from a distribution with density f. The problem of detection of a two-component mixture is considered. Our aim is to decide whether f is the density of a standard Gaussian random d-vector (f=ϕ_d) against f is a two-component mixture: f=(1−ε)ϕ_d+εϕ_d(.−μ) where (ε,μ) are unknown parameters. Optimal separation conditions on ε,μ,n and the dimension d are established, allowing to separate both hypotheses with prescribed errors. Several testing procedures are proposed and two alternative subsets are considered. Travail en collaboration avec Béatrice Laurent et Clément Marteau.
  • 30/09/2016 : Aide à la conception et à l'exploitation de modèles à base d'agents Patrick Taillandier (MIAT)
Résumé : La modélisation à base d’agents, qui consiste à représenter explicitement les entités composant le système étudié sous la forme d’un ensemble d’entités informatiques autonomes en interaction appelées agent, a connu un grand essor ces dernières années. Ces modèles ouvrent de nombreuses perspectives tant pour la recherche fondamentale que pour la mise en place de politiques publiques. Malheureusement, l'utilisation de l’approche agent requiert de posséder des compétences solides en programmation et en intelligence artificielle, en particulier lorsqu'il s'agit de modéliser des systèmes complexes intégrant des aspects environnementaux et sociaux. La plupart des modèles sont ainsi encore développés par des informaticiens et non directement par des experts du domaine, ce qui ralentit la diffusion de cette approche et la transmission des connaissances aux acteurs territoriaux. Les travaux de recherche que je vais vous présenter durant ce séminaire visent à répondre à ce problème. Ils concernent différents aspects du processus de modélisation et en particulier l'aide au développement de modèles. Ce séminaire sera aussi l'occasion de présenter la plate-forme open-souce de modélisation et de simulation GAMA, qui est au coeur de mes travaux. De nombreux projets de recherche utilisant cette plate-forme et touchant des domaines d'application aussi variés que l'agronomie, les dynamiques urbaines, le trafic routier, la gestion de projets et l'épidémiologie seront évoqués.
Résumé : I will describe block conditional gradient methods for convex optimization. The presentation will be focused on machine learning related aspects. I will give a general introduction of the conditional gradient method, a brief overview of its history, reasons of present renewed interest and recent advances. I will then introduce the block conditional gradient as a dual method for empirical risk minimization problems. The method really comes into its own for classes of problem for which more efficient optimization primitives (e.g. projections) are not affordable. The structured output learning problem falls in this category. I will describe the application of block conditional gradient to the training of the structured SVM when the output space is combinatorial with specific decoding oracles. Theoretical and empirical results will conclude the talk. The presentation is mostly based on the literature as well as results from a collaboration with Amir Beck and Shoham Sabach.
  • 16/09/2016 : Solving multi-objective optimization problems in conservation with the reference point method Yann Dujardin (CSIRO Land and Water, Melbourne, Australia)
Résumé : Managing biodiversity extinction crisis requires wise decision-making processes able to account for the limited of resources available. In most decision problems in conservation biology, several conflicting objectives have to be taken into account. Most methods used in conservation either provide suboptimal solutions or use strong assumptions about the decision-maker’s preferences. The goal of these two short talks is to present new multi-objective linear programming formulations for two multi-objective optimization problems in conservation, allowing the use of a reference point approach. Reference point approaches solve multi-objective optimization problems by interactively representing the preferences of the decision-maker with a point in the criteria space, called the reference point. We modelled and solved the following two conservation problems: a dynamic multi-species management problem under uncertainty and a spatial allocation resource management problem. Results show that the reference point method outperforms classic methods while illustrating the use of an interactive methodology for solving combinatorial problems with multiple objectives. The method is general and can be adapted to a wide range of ecological combinatorial problems.

Séance exceptionnelle de séminaire en partenariat avec Toulouse School of Economics, manufacture des tabacs (salle MS003) le jeudi 15 septembre à 11h  :

  • 15/09/2016 : Beyond stochastic gradient descent for large-scale machine learning Francis Bach (INRIA, ENS)
Résumé : Many machine learning and statistics problems are traditionally cast as convex optimization problems. A common difficulty in solving these problems is the size of the data, where there are many observations ("large n") and each of these is large ("large p"). In this setting, online algorithms such as stochastic gradient descent which pass over the data only once, are usually preferred over batch algorithms, which require multiple passes over the data. Given n observations/iterations, the optimal convergence rates of these algorithms are O(1/n^(1/2)) for general convex functions and reaches O(1/n) for strongly-convex functions. In this talk, I will show how the smoothness of loss functions may be used to design novel simple algorithms with improved behavior, both in theory and practice: in the ideal infinite-data setting, an efficient novel Newton-based stochastic approximation algorithm leads to a convergence rate of O(1/n) without strong convexity assumptions. (joint work with Alexandre Defossez, Aymeric Dieuleveut, Nicolas Flammarion, and Eric Moulines)
  • 9/09/2016 : Génération de populations synthétiques pour la simulation sociale Frédéric Amblard (IRIT, Université Toulouse 1) diaporama
Résumé : Après avoir présenté les enjeux et le positionnement épistémologique de la simulation sociale multi-agents, nous présenterons une des pistes de recherche très active dans le domaine, concernant la génération de population synthétique, à savoir la génération à partir de statistiques agrégées et macroscopiques, de populations d'agents réalistes quant à leurs attributs (age, sexe, CSP...), leur localisation et leur réseau social. Nous présenterons quelques méthodes de la littérature ainsi que les pistes sur lesquelles nous travaillons dans le cadre du projet Genstar.
  • 2/09/2016 : Analyse statistique de données de nombres de copies d'ADN en cancérologie Pierre Neuvial (IMT, Université Toulouse 3) diaporama
Résumé : La caractérisation des variations du nombre de copies d'ADN dans les cellules tumorales constitue un enjeu important en cancérologie, à la fois pour la compréhension des maladies et pour l'amélioration des traitements. Je parlerai de deux enjeux statistiques et bioinformatiques de l'analyse des données moléculaires utilisées pour mesurer le nombre de copies d'ADN (puces à ADN et séquençage): l'évaluation des performances des méthodes de segmentation et la prise en compte de l'hétérogénéité tumorale.

Séminaires passés / Past seminars  :

Lien vers la Liste des séminaires passés de l'unité MIAT.


Si vous souhaitez présentez vos travaux durant le séminaire MIAT, n'hésitez pas à contacter Victor Picheny ou Nathalie Villa-Vialaneix.

Génotoul BioInfo
Outils personnels