List of past seminars

Aller à : navigation, rechercher


Pas de séminaire en juillet et août (vacances scolaires)

Pas de séminaire le 29 juin (journée des stagiaires le 26)

  • 22/06/2018 : Recent evolutions in genome assembly : our experiences with data and tools Christophe Klopp (MIAT) diaporama
Résumé : The availability of a good quality reference genome enables and simplifies a lot of genomic analysis. Therefore, for the last thirty years, communities have agreed to spend a lot of money and time to produce such a reference. The estimated cost for generating the initial 'draft' human genome sequence is ~$300 million worldwide (1). Second generation short read sequences have been used to produce new reference genomes of often low to medium quality. The now available third generation sequencers, producing long reads, have opened an new area of numerous, cheap, high quality reference genomes. First PacBio and then Oxford nanopore machines have been acquired by the Get-Plage local sequencing platform and enabled local teams to produce assemblies which are acknowledged by their community on the international level. The best examples in the last years is the sunflower and in the last months, the rose. Sigenae and Genotoul Bioinfo take also part in this adventure. The talk will present third generation sequencing data quality, assembly steps and results. It will also explain how other new data types help to go from contigs to chromosomes. (1)

Pas de séminaire le 15 juin (visite du département).

  • 8/06/2018 : How computers break (serious) puzzles Thomas Schiex (MIAT, INRA)
Résumé : Exposé de vulgarisation scientifique donné dans le cadre de la journée « Machine Learning for Artificial Intelligence » à l'Académie des Sciences.

Pas de séminaire le 1e juin (JFRB 2018).

  • 25/05/2017 : Séminaire des doctorants - salle Marc Ridet Programme détaillé
    • 09h30 - 09h50 Manon Ruffini (MIAT) Models and methods for computational protein design
    • 09h50 - 10h10 Camille Champion (IMT) Research and development of innovative mathematical algorithms using cluster-based statistical interactions of metagenomic data in biomedicine
    • 10h10 - 10h30 Ivana Aleksovska (Meteo-France, MIAT) Improve short and medium term predictions of agronomic models by taking into account the uncertainty of weather forecast
    • 10h30 - 11h00 pause
    • 11h00 - 11h20 Arij Azzabi (Institut supérieur de gestion de Tunis, MIAT) La représentation compacte des jeux ordinaux
    • 11h20 - 11h40 Céline Bougel (INSERM) Amélioration des outils statistiques utilisés dans les essais de prévention du déclin des fonctions cognitives
    • 11h40 - 12h00 Malo Le Boulch (GenPhySE) Inférence fonctionnelle des communautés bactériennes complexes à partir de données issues de métagénomiques
    • 12h00 - 14h00 déjeuner partagé
    • 14h00 - 14h20 Walid Ben Saoud Benjerri (MIAT) Algorithmes d'alignement de petits ARN
    • 14h20 - 14h40 Adrien Lagrange (Dynafor) Du démélange pixellique à la classification thématique - Apprentissage multirésolution pour l'analyse hiérarchique d'images hyperspectrales et hypertemporelles
    • 14h40 - 15h00 Marie-Anne Vedy-Zecchini (AGIR) Analyse et modélisation des effets du système de culture et de la situation de production sur les principaux bioagresseurs du tournesol pour la mise au point de stratégies de protection agroécologique
    • 15h00 - 15h20 Sara Maqrot (MIAT) Méthodes approchées d'optimisation combinatoire en programmation mathématique. Application à la conception des systèmes vergers-maraîchers
    • 15h20 - 15h50 pause
    • 15h50 - 16h10 Étienne Auclair (MIAT) Réseau bayésien dynamique étiqueté multicontact pour l'apprentissage de réseaux écologiques
    • 16h10 - 16h30 Alyssa Imbert (MIAT) Imputation multiple hot-deck pour l'inférence de réseaux RNA-Seq
    • 16h30 - 16h50 Sébastian Le Coz (MIAT) Modélisation de la dynamique des adventices dans un agrosystème
  • 18/05/2018 : Mémoire et apprentissage chez les plantes Frédérick Garcia (futur MIAT, INRA)
Résumé : Dans cet exposé, je développerai l'idée qu'au delà de la vision traditionnelle orientée croissance et développement, les plantes peuvent être étudiées en tant qu’entités actives dont la dynamique au cours du temps est l'expression d'un comportement propre. Ces comportements semblent en particulier le siège de phénomènes d'apprentissage, où des mémoires biologiques sont exploitées, et je décrirai les principaux résultats expérimentaux soutenant cette hypothèse. Je présenterai enfin des pistes pour de nouvelles expérimentations et pour la modélisation de ces processus.

Pas de séminaire le 11 mai (pont de l'ascension).

  • 4/05/2018 : Statistical model of non-Gaussian process with wavelet scattering moments Sixin Zhang (ENS, Paris)
Résumé : One of the most challenging problems in statistical modeling is to define a minimal set of statistics so as to infer a stochastic model from few observational data of the underlying random process. We propose such set of statistics based on the wavelet scattering transform. Our goal is to model the non-Gaussianarity and the long-range interaction of the data, in particular when there is complex geometry and transient structures at multiple scales such as Turbulence. We follow the maximum entropy principle to infer a stochastic model given a set of statistical moment constraints. It results in a Gibbs distribution which is common in statistical physics to describe the equilibrium states. In this talk, I will discuss the current state-of-art methods to model the texture as a stationary and ergodic random process, including convolutional neural network based approach. We compare different methods quantitatively by estimating the power spectrum, and the entropy of the random process. Numerical results on isotropic Turbulence will be presented.

Pas de séminaire les 20 et 27 avril (vacances scolaires).

  • 13/04/2018 : How to support Cooperative Decision Making ? Pascale Zaraté (IRIT)
Résumé : Decision Support Systems are designed to support decision makers facing unstructured problems. They were developed to interactively simulate the problem in order to propose part of the solution to the user. In organizations, decision making processes generally involve a group of individuals, rather than just one person. Cooperative Decision Making processes are defined as processes in which several decision makers are involved. We developed two kinds of support for such Cooperative Decision Making Processes. These two approaches are based on a Multi-Criteria Decision Analysis paradigm. In one hand, we developed Recommender Systems able to recommend a solution to a given decision problem adapted to the user’s preferences. These systems are based on a preference mining approach. In another hand, Group Decision Support Systems (GDSS) are designed to support groups involved in a decisional process. An overview of GDSS is presented, and a particular system called GRoUp System (GRUS) is demonstrated. A new methodology to use it, is also presented in order to promote cooperation among stakeholders.
  • 6/04/2018 : Bacterial populations in the Durance river: a data-driven analysis on the causes of spatial and genetic heterogeneity Davide Martinetti (BIOSP, INRA)
Résumé : Sampled bacterial populations from the Durance river water and its tributaries show high variability and heterogeneity. The most natural hypothesis of a bacterial flow that follows the orography of the river, from upstream to downstream, seems to be too weak and it is sometimes not verified. We hence look for other possible explanations that can bring some light on the sources and potential dissemination of a family of bacteria, /Pseudomonas Syringae,/ a potential plant pathogen. Amongst the possible causes of biological heterogeneity in the bacterial population, we investigate the effects of land use at different spatial scales (circular buffer of different radius and watershed), geographical distance and rainfall patterns. To the date, we are pioneering the introduction of rainfall patterns in such type of studies. This involves handling big amounts of data of different types, such as historical air-mass trajectories and precipitation records. The preliminary results of this study shows that geographical distance between sampling sites is seldom an efficient predictor of bacterial diversity, while rainfall patterns and land use seem to play a major role. Key words: bacterial populations, land use, air-mass trajectories, precipitations, comparison of distance matrices, clustering, R
  • 30/03/2018 : Clustering transformed compositional data using K-means, with applications in gene expression and bicycle sharing system data Antoine Godichon (INSA Rouen)
Résumé : We present a relevant strategy for clustering compositional data (i.e., data blonging to the simplex). This work is motivated by the analysis of two sets of compositional data, both focused on the categorization of profiles but arising from considerably different applications : (1) identifying groups of co-expressed genes from high-throughput RNA sequencing data, in which a given gene may be completely silent in one or more experimental conditions ; and (2) finding patterns in the usage of stations over the course of one week in the Velib bicycle sharing system in Paris, France. For both of these applications, we focus on the use of appropriately chosen data transformations, including the Centered Log Ratio and a novel extension we propose called the Log Centered Log Ratio, in conjunction with the K-means algorithm.
  • 23/03/2018 : Computational approaches for high-resolution profiling of immune responses: applications to vaccine studies Nicolas Tchitchek (CEA)
Résumé : Flow, hyperspectral and mass cytometry are experimental techniques measuring cell marker expressions at the single cell level. The recent increase in the number of markers simultaneously measurable has led to the development of new automatic gating algorithms. Especially, the SPADE algorithm has been proposed as a novel way to identify clusters of cells having similar phenotypes in high-dimensional cytometry data. While SPADE or other cell clustering algorithms are powerful approaches, complementary analysis approaches are needed to characterize better and interpret the identified cell clusters. I will present here two new bioinformatics tools, named SPADEVizR and CytoCompare, that have been developed to better characterize and interpret cell clusters. The capabilities of these algorithms will be illustrated using mass cytometry profiles obtained in the context of vaccine studies in non-human primates. On the one hand, SPADEVizR can identify cell clusters having relevant biological behaviors, to integrate them with additional biological variables, and to construct predictive models. Several visualization methods, such as volcano plots, streamgraphs, parallel coordinates, heatmaps are available to better define the phenotypes of the cell clusters. On the other hand, CytoCompare can statistically compare the phenotypes of cell clusters identified by different automatic gating algorithms or using different cell clustering settings. Such phenotypic comparisons allow quantifying the sensitivity of cell clustering algorithms. This software is essential to optimize the clustering parameters and to property interpreter complex cytometry data. I will also outline the current computational and data mining challenges in high-dimensional cytometry analysis.
  • 16/03/2018 : Attribuer un événement météorologique extrême au changement climatique : le problème de la définition Julien Cattiaux (Météo France, Toulouse)
Résumé : Canicule, vague de froid, sécheresse, forte pluie... A chaque événement météorologique marquant, la même question revient : est-ce dû au changement climatique ? Une manière d'y répondre est d'évaluer de combien le changement climatique a modifié la probabilité que l'événement se produise, i.e. calculer la "fraction de risque attribuable". Le résultat est cependant sensible à la définition choisie pour l'événement, et en particulier à l'échelle spatio-temporelle sélectionnée. Jusqu'à présent, ce choix est souvent fait de façon arbitraire, sur la base de régions géographiques et/ou périodes de temps prédéfinies. Nous proposons ici une méthode plus objective, consistant à identifier automatiquement l'échelle de temps et d'espace à laquelle l'événement a été le plus extrême. La méthode est illustrée sur deux cas d'étude (canicule européenne de l'été 2003, précipitations intenses de septembre 2013 au Colorado) et les conséquences sur la fraction de risque attribuable sont discutées.
  • 09/03/2018 : Destination prediction by trajectory distribution based model Brendan Guillouet (INSA de Toulouse)
Résumé : Monitoring and predicting road traffic is of great importance for traffic managers. With the increase of mobile sensors, such as GPS devices and smartphones, much information is at hand to understand urban traffic. In the last few years, a large amount of research has been conducted in order to use this data to model and analyze road traffic conditions. In this talk we propose a new method to predict the final destination of vehicle trips based on their initial partial trajectories. We first review how we obtained clustering of trajectories that describes user behaviour. Then, we explain how we model main traffic flow patterns by a mixture of 2d Gaussian distribution. This yielded a density based clustering of locations, which produces a data driven grid of similar points within each pattern. We present how this model can be used to predict the final destination of a new trajectory based on their first locations using a two step procedure: We first assign the new trajectory to the clusters it mot likely belongs. Secondly, we use characteristics from trajectories inside these clusters to predict the final destination. Finally, we present experimental results of our methods for classification of trajectories and final destination prediction on datasets of timestamped GPS-Location of taxi trips. We test our methods on two different datasets, to assess the capacity of our method to adapt automatically to different subsets.

Pas de séminaire les 23 février et 2 mars 2018 (vacances scolaires).

  • 16/02/2018 : A constrained kernel density estimator for location-scale mixture models based on copulas Gildas Mazo (MaIAGE, INRA)
Résumé : In this communication we shall present copula-based semiparametric mixture models as a way to model heterogeneous populations. Copulas can cope with complex dependence structures while the nonparametric estimation of the marginals alleviate one's effort in the modeling task. Estimation is performed by two EM-like algorithms and one of them will be shown to perform better by taking into account the inherent structure of the problem into account.
  • 9/02/2018 : Maladie de Parkinson: une entité cliniquement définie, une seule entité étiologique ? Maria Martinez (INSERM Toulouse) diaporama
Résumé : Élucider la relation génotype-phénotype d'une maladie hétérogène et complexe, comme la maladie de Parkinson (PD), est l'un des défis majeurs pour le démembrement de son étiologie. La caractérisation génomique de patients ou sous-groupes de patients est une étape clé vers l'amélioration de l'utilité de la médecine génomique et de la précision de l'estimation du risque/progression de la maladie. S'affranchir de la simple stratification empirique des patients soulève plusieurs défis du fait du mélange de types de données (binaires, catégorielles, quantitatives ; longitudinales ou pas) et de la haute dimensionnalité des données, combinées ou pas aux données pan-génomiques. Après une revue de l'épidémiologie, des symptômes cliniques et outils de diagnostique de PD, des succès récents des méta-GWAS et aussi de leurs limites, j'exposerai un projet qui vient de débuter dont l'objectif général est d'identifier des sous-groupes de patients dans lesquels les mécanismes biologiques impliqués pourraient être plus homogènes. Le design d'étude repose sur le développement d'analyses de clustering et de modèles linéaires multivariés à effets mixtes. Les avantages et limites de chaque approche seront discutés.
  • 2/02/2018 : Metagenomic and clinical impact Nicolas Pons (MetaGénoPolis, INRA Jouy-en-Josas)
Résumé : The human body is inhabited by many different microbial communities, which are especially abundant (~2kg) in the gut. The intestinal microbiota is now considered as an organ and plays a major role in health and disease. Perturbation of this ecosystem could be responsible for a plethora of multifactorial complex diseases such as obesity, diabetes and cancer, for which few curative approaches exist. Recently the new science of metagenomics emerged along with the appearance of high-throughput sequencing technologies. Metagenomics constitutes a powerful “microscope” that allows us to characterize composition, properties and dynamics of a microbial ecosystem by studying their genetic repertoire (the metagenome). This is helping our holistic view of complex microbial ecosystems as well as our understanding of their role in human diseases. Considerable effort from the scientific community in the context of international consortiums have already shown the importance of gut microbiota in diseases such as obesity, diabetes, liver cirrhosis and others are ongoing. However, many problems are yet to be solved such as data processing of increasingly bigger datasets as well as the misadaptation of actual bio-statistical approaches. Indeed actual statistical methods are not well adapted in problems such as variable selection in a context of a big dimensions and complex interdependence. Even though metagenomics offers a great potential in exploring and understanding the role of microbial ecosystems in human health, this research field needs strong interdisciplinary collaborations between clinicians, biologists, bioinformaticians and biostatisticians.
  • 26/01/2018 : Exact and Approximate Inference in Graphical Models -- Variable Elimination and beyond Régis Sabbadin (MIAT, INRA)
Résumé : Dans cet exposé, qui se veut didactique, je présenterai le cadre des modèles graphiques stochastiques, utilisé pour la représentation de connaissances incertaines. Ce modèle, très général, regroupe la plupart des modèles stochastiques à variables de domaines finis (chaines de Markov, HMM, Réseaux Bayesiens, Champs Markoviens...). Je présenterai les questions d'inférence (calcul de mode, de marginales) classiquement associées à ce cadre, ainsi que des outils algorithmiques basiques d'inférence exacte ("variable elimination") et approchée ("(loopy) belief propagation") applicables pour résoudre ces questions. Cette présentation est basée sur l'article suivant: N. Peyrard et al. Exact and approximate inference in graphical models: variable elimination and beyond, 2017.
  • 19/01/2018 : Maximum du mouvement brownien réfléchi sur un horizon fini et autres quantités d'intérêt - Application au score local Agnès Lagnoux (Institut de Mathématiques de Toulouse)
Résumé : Le score local est un outil probabiliste très utilisé par les biologistes pour comparer ou étudier les séquences d'acides aminés ou de nucléotides comme l'ADN. En modélisant le score local à l'aide d'une marche aléatoire et après normalisation, le processus à temps continu sous-jacent est le mouvement brownien. Nous étudions notamment le maximum du mouvement brownien réfléchi afin d'en déduire des propriétés sur le score local. Travail en collaboration avec Claudie Chabriac, Sabine Mercier et Pierre Vallois.
  • 12/01/2018 : Algorithmes gradient-proximaux pour l'inférence statistique Gersende Fort
Résumé : L'estimation statistique sous contraintes comme l'approche bayésienne de l'estimation statistique, peuvent être vues comme un problème d'optimisation d'une fonction objectif se décomposant en la somme d'un terme explicite, et d'un terme non calculable de façon exacte. Le bien-fondé des solutions algorithmiques proposées reste souvent un problème ouvert. Après avoir introduit des motivations en inférence statistique dans des modèles à vraisemblance non explicite (modèles à données cachées, ou modèles de Gibbs avec constante de normalisation incalculable), nous présenterons tout d'abord des solutions algorithmiques exploitant des techniques d'optimisation d'ordre 1, pour répondre à ces problèmes d'optimisation dans le cas où la fonction objectif est la somme d'un terme régulier de gradient non explicite mais approchable par des techniques Monte Carlo, et d'un terme convexe dont l'opérateur proximal associé est explicite. Nous donnerons ensuite des résultats de convergence dans le cas où la fonction objectif est convexe, et où la perturbation Monte Carlo dans l'approximation du gradient est biaisée (l'intérêt de cela étant de traiter des approximations Monte Carlo de type "par Chaînes de Markov (MCMC)"). Nous commenterons notamment le lien avec les algorithmes d'Approximation Stochastique. Enfin, nous discuterons des conséquences de ces résultats théoriques sur la mise en oeuvre de l'algorithme : lien entre pas d'apprentissage et nombre de points Monte Carlo; techniques d'accélération à la Nesterov.
  • Vendredi 5 janvier : soutenance de thèse de Franck Cerutti Évolution et coévolution des petits ARNs régulateurs et des gènes codants chez les bactéries

La soutenance aura lieu à partir de 14h, salle Marc Ridet (INRA Toulouse).

Pas de séminaire du 23 décembre au 5 janvier (vacances scolaires).

  • 22/12/2017 : La génétique des populations “non usuelle” Diane Bailleul
Résumé : Les modèles de génétique des populations ne considèrent que les cas extrêmes : reproduction strictement sexuée, reproduction asexuée, équilibre d’Hardy-Weinberg... Et pourtant, la clonalité partielle est un trait d’histoire de vie largement répandu dans l’Arbre du vivant. Les espèces cultivées subissent des pressions anthropiques qui altèrent les cycles de vie. Les espèces marines à large taille de populations et à fort potentiel de migration ne montrent généralement pas de structuration génétique, même lorsque les données de tags indiquent des stocks séparés. Comprendre la dynamique et l’évolution de ces espèces marginales du point de vue des modèles de génétique est donc un défi majeur pour la préservation des écosystèmes variés auxquelles elles se rattachent. Le package RClone a été créé pour gérer les jeux de données partiellement clonaux, permettant (i) de vérifier la fiabilité de l'ensemble de données pour discriminer les génotypes multi-locus (MLG), (ii) la détermination de MLG et la détermination semi-automatique des lignées clonales (iii) le calcul des indices de richesse et d’uniformité basé sur les MLG ou les MLL, et (iv) la description de plusieurs composantes spatiales de la clonalité. Une amélioration majeure par rapport aux logiciels existants est la capacité à déterminer le seuil permettant de regrouper des MLG similaires en MLL sur la base de simulations. A l’échelle d’un agroécosystème, l’étude de données génotypiques couplées à des méthodes d’assignations aux variétés commerciales existantes a permis de mettre en évidence un lien entre la diversité variétale des champs de colza cultivés et la diversité variétale des populations férales de l’année suivante. La modélisation des flux efficaces de graines par une méthode de maximum de vraisemblance a permis d’identifier des dynamiques de dispersion locales au sein des agroécosystèmes. Les distances moyennes de dispersion estimées varient de la dizaine de mètres au kilomètre. Le requin peau bleu est un top prédateur pélagique avec l’une des aires de distribution les plus large. L'analyse génétique de plus de 200 échantillons a permis de détecter des signatures de goulots d'étranglement génétiques mais une homogénéité génétique quasi-complète. Cette panmixie apparente pourrait être expliquée par un effet de retard génétique, illustré par des simulations de changements démographiques non détectables par l'analyse génétique standard avant une longue phase de transition introduite ici comme la « population grey zone ». Ces résultats peuvent englober des scénarios explicatifs distincts s'étendant d'une population démographique unique à plusieurs populations indépendantes. Cette limitation empêche la délimitation génétique des stocks et donc la capacité d'anticiper les conséquences des appauvrissements sévères à toutes les échelles.
  • Lundi 18 décembre : soutenance de thèse de Clément Viricel Contributions au développement d'outils computationnels de design de protéines : méthodes et algorithmes de comptage avec garantie

La soutenance aura lieu à partir de 10h à l'INSA de Toulouse (amphithéâtre Fourier) et sera suivie d'un pot dans la salle de repos du bâtiment GPE de l'INSA à 16h.

  • Pas de séminaire le 15 décembre : soutenance de thèse de Jérôme Mariette. Apprentissage statistique pour l'intégration de données omiques

La soutenance aura lieu à partir de 13h30 à l'INSA de Toulouse (salle des thèses) et sera suivie d'un pot dans le hall génome de l'INRA de Toulouse.

  • 8/12/2017 : Quelques problèmes d'optimisation sous contraintes de la vigne à la cave Philippe Vismara (LIRMM, Montpellier SupAgro)
Résumé : Dans cet exposé nous verrons quelques applications de la Programmation par Contraintes à des problèmes en viticulture et en œnologie : l'assemblage de vin sous contraintes, l'optimisation du trajet en vendange sélective ou d'autres problèmes de tournées qui nous ont amenés à définir une nouvelle contrainte de circuit adaptée aux tournées incomplètes.
  • 1/12/2017 : Modélisation probabiliste de la co-évolution dans les communautés proies-prédateurs Manon Costa (Institut de Mathématiques de Toulouse)
Résumé : Dans cet exposé nous étudions la co-évolution de phénotypes de proies et de prédateurs sous l'effet de la sélection naturelle. Nous présenterons plusieurs modèles pour étudier ce problème, tout d'abord en utilisant des échelles de temps proche des dynamiques adaptatives puis en s'intéressant à des communautés de type arbres-insectes dans lesquelles les dynamiques des prédateurs sont plus rapides que celles de leurs proies.
  • 24/11/2017 : Techniques for de novo genome and metagenome assembly Rayan Chikhi (CNRS, Université de Lille) diaporama
Résumé : This talk will cover recent techniques in genome and metagenome de novo assembly for Illumina data. It will provide insights into what assembly quality to expect, and the implications for secondary analysis. It can be useful to understand what assemblers do, in order to set expectations with respect to how repetitions are handled, why coverage is imperfect, whether strain-variation is kept, etc. I'll present our resource-efficient genome and metagenome assembly pipeline, Minia 3, and also discuss other assemblers (SPAdes, MEGAHIT). Some technical ingredients that will be covered are: fast unitigs construction, multi-k assembly, assembly graph simplifications.
  • 17/11/2017 : Cross-validation issues in genomic selection Andres Legarra-Albizu (GenPhySE, INRA, Toulouse)
Résumé : Performance of genomic selection is typically evaluated by cross-validation. In this work we review and point out some problems and features of the cross-validation metrics, including which statistics should be used, how to split the data, and problems of precorrected data. Then we propose a semiparametric alternative using statistics derived from the "Method R".
  • 10/11/2017 : Revue des travaux réalisés dans le projet Sal Host Trop Ludovic Mallet (MIAT)
Résumé : Host tropism and host-pathogen interplay of typhoidal Salmonella enterica The species Salmonella enterica is one of the most prevalent human and animal pathogens, it includes Non Typhoïdal Salmonella (NTS) serovars like Typhimurium and Enteridis, that are generalist pathogens with broad host specificity and Typhoïdal Salmonella (TS) serovars, like Typhi and Paratyphi A, that are specialized pathogens strictly adapted to the human host and the cause of an invasive, dangerous disease known as enteric (typhoid) fever. The SalHostTrop project aims at identifying, characterizing and understanding the human-restricted tropism of Typhoidal Salmonella (TS) using comparative dual-RNAseq sequencing and other complementary approaches. We combine state of the art genome and transcriptome sequencing methods to decipher the molecular basis of host-tropism in clinical strains. We contrast the comparative genomics and differential expression analyses to explore and assess the variability and plasticity of pathogenesis routes among and between typhoidal and non-typhoidal serovars. We present our on-going work including the Pacbio long-read genomic sequencing, assembly and annotation of a new S. Typhi strain (120130191) and the dual RNAseq data analysis of a pilot experiment of S. Typhimurium and S. Paratyphi A during human epithelial cells infection. The new S. Typhi strain includes one circularized complete chromosome and one plasmid of about 4.78 Mb with 4638 coding genes and 106.7 kb with 128 coding genes, respectively. The dual RNAseq pilot first analyses demonstrate the feasibility of the protocol to target both pathogen and host transcripts simultaneously during infection. We also built a S. enterica subsp. enterica reference phylogenetic tree from the super-alignment of Salmonella core genes in 214 complete genomes of various serotypes that is in agreement with previous studies and will be used to explore pseudogene content of serotypes according to their evolutionary history.

Pas de séminaire les 27 octobre et 3 novembre (vacances scolaires).

  • 20/10/2017 : Sensibilité des peupliers à la flexion : Analyse transcriptomique et inférence de réseau de gènes Lise Pomies (MIAT)
Résumé : Les arbres sont capables de percevoir les flexions de leur tronc et branches causées par le vent et d’y répondre. Au niveau physiologique la réponse se traduit par des modifications de croissances et de structure du bois. Au niveau moléculaire, seuls quelques acteurs de cette réponse ont été identifiés à des temps très précoces. Mes travaux de thèse consistaient à : (1) Caractériser et comprendre la réponse transcriptomique du peuplier à la flexion à partir de mesures cinétiques de l’expression obtenues avec des puces ADN. (2) Modéliser le réseau de régulation de gènes contrôlant cette réponse, bien que le ratio nombre de gènes sur nombre de mesures de l’expression était très défavorable à cette modélisation.

Pas de séminaire le 13/10 pour cause d'invité le 09/10.

  • 09/10/2017 à 11h : Overview of first-order optimization methods for the LP relaxation of the Weighted CSP Problems: classification, experience, comparison Bogdan Savchynskyy and Stefan Haller (Heidelberg University, Allemagne)
Résumé : We will review a majority of existing solvers for the local polytope relaxation of the weighted constraint satisfaction problem. The problem is also known as maximum a posteriori/maximum probable explanation inference in undirected graphical models. The relaxation is often referred to as "linear programming (LP) relaxation". We will consider several dual formulations of the relaxation and treat them as unconstrained large-scale concave problems. The core of our talk is a comparison of approximate solvers for this problem. These solvers are based on subgradient, proximal point, smoothing and block-coordinate descent techniques. Based on the comparison, we will conclude about key properties of an "ideal" (so far non-existing) solver.

Pas de séminaire le 6 octobre (journée RECORD).

  • 29/09/2017 : Vers une prévision des incertitudes en météorologie Laure Raynaud (Météo France)  diaporama
Résumé : Malgré les progrès réguliers des prévisions météorologiques, celles-ci demeurent imparfaites et, surtout, incertaines. Ces erreurs de prévision combinent de façon indissociable les imperfections des observations, d'autres de la modélisation, qui peuvent faire l’objet d'améliorations sans pouvoir être totalement supprimées. C'est pourquoi on affiche parfois une confiance limitée dans les prévisions annoncées : les prévisions sont incertaines et l'intérêt pour quantifier cette incertitude ne cesse de grandir. Pour ce faire, le recours à des techniques de prévision probabiliste s'impose. Après quelques quelques rappels autour de la notion de prévisibilité de l'atmosphère, on présentera les méthodes probabilistes mises en oeuvre quotidiennement dans les centres de prévision opérationnels, ainsi que l'information utile que les utilisateurs peuvent en retirer.
  • 22/09/2017 : Annotating long non-coding RNAs in model and non-model organisms using a Random Forest strategy Valentin Wucher (CRG, Barcelone, Espagne) diaporama
Résumé : Le séquençage du transcriptome (RNA-seq) est devenu un standard pour identifier et caractériser les différentes populations d'ARN. Néanmoins, l'une des principales difficultés consiste à pouvoir classer les nouveaux transcrits et notamment différencier les ARN qui seront traduits en protéines (ARNm/mRNA) des ARN longs non-codants (ARNlnc/lncRNA). Dans ce but, nous avons développé FEELnc (FlExible Extraction of LncRNAs), un programme ne nécessitant pas d'alignements de séquences (alignment-free) et qui permet d'annoter les ARNlnc via une stratégie Random Forest basée/entraînée sur les fréquences de multiples k-mer et une définition d'ORF relâchée. Comparées avec 5 autres méthodes, les performances de FEELnc montrent des résultats similaires ou meilleurs sur des jeux de données connus de lncRNA/mRNAs issus de l'annotation de référence GENCODE (homme et souris) et NONCODE (base de données d'ARNlnc chez des espèces non-modèles). FEELnc automatise aussi l'annotation des ARNlnc en sous-classes distinctes (génique et intergéniques) et permet d'identifier des ARNlnc même sans séquences d'ARN longs non-codants en apprentissage, ce qui permet son utilisation pour des espèces non-modèles. FEELnc a été utilisé chez 3 espèces non-modèles : le chien, le poulet et l'algue (Ectocarpus), permettant l'identification de plusieurs ARNlnc.
  • 15/09/2017 : Mesures de dépendance et échantillonnage Monte-Carlo multi-niveaux pour la quantification d'incertitudes et l'analyse de sensibilité Matthias De Lozzo (CERFACS Toulouse) diaporama
Résumé : Les outils de quantification d'incertitudes et d'analyse de sensibilité permettent d'étudier l'impact des paramètres incertains d'un simulateur numérique sur sa sortie (moments centraux, quantiles, probabilités de dépassement de seuil, parts de variabilité de la sortie imputables aux différents paramètres, etc.). Requérant un nombre important d'évaluations du simulateur, il est courant de remplacer ce dernier par un modèle de substitution (krigeage, chaos polynomial, ...). Néanmoins, une erreur de métamodèle vient dans ce cas s'ajouter à celle d'échantillonnage. Pour palier ceci, cet exposé présente deux types de travaux récents et en cours se passant de métémodèle. Un premier consiste à remplacer les indices de sensibilité usuels par des nouveaux basés sur des mesures de dépendance s'appuyant sur la théorie des RKHS et moins gourmand en simulations. Un second vise à remplacer les méthodes d'échantillonnage de type Monte-Carlo par des méthodes d'échantillonnage de type Monte-Carlo multi-niveaux faisant appel à des évaluations de versions dégradées et plus rapides du simulateur. Ces travaux sont appliquées à des problématiques de sciences de l'environnement.
Résumé : Integrating the increasing number of available multi-omics cancer data remains one of the main challenges to improve our understanding of cancer. Our approach is based on AMARETTO, an algorithm that integrates DNA methylation, DNA copy number and gene expression data to identify cancer driver genes and associates them to modules of co-expressed genes. We then propose a pancancer version of AMARETTO by connecting all modules in pancancer communities. This leads to the identification of major oncogenic pathways and master regulators involved in different cancers.



Pas de séminaire entre le 7 juillet et le 1er septembre (vacances scolaires).

  • 30/06/2017 : Revealing the hidden structure of dynamic ecological networks Catherine Matias (CNRS, UPMC & Université Paris Diderot)
Résumé : Recent technological advances and long-term data studies provide interaction data that can be modelled through dynamic networks, i.e a sequence of different snapshots of an evolving ecological network. Most often time is the parameter along which these networks evolve but any other one-dimensional gradient (temperature, altitude, depth, humidity, . . . ) could be considered. Here we propose a statistical tool to analyse the underlying structure of these networks and follow its evolution dynamics (either in time or any other one-dimensional factor). It consists in extracting the main features of these networks and summarise them into a high-level view. We analyse a dynamic animal contact network and a seasonal food web and in both cases we show that our approach allows for the identification of a backbone organisation as well as interesting temporal variations at the individual level. Our method, implemented into the R package dynsbm, can handle the largest ecological datasets and is a versatile and promising tool for ecologists that study dynamic interactions.
  • 29/06/2017 : From Artificial Intelligence to Conservation Iadine Chadès (CSIRO, Brisbane)
Résumé : À travers mon expérience personnelle, je propose de partager les avancées et challenges autour de la prise de décisions dans l'incertain et l'optimisation dans le domaine de la biologie de la conservation.
  • 23/06/2017 : Accounting for Linkage Disequilibrium in genome scans for selection without individual genotypes : the local score approach Magali San Cristobal (Dynafor/MIA) diaporama
Résumé : Detecting genomic footprints of selection is an important step in the understanding of evolution. Accounting for linkage disequilibrium in genome scans increases detection power, but haplotype-based methods require individual genotypes and are not applicable on pool-sequenced samples. We propose to take advantage of the local score approach to account for linkage disequilibrium in genome scans for selection, cumulating (possibly small) signals from single markers over a genomic segment, to clearly pinpoint a selection signal. We applied the local score approach to Pool-Seq data obtained from a divergent selection experiment on behavior in quail, and obtain precise and biologically coherent selection signals, while competing methods fail to highlight any clear selection signature.

Pas de séminaire le 16 juin (Tolosanes).

  • 9/06/2017 : Integrating TARA Oceans datasets using unsupervised multiple kernel learning Jérôme Mariette (MIAT, INRA)
Résumé : In metagenomic analysis, the integration of various sources of information is a difficult task since produced datasets are often of heterogeneous types. These datasets can be composed of species counts, which need to be analysed with distances, but also species abundances, interaction networks or phylogenetic information which have been shown relevant to provide a better comparison between communities. Standard integration methods can take advantage of external information but do not allow to analyse heterogenous multi-omics datasets in a generic way. We propose a multiple kernel framework that allows to integrate multiple datasets of various types into a single exploratory analysis. Several solutions are provided to learn either a consensus meta-kernel or a meta-kernel that preserves the original topology of the datasets. This kernel is subsequently used in kernel PCA to provide a fast and accurate visualisation of similarities between samples, in a non linear space and from the multiple source point of view. A generic procedure is also proposed to improve the interpretability of the kernel PCA in regards with the original data. We applied our framework to the multiple metagenomic datasets collected during the TARA Oceans expedition. We demonstrate that our method is able to retrieve previous findings in a single analysis as well as to provide a new image of the sample structures when a larger number of datasets are included in the analysis.
Résumé : During the last decade, numerous studies have shown the important role of nuclear organization on gene expression regulation (Bickmore & Van Steensel, 2013). Genomic long-range interactions in cis (intra-chromosomal) and in trans (inter-chromosomal) are involved in the activation of tissue-specific gene networks (Fanucchi et al., 2013) and chromosome conformation profiling has been shown to provide insightful information about the establishment of complex genetic disorders during development (Lupianez et al., 2015; Won et al., 2016). However, how and to which extent the genome conformation regulates its function remains to be explained. It is now possible to characterize spatial interactions between pairs of loci genome-wide by high throughput Chromosome Conformation Capture approaches (Hi-C, Dekker et al 2013). Recent developments of the Hi-C technology allowed to comprehensively describe the nuclear organization of the genome in model species at high resolution (Rao et al 2014). Here we present the basis of Hi-C data generation and analysis. Using two current INRA projects as examples of application, we will briefly introduce the experimental protocol and the bioinformatics pipeline to process paired-end sequencing reads, map them on a genomic reference, quantify 3D interactions between pairs of genomic loci and generate contact matrices. Then, we will present an overview of the statistical analyses (exploratory analysis, clustering, differential analysis) and challenging questions that are still to be addressed.

Pas de séminaire le 26 mai (pont de l'Ascension).

  • 19/05/2017 : In silico identification of transcription factor binding sites Jimmy Vandel (LIRMM)
Résumé : Amongst the multiple levels of gene regulation, transcription regulation occurs through the binding of transcription factors (TF) to short specific DNA sequences (TF motifs).The small length of these TF motifs (10 to 20 nucleotides) coded with a limited alphabet (A,T,G or C) makes their identification difficult. Hence classical methods for TF binding-sites identification usually return lots of potential sites. But only a small fraction of these motifs occurrences are functionals due to other factors as epigenetic effects, sequence nucleotide composition or presence of associated motifs. Our aim is to improve identification of functionals TF binding sites on DNA through new scoring function based on linear models taking into account several TF motif scores and nucleotide compositions of genes sequences. We train and test this new scoring function using Chip-Seq data which identify DNA regions bound by a specific TF.
  • 12/05/2017 : Spectral mixture analysis - Beyond the linear mixing model Nicolas Dobigeon (ENSEEIHT) diaporama
Résumé : Spectral mixture analysis, aka spectral unmixing, is a crucial step while analyzing data provided by various imaging modalities, including astronomy, remote sensing and microscopy. It consists of decomposing the measurements into a set of elementary spectra and quantifying their respective proportions in the observed mixtures. A large majority of the unmixing approaches implicitly or explicitly assume that these measurements result from a linear combination of the elementary spectra. Recent advances, mainly conducted in the remote sensing and geoscience community, have attempted to overcome the intrinsic limitations of this linear mixing model. This talk will propose an overview of these linear and nonlinear mixing models and the main corresponding unmixing approaches.
  • 5/05/2017 : Design et Apprentissage de grands réseaux de régulation de gènes par rétro-ingénierie Clément Carré (MIAT)
Résumé : La connaissance complète du réseau de régulation est d'une importance capitale pour comprendre le fonctionnement des organismes vivants. Hélas, cette connaissance coûte très cher en temps et en argent pour identifier les gènes qui entrent en jeu dans cette régulation. Le machine learning peut nous permettre de prédire les noeuds intéressants du réseau, mais cette approche nécessite une connaissance a-priori d'une partie du réseau et nous avons voulu savoir comment optimiser l'acquisition de cette connaissance pour permettre une reconstruction optimale. La construction d'un modèle pour la génération de données de grande taille (FRANK) et les va-et-viens avec les données de la biologie nous a permis d'apporter des éléments de réponse à quelques unes de ces questions. Après une présentation de ce que sont les réseaux de régulation de gènes et leurs enjeux, je présenterais le modèle que nous avons mis en place avec FRANK. Enfin, dans une dernière partie, je présenterais quelques résultats de machine learning obtenu sur les données générées par FRANK in-silico et qui seront comparées avec les résultats obtenu sur un jeu de données réelles d'E. Coli, le tout dans l'objectif de répondre à des questions d'ordre biologique.
  • 28/04/2017 : Séminaire des doctorants - salle Marc Ridet Programme détaillé
    • 9h30-09h50 Walid Ben Saoud Benjerri (MIAT) Algorithmes d'alignement de petits ARN diaporama
    • 09h50-10h10 David Gaudrie (MIAT) Optimisation en haute dimension de l'aérodynamique interne et externe de véhicules diaporama
    • 10h10-10h30 Léonard Torossian (MIAT) Métamodélisation et optimisation robuste - application à la conception d'idéotypes sous incertitude climatique diaporama
    • 10h30-11h00 pause
    • 11h00-11h20 Patrick Tardivel (Toxalim) Procédure de tests multiple contrôlant la familywise error rate utilisant un estimateur de type lasso. Application en métabolomique' diaporama
    • 11h20-11h40 Alyssa Imbert (MIAT) Imputation multiple hot-deck pour l'inférence de réseaux RNA-Seq diaporama
    • 11h40-12h00 Cyriel Paris (GenPhySE) Application d'une méthode spectrale utilisant des séries temporelles pour estimer les paramètres de sélection d'une SNP dans un modèle de diffusion de Wright Fisher diaporama
    • 12h00-14h00 déjeuner
    • 14h00-14h20 Étienne Auclair (MIAT) Réseau bayésien dynamique étiqueté multicontact pour l'apprentissage de réseaux écologiques diaporama
    • 14h20-14h40 Marie-Anne Vedy-Zecchini (AGIR) Analyse et modélisation des effets du système de culture et de la situation de production sur les principaux bioagresseurs du tournesol pour la mise au point de stratégies de protection agroécologique diaporama
    • 14h40-15h00 Sébastien Le Coz (MIAT) Variational EM pour Factorised Hidden Markov Models avec retour de données
    • 15h00-15h30 pause diaporama
    • 15h30-15h50 Clément Viricel (MIAT) Algorithme d'optimisation et de comptage : Prédiction de différence en énergie libre suite à une mutation diaporama
    • 15h50-16h10 Franck Cerutti (MIAT) Comparaison de l'évolution des petits ARN régulateurs et des gènes codants au sein du genre Listeria'
    • 16h10-16h30 Adrien Lagrange (Dynafor) Du démélange pixellique à la classification thématique - Apprentissage multirésolution pour l'analyse hiérarchique d'images hyperspectrales et hypertemporelles diaporama
  • 21/04/2017 : La théorie du chaos et son potentiel applicatif pour l’étude des dynamiques environnementales Sylvain Mangiarotti (CESBIO, Université Toulouse 3)
Résumé : La théorie des systèmes dynamiques non linéaires–ou théorie du chaos–offre un support théorique particulièrement riche pour l’étude, la modélisation et le suivi des comportements dynamiques. Issue de cette théorie, la modélisation par technique globale a été initiée au début des années 1990. Elle permet aujourd’hui, partant de jeux de données de taille restreinte (une ou quelques séries temporelles) éventuellement courtes et acquises en conditions réelles, d’obtenir des modèles de petites dimensions sous forme d’équations aux dérivées ordinaires. Dans cet exposé, nous présenterons d’abord la technique de modélisation globale, et son intérêt pour modéliser des dynamiques mal identifiées (équations non ou mal connues) et pouvant présenter une imprévisibilité à plus ou moins long terme. Nous nous concentrerons ensuite sur trois types d’applications : la modélisation univariée appliquée à la modélisation des cultures céréalières en région semi-aride, la modélisation multivariée appliquée à l’inférence des liens causaux en éco-épidémiologie, et la détection des comportements dynamiques appliquée à la classification des cultures.

Pas de séminaire les 7 et 14 avril (vacances scolaires).

  • 31/03/2017 : Statistical modeling of gene-gene interaction in the context of case-control genome-wide association studies Mathieu Emily (AgroCampus Ouest) diaporama
Résumé : Case-control genome-wide association studies (GWAS) aim at investigating the genetic components of binary traits like major diseases. Single-locus approaches, whereby a large number of Single Nucleotide Polymorphisms (SNPs) are tested independently for association, have first been developed to analyse GWAS. Although such single-locus approaches have successfully identified regions of disease susceptibility, findings were of modest effect and a large proportion of the genetic heritability is still not covered for common complex diseases. Gene-gene interaction (or epistasis) is often cited as one of the main biological mechanism carrying the "missing heritability" in GWAS. Since human complex diseases are generally caused by the combined effect of multiple genes, the detection of genetic interactions is thus essential to improve our knowledge of the etiology of complex diseases. However, detecting gene-gene interaction raise issues from a statistical and a computational point-of-view. First, the lack of a "clear" definition of the term interaction makes the statistical modeling challenging. Next, the interaction-related combinatorics remains a burden for whole genome scanning. In this presentation, I will introduce several strategies to search for interaction. In a first part, I will focus on the detection of SNP-SNP interaction. In the second part, I will introduce proposed solutions to investigate interaction at the level of the gene. The evaluation of the methods will be assessed by the analysis of the so-called WTCCC data set composed of 5000 individuals (2000 cases and 3000 controls) and 500 000 SNPs.
Résumé : Nonnegative data decomposition & dictionary learning are popular research topics in machine learning and signal processing. They have notorious applications in text retrieval, spectral unmixing, collaborative filtering, image inpainting, etc. In this talk I will review common probabilistic dictionary-based models for nonnegative data and discuss two approaches for estimation, namely maximum joint likelihood estimation (MJLE, closely related to penalised nonnegative matrix factorisation) and the less usual maximum marginal likelihood estimation (MMLE) that involves the integration of the decomposition coefficients. MMLE provides a better-posed estimator than MJLE and furthermore embeds automatic model order selection, a surprising result validated empirically. I will present examples of decomposition of word counts from song lyrics for semantic analysis and examples of decomposition of spectrograms for audio source separation.
  • 17/03/2017 : Tests multiples d'indépendance pour des processus ponctuels : une approche Unitary Events par permutation basée sur le nombre de coïncidences Mélisande Albert (IMT, INSA de Toulouse) diaporama
Résumé : Les dépendances éventuelles entre zones du cerveau ou entre neurones, et en particulier le phénomène de synchronisation, sont communément admises comme faisant partie intégrante du code neuronal. Il est aujourd’hui possible d’enregistrer simultanément les temps de potentiels d’action (trains de spikes) de différents neurones. Une première étape consiste donc à comprendre si deux trains de spikes, modélisés par des processus ponctuels, correspondant à deux neurones, sont indépendants ou non. Après avoir présenté le contexte et les méthodes les plus utilisées en neurosciences, ainsi que leurs limites, je présenterai un test d’indépendance non-paramétrique entre deux processus ponctuels, basé sur le principe de permutation. Théoriquement, il est prouvé qu’il est de bon niveau (non asymptotique), et ce même lorsque les valeurs critiques sont approchées par des méthodes de Monte Carlo. Des garanties en termes de puissance asymptotique ont également été démontrées. Les performances pratiques ainsi qu’une comparaison avec les méthodes usuelles seront illustrées sur des données simulées. Ensuite, je présenterai la procédure de tests multiples permettant de détecter les synchronisations entre les trains de spikes. Cette méthode sera comparée également aux méthodes usuelles sur des données simulées avant d’être appliquées à de vraies données. Ce travail est en collaboration avec Yann Bouret, Magalie Fromont et Patricia Reynaud-Bouret.
Résumé : Interval methods are the only approaches that guarantee a numerical proof of optimality, even in the presence of round-off errors. Branch and bound algorithms based on interval methods nowadays exploit powerful refutation and contraction techniques stemming from interval analysis and constraint programming. State-of-the-art solvers are generally integrative methods: they invoke local optimization techniques on each subspace to find a good approximation of the global minimum. In this presentation, we propose a cooperative framework that hybridizes in a parallel fashion interval methods and evolutionary algorithms, a class of stochastic global optimization methods endowed with mechanisms that help escape from local minima. A comparison with cutting-edge interval solvers (Ibex, IBBA) and non-rigorous MINLP solvers (BARON, Couenne) on a subset of unconstrained and constrained benchmark problems shows that our approach is highly competitive. In particular, we provide a numerical proof of optimality for an open instance of the Lennard-Jones clusters with 5 atoms.
  • 3/03/2017 : Using Machine Learning and Integrative Approaches for Current Problems in Structural Biology Sergei Grudinin (NANO-D, INRIA Rhone-Alpes)
Résumé : Although the fundamental forces between atoms and molecules are almost fully understood at a theoretical level, and computer simulations have become an integral part of research activities, the application of these methods to large biomolecules still faces important practical difficulties due to the combinatorial explosion of possible interactions involved. Developing efficient protein structure prediction algorithms thus remains a major scientific challenge in computational biology. I will give an overview of computational methods for protein structure prediction developed in our group at Inria Grenoble. In particular, I will present how machine learning and optimization in general can be used in current problems of computational structural biology. More specifically, I will present our recent results on the prediction of properties of small molecules, on the prediction of protein-protein and protein-drug interactions, as well as individual protein folds at atomic level. I will also present some methods for efficient space exploration including FFT-accelerated techniques, symmetry-driven methods, SAXS-assisted optimization, and our recent developments in non-linear normal mode analysis.
  • 24/02/2017 : Modeling Symmetrical Protein Structures in the CASP/CAPRI Docking Experiment Dave Ritchie (LORIA, INRIA)
Résumé : One of the current challenges in structural biology is to predict how two or more protein molecules come together and bind to form a complex. This is often referred to as "the protein docking problem." Simulating protein docking accurately is computationally difficult, due to the enormous size of the search space and the delicate interplay of competing inter-molecular forces. As a first approximation, proteins may often be considered to be rigid 3D bodies. This allows the first part of the problem to be attacked efficiently using fast Fourier transform (FFT) based approaches. However, it is difficult to encode accurate potentials within the FFT paradigm. Thus, it seems, there is always a trade-off between speed and accuracy. In this presentation, I will introduce the basic principle of protein docking using FFT techniques. I will then describe a two-step approach to the docking problem in which a fast polar Fourier search is used to find a small list of feasible solutions which are then refined using more rigorous energy minimisation. In particular, I will focus on recent work to model symmetrical protein complexes. Several of the targets in the last CASP/CAPRI protein modeling and docking experiment were predicted by the CASP organisers to be symmetric homo-dimers. Thus, a new challenge for the CAPRI docking community was to predict structures of the final complexes using the monomer structures predicted by the CASP fold prediction community. Our results show that many of the CASP models are dockable in the sense that they can lead to acceptable models of symmetrical complexes, but that using NAMD energy minimization to pull out acceptable complexes from a large ensemble of docked CASP models is computationally expensive.

Pas de séminaire les 10 et 17 février (vacances scolaires).

  • 3/02/2017 : SNP calling from RNA-seq data without a reference genome: identification, quantification, differential analysis and impact on the protein sequence Vincent Lacroix (LBBE, Lyon)
Résumé : SNPs (Single Nucleotide Polymorphisms) are genetic markers whose precise identification is a prerequisite for association studies. Methods to identify them are currently well developed for model species, but rely on the availability of a (good) reference genome, and therefore cannot be applied to non-model species. They are also mostly tailored for whole genome (re-)sequencing experiments, whereas in many cases, transcriptome sequencing can be used as a cheaper alternative which already enables to identify SNPs located in transcribed regions. In this paper, we propose a method that identifies, quantifies and annotates SNPs without any reference genome, using RNA-seq data only. Individuals can be pooled prior to sequencing, if not enough material is available from one individual. Using pooled human RNA-seq data, we clarify the precision and recall of our method and discuss them with respect to other methods which use a reference genome or an assembled transcriptome. We then validate experimentally the predictions of our method using RNA-seq data from two non-model species. The method can be used for any species to annotate SNPs and predict their impact on the protein sequence. We further enable to test for the association of the identified SNPs with a phenotype of interest.
  • 27/01/2017 : Planification multi-agent sous incertitude dans des environnements non-stationnaires Aurélie Beynier (LIP6, Université Paris 6)
Résumé : Afin de résoudre des problèmes de décision multi-agents en environnements incertains, les Processus Décisionnels de Markov Décentralisés (DEC-POMDPs) ont connu un intérêt croissant au cours des dernières années. Ce modèle permet à un ensemble d'agents de prendre des décisions coopératives de façon distribuée à partir d'observations partielles sur l'environnement et les autres agents. Toutefois, comme cela est le cas pour les POMDPs, la dynamique de l’environnement est supposée stationnaire, c’est-à-dire que les probabilités de transitions entre états n'évoluent pas au cours du temps. Dans certains cadres applicatifs, cette hypothèse n'est pas vérifiée. Dans cet exposé, nous présenterons une approche permettant aux agents d'adapter leurs décisions en fonction de l'évolution de la dynamique du système. Nous envisagerons le problème de décision non-stationnaire comme une succession de « modes » où chaque mode est un problème de décision stationnaire. Nous aborderons la question de la détection du changement de mode et de l'apprentissage de la fonction de transition au sein d'un mode. Ces travaux seront illustrés sur un problème de patrouille multi-agent pour la détection d’événements anormaux.
  • 20/01/2017 : Utilisation de données météorologiques archivées pour construire des graphes de dispersion Samuel Soubeyrand (INRA, Biostatistique et Processus Spatiaux, Avignon)
Résumé : Nombre de modèles épidémiques incorporent des noyaux de dispersion qui sont, la plupart du temps stationnaires dans l'espace. Pourtant, la dispersion est un processus généralement non-stationnaire dans les situations réelles. Pour modéliser la non-stationnarité de la dispersion, différentes approches ont été envisagées (e.g. les trajectoires de moindre coût, les distances de résistance, l'utilisation de covariables permettant de moduler la force des sources d'agents de dissémination, les équations intégro-différentielles inhomogènes ou encore les modèles de dispersion atmosphérique). L'approche que nous présenterons pour modéliser la non-stationnarité de la dispersion repose sur l'utilisation de données météorologiques archivées. De telles données permettent de reconstruire les trajectoires passées des masses d'air et, en agrégeant ces trajectoires, d'estimer des graphes de dispersion potentielles au sein d'un ensemble de sites répartis dans l'espace. Nous discuterons lors de la présentation les applications et implications auxquelles ce type de graphes de dispersion devrait donner lieu.

Mercredi 17 janvier à 13h30, Charlotte Dayde soutiendra sa thèse intitulée Comprendre le processus de prise de décision opérationnelle en agriculture : Une approche en rationalité limitée, amphi Marc Ridet

Résumé : Afin d'expliquer la diversité des pratiques des agriculteurs, cette thèse explore le rôle des caractéristiques du processus de décision dans les choix opérationnels réalisés. Sur la base d'une méthode à deux volets (modélisation et enquêtes), nous avons proposé un modèle conceptuel du processus de prise de décision des agriculteurs, caractérisé les différences possibles au sein de ce processus (appelées modes de décisions), mis en évidence le lien entre ces modes et les pratiques, précisé les modalités de simplification du processus de décision et identifié de nouveaux leviers d'action pour l'accompagnement des agriculteurs. De nature générique, les modèles et les méthodes d'enquêtes proposés ont été appliqués à un cas d'étude qui à permis d'expliquer l'hétérogénéité des pratiques antifongiques des agriculteurs sur le blé tendre en Midi-Pyrénées par leurs caractéristiques personnelles, par les caractéristiques de leurs exploitations et par leurs modes de décision.
  • 13/01/2017 : Prédire un comportement physiologique à partir du génome grâce à la modélisation métabolique. Applications aux microalgues et pistes de recherche pour les interactions plantes-microorganismes. Caroline Baroukh (LIPM, INRA Toulouse)
Résumé : La modélisation métabolique est un outil performant pour mieux comprendre, prédire et optimiser les systèmes biologiques. Malheureusement, l’utilisation de ce type de modélisation est difficile à cause du manque de données expérimentales nécessaires pour définir et calibrer les cinétiques des réactions appartenant aux différents chemins métaboliques. C’est pourquoi, les modèles métaboliques sont souvent utilisés sous l’hypothèse d’état quasi-stationnaire. Cependant, pour certains procédés, comme la croissance photoautotrophique des microalgues, cette hypothèse ne semble pas être valable. Dans cette présentation, deux nouvelles méthodologies de modélisation métabolique qui relâchent l’hypothèse de quasi-stationnarité seront exposées. Ces méthodologies seront appliquées à la croissance de microalgues sous différents régimes trophiques. Des pistes sur l’application de la modélisation métabolique pour les interactions plantes-microorganismes seront également présentées.
  • 6/01/2017 : Spatial Gaussian process modeling with large data sets François Bachoc (IMT, Université Paul Sabatier, Toulouse)
Résumé : In the first part of the talk, we will introduce spatial Gaussian processes. Spatial Gaussian processes are widely studied from a statistical point of view, and have found applications in many fields, including geostatistics, climate science and computer experiments. Exact inference can be conducted for Gaussian processes, thanks to the Gaussian conditioning theorem. Furthermore, covariance parameters can be estimated, for instance by Maximum Likelihood. However, one limitation of Gaussian process models is that they entail computationally intensive calculations when the data-set size n is large. Hence, there is a lively research activity for designing and anayzing approximate procedures which are computationally cheaper. In the second part of the talk, we present a contributions in this direction. We propose a new procedure based on aggregating several Gaussian process models, each based on a different subset of the total data set. We support this procedure with asymptotic results.

Pas de séminaire les 23 et 30 décembre (vacances scolaires).

  • 16/12/2016 : Apprentissage rapide de champs de Markov conditionnels relaxés par méthodes bloc proximales duales stochastiques Guillaume Obozinski (Ecole des Ponts ParisTech)
Résumé : Le développement récent d'algorithmes stochastiques pour l'optimisation des grandes sommes finies de fonctions (SAG, SDCA, SVRG, SAGA) fournit, pour la résolution des problèmes de minimisation du risque empirique et du risque empirique régularisé, des algorithmes dont les vitesses de convergence représentent une nette amélioration par rapport à l'état de l'art antérieur. Les méthodes classiques d'apprentissage dans les modèles graphiques non-orientés s'appuient sur le calcul du gradient du problème primal qui nécessite de résoudre à chaque itération un problème d'inférence probabiliste difficile. Dans cet exposé je montrerai d'abord comment, sur la base d'une formulation variationnelle relaxée, il est possible de reformuler l'apprentissage des modèles graphiques non-orientés dans le dual de telle sorte que l'inférence ne soit plus nécessaire à chaque étape, mais que l'inférence et l'apprentissage se fassent simultanément de façon implicite dans le dual. Ensuite je montrerai comment des algorithmes de type stochastic dual coordinate ascent (SDCA) peuvent être appliqués à l'apprentissage de ces modèles et obtiennent en pratique des vitesses de convergence linéaires.
  • 9/12/2016 : High-throughput manual-quality annotation of full-length long noncoding RNAs with Capture Long-Read Sequencing (CLS) Julien Lagarde (CRG, Barcelone)
Résumé : Efforts to decipher the functions of long noncoding RNAs depend on availability of full-length and comprehensive transcript annotations. The gold-standard manually-curated GENCODE collection remains far from complete: many genes models are fragmentary, while thousands more remain uncatalogued. To accelerate lncRNA annotation, we have developed RNA Capture Long Seq (CLS), combining targeted RNA capture with 3rd generation long-read sequencing (PacBio). We present a survey of the entire GENCODE intergenic lncRNA populations in matched human and mouse tissues at a depth of 2 million reads each. Mapping and merging these data more than doubles the annotation complexity of these loci. Novel splice junctions are supported by short-read sequencing and are enriched in known splicing motifs. Combining transcription initiation and termination data, we catalogue a non-redundant set of 7,843/3,025 end -to-end novel lncRNA transcript structures, respectively. This unique full-length dataset reveals fundamental similarities and differences of lncRNA and protein-coding genes for the first time. CLS removes a longstanding bottleneck of transcriptome annotation, generating manual-quality full-length transcript models at high-throughput scales.

Pas de séminaire le 2 décembre (Journée Bioinformatique et Biostatisque Genotoul).

  • 25/11/2016 : Présentations de Phyloligo/Contalocate et eukarHT Ludovic Mallet (MIAT, INRA)
Résumé : Sequencing projects often uncover more species or material than expected. Biological systems can be more complex than initially thought, sometime resulting in impromptu sequences in the sample. Whether it is natural: obligatory association of species, uncultivable organism, organelles, or unexpected: contamination, uncharacterised species association, such datasets often mix diverse species with different lifestyles prompting specific handling in downstream analyses and therefore a preliminary separation of the subsets. We propose a duet of tools: PhylOligo and ContaLocate to explore, identify and extract species-specific sequences based on oligonucleotide profile after a genome assembly was performed. The second part of the presentation will be about various machine learning methods over gene networks that we used with simulated horizontal transfers to assess the identification power by phylogeny-free methods of horizontally transferred genes in eukaryotes. diaporama
  • 18/11/2016 : Stochastic block model and logistic regression for networks: a variational Bayes approach Stéphane Robin (AgroParisTech, INRA) diaporama
Résumé : The stochastic block model (SBM) has become a standard tool for the analysis of network-structured data. This model is one of the many state-space models that have been proposed for network analysis and, as such, its inference raises specific issues that can be circumvented using variational (Bayes) techniques. Another general network model, still much less popular, is the W-graph model, which is characterized by the so called graphon function. We will show how an estimate of this function can be obtained using Bayesian averaging over a series of stochastic block models. This inferred graphon function provides a new description of the network, although its interpretation suffers from identifiability issues. When covariates are available, the logistic regression model constitutes a natural and simple tool to understand how they contribute to explain the topology of a (binary) network. We will show how the logistic model for graph can be combined with a graphon-like residual term. This residual term is supposed to characterize the residual structure of the network, that is not explained by the covariates. The goodness-of-fit of the logistic regression then amounts to check if the residual graphon function is constant. This presentation will be illustrated with several examples from social and life sciences. It is a joint work with Pierre Latouche (SAMM, Univ. Paris 1) and Sarah Ouadah (AgroParisTech/INRA).

Pas de séminaire les 28 octobre et 4 novembre (vacances scolaires) ni le 11 novembre (férié).

  • 21/10/2016 : Utilisation de la programmation dynamique stochastique duale (SDDP) pour produire et analyser des solutions coopératives dans des bassins versants internationaux Charles Rougé (University of Manchester, UK)
Résumé : L'exploitation des ressources en eaux de bassins transnationaux a été marqué au cours des dernières décennies par le développement et la gestion non-coopératives d'infrastructures. La recherche de politiques de développement et de gestion coopératives permet d'évaluer le coût de la non-coopération et de rechercher de mécanismes institutionnels internationaux. Cette présentation met l'accent sur l'utilisation d'un algorithme d'optimisation, SDDP, pour produire des politiques de gestion coopérative dans des bassins versants de grande échelle où d'autres algorithmes sont victimes de la « malédiction de la dimension ». Elle se focalise sur l'utilisation de SDDP dans des contextes dans lesquels les données sont rares, en prenant comme exemples les bassins du Tigre et de l'Euphrate au Moyen-Orient et dans une moindre mesure, le bassin du Zambèze en Afrique Australe. Le bassin du Zambèze est introduit pour démontrer l'impact de la rareté des données sur SDDP, et les solutions qui ont été apportées. Ensuite, l'analyse de la situation présente du Tigre et de l'Euphrate montre comment SDDP peut être utilisé de concert avec des techniques de télédétection pour mettre en évidence les vulnérabilités liés à l'état des ressources en eaux dans la région, et ce même dans un contexte conflictuel limitant drastiquement l'accès aux données. résumé en khuzdul (PDF)

Pas de séminaire le 14 octobre Colloque CARTABLE.

Résumé : Let (X_1,…,X_n) be a d-dimensional i.i.d sample from a distribution with density f. The problem of detection of a two-component mixture is considered. Our aim is to decide whether f is the density of a standard Gaussian random d-vector (f=ϕ_d) against f is a two-component mixture: f=(1−ε)ϕ_d+εϕ_d(.−μ) where (ε,μ) are unknown parameters. Optimal separation conditions on ε,μ,n and the dimension d are established, allowing to separate both hypotheses with prescribed errors. Several testing procedures are proposed and two alternative subsets are considered. Travail en collaboration avec Béatrice Laurent et Clément Marteau.
  • 30/09/2016 : Aide à la conception et à l'exploitation de modèles à base d'agents Patrick Taillandier (MIAT)
Résumé : La modélisation à base d’agents, qui consiste à représenter explicitement les entités composant le système étudié sous la forme d’un ensemble d’entités informatiques autonomes en interaction appelées agent, a connu un grand essor ces dernières années. Ces modèles ouvrent de nombreuses perspectives tant pour la recherche fondamentale que pour la mise en place de politiques publiques. Malheureusement, l'utilisation de l’approche agent requiert de posséder des compétences solides en programmation et en intelligence artificielle, en particulier lorsqu'il s'agit de modéliser des systèmes complexes intégrant des aspects environnementaux et sociaux. La plupart des modèles sont ainsi encore développés par des informaticiens et non directement par des experts du domaine, ce qui ralentit la diffusion de cette approche et la transmission des connaissances aux acteurs territoriaux. Les travaux de recherche que je vais vous présenter durant ce séminaire visent à répondre à ce problème. Ils concernent différents aspects du processus de modélisation et en particulier l'aide au développement de modèles. Ce séminaire sera aussi l'occasion de présenter la plate-forme open-souce de modélisation et de simulation GAMA, qui est au coeur de mes travaux. De nombreux projets de recherche utilisant cette plate-forme et touchant des domaines d'application aussi variés que l'agronomie, les dynamiques urbaines, le trafic routier, la gestion de projets et l'épidémiologie seront évoqués.
Résumé : I will describe block conditional gradient methods for convex optimization. The presentation will be focused on machine learning related aspects. I will give a general introduction of the conditional gradient method, a brief overview of its history, reasons of present renewed interest and recent advances. I will then introduce the block conditional gradient as a dual method for empirical risk minimization problems. The method really comes into its own for classes of problem for which more efficient optimization primitives (e.g. projections) are not affordable. The structured output learning problem falls in this category. I will describe the application of block conditional gradient to the training of the structured SVM when the output space is combinatorial with specific decoding oracles. Theoretical and empirical results will conclude the talk. The presentation is mostly based on the literature as well as results from a collaboration with Amir Beck and Shoham Sabach.
  • 16/09/2016 : Solving multi-objective optimization problems in conservation with the reference point method Yann Dujardin (CSIRO Land and Water, Melbourne, Australia)
Résumé : Managing biodiversity extinction crisis requires wise decision-making processes able to account for the limited of resources available. In most decision problems in conservation biology, several conflicting objectives have to be taken into account. Most methods used in conservation either provide suboptimal solutions or use strong assumptions about the decision-maker’s preferences. The goal of these two short talks is to present new multi-objective linear programming formulations for two multi-objective optimization problems in conservation, allowing the use of a reference point approach. Reference point approaches solve multi-objective optimization problems by interactively representing the preferences of the decision-maker with a point in the criteria space, called the reference point. We modelled and solved the following two conservation problems: a dynamic multi-species management problem under uncertainty and a spatial allocation resource management problem. Results show that the reference point method outperforms classic methods while illustrating the use of an interactive methodology for solving combinatorial problems with multiple objectives. The method is general and can be adapted to a wide range of ecological combinatorial problems.

Séance exceptionnelle de séminaire en partenariat avec Toulouse School of Economics, manufacture des tabacs (salle MS003) le jeudi 15 septembre à 11h  :

  • 15/09/2016 : Beyond stochastic gradient descent for large-scale machine learning Francis Bach (INRIA, ENS)
Résumé : Many machine learning and statistics problems are traditionally cast as convex optimization problems. A common difficulty in solving these problems is the size of the data, where there are many observations ("large n") and each of these is large ("large p"). In this setting, online algorithms such as stochastic gradient descent which pass over the data only once, are usually preferred over batch algorithms, which require multiple passes over the data. Given n observations/iterations, the optimal convergence rates of these algorithms are O(1/n^(1/2)) for general convex functions and reaches O(1/n) for strongly-convex functions. In this talk, I will show how the smoothness of loss functions may be used to design novel simple algorithms with improved behavior, both in theory and practice: in the ideal infinite-data setting, an efficient novel Newton-based stochastic approximation algorithm leads to a convergence rate of O(1/n) without strong convexity assumptions. (joint work with Alexandre Defossez, Aymeric Dieuleveut, Nicolas Flammarion, and Eric Moulines)
  • 9/09/2016 : Génération de populations synthétiques pour la simulation sociale Frédéric Amblard (IRIT, Université Toulouse 1) diaporama
Résumé : Après avoir présenté les enjeux et le positionnement épistémologique de la simulation sociale multi-agents, nous présenterons une des pistes de recherche très active dans le domaine, concernant la génération de population synthétique, à savoir la génération à partir de statistiques agrégées et macroscopiques, de populations d'agents réalistes quant à leurs attributs (age, sexe, CSP...), leur localisation et leur réseau social. Nous présenterons quelques méthodes de la littérature ainsi que les pistes sur lesquelles nous travaillons dans le cadre du projet Genstar.
  • 2/09/2016 : Analyse statistique de données de nombres de copies d'ADN en cancérologie Pierre Neuvial (IMT, Université Toulouse 3) diaporama
Résumé : La caractérisation des variations du nombre de copies d'ADN dans les cellules tumorales constitue un enjeu important en cancérologie, à la fois pour la compréhension des maladies et pour l'amélioration des traitements. Je parlerai de deux enjeux statistiques et bioinformatiques de l'analyse des données moléculaires utilisées pour mesurer le nombre de copies d'ADN (puces à ADN et séquençage): l'évaluation des performances des méthodes de segmentation et la prise en compte de l'hétérogénéité tumorale.


Pas de séminaire en juillet-août.

  • 01/07/2016 : Modelling complex biological systems: a network perspective Matthieu Vignes (Massey University, NZ)
Résumé : In this talk, after a short introduction to my (very simplified) point of view of a biological system, I will present 3 projects I am involved in and their present status: (i) Gene expression patterns in allopolyploid species, (ii) the genetics basis of host-pathogen association and (iii) the control of infectious diseases, or playing with (anti-social) networks. In particular, I would stress the use of adequate (yet basic for the moment) data analysis techniques and potential developments.
  • 24/06/2016 : La gestion des espèces envahissantes, un problème de décision dans l’incertain Mathieu Bonneau
Résumé : Les espèces envahissantes sont des espèces introduites au sein d'un nouvel écosystème, de manière involontaire lors du transport de marchandises par exemple, ou de manière volontaire pour le commerce ou le loisir. Ces espèces, de poissons, d'oiseaux, de plantes, de mammifères etc peuvent être qualifiées d'envahissantes, dès lors qu'elles impacts de manière négative l'économie ou les écosystèmes. Estimer les pertes causées par les espèces envahissantes est une tache difficile par nature, à cause du manque de données ou encore parce qu'il est difficile de quantifier les impacts négatifs sur les écosystèmes. Néanmoins, David Pimentel en 2005, article cité 2516 fois depuis, rapporte qu'aux États-Unis les pertes financières peuvent aller jusqu'à 120 billion de dollars par an. Ou encore que seulement 79 espèces ont causé des pertes financières d'au moins 97 billions de dollars de 1906 à 1991. En pratique, la lutte contre les espèces envahissantes peut consister à éradiquer l'espèce si celle-ci est découverte suffisamment tôt. Mais elle consiste généralement à en minimiser les impacts, avec peu de moyen et beaucoup d'incertitude scientifique. La gestion des espèces envahissantes est un problème de décision dans l'incertain, où la modélisation permet de quantifier les effets des différentes actions de gestion sur l'espèce et l'optimisation permet de déterminer l'action de gestion optimale. Cette présentation détaillera différents exemples où la modélisation et l'optimisation ont été utilisé pour proposer des modèles d'aide à la décision dans le cas de la gestion des espèces envahissantes. Nous développerons particulièrement le cas de la gestion de l'épervière orangée dans les Alpes situés dans l'état du Victoria. Cette plante est capable de causer un fort déclin de la biodiversité, impactant ensuite fortement l'agriculture causant la perte des espèces traditionnellement utilisées pour le pâturage. Vraisemblablement introduit dans le Victoria pour une utilisation personnelle, cette plante a ensuite colonisée plusieurs parties du parc national où elle est maintenant activement surveillée. Le contrôle de cette plante est un travail de long terme car les endroits où la plante a été précédemment détectée sont susceptibles d'être colonisés les années suivantes, causé par la présence de graines dans le sol et obligeant alors les employés du parc à revisiter chacun des sites infectés plusieurs fois par an pour détecter la plante et l'empêcher de se reproduire. L'efficacité de ces visites dépend du stade de croissance de la plante, qui influence à la fois la probabilité de la détecter et l'efficacité des méthodes de traitement (herbicide). Nous avons modélisé ce problème dans un cadre mathématique adapté afin de relier date de visite et efficacité. Un algorithme génétique a ensuite été utilisé pour calculer des plannings de visite optimaux et déterminer le nombre de visites minimal permettant d'atteindre un niveau de risque acceptable. Ce travail a permis en pratique de mieux gérer les ressources.
  • 17/06/2016 : Classification non supervisée de courbes par critère d'entropie minimum : application aux problèmes de gestion du trafic aérien Florence Nicol (ENAC)
Résumé : Dans de nombreuses applications, les objets traités peuvent être décrits comme des courbes géométriques. C'est en particulier le cas dans le domaine du trafic aérien où l'on s’intéresse à la forme des trajectoires suivies par les avions. La classification de courbes est une méthode largement utilisée en statistique et quand les données sont de nature fonctionnelle, les algorithmes existants, le plus souvent basés sur des développements en base fonctionnelle tronqués, ne tiennent pas compte de la géométrie des courbes. De plus, lorsque des contraintes particulières surviennent, ce qui est le cas lorsque l'on doit prendre en compte des considérations opérationnelles dans les problèmes de gestion du trafic aérien, les procédures habituelles produisent souvent des résultats inexploitables. Nous proposons ici d'utiliser le cadre des variétés de courbes pour séparer l'aspect géométrique de l'aspect loi des vitesses, simplifiant ainsi les comparaisons entre courbes. Une approche de classification non supervisée, basée sur l'entropie minimum et les groupes de Lie, est présentée dans le but de produire des centres de classes de faible courbure adaptés à nos problèmes. Cet outil est particulièrement intéressant pour l'analyse du trafic aérien automatisé ainsi que pour la conception de l'espace aérien ou la planification des itinéraires.
Résumé : We consider the problem of online nonparametric regression with arbitrary deterministic sequences. We will first present the setting and some of its connections with (non-sequential) nonparametric regression. Then, we will show how to use the chaining technique to design a hierarchical algorithm that achieves regret guarantees similar to those obtained in a non-constructive fashion by Rakhlin and Sridharan (2014). We will finally explain how to make this algorithm computationally efficient in the particular case of Hölder balls. Nota: this is a joint work with Pierre Gaillard; its was published in the Proceedings of COLT 2015.
  • 03/06/2016 : Aligning the unalignable: bacteriophage whole genome alignments Annie Chateau (LIRMM, Montpellier) et Séverine Bérard (ISE-M, Montpellier)
Résumé : Viruses that infect bacteria, called bacteriophages, have very compact genomes which encode a small number of biological functions. Bacteriophages that infect the same strain of bacteria regularly use some form of rearranging genomes, called modular recombination. A modular recombination exchanges a module that encodes a function against another one that fills the same role, while having no detectable similarity. A bit like one might replace a gasoline generator for a wind turbine. In this presentation, we show that even in the absence of similarity, it is possible to align bacteriophage genomes when they are colinear, meaning that functions appear in a same order in the different genomes of bacteriophages inside a family. We also present ALPHA, which is a simple and user-friendly bacteriophage whole genome aligner implementing these ideas.
  • 27/05/2016 : Séminaire des doctorants

9h00: Étienne Auclair Apprentissage et gestion de réseaux écologiques pour l'optimisation de services écosystémiques

9h20: Alyssa Imbert Imputation multiple de type hot-deck pour l'inférence de réseaux issus de données RNA-Seq

9h40: Sébastian Le Coz Une modélisation pour la dynamique des adventices dans un agrosystème

10h: Sara Maqrot Designing mixed fruit-vegetable cropping systems by integer quadratic programming

10h40: Franck Cerutti Mise au point d'une stratégie bioinformatique générique et modulaire pour analyser l'évolution des petits ARNs régulateurs et de leurs cibles chez les bactéries

11h00: Clément Viricel Algorithme de comptage pour le design d'interface de protéine

11h20: Charlotte Dayde Compréhension du processus de prise de décision opérationnelle des agriculteurs dans un cadre de rationalité limité

11h40: Valérie Sautron Multiway-SIR for biological data integration

  • lundi 23/05/2016 à 10h30 : What means high nitrates in hard rock aquifers? Insights from an irrigated agricultural catchment Buvi Sri (MIAT, INRA)
Résumé : Irrigated agriculture has large impacts on groundwater resources, both in terms of quantity and quality. Among agricultural-borne non-point source pollutants, nitrogen has been the focus of many studies due to its ubiquitous impact on ecosystems. Mapping the spatial heterogeneity of groundwater quality is not only essential for estimating the level of groundwater contamination but also to assess the impacts of different types of agricultural systems. However, low density of long term monitoring wells limits adequate description of highly heterogeneous aquifers. This issue has been addressed either by developing geo-statistical methods or by neglecting groundwater lateral transport. In peninsular India the development of minor irrigation led to high density of borewells which constitute an ideal situation for studying the heterogeneity of groundwater quality. The annual groundwater abstraction reaches 400km3, which leads to depletion of the resource and degradation of water quality. Nitrate (NO3) contamination in groundwater has been rising for the last decades due to overuse of fertilizers combined with the intensive borewell irrigation. In the Berambadi catchment (84 km2, Southern India), which is part of ORE BVET/ Kabini CZO, we studied the relative influences of land use, agricultural practices and soil/aquifer properties on NO3 concentration in groundwater based on the monitoring of >200 borewells (monthly water table level and seasonal chemistry), experiments at the soil-plant scale and using a coupled crop model and groundwater model (AICHA-Nitrogen model). Nitrate concentration in Berambadi span over two orders of magnitude with hotspots up to 400ppm. Three contrasted situations were identified according to groundwater level and gradient: i) Hot spots of NO3were associated to deep groundwater levels (30 to 60 m) and low groundwater gradient, suggesting that in the absence of lateral flow and with small groundwater reserve, local agricultural practices severely affected groundwater quality due to recycling through pumping and return flow; ii) On the contrary, when groundwater gradient was high, NO3 concentrations were low to moderate, suggesting that significant lateral flow prevented NO3 enrichment; iii) Finally, low NO3 concentrations were also found in situations where gradient was small but groundwater was shallow and hence reserve was large: these zones are potentially vulnerable to intensification of pumping and fertilizer application. Subsequent decline in groundwater level would then lead to rapid degradation of groundwater quality. Further long term evolution of the groundwater composition due to the effect of solute recycling was simulated using AICHA-Nitrogen model in the RECORD platform.

Semaine du 16 mai : Cette semaine est consacrée à une séance exceptionnelle de séminaire commun IMT / MIAT qui aura lieu à l'IMT (Université Paul Sabatier) le mardi 17 mai :

  • mardi 17/05/2016 à 11h  : Méthodes pénalisées pour la métamodélisation et l’analyse de sensibilité par  Sylvie Huet (MAIAGE, INRA)
Résumé :La modélisation en biologie repose sur des modèles complexes au sens où ils présentent des composantes fortement non-linéaires ou font intervenir un grand nombre de variables d’état et de paramètres au travers d’interactions d’ordre élevé. Il est souvent nécessaire de les simplifier, soit pour en comprendre le fonctionnement, soit pour optimiser des calculs numériques.
La construction d’un modèle simplifié, ou métamodèle, d’un modèle complexe à l’aide d’une décomposition de type ANOVA obtenue par projection sur des espaces de Hilbert auro-reproduisant a été proposée récemment. Le métamodèle doit approcher au mieux le modèle initial, tout en restant parcimonieux, et en possédant de bonnes qualités prédictives pour relier les variables de sortie aux variables d’entrée.
En utilisant les outils de l’estimation fonctionnelle sparse par minimisation de critères convexes, les propriétés prédictives des métamodèles ainsi construits peuvent être établies et les indices de sensibilité du métamodèle peuvent être estimés.
Ce travail fait l’objet d’une collaboration avec M.L. Taupin (Université d’Evry Val d’Essonne)
Résumé : At the core of Computational Protein Design, lies a compact formulation of the Global Minimum Energy Conformation problem, assuming a rigid backbone, capturing amino-acid and conformations changes through a discrete rotamer library and relying on a pairwise decomposable description of the energy. Under such assumptions, the problem of finding a sequence with an optimal conformation is NP-hard and usually tackled using stochastic methods with no finite convergence results. The Dead End Elimination Theorem combined with A* can remove all uncertainty on the optimality but only for relatively small designs. Using state-of-the-art decomposable energy field and rotamer library, we show that sequences with a guaranteed optimal conformation can be identified on CPD problems with a size that is far beyond what has been previously solved using deterministic methods. As any new capability, this unleashed computational power opens new avenues. As a first example of this, we evaluate the frequency and amplitude, in energy and sequence, at which an existing CPD biased Monte Carlo implementation may miss the optimum in problems with a sequence-conformation space that can exceed 10^200. We then exhaustively explore the neighborhood of each optimum.

Pas de séminaire les 22, 29 avril et 6 mai (vacances scolaires et Ascension).

  • 22/04/2016 : Analyse de la microévolution des génomes microbiens : approches bioinformatiques Habilitation à Diriger des Recherche de Hélène Chiapello. La soutenance aura lieu vendredi 22 avril 2016 à 14h00 dans la salle de conférence Marc Ridet (INRA Auzeville)
Résumé : Les travaux présentés dans cette HDR concernent la conception et la mise en œuvre de stratégies bioinformatiques visant à analyser la diversité des génomes de micro-organismes (bactéries, champignons) à l’échelle microévolutive. Mes activités de recherche s’inscrivent dans la champ disciplinaire de la phylogénomique avec un point de vue particulier : les génomes de micro-organismes et l’échelle de temps considérée, qui est en général courte. Dans une première partie, je présente mes travaux sur la comparaison de génomes bactériens et ses applications à différentes questions de recherche d’intérêt fondamental ou appliqué. Dans un second chapitre je décris mes contributions à l’analyse du contenu et de l’évolution des génomes fongiques. Enfin, dans une dernière partie je présente mes perspectives de recherches, en lien notamment avec deux nouveaux projets concernant d’une part l’étude de la dynamique évolutive des ARN régulateurs bactériens et de leurs cibles et d’autre part l’analyse des déterminants génomiques de l’adaptation d’une bactérie pathogène à son hôte.
  • 15/04/2016 : Présentation de l'Unité Ingenum (Ingénierie Numérique en Recherche) Hélène Chiapello, Nathalie Gandon et Hélène Raynal (MIA, Unité Ingenum)
Résumé : Présentation de la nouvelle unité en charge du pilotage des actions transversales de l’INRA en terme d’ingénierie numérique en recherche et de l'accompagnement du Délégué à la Transition Numérique dans le développement de la stratégie du numérique en recherche.
  • 08/04/2016 : Workflow-BS: an integrative workflow for RRBS and WGBS data Céline Noirot et Gaëlle Lefort (INRA, MIAT) diaporama
Résumé : DNA methylation is an epigenetic mark that has suspected regulatory roles in a broad range of biological processes and diseases. The technology is now available for genome-wide methylation studies, at a high resolution and with possibly a large number of samples. Many specific aligners for BS-seq data exist, such as BSMAP and Bismark. Also, R packages (methylKit and DSS) were designed to detect differentially methylated cytosines (DMC) and differentially methylated regions (DMR). Methy-Pipe (Peiyong Jiang et al. 2014. PLOS one) fill the gap between those analyses by combining a complete pipeline from raw data to statistical outputs but it requires a specific cluster environment (SGE software). Here, we propose a workflow which deals with fastq files from BS-seq (WGBS and RRBS) and goes through all steps to provide bed files of DMC and DMR. It can support most distributed resource management systems (Condor, SGE, ...). We will present our pipeline which uses standard software to i) clean data ii) align WGBS or RRBS reads to a reference genome iii) extract methylation and iv) identify DMC and DMR.
  • 01/04/2016 : Land use predictions on a regular grid at different scales and with easily accessible covariates. Application to the Teruti-Lucas survey. Anne Ruiz-Gazen (TSE, Université Capitole) diaporama
Résumé : It is widely accepted that land use is among the main human pressures on the environment, including climate change, biodiversity loss and pollution of water, soil and air. In this context, it is much needed to develop econometric and statistical tools that help to predict the possible land use patterns in order to improve our understanding of the causes and consequences of these phenomena. In this presentation, we consider the problem of land use modeling using point level data such as the Teruti-Lucas survey and some easily accessible explanatory variables. We analyze the components of the prediction error at different spatial scales using a synthetic data set constructed from the Teruti-Lucas points in the Midi-Pyrénées region and a five categories land use classification. We explore the link between the prediction errors and the Gini-Simpson impurity index of the vector of probabilities of each category. The study first shows that the number of points in the Teruti-Lucas survey is quite enough for estimating the probabilities of each land use category with a good quality. Furthermore it reveals that, contrary to usual practice, when the objective is to predict land use at aggregated levels, land use probabilities should be estimated at more locations where explanatory variables are available rather than restricting to the initial Teruti-Lucas points. Indeed this strategy borrows strength from the knowledge of the explanatory variables which may be heterogeneous in a given Teruti-Lucas segment. Finally, guidelines for constructing the grid of locations for estimation are given from the analysis of the heterogeneity of each explanatory variable.
Résumé : Mes travaux de thèse ont porté sur la modélisation statistique des données issues de la technologie de séquençage RNA-seq. Dans cette présentation, je m'intéresserai au problème d'inférence de réseaux. Dans le cadre du modèle graphique gaussien, je présenterai une approche non-asymptotique pour sélectionner des sous-ensembles de variables pertinentes, en décomposant la matrice de covariance en blocs diagonaux. Cette méthode permet de réduire la dimension du problème d’inférence initial. Bien que la contribution méthodologique proposée soit motivée par l'analyse des données RNA-seq, elle n'est pas spécifique à ces données et peut également être utilisée sur d'autres types de données.
  • 18/03/2016 : ChimPipe : un pipeline pour la détection de transcrits chimériques à partir de données RNA-seq Sarah Djebali Quelen (GenPhySE, INRA) diaporama
Résumé : Les transcrits chimériques, ou chimères, se définissent généralement comme des transcripts reliant deux gènes differents du génome, et peuvent s’expliquer par différents mécanismes biologiques tels que les rearrangements génomiques, la transcription “read-through” ou le trans-épissage, mais aussi par des artéfacts techniques ou biologiques. Certaines études ont montré leur importance dans le cancer, d’autres dans la pluri-potence cellulaire. Plusieurs programmes ont été développes pour identifier les chimères à partir de données RNA-seq, essentiellement dans le domaine du cancer où on les nomme gènes de fusion, cependant ces programmes produisent des ensembles de chimères largement differents sur les mêmes données RNA-seq d’entrée, et incluent généralement de très nombreux faux-positifs. Les évaluations de ces programmes souffrent aussi de données de simulation non réalistes prenant seulement en compte les chimères issues de réarrangements genomiques et non les chimères transcriptionnelles, de données réelles incluant un très faible nombre de chimères validées, et d’une évaluation au niveau de la paire de gènes plutôt que de la jonction. Ici je présente ChimPipe, un pipeline RNA-seq modulaire et facile d’utilisation fondé sur un alignement exhaustif par les “GEMtools”, qui combine les informations des paires de lectures et des lectures épissées, et qui utilise un module de filtre stringent, pour identifier les chimères les plus fiables d’un jeu de données. Nous avons aussi produit des données RNA-seq simulées reálistes de 3 longueurs de lectures différentes, et avons enrichi les données réelles habituellement utilisées comme reférence pour l’evaluation, par la détermination des coordonnées précises des jonctions correspondant aux paires de gènes validées. L'évaluation comparée de ChimPipe et de 4 autres outils de détection de chimères reconnus sur ces données, a montré que ChimPipe est le meilleur programme dans l’identification exacte du point de jonction chimérique, et qu’il est le deuxième programme le plus sensible au niveau de la paire de gènes après Chimerascan dont la précision semble bien moins grande sur les données réelles. Sur ces données ChimPipe a ainsi le meilleur compromis entre sensibilité et précision. Nous avons appliqué ChimPipe à 108 données RNA-seq humaines de très forte profondeur de séquençage produites par le projet ENCODE, et avons identifié 33 chimères très fortement exprimées dans au moins un échantillon. Nous en avons selectionné 6 pour une validation par RT-PCR et en avons confirmé 3. Le clonage et le sequençage de ces 3 cas a révélé plusieurs nouvelles structures de transcrits chimériques, dont certains préservent la phase de lecture des genes parents, pouvant ainsi correspondre à de nouvelles protéines et donc de nouvelles fonctions.

Semaine du 7 mars : Cette semaine est consacrée à une séance exceptionnelle de séminaire commun IMT / MIAT qui aura lieu à l'INRA (salle FR du centre de Toulouse Midi-Pyrénées, site d'Auzeville) :

  • vendredi 11 mars de 10h30 à 12h00 : Régression en grande dimension et épistasie par blocs pour les études d'association Christophe Ambroise (LaMME, Université d'Évry Val d'Essonne) diaporama
Résumé : Dans le domaine des études d'association pan-génome (GWAS) une partie importante de la littérature est consacrée à la détection des interactions existant entre deux ou plusieurs parties du génome (épistasie). La plupart des approches considèrent les interactions entre loci déjà connus pour être associés au phénotype étudié. Dans cette présentation, nous explorons des approches statistiques multi-variées permettant de détecter des épistasies au niveau des gènes sans filtrage préalable.

Pas de séminaire les 26 février et 4 mars (vacances scolaires).

  • 19/02/2016 : Traitement de données NGS et structuration de la diversité moléculaire : dialogue avec les diatomées Alain Franc (Biogeco, INRA de Bordeaux) diaporama
Résumé : Les technologies NGS permettent de produire en flux continu des échantillons de centaines de milliers de reads courts qui décrivent la diversité moléculaire des communautés. L'objectif est de caractériser la diversité des communautés connaissant ces séquences. L'approche retenue est l'étude de la géométrie de nuages de points associés à cette diversité. Une difficulté qui sera évoquée est le choix de la bonne dimension pour construire et étudier le nuage de points, entre la "malédiction de la dimension" en grandes dimensions la mauvaise qualité des plongements isométriques en petites dimensions. Une première étape consiste à calculer une distance entre reads, et une seconde, ces distances étant connues, de construire soit un nuage de points (MDS) soit un graphe (lien si distance inférieure à un seuil choisi) qui représente cette diversité. Ce séminaire a pour objet de discuter les connexions entre ces différentes méthodes pour étudier la forme du nuage de points, et les liens avec les communautés sur graphes. Quelques excursions seront faites sur les domaines émergents de "distance geometry" ou d'autres plus anciens et classiques de méthodes non linéaires (Sammon, isomap, etc ...). L'objectif est de discuter les connexions entre les méthodes, pour in fine utiliser un faisceau d'outils pour caractériser la biodiversité.
  • 12/02/2016 : Méthodes à noyaux et modèles parcimonieux pour la classification d'images hyperspectrales Mathieu Fauvel (ENSAT, Toulouse) diaporama
Résumé : Dans cette présentation, nous présenterons une famille de modèles de processus Gaussien parcimonieux. Ces modèles permettent de définir un classifieur quadratique dans l'espace de Hilbert (possiblement de taille infini) associé à une fonction noyau. Ces modèles sont obtenus en contraignant la décomposition spectrale du processus Gaussien représentant chaque classe. Ils correspondent à une extension d'un modèle proposé par MM Dundar et DA Landgrebe. Des résultats expérimentaux seront donnés sur des images hyperspectrales. Les résultats seront comparés avec d'autres méthodes à noyaux.
  • 05/02/2016 : Développements bio-informatiques pour l’analyse de petits ARNs bactériens: de l’exploration visuelle des résultats de prédiction de cibles à l’annotation fonctionnelle des régulateurs Patricia Thébault (LaBRI, Université de Bordeaux)
Résumé : La régulation différentielle des gènes est au coeur de la diversité des phénotypes et de l’adaptabilité du vivant. Chez les bactéries, elle repose, entre autres, sur les petits ARNs non codants qui modulent la traduction de gènes en protéines. Les approches bioinformatiques « les plus performantes » pour prédire ces interactions régulatrices sont peu spécifiques et génèrent un nombre de faux positifs rendant difficile l’expertise des résultats. Pour palier à ces problèmes, une solution consiste à se focaliser dans un premier temps sur la sensibilité et efficacité des outils de prédiction d’interaction pour ensuite améliorer la spécificité grâce à l’intégration d’informations à différents niveaux. Nous avons privilégié de combiner les approches classiques de bioinformatiques avec les méthodes théoriques de la visualisation des grandes masses de données en développant le logiciel rNAV. Les représentations graphiques des réseaux de régulation issues de rNAV tirent partie des capacités visuelle de l’expert en le mettant au cœur du processus d’analyse pour explorer et analyser le graphe en appliquant des algorithmes de filtres intégrant différents algorithmes de fouille de données. Une seconde partie de l’exposé se focalisera sur l’annotation fonctionnelle des petits ARNs qui peux se déduire à partir des groupes de gènes qu’ils ciblent. Pour des annotations pertinentes de la fonction biologique de groupes de gènes régulés, il est essentiel d’exploiter conjointement l’ensemble des informations disponibles dans les bases de données. Les approches classiques d’annotation de groupes de gènes reposent sur des méthodes statistiques d’enrichissement où les termes à plat sont considérés indépendamment les uns des autres et où la variabilité des informations disponibles d’un organisme vivant à l’autre n’est pas prise en compte. Pour palier à ces difficultés, nous développons actuellement de nouvelles procédures d’annotation qui visent : (1) à proposer de nouvelles mesures de similarité sémantique entre termes d'annotation et (2) à développer de nouvelles approches de data mining pour déterminer l’ensemble restreint des annotations les plus pertinentes à associer à un groupe de gènes.
  • 29/01/2016 : Hybrid Levenberg-Morisson-Marquardt and ensemble Kalman smoother method El Houcine Bergou (INRA, MaiAGE)
Résumé : The Levenberg-Morisson-Marquardt algorithm (LMM) is one of the most popular algorithms for the solution of nonlinear least squares problems. Motivated by the problem structure in data assimilation, we consider in this work the extension of the LMM algorithm to the scenarios where the linearized least squares subproblems are solved inexactly and/or the gradient model is noisy and accurate only withina certain probability.Under appropriate assumptions, we show that the modified algorithm converges globally and almost surely to a first order stationary point. Our approach is applied to an instance in variational data assimilation where stochastic models of the gradient are computed by the so-called ensemble Kalman smoother (EnKS). A convergence proof in L^p of EnKS in the limit for large ensembles to the Kalman smoother is given. We also show the convergence of LM-EnKS approach, which is a variant of the LMM algorithm with EnKS as a linear solver, to the classica! LMM algorithm where the linearized subproblem is solved exactly.
Résumé : Dans plusieurs domaines d'application et en particulier en agronomie, une problématique d'intérêt est d'expliquer une variable réelle à partir d'une variable fonctionnelle. Par exemple, on peut se demander comment le rendement d'une plantation de céréales est déterminé par la température durant toute la saison. Pour répondre à cette question, nous nous placerons dans le cadre du modèle de régression linéaire fonctionnelle et nous aurons pour objectif d'obtenir une estimation explicable de la fonction coefficient. Pour cela nous avons utilisé une approche bayésienne qui se base sur l'estimateur de Bayes avec une fonction de coût particulière. L'estimation finale est ensuite obtenue suivant une procédure numérique que nous présenterons. Nous comparerons alors cette méthode avec ces compétiteurs sur des jeux de données simulés et un jeu de données réel en agronomie.
  • 15/01/2016 : Optimisation bayésienne multiobjectif en grande dimension Mickael Binois (Ecole des Mines de Saint Etienne)
Résumé : Dans le cas de fonctions pour lesquelles les coûts d'appel ou les temps de calcul sont élevés, le budget d'évaluations dédié aux études d’optimisation est fortement limité. Dans ce contexte, les méthodes d'optimisation bayésiennes basées sur des métamodèles, ici des processus gaussiens, sont particulièrement adaptées. Dans le cas multiobjectif, on s’intéresse également à prédire la position du front de Pareto (ensemble des compromis optimaux) à partir des métamodèles, tout en quantifiant l’incertitude associée. Par ailleurs, la montée en dimension est l'une des principales limitations de ces techniques. Pour la surmonter, l'utilisation de plongements aléatoires ("random embeddings") a récemment été proposée, sous l'hypothèse que seules peu de variables, non identifiées, sont réellement influentes. Il s’agit alors de se restreindre à un espace de dimension modérée, plongé dans l'espace de grande dimension à partir d'une matrice aléatoire. On présentera plusieurs améliorations apportées à cette méthode : prise en compte de plusieurs objectifs ou de contraintes, création d'un noyau de covariance spécifique ainsi que des propositions de sélection de la matrice aléatoire. L’intérêt de l’approche sera illustré en particulier sur un cas test automobile.
  • 08/01/2016 : Optimization in Discrete Deterministic and Stochastic Graphical Models Thomas Schiex (MIAT, INRA Toulouse)
Résumé : In Artificial Intelligence, Graphical Models are usually understood as a family of stochastic models capturing independence through a graph representation. They cover, among others, Bayesian Networks and Markov Random Fields (MRF). In these models, a joint probability distribution over a set of variables is represented as the combination of a set of local potential functions. This same idea has been used in purely deterministic models of Artificial Intelligence such as Constraint Networks, Constraint Programming and SAT, and in their weighted variants. In these models, a boolean or cost function is represented as a combination of local boolean functions (constraints, clauses) or cost functions. In both cases, this concise expression comes at a cost: inference problems such as optimization or counting are typically NP hard. Therefore polytime approximate inference schemes have been defined such as message passing (MRF), local consistency (CSP and weighted variants) and unit propagation (SAT and weighted variants). In this talk, I will try to give a general view of these approaches in the context of the MAP/CSP/WCSP/SAT/PWMaxSAT optimization problems and show how these algorithms have evolved and been exploited in practice.

Pas de séminaire les 25 décembre et 1 janvier (vacances scolaires... entre autres...).

Résumé : Random forest algorithm provides a predictor ensemble based on a set of randomized decision trees. The good performances in practical use can explain the growing interest in this approach. However, there is still a need to better understand the algorithm and the related importance measures. We first study the permutation importance measure in presence of correlated predictors. We describe how the correlation between predictors impacts the permutation importance in an additive model. Our results motivate the use of the Recursive Feature Elimination (RFE) algorithm for variable selection in this context. We then propose an extension of the permutation importance for groups of variable. This original criterion is used in a functional data analysis framework for selecting functional variables. Using a wavelet basis, it is proposed to regroup all of the wavelet coefficients for a given functional variable and use a selection algorithm based on the grouped importance. Various other groupings which take advantage of the frequency and time localization of the wavelet basis can be proposed. These methods has been developed jointly with the startup Safety Line for aviation safety purposes. The aim was to predict and explain the risk of long landing using data from flight data recorders.
  • 11/12/2015 : Modèles graphiques pour sélection génétique avancée Sylvain Jasson et Damien Leroux (MIAT, INRA)
Résumé : L'amélioration des performances des espèces cultivées, et plus globalement la recherche en génétique, est liée au criblage de régions chromosomiques d'intérêt. Une région chromosomique qui influe sur un caractère quantitatif est appelée Quantitative Trait Locus (QTL). La détection de QTL nécessite le calcul préalable des probabilités d'origines parentales (POP) le long du génome. Il était jusqu'à présent considéré qu'une modélisation de ces probabilités sous forme d'une chaîne de Markov était impossible dès que plusieurs méioses non indépendantes étaient présentes dans le pedigree. De ce fait, chaque type de population était modélisé spécifiquement en se basant uniquement sur la densité des jonctions, moyennant un certain nombre d'hypothèses simplificatrices implicites (qui étaient vérifiées par les dispositifs de l'"ancienne école"). Nous montrons que ces hypothèses ne tiennent plus dans le cadre des populations avancées, qu'il est possible de s'en passer et de modéliser sous forme de chaîne de Markov continue n'importe quelle structure de population. Nous donnons la méthode de construction de ladite chaîne de Markov continue. Cette méthode engendre des processus dont le nombre d'états augmente avec la complexité du pedigree. Nous évoquons des pistes pour maîtriser cette inflation. Par ailleurs, si les nouvelles techniques de génotypage (e.g. SNP) fournissent plus d'observations de marqueurs pour une population donnée, l'évolution des dispositifs expérimentaux rend ces observations de plus en plus partiellement informatives (Un SNP bi-allélique ne pourra jamais permettre de discriminer 4 ou 8 fondateurs). L'inférence des POP le long du génome nécessite une estimation précise des probabilités de génotype à chaque marqueur. Nous avons développé une modélisation sous forme de réseau bayésien, sur un marqueur, et le long de l'ensemble du pedigree, afin de calculer ces probabilités en tenant compte de toute l'information disponible, quels que soient les individus observés. Enfin nous présentons succinctement notre implémentation de ces méthodes à l'intérieur d'une solution complète de détection de QTL.
  • 04/12/2015 : Analyses statistiques pour l'évaluation des systèmes de recherche d'information Sébastien Dejean (IMT, Université Toulouse 3) diaporama
Résumé : L'exposé illustre la mise en œuvre de méthodes statistiques visant à traiter deux problèmes liés à la recherche d'information (information retrieval). Le premier consiste à proposer un ensemble réduit d'indicateurs visant à évaluer la performance d'un système de recherche d'information (SRI). Le second s'intéresse à l'étude des paramètres d'un SRI qui influencent le plus ses performances. Dans les deux cas, le cadre de travail est celui de la campagne Text REtrieval Conference (TREC) qui fournit, pour un ensemble de requêtes données, les documents pertinents à retourner parmi un corpus de référence.

Semaine du 23 novembre : pas de séminaire le vendredi 27 novembre. Cette semaine est consacrée à une séance exceptionnelle de séminaire commun IMT / MIAT qui aura lieu à l'INRA (salle de séminaire AGIR) :

  • jeudi 26 novembre de 10h30 à 12h00 : Détection de communautés dans des réseaux aléatoires Nicolas Verzelen (INRA Montpellier/SupAgro)
Résumé : L'analyse des réseaux est aujourd'hui un domaine ayant donné lieu à une abondante littérature aux croisements de la combinatoire, de l'algorithmique, de la physique des systèmes complexes et plus récemment des statistiques. La détection de communautés vise à découvrir des groupe de noeuds fortement liés entre eux et faiblement liés aux autres. Dans cet exposé, on discutera de modèles de réseaux aléatoires permettant de rentre compte de l'hétérogénéité rencontrée dans les réseaux réels. Ce cadre probabiliste permet de formaliser statistiquement le problème de détection de communautés. On obtiendra ainsi une caractérisation fine des difficultés statistiques inhérentes au problème de détection en faisant apparaître un compromis précision statistique contre complexité algorithmique.
  • 20/11/2015 : Approches bioinformatiques pour l'étude des perturbations du réseau métabolique Fabien Jourdan (INRA, Toxalim, Toulouse)
Résumé : Les recherches qui seront présentées ont pour objectif d’identifier des ensembles de réactions modulées lors de perturbations environnementales ou génétiques sur l'organisme, c’est-à-dire d'y associer un sous-réseau métabolique (quelques dizaines de réactions sur les milliers que comporte le réseau métabolique). Ainsi, il est possible d'émettre des hypothèses sur les mécanismes métaboliques qui sont perturbés. Pour cela, deux types de formalismes seront utilisés. Le premier, les graphes (ensemble de nœuds reliés par des arêtes), donne une information sur la structure du réseau. Ce modèle mathématique permet de calculer des chemins dans le réseau, en particulier entre les biomarqueurs identifiés en métabolomique. La seconde approche, dite de modélisation sous contraintes (Constraint Based Modelling, CBM), est plus prédictive. Elle a pour objectif d’estimer la valeur des flux à travers chacune des réactions du réseau et peut donc être utilisée pour simuler le fonctionnement du réseau dans différentes conditions. Cette deuxième approche est souvent utilisée pour prédire la croissance des cellules ou la production de certains composés. Elle est également basée sur la structure du réseau mais nécessite un paramétrage plus complet que celui nécessaire à la modélisation par des graphes. L'enjeu plus général du projet de recherche est d’associer les modifications du réseau identifiées en utilisant les graphes et le CBM à des conséquences métaboliques à plus long terme. Par exemple, en toxicologie alimentaire, une des questions majeures est de pouvoir prédire si une modification du métabolisme identifiée par nos approches correspond à un simple phénomène adaptatif ou reflète un dysfonctionnement métabolique susceptible d’entrainer une pathologie.
  • 13/11/2015 : Planification d'expériences sur la comète Philae Emmanuel Hebrard (LAAS, Toulouse)
Résumé : Le 12 novembre dernier, Philae s'est posé, non sans quelques rebondissements, sur la comète 67P Churyumov-Gerasimenko. Dès sa séparation de la sonde Rosetta, et pendant les jours qui ont suivi, il a déroulé un plan calculé au SONC ("Scientific Operations & Navigation Centre") du CNES à Toulouse. Le calcul de ce plan, ainsi que de ceux qui ont suivi lors des trois jours de cette "First Science Sequence" est un véritable enjeu au regard des contraintes physiques et des ressources matérielles. Les principales contraintes proviennent de différentes limitations portant sur l'énergie fournie par les batteries, la température ambiante, ou encore les ressources mémoire allouées aux expériences et à Philae. Toutes ces contraintes ont été modélisés, et le problème résolu, grace au logiciel d'optimisation Ilog Scheduler. Je présenterai le problème d'ordonnancement des activités de la FSS et les techniques mises en oeuvre pour sa modélisation et résolution. En particulier, je m'attarderai sur notre contribution principale : le développement d'algorithmes pour raisonner efficacement sur les contraintes de transfert de données. Ces algorithmes ont permis de diminuer radicalement le temps de calcul (passant de quelques heures à quelques secondes dans certains cas), tout en offrant une meilleure estimation de l'usage de la mémoire et des risques de perte que la solution précédente.
  • 06/11/2015 : On the accuracy of genomic selection Charles-Elie Rabier (MIAT, INRA)
Résumé : Genomic selection focuses on the prediction of breeding values of selection candidates, using a high density of markers. It relies on the fact that all QTLs will tend to be in strong linkage disequilibrium (LD) with at least one marker.In this context, we present theoretical results regarding the accuracy in genomic selection, i.e. the correlation between predicted and true breeding values. Typically, individuals (so-called Test individuals) have their breeding values predicted on markers, using marker effects estimated by fitting a Ridge regression on a set of training individuals.We present a theoretical expression for the accuracy, suitable for any configurations of LD between QTLs and markers.In other words, the formula handles the configuration where QTLs match a few genetic markers and also the configuration where QTLs are not located on markers. We also introduce a new proxy for the accuracy, that is free of the QTL parameters, easily computable, and that outperforms other proxies suggested in the literature. In particular, our theoretical study shows that plugging an estimated effective number of independent loci ($M_{e}$) in the accuracy formula is not the way to handle properly the high dimensional framework. The theoretical formula, the new proxy, and existing proxies are compared on simulated data, suggesting the pertinence of our approach.Results are also illustrated on a new perennial ryegrass set ($367$ individuals) genotyped for 24,957 SNPs. In this case, most of the proxies studied give similar results due to the lack of markers to cover the entire genome ($2.7$Gb).

Pas de séminaire les 23 et 30 octobre (vacances scolaires).

  • 16/10/2015 : Prédiction de variants sans (ou avec) génome de référence Pierre Peterlongo (INRIA Rennes)
Résumé : Avec la démocratisation des techniques de séquençages haut débit, il est fréquent de chercher des réponses à des questions biologiques, tout en ayant à sa disposition un ou plusieurs jeux de reads mais pas de génome de référence proche. Dans une telle situation, une possibilité consiste à assembler les données afin de se créer un génome de référence qui permet, dans un second temps, d'utiliser les méthodes basées sur le mapping. Dans le cadre du projet colib'read ( nous proposons une batterie d'outils dont le but est de prédire des variants (insertions, délétions, SNPs, inversions, splicing alternatif) directement via l'utilisation des reads bruts produits par les séquenceurs nouvelle génération. Dans cet exposé, je montrerai les motivations et l'idée méthodologique globale de ce type d'approche, avant de faire un focus sur l'application DiscoSnp++ permettant la détection d'Indels et de SNPs dans les reads bruts. Nous verrons les aspects algorithmiques (exploitation de motifs topologiques dans le graphe de De Bruijn) et également les avantages et les inconvénient de telles approches. Nous verrons également les potentiels avantages de l'utilisation de ce type d'approche, même lorsque qu'un bon génome de référence est disponible.
  • 09/10/2015 : pas de séminaire car Soutenance de thèse de Julia Radoszycki (à 10h30 en salle de séminaire de AGIR, INRA)
Résumé : Cette thèse porte sur la résolution de problèmes de décision séquentielle sous incertitude, modélisés sous forme de processus décisionnels de Markov (PDM) dont l'espace d'état et d'action sont tous les deux de grande dimension. Les algorithmes de résolution dédiés à ce type de problèmes sont rares quand la dimension des deux espaces excède 30, et imposent certaines limites sur la nature des problèmes représentables. Nous proposons un nouveau cadre, appelé PDMF^3, ainsi que des algorithmes de résolution approchée associés. Un PDMF^3 est un processus décisionnel de Markov à espace d'état et d'action factorisés (PDMF-AF) dont les politiques solutions sont contraintes à une certaine forme factorisée, et peuvent être stochastiques. Les algorithmes que nous proposons sont de type itération de la politique et exploitent des techniques d'optimisation continue et des méthodes d'inférence dans les modèles graphiques. Ils sont validés sur un grand nombre d'expériences numériques. En particulier, nous abordons des problèmes où l'espace d'état est de taille 32^{100}, et l'espace d'action de taille 3^{100}. Ce cadre et les algorithmes proposés sont ensuite appliqués pour déterminer des stratégies de gestion des services écosystémiques dans un paysage agricole. Notre cas d’étude est la gestion agroécologique des espèces adventices à l’échelle des territoires qui nécessite d’intégrer la double fonctionnalité des adventices sur la production agricole (réduction par compétition pour les ressources d’une part, et augmentation par son rôle dans le maintien des abeilles domestiques d’autre part). Plusieurs services écosystémiques sont par conséquent en conflit : services de production (rendement en céréales, fourrage et miel), services de régulation (régulation des populations d'espèces adventices et de pollinisateurs sauvages) et services culturels (conservation d'espèces adventices et de pollinisateurs sauvages). Nous avons développé un modèle spatio-temporel des interactions entre cultures, adventices et pollinisateurs et nous explorons quelles organisations dans l'espace et dans le temps du paysage (ici composé de parcelles de colza, blé et prairie) permettent d’atteindre un compromis entre services de production et culturels. Ce modèle permet plus généralement d'explorer par simulation l'effet de différentes stratégies d'allocation des cultures sur la magnitude de ces services écosystémiques.
  • 02/10/2015 : Optimal planning under uncertainty with goal and path constraints Florent Teichteil-Keonigsbuch (Airbus).
Résumé : Markov Decision Processes (MDPs) are a popular model for planning under probabilistic uncertainties. The solution of an MDP is a policy represented as a controlled Markov chain, whose complex properties on reachable states and execution paths can be automatically validated using stochastic model-checking techniques. However, producing optimal policies that are guaranteed to satisfy such properties is much more challenging than solving plain MDPs since such optimal property-constrained policies do not need to be Markovian nor deterministic ; moreover, traditional dynamic programming techniques do not apply in this case. In this talk, we will present two generalizations of MDPs with constraints on reachability or execution properties. The first model, named Stochastic Safest and Shortest Path (S3P) Problems, generalizes and includes the well-known Stochastic Shortest Path (SSP) problems to goal-constrained MDPs of practical interest that minimize the average (undiscounted) cost of only paths leading to the goal among all policies that maximize the probability to reach the goal. We demonstrate that any S3P admits optimal solutions in infinite horizon without any condition on the structure of the problem or on its policies contrary to the traditional SSPs (e.g. no required assumption on proper policies existence nor positive-cost cycles restriction), which actually extends the class of goal-constrained MDPs that can be solved. The second model, named Path-Constrained Markov Decision Processes (PC-MDPs) allows system designers to directly optimize path-constrained policies in a single design pass, in the sense that their possible execution paths are guaranteed to satisfy a set of probabilistic constraints expressed in a fragment of the Probabilistic Real Time Computation Tree Logic. We present optimality equations, algorithmic formulations and experimental results for both models.

Semaine du 25 septembre : pas de séminaire le vendredi 25 septembre. Cette semaine est consacré à une séance exceptionnelle de séminaire commun IMT / MIAT qui aura lieu à l'IMT :

  • mardi 22 septembre de 9h15 à 10h45 : Espaces de formes, difféomorphométrie et modèles génératifs de données géométrico-fonctionnelles Alain Trouvé (ENS Cachan, CMLA)
Résumé : Paru pour la première fois en 1917, le livre ``Growth and Forms’’ du naturaliste et mathématicien Ecossais d’Arcy Thompson, développe une théorie des transformations dont l’idée centrale est la comparaison morphologique des anatomies au travers des groupes de transformations de l’espace ambiant. Cette idée, un siècle plus tard et dans un contexte mathématique et technologique totalement différent, trouve de riches prolongements dans les approches contemporaines de comparaison quantitative de formes et de modélisation aleatoire et d’estimation de leur variabilité. Dans cet exposé en deux parties, nous présenterons progressivement les idées et techniques qui sous-tendent l’approche dite ``difféomorphométrique’’ qui s’est développée dans le contexte de l’anatomie computationnelle, ses liens avec la géométrie riemannienne de dimension infinie et la théorie du contrôle mais aussi les outils de réduction de dimension et les modèles d’attaches aux données qui sous-tendent les algorithmes utilisés dans l’analyse concrète de population de sous-variétés et les rendent effectifs. Nous présenterons également de nouveaux enjeux théoriques et applicatifs en particulier du coté de l’analyse de la variabiité des objets géométrico-fonctionnels combinant information géométrique et fonctionnelle.
Résumé : Narendra-Shapiro (NS) algorithms are bandit-type algorithms introduced in the sixties (with a view to applications in Psychology or learning automata), whose convergence has been intensively studied in the stochastic algorithm literature. In this talk, we study the efficiency of these bandit algorithms from a regret point of view. We show that some competitive bounds can be obtained for such algorithms in a modified penalized version. Up to an over-penalization modification, the pseudo-regret Rn related to the penalized two-armed bandit is uniformly bounded by C sqrt(n) (for a explicitely known constant C). We also provide a gentle introduction to the renormalized study of the algorithm. After explaining some basics, we establish the convergence and rates of convergence results to the multi-armed case of the over-penalized bandit algorithm, including the convergence toward the invariant measure of a Piecewise Deterministic Markov Process (PDMP) after a suitable renormalization. Finally, ergodic properties of this PDMP are given in the multi-armed case.
  • 11/09/2015 : Managing multiple interacting threats –prioritising invasive plant management in the Australian Alps National Park Joslin Moore (Monash Université, Victoria, Australie) diaporama.
Résumé : Most threatened species, communities or protected areas are subject to multiple threats, and the distribution of these threats varies in space and time. Existing decision frameworks can be helpful when choosing between actions targeting threats to different species or locations. However, they rarely account for potential interactions among threats and do not account for future losses associated with threats left unmanaged. These interdependencies and unattributed losses are important considerations when allocating resources to the management of a specific population, community or national park facing multiple threats. We present recent work that identifies management priorities that take account of both the benefit of taking action and the cost of failing to act when multiple processes threaten a single population or region. We formulate the problem as a multiple choice knapsack problem (or a knapsack problem with generalized upper bound) and use linear programming to solve for a range of budgets. We apply the approach to a case study of prioritising management of introduced plant species in two areas within the Australian Alps National Park. The solution provides the amount of effort to allocate to each species for a given budget and shows how the threat context affects how resources are best allocated. This approach is suitable when seeking to prioritise management for any location or population facing multiple interacting threats.
  • 04/09/2015 : Groupe ISIS: Quelque lignes de travail sur l'application de techniques d'Intelligence Informatique Gonzalo Joya Caparrós (Universidad de Málaga, Espagne) diaporama.
Résumé : Dans cette présentation, on donnera une vision globale de quelques applications des techniques de l'Intelligence Informatique mises en œuvre par le groupe de recherche ISIS (Université de Malaga) pour la résolution de différents problèmes : Réseaux des Neurones d'Hopfield pour l'estimation de paramètres d'un modèle d'épidémie, Contrôle Flou pour le choix du serveur nœud dans un réseau de communications ou pour le contrôle climatique sous serre, méthodes d'apprentisage automatique pour la classification de signaux électro-oculographiques.


Pas de séminaire entre le 10 juillet et le 3 septembre.

  • 03/07/2015 : Multivariate enrichment test for 3D chromatin domain border analysis Raphael Mourad (LMBE, UPS, Toulouse).
Résumé : Recent advances in genome-wide chromatin interaction mapping have revealed the importance of 3D structure of chromosomes in gene regulation and expression. The next challenge is to identify what are the key molecular drivers of this 3D structure. Several architectural proteins were shown to be enriched at the borders of topological domains, and thus represent good candidates. Simple univariate enrichment approaches such as Fisher's exact or Pearson's chi-squared tests were used for this purpose and there is thus a need for more sophisticated multivariate enrichment methods that could account for potential colocalizations and interactions between architectural proteins. Here we propose a multiple logistic regression model to assess multivariate enrichment of genomic features such as DNA-binding proteins and functional genomic regions at topological domain borders. The proposed method naturally deals with colocalization and interaction. Using simulations, we demonstrate the accuracy of the method to estimate enrichments of marginal features (no interactions) as well as two-way interactions. On real Drosophila data, we show the importance of considering all tested genomic features and their potential interactions within the same multivariate framework. Compared with univariate analysis, multivariate analysis reveals huge differences of enrichments among the insulator binding proteins. For instance, multivariate analysis highlights the importance of insulator binding protein Fs(1)h-L whose enrichment is the highest among the IBPs, and that was recently shown to mediate intra- or inter-chromosome interactions. In addition, analysis of interactions between insulator binding proteins and cofactors reveals that they tend to work separately at topological domain borders.
  • 02/07/2015 : Journée des stagiaires, amphi Marc Ridet, livret des résumés.
    • 9h00 Étienne Auclair Inférence d'un réseau trophique à partir de séries temporelles
    • 9h15 Romain Alexandre Analyse du compromis rendement / biodiversité sur un cas d'étude : système culture/adventices/pollinisateurs
    • 9h30 Matthieu Pluntz Modélisation HMM de la dynamique des espèces adventices dans un agrosystème
    • 9h45 Rolande Kpekou-Tossou Analyse par simulation de l'interaction climat/rendement
    • 10h00 Franck Boizard Méthode d'analyse de sensibilité de modèles pour entrées climatiques
    • 10h15 Éloi Navarro Optimisation de stratégies d'échantillonnage des stress biotiques au sein des agroécosystèmes
    • 10h30 Sara Maqrot Méthode approchée en programmation mathématique appliquée à la conception de vergers maraîchers
    • 10h45 Amélia Landre Gestion forestière et décision d'assurance en univers risqué
    • 11h00 Lina Hadj Nassar Analyse de sensibilité des modèles agronomiques à l'estimation de la réserve en eau des sols (présentation courte de début de stage)
    • 11h15 (pause)
    • 11h30 Augustin Chini Stage développeur WEB pour la mise à disposition d'un indicateur dynamique caractérisant l'évolution des écosystèmes
    • 11h45 Sara Hardy Développement et mise en oeuvre d'un pipeline d'analyse du transcriptome de différentes souches du chapignon pathogène magnaporthe oryzae
    • 12h00 Prune Pegot Espagnet Déterminisme génétique de la résistance à la septoriose et à la fusariose du blé tendre
    • 12h15 Abdallah Mechati Reconstruction exacte de réseau bayésien à partir d'observations complètes
    • 12h30 Andrea Martelletti Guide juridique sur l'ouverture des données de la recherche (open data)
  • 26/06/2015 : Analyse de sensibilité en présence d’entrées fonctionnelles Clémentine Prieur (LJK/Moise, Grenoble).
Résumé : Durant cet exposé, nous présenterons une méthodologie pour l’analyse de sensibilité d’un code numérique en présence d’entrées fonctionnelles corrélées. L’exposé sera motivé (resp. illustré) par (resp. sur) un exemple de sûreté nucléaire.

Travail joint avec S. Nanty (UJF, CEA Cadarache), C. Helbert (UCBL), A. Marrel et N. Perot (CEA Cadarache).

  • 19/06/2015 : DSML design and implementation for farming systems modeling Jean-Michel Bruel (IRIT, Université de Toulouse).
Résumé : Sustainability is a complex and multi-facet problem by definition. The overall understanding of the problem often requires intensive simulation of complex and heterogeneous models of the world. Unfortunately, there is currently no support for defining and relating such models at the right level of abstraction. This prevent scientists and the general public to define their own models in terms of their respective expertise and concern about the world. In the software and systems modeling community, research on domain-specific modeling languages (DSMLs) is focused, especially since the last decade, on providing technologies for developing languages and tools that allow domain experts to develop system solutions efficiently. In this presentation, we report an experiment which consists in defining DSMLs for farming systems using different methods, and illustrating the approaches and associated tools. The main objective is to help scientists and farmers to define the various models representing a farming system, and to help them reasoning on it for prediction and optimization. Incorporating domain-specific concepts and high-quality development experience into DSMLs can significantly help scientist and farmers to reason and optimize farming systems. Finally, we give some insights on perspectives that will illustrate the importance of the approach we advocate here.
  • 12/06/2015 : Filtre CSP sparse et classification de signaux EEG Marie Chavent (Institut de Mathématiques de Bordeaux) diaporama.
Résumé : L'objectif du travail présenté lors de cet exposé était de développer une méthode capable de déterminer automatiquement l'état de vigilance chez l'humain et ce afin de détecter automatiquement une modification de l'état de vigilance chez des personnes qui doivent rester dans un état de vigilance élevée (par exemple, les pilotes ou les personnels médicaux). Dans ce travail, les signaux électroencéphalographiques (EEG) de 58 sujets dans deux états de vigilance distincts (état de vigilance haut et bas) ont été recueillis à l'aide d'un casque à 58 électrodes posant ainsi un problème de classification binaire. Une approche de classification basée sur l'utilisation du Common Spatial Pattern (CSP) a été développée. La méthode CSP permet en effet de définir des combinaisons linéaires des variables initiales afin d'obtenir des signaux synthétiques utiles pour la tâche de classification. Mais afin d'envisager une utilisation de ces travaux sur une application du monde réel, il était nécessaire de construire une méthode de prédiction qui ne nécessite qu'un faible nombre de capteurs (électrodes) afin de limiter le temps de pose du casque à électrodes ainsi que son coût. Ainsi dans ce travail, un algorithme génétique ainsi que des méthodes de recherche séquentielle ont été proposés afin de sélectionner un sous groupes d'électrodes à conserver lors du calcul du CSP. Enfin, un algorithme de CSP parcimonieux basé sur l'utilisation des travaux existant sur l'analyse en composantes principales parcimonieuse a été développé. Les résultats de chacune des approches seront détaillés et comparés.
  • 05/06/2015 : Modélisation par processus gaussiens et conception de fonctions de covariances. Applications à l'étude du rythme circadien Nicolas Durrande (École des Mines de St Étienne) diaporama.
Résumé : Le contexte général de l'exposé est la construction de modèles mathématiques permettant d'étudier le comportement d'un phénomène à partir d'un nombre limité d'expériences. Nous verrons la méthode de krigeage sous deux points de vue (probabilités-statistiques et de l'analyse fonctionnelle) et nous mettrons l'accent sur la conception de fonctions de covariance adaptées à différent problèmes. Nous illustrerons l'intérêt de cette approche sur un cas d'application où nous chercherons à détecter, au sein du génome, les gènes susceptibles de jouer un rôle dans l'horloge circadienne. Pour cela, nous serons amenés à construire des fonctions de covariance permettant de quantifier la periodicité de l'expression d'un gène.
  • 29/05/2015 : Journée des doctorants
    • 10h00 Franck Cerruti Nouvelles approches bioinformatique pour l'analyse de la dynamique évolutive des petits ARNs non-codants et de leurs cibles chez les firmicutes
    • 10h20 Clément Viricel Approximate counting with deterministic guarantees for protein binding affinity
    • 10h40 Charlotte Dayde Comprendre le processus de prise de décision opérationnelle en agriculture
    • 11h00 Valérie Sautron Genetics systems of stress responses in pigs
    • 11h20 Jérôme Mariette Aggregating self organizing map with topology preservation
    • 11h40 Julia Radoszycki : Résolution de processus décisionnels de Markov à espaces d'état et d'action factorisés - Application en agroécologie
  • 22/05/2015 : Kolmogorov complexity and applications. Time series anomaly discovery with grammar-based compression. Pavel Senin (INRA, Unité MIAT) diaporama.
Résumé : Kolmogorov (i.e., algorithmic) complexity is a notion of randomness that deals with the quantity of information. Proposed by A.N. Kolmogorov in 1965 to quantify the information of individual objects in an objective manner, it laid a foundation for a number of modern techniques including Incompressibility method, Minimum Description Length (MDL), and Normalized Compression Distance (NCD). In the first part of this seminar, we shall review the foundations of Kolmogorov complexity as proposed by Solomonoff, Kolmogorov, and Chaitin, show its key properties, and discuss its prominent applications. Our Kolmogorov complexity-based technique for time series anomaly detection will be discussed in the second part of the seminar.

Pas de séminaire entre le 17 avril et le 15 mai (vacances scolaires + jours fériés).

  • 10/04/2015 : Sur la matrice d'information de Fisher dans le calcul du maximum de vraisemblance, avec des applications en modèles de choix discrets Fabian Bastin (Université de Montréal, Canada). diaporama
Résumé : La propriété de l'identité de la matrice d'information nous informe que pour un modèle correctement formulé, le hessien de la fonction de log-vraisemblance est égale, en espérance, à l'opposé de la matrice d'information de Fisher. Le résultat peut être étendu, sous certaines conditions assez restrictives, aux fonctions de pseudo-log-vraisemblance. Cette propriété a conduit à exploiter l'estimateur de la matrice d'information dans des méthodes quasi-Newton, donnant lieu a l'approximation BHHH. Cependant, en pratique, il est souvent difficile de garantir que le modèle proposé est effectivement correct, ce qui peut conduire à des dégradations significatives de l'approche BHHH, celle-ci pouvant même ne pas converger. Dans un premier temps, nous examinerons comment il est possible de combiner les approches BHHH avec des techniques de programmation non-linéaire classique pour garantir la convergence de la maximisation de vraisemblance, tout en exploitant la structure du problème pour accélérer cette convergence. Nous examinerons également comment l'identité de l'information peut être utilisée pour établir des tests d'hypothèses sur l'adéquation du modèle. Ces techniques seront illustrées pour les modèles de choix discrets, utilisés pour étudier les facteurs comportementaux de choix, notamment en transport et en gestion de revenu. Le modèle logit, introduit par Daniel McFadden, a été la pierre angulaire de ces modèles. La propriété associée d'indépendance des alternatives irrelevantes (IAI) a été une bénédiction théorique mais également un inconvénient majeur du modèle logit. Ceci a conduit les chercheurs et les praticiens à proposer diverses extensions dans le but de mieux capturer les observations et de relâcher l'hypothèse IIA. Parmi elles, nous examinerons en particulier le schéma "mixed logit" qui, selon Kenneth Train, "résoud les trois limitations du logit standard en permettant une variation de goût aléatoire, des schémas de substitution non-restreints, et la corrélation des facteurs non-observés au cours du temps".
  • 03/04/2015 : Deciphering genome content and evolutionary history of isolates from the fungal plant pathogen Magnaporthe Hélène Chiapello (MIAT, INRA de Toulouse).
Résumé : We have analyzed and compared a dataset of ten closely related genomes of the Magnaporthe oryzae/grisea species complex, a model pathogen fungus infecting rice and other Poaceaes. In four out of these nine genomes, we detected unexpected bacterial genomic regions assigned to Burkholderia fungorum. This study focused on the analysis of the Magnaporthe genomic regions and first revealed important variability in genome sizes between isolates [39-43 Mb]. These differences are consistent with variable gene amount among the 9 Magnaporthe isolates (12.283-14.781 genes) but don’t seem to be related neither to isolate specific genes known to be involved in pathogenicity, nor to isolate specific Transposable Elements families. We then constructed gene families to determine the core and pan-genomes of the 10 M. oryzae/grisae isolates. Evolutionary history of the predicted ortholog families was investigated using a recent method named Bayesian Concordance Analysis. We built a reference genealogy of these 10 isolates and showed a bifurcating evolution outside the lineage of isolates pathogenic to rice, and reticulate evolution within this lineage. The low level of nucleotidic diversity within the “rice” lineage suggested its recent divergence. The reticulate evolution observed in this lineage was consistent with a weak signal of recombination, but might be mainly due to incomplete lineage sorting. We also showed that a small but non-negligible proportion of the 7015 genome has a non-rice origin. Our results confirmed that the strict biological specificity of M. oryzae on different host plants was accompanied by a divergence of lineages without gene flow, and showed that adaptation to different plants does not seem to rely mainly on different gene content.
  • 27/03/2015 : Une approche par planification automatique à la cartographie en ligne par drone autonome Alexandre Albore (MIAT, INRA de Toulouse).
Résumé : Je vous présente les premiers résultats du projet de post-doc sur la cartographie automatique de plantes adventices (mauvaises herbes) par drone, une collaboration Onera-INRA. Le défi est de réaliser une plateforme utilisable "on demand" qui réalise une série d'observations de sites dans un champ pour reconstituer le mieux possible une carte de la distribution d'adventices, tout en tenant compte des limitations en temps de vol et en ressources. Ces premiers résultats ont été publiés à la conférence de planification automatique ICAPS 2015. La cartographie de la distribution de plantes adventices (mauvaises herbes) sur les champs cultivés est un support essentiel aux procès décisionnels de l'agriculteur. Établir manuellement ces cartes (soit par des annotateurs humains, que par des drones pilotés) est un processus coûteux et chronophage surtout sur de grandes étendues ou sur des domaines à l'orographie complexe. Une approche automatique s'impose! On illustrera donc une approche à la cartographie d'adventices par drone totalement autonome, équipé d'un algorithme capable de décisions dans l'incertain. Le problème de cartographier un champ se transforme, du point de vue de la décision en ligne, en un problème d’échantillonnage dans un Champ de Markov, ce qui nous permet de codifier l'incertitude sur la carte élaborée et sa qualité. Une stratégie d’échantillonnage est établie par un planificateur de façon à maximiser la qualité de la carte finale et de minimiser le temps de vol, car ce problème présente de fortes contraintes temporelles dues à la durée limitée de la batterie du drone. Le problème de planification est trop complexe (PSPACE difficile) pour être résolu de façon exacte, on opte pour une approche de planification/replanification, commune en robotique où l'environnement est dynamique, qui prend en compte aussi la durée de la batterie comme variable du problème, en générant que des plans qui permettent au drone de recréer une carte de bonne qualité sans dépasser les limites de navigation imposées par la batterie. Cette approche se compare très favorablement à d'autres approches existantes pouvant être utilisées en-ligne et à-la-demande, dans le contexte de la cartographie par drone autonome.
  • 20/03/2015 : Modelling greenhouse gas fluxes from European agriculture soils in support of decision making Lily Paniagua (JRC, European Commission, Ispra, Italy).
Résumé : The agricultural sector is challenged by securing food and industry fibre to a global population that is growing under changing climate conditions. Agriculture is the main source of greenhouse gas (GHG) emissions of non-CO2 gases like methane (CH4) and nitrous oxide (N2O). Mitigation strategies are promoted and implemented as this sector represents a low cost opportunity of emission reduction. Estimates of N2O fluxes from agriculture reported to UNFCCC present the highest uncertainty from all sectors. The challenge remains in defining robust emission factors that quantify the relationship between nitrogen (N) inputs and its effect on N2O emissions. This relationship depends on environmental factors which vary in space (soil, hydrology) and time (management practices and weather), and methods that cover both aspects are still needed. Bottom-up methods are based on field measurements, but their number is limited and they do not represent the spatial heterogeneity of Europe. There is a need to design a flexible modelling framework that allows to calculate N2O fluxes at different scales in a consistent way, based on the fact that data variability is very high and expensive to measure. The overall objective of this research is to model greenhouse gases (GHG) flows at European scale in response to agriculture management practices for support of decision making. This framework will be used for model integration, data assimilation and forecast of emissions scenarios according to crop adaptations and farming practices to future climate conditions.

This is a joint work with Adrian Leip (JRC, European Commission, Ispra, Italy) and Wim de Vries (Wageningen University).

  • 13/03/2015 : Identification et Quantification de métabolites dans un spectre RMN Rémi Servien (ENVT, INRA de Toulouse). diaporama
Résumé : Nous nous intéressons ici à un problème rencontré en métabolomique. Ce domaine vise à caractériser la composition d'un mélange complexe par ses métabolites i.e. ses petites molécules. Les spectromètres RMN fournissent un spectre de mélange complexe qui est la superposition des spectres des métabolites purs. Chaque métabolite possède un spectre caractéristique, sa signature, qui le rend identifiable. Cependant, la reconnaissance automatique des métabolites dans un mélange complexe est rendu délicate par des problèmes comme la déformation du spectre (translation, dilatation ...) ou la superposition des pics. Nous proposons ici une méthode permettant d'identifier et de quantifier rapidement les métabolites dans un spectre complexe. Nous estimons tout d'abord les déformations à l'aide d'une procédure itérative puis nous calculons les proportions des métabolites de manière simultanée en utilisant un algorithme de programmation linéaire. Cette procédure, testée sur différents mélanges, s'avère performante et rapide.
  • 6/03/2015 : Global Optimization with Sparse and Local Gaussian Process Models Tipaluck Krityakierne (Université de Berne, Suisse).
Résumé : Many engineering problems, for example, in watershed management and groundwater bioremediation, require the optimization of objective functions whose values are obtained from time-consuming black-box simulations. To reduce the computational cost, surrogate models are often employed to approximate the expensive simulation model and decide at which points the next computationally expensive function evaluation should be done. Gaussian processes (GPs) have been widely used in the literature since they provide an elegant way to model the objective function and deal with the exploration and exploitation trade-off. Nevertheless, the time-complexity and storage bottlenecks, as well as potential singularity problems for the covariance matrix, are their main practical limitations when the number of observation points gets large. A number of sparse Gaussian processes have been proposed to circumvent this limitation. In this presentation, we review some of these methods and present a novel global optimization framework based on sparse GPs. Without being overly confident, one may already say that the proposed approach offers promising perspectives for performing GP-based optimization with tens of thousands of observations. Besides this, a number of research questions arise and will be touched upon during the presentation.
  • 27/02/2015 : The optimal number of surveys when detectability varies unpredictably Alana Moore (University of Melbourne and MIA-T). diaporama
Résumé : The survey of plant and animal populations is central to undertaking field ecology. However, detection is imperfect, so the absence of a species cannot be determined with certainty. Methods developed to account for imperfect detectability during surveys do not yet account for unpredictable variation in detectability over time or space. When each survey entails a fixed cost that is not spent searching (e.g., time required to travel to the site), unpredictable variation in detectability results in a trade-off between the number of surveys and the length of each survey when surveying a single site. We present a model that addresses this trade-off and use it to determine the number of surveys that: 1) maximizes the expected probability of detection over the entire survey period; and 2) is most likely to achieve a minimally-acceptable probability of detection. We illustrate the applicability of our approach using three practical examples (minimum survey effort protocols, number of frog surveys per season and number of quadrats per site to detect a plant species) and test our model’s predictions using data from experimental plant surveys. We find that surveys can be made more efficient if unpredictable variation in detectability is taken into account. Further, the effort required to guarantee a particular probability of detection is likely to be underestimated if this variability is not accounted for in survey designs. We find that accounting for variable detection rates is likely to be particularly important for designing surveys when species detection rates are low. Our model provides a framework to do this.

Pas de séminaire les 13 et 20 février (vacances scolaires).

  • exceptionnellement séminaires joints les 05 et 06 février de 10h30 à 12h, salle de conférence de l'INRA d'Auzeville

Lei Sun (Department of Statistical Siences, University of Toronto) Hypothesis-driven GWAS identifies missing heritability: application to Meconimum Illues in Cystic Fibrosis

Résumé : It is often the case that a genome-‐wide association study (GWAS) successfully identifies one or a few susceptibility loci but the associated variants account for only a small proportion of the heritability. In the literature, efforts on identifying the missing heritability include for example analyzing imputed un­‐genotyped SNPs and copy-­number variations (CNVs), exploring GxG interactions, and more recently generating next generation sequencing (NGS) data and studying rare variants, but mostly with limited success so far. To this end, we proposed a hypothesis driven GWAS (GWAS-­HD) analytical framework that improves power by incorporating sound biological hypothesis into the prioritization and interpretation of the initial GWAS results. GWAS­‐HD uses the stratified false discovery control (sFDR) (Sun et al. 2006) to re-­evaluate the initial association evidence for all GWAS SNPs, and it also determines the statistical significance of the biological hypothesis itself, testing all high priority SNPs jointly. Prioritization of the genome is not new and is a key feature in many alternative approaches such as pathway or gene enrichment analyses. However, GWAS-­HD is not an inclusion or exclusion type of prioritization approach and has a robustness feature that safeguards against uninformative or even misleading prior information. To demonstrate the practical relevance of the method, I discuss two GWAS of Cystic Fibrosis modifier genes, in which over 500,000 SNPs are investigated for association with lung functions in individuals with CF and the available prior is of quantitative nature (Wright et al. 2011, Nature Genetics 43:539‐548), and for association with meconium ileus and the prior is of categorical nature (Sun et al. 2012, Nature Genetics 44:562-­‐569). The applications show that the GWAS-­HD framework can yield considerable amount of additional information than the standard GWAS approach. GWAS-­HD can be applied to other Mendelian disorders or even complex traits provided there is relevant prior information available.

Radu Craiu (Department of Statistical Sciences, University of Toronto) Bayesian latent variable modelling of longitudinal family data for genetic pleiotropy studies

Résumé : Motivated by genetic association studies of pleiotropy, we propose a Bayesian latent variable approach to jointly study multiple outcomes or phenotypes. The proposed method models both continuous and binary phenotypes, and it accounts for serial and familial correlations when longitudinal and pedigree data have been collected. We present a Bayesian estimation method for the model parameters and we discuss some of the model misspecification effects. Central to the analysis is a novel MCMC algorithm that builds upon hierarchical centering and parameter expansion techniques to efficiently sample the posterior distribution. We discuss phenotype and model selection, and we study the performance of two selection strategies based on Bayes factors and spike-and-slab priors.
  • 30/01/2015 : Nouvelles perspectives pour l’analyse d’incertitudes et de sensibilité : comment gérer la grande dimension et les entrées/sorties fonctionnelles. Sébastien Da Veiga (SNECMA, Paris). diaporama
Résumé : La quantification d'incertitudes et l'analyse de sensibilité sont des outils désormais essentiels dans l'étude des codes numériques coûteux. De très nombreux exemples d'applications industrielles, dans des domaines aussi variés que l'aéronautique, l'automobile, le nucléaire ou l'ingénierie pétrolière ont démontré l'intérêt de ces méthodes pour mieux évaluer l'incertitude des prévisions et identifier de manière précise quelles sont les entrées responsables des plus grosses variations des sorties. Ces dernières années ont vu le développement d'une grande variété de techniques pour l'analyse de sensibilité, que l'on peut classer en quatre catégories principales : 1) celles destinées à réduire le nombre d'évaluation du code numérique pour estimer les indices de sensibilité de Sobol (nouveaux estimateurs statistiques, utilisation de métamodèles, ...) ; 2) celles visant à améliorer les procédures de screening qualitatif pour éliminer rapidement un grand nombre de variables d'entrée non-influentes rapidement (screening de Morris, ...) ; 3) celles dédiées à la construction de nouveaux indices n'étant pas basés sur l'étude de la variance de la sortie (sensibilité pour la probabilité de dépassement d'un seuil, sensibilité globale avec dérivées, indices distributionnels) ; 4) celles dont l'objectif est de prendre en compte le caractère fonctionnel d'entrées ou de sorties du code numérique (courbes, cartes 2D ou cubes 3D, ...). Si dans chacune de ces catégories des méthodes efficaces ont été développées, il n'existe pas d'intersection claire entre les approches et le praticien peut vite se retrouver perdu face à un tel éventail de techniques. D'autre part, le traitement de la grande dimension et la prise en compte d'entrées/sorties fonctionnelles sont toujours des sujets de recherche actuels car les solutions proposées jusqu'à aujourd'hui ne sont pas complètement satisfaisantes. Dans cet exposé, nous introduisons un cadre unifié pour l'analyse de sensibilité grâce à l'utilisation de noyaux, capable de gérer des données fonctionnelles de manière naturelle tout en proposant des indices dont le calcul n'implique pas un grand nombre d'évaluations du code. Cette spécificité, ainsi que les liens de notre approche avec la sélection de variables en très grande dimension, en font entre autre un cadre particulièrement adapté pour le screening. Nous verrons également que les indices de sensibilité de Sobol apparaissent comme un cas particulier de ces nouveaux indices quand un certain noyau est choisi, et qu'il est également possible d'obtenir un équivalent de la décomposition de la variance en effets principaux, interactions, etc. Ces résultats récents font d'un tel cadre une généralisation naturelle et complète de l'analyse de sensibilité classique. D'un point de vue pratique, nous illustrerons les apports de cette nouvelle approche sur plusieurs exemples analytiques en grande dimension et des applications industrielles dont les sorties sont des cartes 2D ou des cubes 3D.
  • 23/01/2015 : Mise au point d'outils d'aide à la sélection génomique avec prise en compte de données dépendantes de facteurs environnementaux Daniel Ruiz (ENSEEIHT).
Résumé : Depuis de nombreuses années, les semenciers travaillent à améliorer les caractéristiques phénotypiques des maïs, afin d’augmenter les rendements, de les rendre moins sensibles à la verse ou à diverses maladies, par exemple. Les avancées faites dans les domaines du marquage moléculaire (puces à haute densité de génotypage SNP -- Single Nucleotide Polymorphism) ouvrent aujourd’hui de nouvelles perspectives dans le secteur de la création variétale. Le travail présenté se place dans le contexte du projet GBDS (Genomic Breeding Decision Support), financé dans le cadre du 13ème appel FUI. L'ambition du projet GBds est la mise au point d'outils statistiques d'aide à la création de variétés de maïs, permettant de prédire la valeur génétique d'un hybride, grâce au génotypage haute densité de ses lignées parentales et à l'observation de divers caractères phénotypiques (rendement, date de floraison, taux d'humidité à la récolte, etc ...) sous contraintes environnementales variés. Un aspect important concerne la modélisation de l’interaction Génotype Environnement (GxE), car l'effet environnemental (lieu, année, essai, climat…) est prépondérant dans les données phénotypiques et introduit des variations importantes dans l'évaluation de la valeur génétique seule. Il est donc nécessaire d’ajuster les observations phénotypiques des hybrides pour extraire une TBV (True Breeding Value), qui représente le potentiel génétique corrigé des variations GxE, exploitable en entrée d'algorithmes de type MLM (Modèle Linéaire Mixte). Une première difficulté provient de la présence de données très déséquilibrées dans les jeux de données des semenciers du fait que tous les hybrides ne sont pas testés dans tous les environnements (précocités différentes des plantes, dispositifs expérimentaux limités…), complexifiant l'évaluation des interactions GxE. La seconde difficulté vient du fait que, si l’information génétique à haute densité disponible permet d’imaginer de nouvelles approches de sélection, les volumes de données en jeu requièrent des développements spécifiques dans les domaines mathématiques et algorithmiques.
  • 16/01/2015 : pas de séminaire : soutenance de thèse de Hiep Nguyen - jeudi 15 janvier à 13h30 , Salle de séminaire de l'IFR, INRA

Titre : Strong consistencies for Cost Function Networks

Résumé : : This thesis focuses on strong local consistencies for solving optimization problems in costfunction networks (or weighted constraint networks). These methods provide the lowerbound necessary for Branch-and-Bound search. We first study the Virtual arc consistency,one of the strongest soft arc consistencies, which is enforced by iteratively establishing hardarc consistency in a sequence of classical Constraint Networks. The algorithm enforcingVAC is improved by integrating the dynamic arc consistency to exploit its incrementalbehavior. The dynamic arc consistency also allows to improve VAC when maintained VACduring search by efficiently exploiting the changes caused by branching operations. Sec-ondly, we are interested in stronger domain-based soft consistencies, inspired from similarconsistencies in hard constraint networks (path inverse consistency, restricted or Max-restricted path consistencies). From each of these hard consistencies, many soft variantshave been proposed for weighted constraint networks. The new consistencies provide lowerbounds stronger than soft arc consistencies by processing triplets of variables connectedtwo-by-two by binary cost functions. We have studied the properties of these new consis-tencies, implemented and tested them on a variety of problems.

Mots-clés : Weighted CSP • Cost Function Networks • Strong local consistencies • Highorder consistencies • Dynamic arc consistency • Virtual arc consistency

  • 09/01/2015 : Towards a new vision of heredity / Vers une nouvelle vision de l'hérédité Étienne Danchin (Écologie et Diversité Biologique, Toulouse).
Résumé : Many biologists are calling for an ‘extended evolutionary synthesis’ that would ‘modernize the modern synthesis’ of evolution. Biological information is typically considered as being transmitted across generations by the DNA sequence alone, but accumulating evidence indicates that both genetic and non-genetic inheritance, and the interactions between them, have important effects on evolutionary outcomes. I will review some evidence for such effects of epigenetic and cultural inheritance on the transmission of phenotypic variation across generations. These issues have major implications for diverse domains, including medicine where they may profoundly affect research strategies. For instance, non-genetic inheritance may explain a significant part of one of the major enigma of current molecular biology, namely the case of the missing heritability, which concerns many human supposedly genetic disorders. The missing heritability rather suggests that we should abandon the current genocentric framework of inheritance and adopt a broader view of biology including all of non-genetic inheritance into an "Inclusive Evolutionary Synthesis".

Pas de séminaire les 26 décembre et 2 janvier (vacances scolaires).

  • 19/12/2014 : Network visualization of conformational sampling during molecular dynamics simulation Osamu Miyashita (RIKEN Advanced Institute for Computational Sciences). slides
Résumé : Molecular dynamics (MD) simulation is a widely used approach for investigating the dynamics of biomolecules. With increases in computer processing power and the advent of enhanced sampling techniques, an extensive range of conformational changes may be probed with MD simulation. As a result, increasingly large data sets must be analyzed in order to elucidate the relevant conformational states of a particular system and the interpretation of a trajectory may become exceedingly complex. Therefore effective data reduction methods are necessary for uncovering the conformational relationships present in large MD trajectories. Clustering algorithms provide a means to interpret the conformational sampling of molecules during simulation by grouping trajectory snapshots into a few subgroups, or clusters, but the relationships between the individual clusters may not be readily understood. Here we show that network analysis can be used to visualize the dominant conformational states explored during simulation as well as the connectivity between them, providing a more coherent description of conformational space than traditional clustering techniques alone. Network annotations also increase the information content of the ensemble representations and are especially useful for visualizing the relationships between representative structures from clustering, experimental structures, and the simulated ensemble so as to reach functional conclusions. We compare the results of network visualization against 11 clustering algorithms and principal component conformer plots. Several examples of proteins undergoing distinct conformational changes demonstrate the effectiveness of network representations in understanding the conformational space explored by MD trajectories. In summary, network visualization can serve as an effective tool for uncovering the inherent conformational relationships in large MD trajectories. Networks reveal the relationship of experimental and representative structures to the simulated conformational ensemble and are instrumental in arriving at new functional insights.
  • 12/12/2014 : Data Assimilation Concepts (with an application to oceanography) Selime Gurol (CERFACS, Toulouse).
Résumé : Data assimilation is at the core of the research as a key solver to improve the estimation of the physical parameters arising in earth systems problems including oceanography, atmospheric sciences and also land studies. In this talk; one of the efficient solution approximation for these systems, four dimensional variational (4D-Var) data assimilation method, is considered with an application to ocean data assimilation systems. Variational assimilation seeks to solve a regularized nonlinear least-squares problem to determine a model state that optimally fits both observational information and a priori information. The fit is quantified by a cost function that measures the sum of the weighted squared differences between the available information and the corresponding model-predicted fields. In this talk, first the main concepts of data assimilation are explained and then a practical application from oceanography will be presented.
  • 09/12/2014 : Constraint programming on infinite data streams Jimmy Lee (Department of Computer Science and Engineering, The Chinese University of Hong Kong)
Résumé : Classical constraint satisfaction problems (CSPs) are commonly defined on finite domains. In real life, constrained quantities can evolve over time. A variable can actually take an infinite sequence of values over discrete time points. In this talk, we propose constraint programming on infinite data streams, which provides a natural way to model constrained time-varying problems. In our framework, variable domains are specified by omega-regular languages. We introduce special stream operators as basis to form stream expressions and constraints. Stream CSPs have infinite search space. We propose a search procedure that can recognize and avoid infinite search over duplicate search space. The solution set of a stream CSP can be represented by a Büchi automaton allowing stream values to be non-periodic. Consistency notions are defined to reduce the search space early. A prototype solver allows us to solve such interesting problems as eventually still life problem, traffic light control, jazzy elevator music generation, declarative specification and solving of the 15-puzzle, improvised juggling patterns, and video game engine synthesis. As diverse as these applications are, they share similar characteristics as controller specification and synthesis. Last but not least, we demonstrate how the solution automaton of a stream CSP can be used to control robotic hardware in real-time.
  • 05/12/2014 : pas de séminaire : soutenance de thèse de Magali Champion - vendredi 5 décembre à 10h30, amphithéâtre Schwartz, bâtiment 1R3 de l'Institut de Mathématiques de Toulouse, Université Paul Sabatier

Titre : Contribution à la modélisation et l'inférence de réseaux de régulation de gènes

Résumé : : Cette thèse propose des développements autour de l'étude théorique et l'utilisation de méthodes statistiques mathématiques et d'optimisation dans le contexte des réseaux géniques. De tels réseaux sont des outils puissants de représentation et d'analyse de systèmes biologiques complexes, et permettent de modéliser des relations fonctionnelles entre les éléments qui composent ces systèmes. La première partie de cette thèse est consacrée à l'étude de méthodes d'apprentissage statistique pour inférer ces réseaux par le biais de régressions parcimonieuses dans le contexte de grande dimension, et plus particulièrement les algorithmes de L2-Boosting. D'un point de vue théorique, nous montrons des résultats de consistance et de stabilité du support, sous des hypothèses concernant notamment la dimension du problème. La deuxième partie concerne l'utilisation des algorithmes de L2-Boosting pour l'apprentissage d'indices de Sobol dans le cadre d'analyse de sensibilité. Pour estimer ces indices, on s'appuie sur la décomposition du modèle sous forme de fonctionnelles d'ANOVA. Les composantes sont estimées via une procédure d'orthogonalisation hiérarchique de Gram-Schmidt, visant à construire une approximation de la base analytique, et une procédure de L2-Boosting pour reconstruire une approximation parcimonieuse du signal. Nous montrons alors que l'estimateur obtenu est consistant dans un contexte de bruit sur le dictionnaire d'approximation. La dernière partie concerne enfin le développement de méthodes d'optimisation pour estimer des interactions au sein de réseaux. Nous montrons que le problème de minimisation de la log-vraisemblance peut être réécrit sous la forme d'un problème de double optimisation, consistant à trouver la forme complète du graphe (ordre des variables au sein du graphe) puis à le rendre parcimonieux. Nous proposons de le résoudre par le biais d'un algorithme génétique, spécifiquement adapté à la structure de notre problème.

Mots-clés : statistique, grande dimension, régression, parcimonie, optimisation.

  • 28/11/2014: pas de séminaire : visite de AERES
  • 21/11/2014: Analyse des réseaux métaboliques et de leur régulation , Lucas Marmiesse (LIPM - INRA Toulouse). slides
Résumé : : L'étude de la physiologie cellulaire passe par l'analyse de différents niveaux de réseaux biologiques. Le réseau le plus étudié est le réseau métabolique car il est directement responsable du phénotype de la cellule. Cependant l'étude du métabolisme seul ne permet pas de comprendre les différences observées entre deux cellules différenciées d'un organisme, ou le comportement d'un micro-organisme en fonction de l'environnement. En effet, au cours de l'évolution, des réseaux de régulation complexes permettant de n'exprimer qu'une partie de leurs gènes selon certaines conditions se sont mis en place dans les cellules. À l'échelle d'une cellule, les paramètres cinétiques agissant sur les réseaux métaboliques et de régulation sont impossibles à définir tous. Nous évoquerons ici différents modèles permettant de les contourner : les modèles à base de contraintes, et plus spécifiquement l'analyse de balance des flux, pour les réseaux métaboliques, et les modèles logiques pour les réseaux de régulation. Enfin, nous nous intéresserons aux moyens d'interfacer ces deux réseaux pour pouvoir analyser l'effet de l'un sur l'autre.

This is a joint work with Ludovic Cottret, LIPM/INRA

  • 14/11/2014 : Les réseaux élastiques : un outil pour étudier la relation structure-fonction des protéines, Yves-Henri Sanejouand (CNRS, Nantes).
Résumé : Above its "folding temperature", a protein behaves like any polymer. Below, it has a given tridimensional structure, which allows the protein to function as a specific catalist or binder, this structure being so well defined that the position of most of its atoms can often be determined at the atomic scale. The structure of a protein can be described as a graph whose nodes are the amino-acids, the edges corresponding to pairs of amino-acids close enough in space. Such a description actually allows to predict fairly well the amplitude of the brownian motion of each amino-acid, as assessed for instance by protein crystallographic data. In order to also predict the direction of the motion of the amino-acids, tridimensional graphs can be considered. Associating an harmonic spring to each edge yields collective motions (the low-frequency modes of the system) that turned out to be relevant for protein function, namely, the kind of motion the protein experiences when it binds its ligand or to another protein. Applications have been proposed, noteworthy in the field of structural biology, which try to take advantage of these results.
  • 07/11/2014 : Fragment-based protein structure prediction and design David Simoncini (Unité MIA-T - INRA Toulouse). slides
Résumé : Proteins are fundamental components of all living cells and are among the most studied biological molecules. They are involved in numerous diseases and being able to determine their 3D structures provides critical clues to their functions. Computational protein structure prediction relies on Christian Anfinsen's hypothesis that the 3D structure of a protein is determined only by its amino acid sequence. Fragment assembly is a widely accepted method of protein structure prediction that builds protein models from a pool of candidate fragments taken from known structures. During this talk, we will first give an overview of the fragment-based approach for protein structure prediction. We will then present EdaFold, a fragment-based method using an estimation of distribution algorithm. Finally, we will show how we can modify Edafold so that it tackles the inverse problem of finding an amino acid sequence which matches a given 3D scaffold (computational protein design).

Pas de séminaire les 24 et 31 octobre (vacances scolaires).

  • 17/10/2014: Sampling-based algorithms for pathfinding on continuous cost-spaces: applications in robotics and structural biology, Juan Cortès (LAAS Toulouse)
Résumé : In robotics, motion planning algorithms have traditionally aimed at finding feasible, collision-free paths for a mobile system. However, beyond feasible solutions, in many applications it is important to compute good-quality paths with respect to a given cost criterion. When a cost function is defined on the configuration space of the system, motion planning becomes a pathfinding problem in a continuous cost-space. The cost function associated with robot configurations may be defined from the distance to obstacles in order to find high-clearance solution paths. It may also be related to controllability, to energy consumption, or to many other different criteria. In computational structural biology, where robotics-inpirered algorithms are applied to simulate molecular motions, the cost function is usually defined by the potential energy or the free energy of the molecular system. Computing low energy paths in this context is important since they correspond to the most probable conformational transitions. We have developed a variant of the popular RRT algorithm, called Transition-RRT (T-RRT), to compute good-quality paths in high dimensional continuous cost-spaces. The idea is to integrate a stochastic state-transition test, similarly to the Metropolis Monte Carlo method, which makes the exploration get focused on low-cost regions of the space. The algorithm involves a self-tuning mechanism that controls the difficulty of this transition test depending on the evolution of the exploration process, and which significantly contributes to the overall performance of the method. T-RRT is a simple and general algorithm that can take into account any type of continuous, smooth cost function defined on the configuration space. It has been successfully applied to diverse robot path-planning problems as well as structural biology problems. We have also developed several variants and improvements of the basic T-RRT algorithm to solve more efficiently particular classes of problems, and to guarantee (asymptotic) convergency to the optimal solution in an any-time fashion.
  • 10/10/2014: Stochastic block Model for Multiplex, Avner Bar-Hen (MAP5, Université Paris Descartes). slides
Résumé : Modeling relational information among individuals is a classical question and grouping the individuals allows a structure based on the observed patterns of interactions to be uncovered. Stochastic block model (SBM) is a popular approach for defining a network partition. Multiplex networks allow more than one edge between two individuals and are used when the relationships between individuals can be of various types. The aim is to extend the SBM model to multiplex in order to have a clustering based on more than one kind of relationship. A model is proposed and a procedure to obtain the maximum likelihood estimates of the parameters, such as the marginal probabilities of assignment to groups and the matrix of probabilities of connections between groups, is detailed. The number of groups is chosen thanks to a penalized likelihood criterion. Multiplex Stochastic Block Model arise in many situations but our applied example is motivated by a network of French cancer researchers. The two possible links between researchers are a direct connection or a connection through their labs. Our results show strong interactions between these two kinds of connections and the groups that are obtained are discussed to emphasize the common features of researchers grouped together.

This is a joint work with Pierre Barbillon and Sophie Donnet, AgroParisTech/INRA

  • 03/10/2014: Conception de vergers maraîchers à MIAT, Marc Tchamitchian (INRA, Ecodéveloppement, Avignon).
Résumé : Organic vegetable production systems are a solution to address the current concerns about the environmental impact of agriculture (Bellon and Hemptinne, 2012). However, these systems remain relatively specialized. Agroforestry systems mixing fruit trees and vegetable crops make a better use of biodiversity and offer a good response to economic challenges such as being able to fulfill the local market requirements, continuous provisioning of vegetable but diversified food. Designing mixed cropping systems based on fruit and vegetable is a real challenge because they combine interactions of different nature (ecological, economical and social), which take place both in time and space. Therefore, automatically building prototypes exploiting the advantages of agroforestry would be of great help. The goal of this study is to assess the validity of the methodological choice to design mixed fruit-vegetable cropping systems by automatic inference using the constraint satisfaction problem approach. The following part surveys the knowledge necessary to describe such mixed systems and how it has been modeled as constraints. The next part presents and discusses the results obtained so far.
  • 26/09/2014: Séminaire annulé
  • 19/09/2014: Allocation dynamique de ressources et modèles de bandits, Aurélien Garivier (Institut de Mathématiques de Toulouse). slides
Résumé : Un agent doit choisir, à chaque instant, une action parmi une famille d'actions disponibles. Chaque action conduit à une récompense aléatoire de distribution inconnue. Comment doit-il s'y prendre pour maximiser la somme des récompenses qu'il recueille ? Une bonne politique doit réaliser un savant équilibre entre l'exploitation des actions qui se sont révélées payantes par le passé et l'exploration de nouvelles possibilités qui pourraient s'avérer encore meilleures. L'étude mathématique de ces problèmes dits de bandits (en référence à la situation paradigmatique d'un joueur faisant face à une lignée de machines à sous) remonte aux années 1930. De nombreux travaux ont suivi : on présentera principalement dans cet exposé les algorithmes dits "optimistes", qui accordent toujours le bénéfice du doute aux actions mal connues, et qui ont l'avantage de pouvoir être appliquées dans une grande variété de situations.
  • 12/09/2014: Résolution approchée de processus décisionnels de Markov factorisés , Julia Radoszycki (Unité MIA-T - INRA Toulouse). slides
Résumé : Les processus décisionnels de Markov forment un cadre intéressant pour la décision séquentielle dans l'incertain. Cependant, l'application à des problèmes réels n'est pas directe quand l'espace d'état et l'espace d'action sont factorisés (décrits par un grand nombre de variables). La plupart des algorithmes existants ne s'appliquent pas quand le nombre de variables d'état et d'action excède 30, ou alors des hypothèses fortes sont faites sur la fonction de transition ou la fonction de valeur. Nous proposons une nouvelle approche basée sur la recherche de politiques stochastiques factorisées dont la structure est donnée. Notre approche consiste à utiliser un algorithme d'optimisation continue, et une méthode variationnelle pour l'évaluation approchée de la fonction objectif. Des expériences sur un problème jouet montrent que notre approche permet de traiter des problèmes ayant 100 variables d'état et d'action.


  • 25/07/2014: Registration of Brain Anatomy and Morphometry: Comparing genus zero surfaces , Patrice Koehl (UC Davis, Computer Science Dpt./Genome Center).
Résumé : In general, methods that compare shapes can be classified into two categories: those that derive features (also called shape descriptors) for each shape separately that can then be compared using standard distance functions, and those that directly attempt to map one shape onto the other, thereby providing both local and non-local elements for comparison. I am currently interested in developing methods that generate mappings between two shapes that are defined by surfaces of genus zero. We have recently proposed a new algorithm for shape registration based on the idea of a globally optimal conformal mapping between two surfaces of genus zero. In this approach, the whole mesh representing the source surface is warped onto the target surface, using the mapping defined through the composition of discrete conformal mappings of the surfaces onto the sphere and the Möbius transformation between these mappings. The Möbius transformation is then optimized to lead to minimal distortion between the source mesh and its image, where distortion is measured as difference from isometry.

This is a joint work with Joel Hass (UC Davis), Nina Amenta (UC Davis), Owen Carmichael (UC Davis).

  • 04/07/2014: Grammar-driven patterns discovery in time series, Pavel Senin (MIAT, INRA Toulouse).
Résumé : The problem of recurrent and anomalous patterns discovery in time series has received a lot of attention from researchers in the past decade since this ability not only provides the capacity to explore, to summarize, and to compress large datasets, but effectively translates into the capability to support decision making processes in many areas by conveying critical and actionable information, such as in health care, equipment safety, and in security. However, most of the proposed techniques require the user to provide the length of a potential pattern, which is often unreasonable for real-world problems. Addressing this limitation, we propose a technique that uses grammar induction to aid in the recurrent and anomalous patterns detection without any prior knowledge about the phenomenon duration. Our algorithm is capable of discovering co-occurring variable-length structural time series patterns and effectively extends the current state of the art. In addition, we show a highly efficient variant of our algorithm that is capable of discovering anomalous subsequences of variable length without computing costly distance functions - a procedure that typically accounts for up to 99% of most algorithms' computation time. Finally, we show and provide an implementation and a visualization tool.
  • 23/06/2014 (14h00): Attention ! Exceptionnellement un lundi ! Optimal decision-making to protect endangered species], Sam Nicol, CSIRO Ecosystem ScienceS.
Résumé : Natural resource managers are required to prevent extinction of endangered species and to control or eradicate invasive species. These objectives must be completed with limited resources and often management decisions must be taken with limited data and uncertainty about how systems will evolve in both space and time. The best practice method for managing ecological systems under uncertainty is adaptive management, an iterative process of reducing uncertainty while simultaneously optimizing a management objective. While the term ‘adaptive management’ was created by fisheries scientists for use in natural resource management, the problems of optimal decision making under uncertainty are familiar to mathematicians in other fields. In particular, adaptive management can be modelled using a discrete-time stochastic control technique called a partially observable Markov decision process. In this talk I will demonstrate how techniques borrowed from decision theory, artificial intelligence and operations research are being applied to aid decision making for conservation problems. Along with other examples, I will refer to my most recent work on managing an international network of migratory shorebirds that is threatened by the habitat loss that will be caused by an uncertain extent of sea level rise.
  • 20/06/2014: Parametric Estimation of Ordinary Differential Equations with Orthogonality Conditions, Nicolas Brunel, (ENSIEE, Evry).
Résumé : L'estimation d'équations différentielles ordinaires (EDO) par les approches de type moindres carrés non-linéaires ont tendance à aboutir des problèmes d'optimisation complexe et mal-posé. Des estimateurs alternatifs ont donc été proposés pour obtenir des estimateurs fiables. En s'inspirant d'une approche "Analyse de Données Fonctionnelles", nous proposons un estimateur "gradient matching" pour l'estimation des paramètres d'une EDO, lorsque les trajectoires sont observées avec du bruit. A partir d'une approximation non-paramétrique de la vraie trajectoire, nous construisons une estimateur paramétrique à partir d'une caractérisation variationnelle de la solution. L'estimateur introduit soit alors satisfaire un ensemble de conditions d'orthogonalité qui sont alors résolues au sens des moindres carrés. Malgré l'utilisation d'un estimateur non paramétrique, l'estimateur obtenu a bien la vitesse de convergence en racine de n, et est asymptotiquement normal. Nous obtenons aussi des intervalles de confiance grâce à une expression explicite de la variance asymptotique, et nous donnons une moyen pratique de calcul.
  • 06/06/2014: Sequential actions in a reasonable world - On the locality of action domination in sequential decision making, Emmanuel Rachelson (ISAE SupAero).

(Although the following abstract sounds rather technical, the presentation contains many fun and intuitive results and should be accessible for an audience that has no expertise in Reinforcement Learning)

Résumé : In the field of sequential decision making and reinforcement learning, it has been observed that good policies for most problems exhibit a significant amount of structure. In practice, this implies that when a learning agent discovers an action is better than any other in a given state, this action actually happens to also dominate in a certain neighbourhood around that state. This presentation will highlight some results proving that this notion of locality in action domination can be linked to the smoothness of the environment’s underlying stochastic model. Namely, we link the Lipschitz continuity of a Markov Decision Process to the Lispchitz continuity of its policies’ value functions and introduce the key concept of influence radius to describe the neighbourhood of states where the dominating action is guaranteed to be constant. These ideas are directly exploited into the proposed Localized Policy Iteration (LPI) algorithm, which is an active learning version of Rollout-based Policy Iteration. Preliminary results on the Inverted Pendulum domain demonstrate the viability and the potential of the proposed approach. (associated paper : On the Locality of Action Domination in Sequential Decision Making. E. Rachelson, M. G. Lagoudakis. 11th International Symposium on Artificial Intelligence and Mathematics, 2010)
Résumé : Stochastic networks encompass a broad class of stochastic models with the common problematic of resource sharing, e.g., transportation, energy or communication networks. In this talk I will present two renormalization techniques that can be seen as functional versions of the law of large numbers and the central limit theorem, and I will explain how these techniques can be used to analyze the performance of communication networks. I will not assume any prior knowledge on these topics.
Résumé : The recent development of high-throughput techniques makes available huge datasets where thousand genes are simultaneously measured. However, the number of observations is, comparatively, very small, and those are often measured in a variety of experimental conditions. One of the big challenge of modern systems biology is to understand the influence of controlled experimental conditions on the functioning of living organisms. This question is usually addressed by searching for the difference between gene expressions pertaining to the condition (hence for "differentially expressed genes"). But the differences in the way the genes interact with each others is also a question of interest: finding which regulation pathways are modified by a given experimental condition gives an interesting insight on the influence of the condition on the living system in its whole. One of the most popular approach to understand the complex relationships existing between the expression of a large set of genes is to infer a co-expression network from a transcriptomic dataset. In such a model, the nodes of the network represent the genes and an edge between two nodes models a strong co-expression between the two genes. A number of different methods have been developed to infer such networks: using correlations (relevance network, Butte & Kohane, 2000), Bayesian networks (Pearl, 1998 or Pearl & Russel, 2002), Graphical Gaussian Model (Edwards, 1995)... When the observations have been collected in different conditions, a naive approach would be to infer a network for each experimental condition and to compare them. However, this method will not be able to stress out specifically the differences and the commonalities of regulation phenomenons: since the number of observations is small, inferring the networks independently, forgetting that a common functioning should exist whatever the condition will lead to emphasize irrelevant differences. In this proposition, we will present a novel method for inferring co-expression networks from samples obtained in different experimental conditions. This approach is based on a double penalization: a first penalty aims at inferring a sparse solution; then, the second penalty is used to make the networks obtained in different conditions consistent with a consensual network. The "consensual network" is introduced to represent the dependency structure between genes, the common functioning of the living organism under study, whatever the condition. The estimation is made more robust by using a bootstrap approach. Our proposal is tested and compared to existing alternatives, on simulated datasets, investigating the influence of the number of different edges between conditions and of the sample size. It is also applied on a real-world dataset where the transcriptom has been measured for different breeds of a given mammalian species.
Résumé : L'agrégation d'estimateurs et de prédicteurs a motivé de très nombreux travaux depuis la fin des années 1990. Le praticien voit son activité profondément modifiée par deux mouvements conjoints : nous entrons chaque jour un peu plus dans l'ère du "big data", les volumes et dimensions des données augmentent avec les progrès constants de l'outil informatique ; parallèlement, le nombre de méthodes d'estimation et de prédiction disponibles a accompagné cette inflation impressionnante, abordant tant en classification qu'en régression une variété croissante de modèles et de contextes statistiques (estimation de probabilités, modèles additifs, modèles parcimonieux...). Citons, parmi beaucoup d'autres, les méthodes pénalisées (le Lasso et ses variantes), les k-plus proches voisins, les arbres et forêts aléatoires, les approches bayésiennes, etc. Il est dès lors légitime d'étudier des procédures d'agrégation de techniques existantes, afin de tirer le meilleur de chacune d'elles et d'éliminer autant que possible la phase---par essence subjective---de spécification d'un modèle. La littérature est riche de nombreuses méthodes d'agrégation de prédicteurs : sélection de modèles, combinaisons linéaires ou convexes sont les principales. Nous proposons dans cet exposé une approche différente, non linéaire en les prédicteurs, reposant sur un principe de moyenne locale. À la métrique usuelle induite par le design, nous proposons de substituer une métrique particulière, suggérée par des estimateurs préliminaires de la fonction de régression. Nous montrons en particulier que l'estimateur résultant est asymptotiquement aussi efficace que le meilleur des estimateurs initiaux. Nous obtenons également une inégalité oracle exacte non asymptotique en espérance, avec une vitesse de convergence explicite. Notre méthode est disponible sur le CRAN sous la forme du package R COBRA, dont les performances brutes et la vélocité sur données simulées et réelles seront commentées. Références : et
  • 04/04/2014: Automated planning with incomplete information and sensing: the translated-based approach and applications, Alexandre Arbore (ONERA Toulouse & MIA-T).
Résumé : Automated planning is the Artificial Intelligence branch concerned with the task of finding a plan, i.e. a sequence of basic actions -eventually conditioned on sensing- to drive the environment from an initial situation to a desired goal situation. In contrast to domain-dependent planning, where the solution is hand-coded in the problem, domain-independent planning makes use of general languages for representing problem instances (e.g. PDDL), and general algorithms to solve a wider set of puzzles, namely all the challenges expressible in the language. The principal characteristic of this approach resides in the separation of the planning engine from the world model, which is given to the solver as part of the problem, together with the initial situation and the goal. In classical planning, the environment is assumed to be fully observable by the planning agent and no uncertainty is introduced, neither through lack of knowledge about the (initial) situation, nor through actions with effects that are unpredictable, nor by exogenous effects unexpectedly triggered. This model is way too restrictive to deal with real-world applications. We will thus see the models for planning under uncertainty, that extends the model of classical planning with incomplete information about the agent’s situation, and sensing. These problems are computationally harder to solve than classical planning problems. Thus, different techniques have been employed to deal with them. A recent and successful technique is the translation-based approach, that compiles the original planning problem under uncertainty into instances easier to solve.
  • 14/03/2014: Présentation des travaux sur l’intégration du partitionnement de graphes aux modèles de simulations DEVS dans le cadre de l’optimisation du temps de calculs, Christopher Herbez (LISIC, Université du Littoral Côte d'Opale).
Résumé : Face à des simulations de plus en plus gourmande en temps, il est nécessaire de mettre en place des procédés permettant d'y remédier. Nous nous proposons, dans le cadre de ce séminaire, d'intégrer le partitionnement de graphes au modèle de simulation DEVS. Une simulation au sens DEVS peut être représentée sous forme d'un graphe où chaque nœud symbolise un simulateur et chaque arc le lien qui les unissent. Les simulations étant de plus en plus grandes, la propagation des informations au travers du graphe ainsi que l'activation des simulateurs à différents instants engendrent une augmentation conséquente des temps de simulation. Nous nous proposons de partitionner le graphe afin de ne plus travailler à partir d'un unique graphe de grande taille mais de n graphes de petite taille. Dans un premier temps, le partitionnement n'est utilisé que dans le cadre d'un découpage simple du graphe d'origine. L'objectif étant d'observer l'impact de celui-ci sur le temps de simulation. Et dans un second temps, il est utilisé dans le cadre d'une parallélisation de la simulation sur plusieurs clusters. Le but de ce séminaire est de présenter l'impact du simple découpage du graphe d'origine sur les temps de simulation et de faire une ouverture vers la parallélisation.
  • 28/02/2014: Efficient network-guided multi-locus association mapping with graph cuts, Chloe-Agathe Azencott (MPI, Tübingen, Germany & MinesParisTech).
Résumé : As an increasing number of genome-wide association studies reveal the limitations of the attempt to explain phenotypic heritability by single genetic loci, there is a recent focus on associating complex phenotypes with sets of genetic loci. Although several methods for multi-locus mapping have been proposed, it is often unclear how to relate the detected loci to the growing knowledge about gene pathways and networks. The few methods that take biological pathways or networks into account are either restricted to investigating a limited number of predetermined sets of loci or do not scale to genome-wide settings. We present SConES, a new efficient method to discover sets of genetic loci that are maximally associated with a phenotype while being connected in an underlying network. Our approach is based on a minimum cut reformulation of the problem of selecting features under sparsity and connectivity constraints, which can be solved exactly and rapidly. SConES outperforms state-of-the-art competitors in terms of runtime, scales to hundreds of thousands of genetic loci and exhibits higher power in detecting causal SNPs in simulation studies than other methods. On flowering time phenotypes and genotypes from Arabidopsis thaliana, SConES detects loci that enable accurate phenotype prediction and that are supported by the literature.
Résumé : L'application des modèles de mélanges pour l'analyse des communautés de microbes dans l'intestin humain et dans le sol permet une meilleure normalisation des tableaux d'occurrences des espèces de bactéries obtenus par les nouvelles technologies de séquençage. Je présenterai des résultats obtenus en utilisant le logiciel phyloseq (développé en package R) qui permet d'interfacer ces nouvelles données avec les logiciels classiques d'écologie comme vegan ou ade4 et de les présenter sous formes de graphiques à couches.
Résumé : Étant donné un système dynamique paramétré, le but est de choisir séquentiellement des expériences (perturbation du système et quantités à observer) pour estimer au mieux ces paramètres. On s'inspire de méthodes de type "active learning" pour choisir automatiquement la série d'expériences à réaliser.
  • 17/01/2014: Autour des processus ponctuels spatio-temporels, Edith Gabriel (équipe Statistiques, IUT STID, Avignon, France).
Résumé : Je m'intéresse aux processus ponctuels spatio-temporels pour lesquels on a une réalisation unique dans une région bornée. Les caractéristiques d'ordre 2 sont utilisées pour analyser la structure spatio-temporelle du processus sous-jacent. En particulier, la fonction de corrélation de paires et la fonction K de Ripley, spatio-temporelles et inhomogènes, mesurent l'agrégation / la régularité et l'intéraction spatio-temporelle et se révèlent utiles dans le choix de modèles. Leurs estimateurs non-paramétriques requièrent de l'information située hors de la région d'étude, résultant à des effets de bord qui doivent être corrigés. Ils dépendent également des caractéristiques d'ordre 1 qui doivent être estimées en pratique. J'ai étendu les correcteurs d'effets de bord spatiaux classiques au cadre spatio-temporel et comparé les performances des estimateurs correspondants pour des semis de points issus de processus stationnaires/non stationnaires et/ou isotropes/anisotropes. J'ai également exploré l'influence de l'estimation de l'intensité sur les estimateurs non paramétriques des caractéristiques d'ordre 2. La simulation de processus ponctuels spatio-temporels est ensuite un outil utile, d’une part pour comprendre le comportement de différents modèles et d’autre part comme composante nécessaire aux méthodes d’inférence de type Monte Carlo. Dans cette présentation, je définirai un processus ponctuel spatio-temporel, présenterai différents modèles de processus et leur implémentation dans R via le package stpp. Je donnerai ensuite les résultats sur les caractéristiques d’ordre deux de ces processus.
  • 13/12/2013: Methods for Gene Similarity Computation and Gene Prioritization in Prokaryotes , Roland Barriot (Génomique des Systèmes Intégrés, UPS, Toulouse, France)
Résumé : After a brief presentation of gene prioritization principles and its extension to cross-genomes data sources, we will focus on the underlying methods to assess gene functional relationships based on the (i) phylogenetic information and (ii) gene semantic similarity. We will conclude on preliminary results regarding the weighted fusion of prioritized gene lists.
  • 29/11/2013: Approches convexes pour la parcimonie structurée, Guillaume Obozinski (Imagine team, Laboratoire d'Informatique Gaspard Monge, Ecole des Ponts-PariTech)
Résumé : Ces dernières années ont vu l'émergence de la parcimonie structurée, dont le but est d'identifier des modèles non seulement parcimonieux mais dont le support doit également satisfaire des contraintes de structure. Deux exemples important sont celui de la parcimonie par groupe où un des ensembles de variables doivent être sélectionnés simultanément, et la parcimonie hiérarchique, correspondant au cas où la sélection des variables doit respecter une contrainte d'ordre partiel sur un arbre ou un graphe orienté acyclique. Je commencerai mon exposé par un tour d'horizon des problèmes considérés par la parcimonie simple et la parcimonie structurée, du point de vue des méthodes convexes. Dans un deuxième temps, je présenterai une approche de la parcimonie structurée pour les vecteurs basée sur des pénalités combinatoires, pour laquelle une construction d'une relaxation convexe générique peut-être proposée. Cette relaxation convexe ne retient que certaines des caractéristiques de la fonction combinatoire initiale, mais celles-ci peuvent être caractérisées par le concept d'enveloppe combinatoire inférieure. L'approche proposée permet de considérer dans une formulation unifiée des approches a priori disparates comme les pénalités définies par le codage par blocs, les fonctions sous-modulaires et les formes de group Lasso structurés. Dans certains cas, entre autres lorsque la fonction combinatoire est sous-modulaire, on pourra construire des algorithmes efficaces et montrer des résultats généraux de consistance et d'identification du support.
  • 15/11/2013: Bayesian mixed effect atlas estimation under diffeomorphic constraint on the deformation model, Stéphanie Allassionière (CMAP, Ecole Polytechnique & Parietal, INRIA Saclay, France)
Résumé : This work introduces a diffeomorphic constraint on the deformations considered in the Deformable Bayesian Mixed Effect (BME) Template model. We take advantage of the Large Diffeomorphic Deformation Metric Mapping (LDDMM) setting which parametrizes the deformation with initial momentum vector and control point locations. This enables to estimate together with the atlas the locations of optimal control points. We propose to use a stochastic version of the Expectation-Maximization (EM) algorithm where the simulation is optimized using the Anisotropic Metropolis Adjusted Langevin Algorithm (AMALA).
  • 08/11/2013: Systems Biology of a model pathogen: Listeria monocytogenes., Christophe Bécavin (Institut Pasteur, Paris)
Résumé : Listeria monocytogenes, a food-borne pathogen, has become a model organism in the past decades in Microbiology and Cell-Biology. Many transcriptomic analyses have been performed using Gene Expression array, Tiling array and RNASeq for screening Transcription Starting Site (TSS). Recently we add new "omics" scale to our systems biology approach of L. monocytogenes by applying a new Proteomics technique called N-Terminomics to screen Translation Initiation Site (TIS). Put together all our data allow us to screen the many type of transcription and translation regulation that the bacteria uses to leave in different environment, and regulate its virulence. I will present the results of our study of cross-correlation of all the "omics" scale we have now in the hand: Genomics, Transcriptomics and Proteomics. First by focusing on the statistical challenge of correlating such heterogeneous data, and then by showing the software we have developed to be able to visualize directly on a genome-wide scale the correlation within our data.
  • 18/10/2013: 5 ans à l'URGI: éléments transposables, épigénétique et transcriptomique, Matthias Zytnicki (MIA-T, ex-URGI :))
Download the slides: Fichier:Zytnicki 20131018.pdf
  • 11/10/2013: Statistical consulting in clinical research, Martin Kappler (Statalpha)
Résumé : The work of a statistical consultant in the field of clinical research, the last phase in drug development, is presented together with the steps which involve the statistician. The important skills of a statistical consultant are discussed and some methodological challenges the author faced in his projects are presented: (i) traps using block randomization, (ii) response assessment when no fixed time point is use, (iii) graphical approaches to Simon two-stage designand (iv) mixed model versus mean over existing measures.
  • 27/09/2013: Analyse des données longitudinales : nouvelles approches brièvement suivi de R++, the next step ?, Christophe Genolini (Université de Paris Ouest Nanterre)


Résumé : Many Constraint Satisfaction Problems (CSPs), consisting of non-binary constraints, include table constraints (i.e. lists of allowed or disallowed tuples). Such constraints are very important in constraint programming as they are present in many real problems from areas such as configuration and databases. As a result, numerous specialized algorithms that achieve Generalized Arc Consistency (GAC) on table constraints have been proposed in the literature. However, since these algorithms process one constraint at a time they cannot exploit possible intersections that may exist between different constraints. On the other hand, existing algorithms for consistencies stronger than GAC, that can exploit constraint intersections, are generic and thus very expensive. One objective of this research is to propose efficient algorithms for strong local consistencies that can be applied on table constraints and can be easily adopted by standard CP solvers. Towards this, we propose an extension to the state-of-the-art GAC algorithms that handles efficiently constraint intersections to achieve extra pruning. We also suggest ways to interleave GAC with stronger consistency algorithms, since GAC may still be superior in many problems. One such way is to apply heuristics that can dynamically select between GAC and a stronger propagator during search. Experimental results demonstrate that the proposed algorithm is usually more efficient than the state-of-the-art algorithm it is based on, while the proposed heuristics for adaptive propagation result in a more robust solver.
  • 22/02/2013: Series Classification Using SAX Representation and Vector Space Model. A work group animated by Pavel Senin (MIAT and university of Hawai)
Résumé : Ability to discover characteristic patterns in time series paves the road for many downstream analyses while enabling interpretability of results. I propose a novel method for time series features discovery based on two existing techniques - Symbolic Aggregate Approximation (SAX) and Vector space model, called SAX-VSM. This method is capable to automatically discover and rank time series patterns by their “importance” to the class, which not only creates well-performing classifiers, but, in turn, provides interpretable class generalization and facilitates clustering. The accuracy of this technique, as shown through experimental evaluation, is matching current state of the art while being robust to noise and lost values. While being relatively computationally expensive within a learning phase, the method provides fast, precise, and interpretable classification. At this time, there are still many open questions - how to leverage bag of patterns representation for multiple dimensions, which TF*IDF implementation to use, which way to sample for parameters, should nGrams statistics be considered etc., for which I solicit feedback.
  • 15/02/2013: Simulations for combining heuristics and consistent algorithms: applications to Minesweeper, the game of Go and Power Grids, Olivier Teytaud (INRIA and LRI).
Résumé : We optimize strategies in front of various uncertainties (including stochasticities and adversarial). We want to combine the good properties of: (i) consistent algorithms (if the computation time is sufficient, we converge arbitrarily close to optimality); (ii) fast algorithms (in moderate time, we have an approximate solution). Using Monte-Carlo Tree Search/Upper Confidence Bounds, Direct Policy Search, and specialized tools, we show some mathematical results and experiment on MineSweeper, the game of Go, and our favorite application, namely energy management.
Résumé :Both terms, "software crisis" and "software engineering" were coined within a report of 1968 NATO Software Engineering conference. While the software crisis phenomena was simply acknowledged, the new discipline of Software Engineering was "born" in order to tame the complexity of software processes. Half of the century later, seeing software project success rate as low as 30%, we may conclude, that the straightforward application of engineering to software programming fails. In my talk, I am going to present this problem, addressing past and current states of the research in software processes. I will specifically focus on current alternatives to engineering, particularly highlighting the importance of social interactions and recurrent behaviors. Finally, I will present "Software Trajectory" framework - my PhD research project - which allows the discovery of recurrent behaviors from software processes artifact trails.
  • 10/12/2012: The DEVS formalism, Bernard P. Zeigler (Professor of Electrical and Computer Engineering at the University of Arizona)
  • 16/11/2012 : Three contributions to the design and analysis of computer models using Gaussian processes. Victor Picheny (Unité BIA, Toulouse).
  • 19/10/2012: Existence and uniqueness of equilibrium for a spatial model of social interactions, Adrien Blanchet (GREMAQ, Toulouse 1, France).
Résumé : We extend Beckmann's spatial model of social interactions to the case of a two-dimensional spatial economy involving a large class of utility functions, accessing costs, and space-dependent amenities. We show that spatial equilibria derive from a potential functional. By proving the existence of a minimiser of the functional, we obtain that of a spatial equilibrium. Under mild conditions on the primitives of the economy, the functional is shown to satisfy displacement convexity, a concept used in the theory of optimal transportation. This provides a variational characterisation of spatial equilibria. Moreover, the strict displacement convexity of the functional ensures the uniqueness of spatial equilibrium. Also, the spatial symmetry of the equilibrium is derived from that of the spatial primitives of the economy. Several examples illustrate the scope of our results. In particular, the emergence of multiple of equilibria in the circular economy is interpreted as a lack of convexity of the problem.
Résumé : The paper considers linear regression problems where the number of predictor variables is possibly larger than the sample size. The basic motivation of the study is to combine the points of view of model selection and functional regression by using a factor approach: it is assumed that the predictor vector can be decomposed into a sum of two uncorrelated random components reflecting common factors and specific variabilities of the explanatory variables. It is shown that the traditional assumption of a sparse vector of parameters is restrictive in this context. Common factors may possess a significant influence on the response variable which cannot be captured by the specific effects of a small number of individual variables. We therefore propose to include principal components as additional explanatory variables in an augmented regression model. We give finite sample inequalities for estimates of these components. It is then shown that model selection procedures can be used to estimate the parameters of the augmented model, and we derive theoretical properties of the estimators. Finite sample performance is illustrated by a simulation study.
Résumé : We consider full Bayesian inference in the multivariate normal mean model in the situation that the mean vector is sparse. The prior distribution on the vector of means is constructed hierarchically by first choosing a collection of nonzero means and next a prior on the nonzero values. We consider the posterior distribution in the frequentist set-up that the observations are generated according to a mixed mean vector, and are interested in the posterior distribution of the number of nonzero components and the contraction of the posterior distribution to the true mean vector. We find various combinations of priors on the number of nonzero coefficients and on these coefficients that give desirable performance. We also find priors that give suboptimal convergence, for instance Gaussian priors on the nonzero coefficients. We illustrate the results by simulations.
  • 11/09/2012: Méta-modélisation : État de l'art et comparaison, Geoffray Bizouard, étudiant du Master MIGS de Dijon.


Résumé : Escherichia coli constitue la majeure partie de la flore microbienne commensale aéro-anaérobie du tube digestif de l’hôte. Pourtant E. coli est aussi une des espèces les plus fréquemment rencontrées en pathologie humaine et animale. C’est l’une des espèces bactériennes les plus étudiées et les plus connues. L’évolution des génomes au sein de l’espèce repose sur deux mécanismes distincts : la mutation et la recombinaison, qui génèrent une diversité génétique sur laquelle la sélection naturelle peut opérer. Dans notre travail, nous nous sommes intéressés à ces processus et aux traces qu’ils laissent dans les génomes. Nous avons, en premier lieu, décrit une forme de mutabilité variable le long du génome car liée à l‘existence de structure secondaire locale de l’ADN : la mutabilité transcriptionnelle. Nous avons pu d’une part quantifier cette mutagenèse et d’autre part révéler une réponse sélective au sein du génome pour en limiter les effets. La recombinaison, quant à elle, est connue pour brouiller le signal phylogénétique de manière importante. En second lieu, nous avons montré par une approche de génomique comparative que, malgré un taux relativement élevé de recombinaison, l’établissement d’une phylogénie robuste était possible. De plus, nous avons mis en évidence que les nombreuses acquisitions et pertes de gènes dans le génome des différentes souches d’E. coli se situaient préférentiellement à certains sites. Enfin, nous avons utilisé la structure phylogénétique de l’espèce à des applications taxonomiques et épidémiologiques.
  • 08/06/2012: Dissertation autour de l'affirmation de Albert-László Barabási: "Pure graph theory is elegant and deep, but it is not especially relevant to networks arising in the real world", Bertrand Jouve (Eric, univ. Lyon 2).
Résumé : Summary to come.
  • 01/06/2012: Optimal management of an Alaskan food web, Will Probert (Centre of Excellence for Environmental Decisions (CEED), The University of Queensland, Australia).
Résumé : I will discuss some work in progress that looks at the management of a food web - a directed acyclic graph that represents an ecological system.  At present, the work builds upon previous collaborative research between INRA (BIA) and The University of Queensland, Australia, by including a temporal aspect to the dynamics of the food web.  Previous ecological and conservation research on food webs and networks has focused on measures of network robustness and a myriad network metrics but research has yet to investigate the use and relevance of said metrics for the purposes of managing ecological systems.  Using dynamic programming we optimally solve the management of an Alaskan food web through time so as to maximise the expected number of species surviving.  Simulation methods are then used to compare the efficacy of management that is guided by various network metrics with management that uses the optimal, dynamic programming solution..
  • 18/05/2012: Assemblage de séquences : une proposition d'indexation par automates, Michel Koskas (UMR518 AgroParisTech/INRA).
Résumé : L'assemblage de séquences comporte deux étapes : une consistant en la construction du graphe de de Brujin et la seconde exploitant ce graphe pour reconstituer la séquence. La première étape, à laquelle nous nous intéressons, se fait souvent en utilisant les FM-indexes. Nous proposons ici une indexation des reads par automates `à façon' permettant une construction rapide et simple du graphe de Brujin.
Résumé : L'étude de phénomènes complexes s'appuie de manière croissante sur les simulations numériques. Quand ces simulateurs sont très coûteux à évaluer, utiliser des métamodèles (ou surfaces de réponse), construits à partir d'un jeu réduit d'expériences, s'avère souvent un choix judicieux pour faciliter l'apprentissage ou l'optimisation. Dans cet exposé, nous nous intéresserons au cas où les réponses étudiées sont bruitées, et nous expliquerons pourquoi une redéfinition des méthodes existantes est nécessaire. Nous proposerons ensuite un critère pour la sélection séquentielle des expériences, dans l'esprit de la célèbre "amélioration espérée". Enfin, nous présenterons un algorithme heuristique basé sur ce critère, qui exploite la possibilité de précision réglable souvent existante dans le cas bruité, afin d'attribuer des temps de calcul de manière hétérogène et de gagner en efficacité.
  • 27/04/2012: Comparaison de métamodèles pour l'estimation de la séquestration d'azote, Nathalie Villa-Vialaneix (Université de Perpignan / SAMM).
Résumé : The environmental costs of intensive farming activities are often underestimated or not traded by the market, even though they play an important role in addressing future society's needs. The estimation of nitrogen (N) dynamics is thus an important issue which demands detailed simulation based methods and their integrated use to correctly represent complex and nonlinear interactions into cropping systems. To calculate the N2O ux and N leaching from European arable lands, a modeling framework has been developed by linking the CAPRI agro-economic dataset with the DNDC-EUROPE bio-geo-chemical model. But, despite the great power of modern calculators, their use at continental scale is often too computationally costly. By comparing several statistical methods this paper aims to design a metamodel able to approximate the expensive code of the detailed modeling approach, devising the best compromise between estimation performance and simulation speed.
  • 06/04/2012: Taxonomie numérique moléculaire : nouvelles questions pour un vieux problème ? Alain Franc (BioGeCo, INRA Bordeaux).
Résumé : La taxonomie est une discipline vénérable, où les espèces (taxa) sont classées et identifiées selon des critères morphologiques, très variés et hétérogènes. Il s’agit donc de reconnaissance de forme, dans des espaces complexes à très grande dimension. Depuis plusieurs décennies, la diversité du vivant est analysée comme fruit de l’évolution, selon les empreintes moléculaires laissées dans le génome. La reconnaissance de formes a donc glissé vers des espaces plus simples, de chaînes de caractères. Plusieurs éléments actuels de ce courant de recherche seront présentés, notamment suite à la possibilité de réaliser des inventaires automatiques sur des jeux de données issus de NGS : comparaison de reads avec des bases de référence, forme du nuage de points image euclidienne des séquences de références selon une distance génétique, questions sur la reconnaissance de forme (méthodes linéaires, graphes, eigenmaps, etc ...), besoins en diagnostic, besoins nouveaux en calcul intensif, distribué ou parallélisé, sur des exemples issus soi de communautés de diatomées d’eau douce soit d’arbres de la forêt guyanaise.
Résumé : Les réseaux sont souvent utilisés pour représenter des systèmes complexes dans divers domaines. Dans ce contexte, l’identification de clusters, ou communautés, est couramment un domaine de recherche très actif. Je vais donner un aperçu des progrès récents sur le clustering dans les réseaux en focalisant sur le critère de modularité. La maximisation de la modularité donne lieu a de problèmes d'optimisation, le plus souvent résolus approximativement par des heuristiques. Je présenterai des algorithmes exacts ainsi que une heuristique localement optimale que nous avons récemment proposé.
Résumé : Les méthodes stochastiques sont des méthodes utiles permettant d'améliorer l'utilisation des modèles de simulation numérique dans divers domaines. Plus particulièrement, elles parviennent à réduire les incertitudes associées aux différentes grandeurs mises en jeu dans le modèle, en considérant l'information issue de la connaissance probabiliste de l'état du système et l'information issue des observations. Il existe un large panel de méthodes stochastiques permettant de s'adapter à la complexité du problème posé. Dans cet exposé, je propose d'en présenter trois, qui seront appliquées à trois modèles numériques différents. Tout d'abord, je présenterai la méthode du filtre à particules appliquée à un modèle écologique de dynamique des populations. Cette méthode séquentielle, basée sur la comparaison entre simulations mutliples du modèle et observations, m'a permis d'estimer l'évolution de l'effectif des flamants roses en Camargue ainsi que leurs paramètres démographiques. Ensuite, je présenterai la méthode "Importance Sampling" appliquée à un modèle de culture. Egalement basée sur le même type de comparaison que précédemment, mais qui se limite à l'estimation de paramètres, cette méthode m'a permis d'estimer les paramètres liés aux propriétés des sols. Je montrerai comment cette estimation permet d'améliorer la prévision du rendement des cultures. Pour finir, je présenterai une méthode dite "d'ensemble" appliquée au modèle météorologique global de Météo-France. Cette dernière méthode permet d'estimer à moindre coût, afin de répondre aux contraintes opérationnelles, les statistiques d'erreur de prévision tri-dimensionnelles. Ces statistiques sont au coeur du système d'assimilation variationnelle qui permet d'estimer l'état de l'atmosphère. Je montrerai comment cette estimation permet d'améliorer la prévision de l'état de l'atmosphère.
  • 02/03/2012: Le problème de 'distance geometry' et applications aux protéines, Antonio Mucherino (IRISA, université de Rennes 1). Transparents : contacter Antonio.
Résumé : Je travaille depuis des années sur le problème de distance geometry. Il s'agit d'un problème de satisfaction de contraintes, qui est souvent formulé comme un problème d'optimisation globale et continue. Nous travaillons sur une reformulation combinatoire de ce problème d'optimisation, et sur un algorithme de résolution très efficace. Ce problème a des applications au niveau des molécules biologiques, et particulièrement au niveau des protéines. Dans ce séminaire, je vais parler des conditions nécessaires pour effectuer la reformulation combinatoire, et discuter de la façon dont elles peuvent être satisfaites par des instances du problème qui contiennent des données expérimentales.
Résumé : Ces travaux se situent dans le contexte de l'optimisation. Trois grandes parties s'en dégagent ; la première concerne l'utilisation d'algorithmes évolutionnaires pour résoudre des problèmes d'optimisation continue et sans dérivées. La seconde partie concerne l'optimisation de séquences de décisions dans un environnement discret et à horizon fini en utilisant des méthodes de type Monte-Carlo Tree Search. La troisième partie concerne l'utilisation d'algorithmes de recherche arborescente pour la résolution de problème combinatoire avec contraintes. Dans le cadre de l'optimisation évolutionnaire, nous nous intéressons particulièrement au cadre parallèle à grand nombre d'unités de calcul. Après avoir présenté les algorithmes de référence du domaine, nous montrons que ces algorithmes, sous leur forme classique, ne sont pas adaptés à ce cadre parallèle et sont loin d'atteindre les vitesses de convergence théoriques. Nous proposons donc ensuite différentes règles (comme la modification du taux de sélection, la réduction du biais, et différentes méthodes de réduction de variance) afin de corriger et améliorer ces algorithmes. Nous faisons un comparatif empirique de ces règles appliquées à certains algorithmes. Dans le cadre de l'optimisation de séquences de décisions, nous nous intéressons aux algorithmes de type Monte-carlo Tree Search et Nested Monte-Carlo. Ces algorithmes sont aujourd'hui très utilisés pour la prise de décisions dans l'incertain, en particulier lorsque la dimension est grande. Nous proposons de faire un apprentissage de la politique Monte-Carlo de ces algorithmes. Nous montrons à travers ces expériences que les résultats sont positifs. Dans le cadre de l'optimisation combinatoire, nous étudions particulièrement les algorithmes de type Nested Monte-Carlo et Nested Rollout Policy Adaptation. Ces algorithmes sont connus pour être efficaces lorsque les décisions lointaines sont aussi importantes que les premières. Nous montrons que ces algorithmes permettent de résoudre efficacement des problèmes d'optimisation combinatoire, et qu'il est possible de guider les simulations en utilisant des connaissances expertes.
Slides : Media:FabienTeytaudSlides.pdf
Résumé : This work brings a contribution to the Bayesian theory of nonparametric and semiparametric estimation. We are interested in the asymptotic normality of the posterior distribution in Gaussian linear regression models when the number of regressors increases with the sample size. Two kinds of Bernstein–von Mises theorems are obtained in this framework: nonparametric theorems for the parameter itself, and semiparametric theorems for functionals of the parameter. We apply them to the Gaussian sequence model and to the regression of Holdër-regular functions, in which we get the minimax convergence rates. Adaptivity is reached for the Bayesian estimators of functionals in our applications.
  • 20/01/2012: La parcimonie sous toutes (?) ses formes pour un problème inverse d'analyse spectrale en échantillonnage irrégulier, Hervé Carfantan (Institut de Recherche en Astrophysique et Planétologie, Université de Toulouse, CNRS, Observatoire Midi-Pyrénées).
Résumé : La représentation et l'approximation parcimonieuses des signaux est images ont été largement exploitées dans un grand nombre d'applications en parallèle de leur développement théorique depuis une vingtaine d'année. Je mettrai l'accent ici sur l'utilisation d'une information a priori de parcimonie dans la résolution d'un problème inverse, plus particulièrement pour la déconvolution de spectres de raies à partir de données irrégulièrement échantillonnées. Je présenterai les différentes formes sous lesquelles cette information a priori de parcimonie peut-être prise en compte, via une approche d'optimisation déterministe au travers des algorithmes gloutons et des critères relaxés, ou une approche d'échantillonnage stochastique grâce au modèle Bernoulli-Gaussien. Je tenterai de présenter à la fois les propriétés théoriques et l'utilisation pratique des différentes formes que peut prendre la parcimonie dans ce contexte applicatif.
Résumé : Dans le domaine de la Biologie, les avancées technologiques (les biotechnologies) apportent aux biologistes de nouvelles méthodes d'observation du vivant. Mais ces techniques s'accompagnent le plus souvent d'une quantité d'observations très importante. Il n'est donc plus rare d'obtenir des courbes comme résultats des expériences menées avec ces technologies. D'autre part, le problème de l'analyse de données fonctionnelles est, depuis maintenant une dizaine d'années, un problème traité par de nombreux auteurs. Il est maintenant admis que l'analyse de telles données nécessite un cadre mathématique autre que celui de l'espace Euclidien. Nous présenterons donc un nouveau cadre d'analyse de telles données (les variétés) et montrerons les avantages (et les inconvénients) d'un tel cadre théorique, ainsi que les applications dans le domaine de la Biologie.
Résumé : nous nous interessons aux problemes de normalisation de donnees biopuces pour lesquelles il importe de normaliser les differentes densites etudiees. Nous analyserons les travaux de Bolstad 2003 à la lumière des méthodes d'analyse prenant en compte les méthodes de décalage d'observations, en nous fondant tout particulièrement sur la distance de Wasserstein.
  • 14/10/2011 (attention à 11h) : Modélisation pangénomique du déséquilibre de liaison à l'aide de réseaux bayésiens hiérarchiques latents et applications, Raphaël Mourad (COD, LINA, Polythech'Nantes).
Résumé : Les récentes technologies génomiques à haut-débit ont ouvert la voie aux études d'association visant la caractérisation systématique à l'échelle du génome des facteurs génétiques impliqués dans l'apparition des maladies génétiques complexes, telles que l'asthme et le diabète. Dans ces études, le déséquilibre de liaison (linkage disequilibrium, LD) reflète l'existence de dépendances complexes au sein des données génétiques et joue un rôle central, puisqu'il permet une localisation précise des facteurs génétiques. Néanmoins, la haute complexité du LD, ainsi que la dimension élevée des données génétiques, constituent autant de difficultés à prendre en compte. Les travaux de recherche réalisés au cours de cette thèse se sont placés dans cette perspective.
La contribution des travaux de recherche présentés est double, puisqu'elle est à la fois théorique et appliquée. Sur le plan théorique, nous avons proposé une nouvelle approche de modélisation du LD. Elle est basée sur le développement d'un modèle issu du domaine de l'intelligence artificielle et de l'apprentissage automatique, la forêt de modèles hiérarchiques à classes latentes (FMHCL). Les nouveautés les plus significatives introduites sont la possibilité de prendre en compte la nature floue du LD et de hiérarchiser les différents degrés de LD.
Un nouvel algorithme d'apprentissage supportant le passage à l'échelle, nommée CFHLC, a été développée et déclinée en deux versions: la première nécessitant le découpage du génome en fenêtres contiguës pour résoudre le problème de passage à l'échelle, et la seconde (CFHLC+), plus récente et évoluée, résolvant le problème au moyen d'une fenêtre glissante sur le chromosome. A l'aide d'un jeu de données réelles, la comparaison de la méthode CFHLC avec des méthodes concurrentes a montré qu'elle offre une modélisation plus fine du LD. En outre, l'apprentissage sur des données présentant des patrons de LD variés a démontré la capacité de la FMHCL a reproduire fidèlement la structure de dépendance. Enfin, l'analyse empirique de la complexité de l'apprentissage a montré la linéarité en temps lorsque le nombre de variables à traiter augmente.
Sur le plan appliqué, nous avons exploré deux pistes de recherches: la recherche de causalités et la visualisation synthétique et intuitive du LD. D'une part, une étude systématique de la capacité des FMHCL à la recherche de causalités est illustrée dans le contexte de la génétique d'association. Ce travail a établi les bases du développement de nouvelles méthodes de recherche dédiées à la découverte de facteurs génétiques causaux pour les études d'association à l'échelle du génome. D'autre part, une méthode a été développée pour la visualisation synthétique et intuitive du LD adaptée aux trois principales situations que peut rencontrer le généticien: la visualisation du LD de courte distance, de longue distance et dans un contexte pangénomique. Cette nouvelle méthode apporte des atouts majeurs qui sont les suivants: (i) le LD par paire (deux variables) et le LD multilocus (deux variables ou plus) sont simultanément visualisés, (ii) le LD de courte distance et le LD de longue distance sont facilement distingués, et (iii) l'information est synthétisée de manière hiérarchique. .
  • 01/09/2011: Optimisation des décisions pour la conservation de la biodiversité sous incertitudes : progrès et challenges, Iadine Chadès (CSIRO, Brisbane, Australia).
Résumé : La biodiversité terrestre et marine est de plus en plus menacée par la pression grandissante de l’activité humaine. Croissance de la population mondiale, urbanisation, industrialisation des pays en voie de développement et exploitation non raisonnée des ressources naturelles sont autant de causes de disparition d’espèces vivantes constituant la biodiversité de la planète. Face à ces changements environnementaux (déforestation, érosion, pollution), les espèces survivantes sont condamnées à s’adapter rapidement ou bien à disparaître. La biologie de la conservation est un domaine de l’écologie qui se donne pour objectif la protection de la biodiversité. Jadis expérimentales, les recherches actuelles en biologie de la conservation se tournent vers l’étude de la gestion optimale des efforts de conservation. L’augmentation du nombre ’espèces menacées et les faibles crédits disponibles pour les protéger sont autant d’arguments forts pour optimiser les décisions de conservation et améliorer les actions de sauvegarde de la biodiversité. Dans ce contexte, les processus décisionnels de Markov (PDM) permettent une formulation claire de ces problèmes d’optimisation. Cette présentation sera en deux parties. Je présenterai mes derniers travaux sur les règles de décisions sur la gestion de metapopulation d’espèces protégées et invasives (Chadès et al., PNAS 2011) et je donnerai un court aperçu des challenges méthodologiques qu’ils nous restent à résoudre pour sauver un nombre maximal d’espèces.
Ref: I. Chadès, T.G. Martin, S. Nicol, M.A. Burgman, H.P. Possingham and Y.M. Buckley (2011) General rules for managing and surveying networks of pests, diseases, and endangered species PNAS, 108 (20):8323-8328.


Résumé : On commencera par évoquer des modèles récents d'évolution de séquences d'ADN qui rendent compte de la dynamique singulière (mais tout à fait bien documentée par les biologistes) du dinucléotide CpG et d'autres observations similaires. On décrira ensuite la résolution miraculeuse d'une certaine classe de ces modèles, et, si le temps le permet, l'extension au forceps de ce miracle à des modèles suffisamment proches des précédents pour qu'un processus de Galton-Watson sous-jacent résumant toute l'affaire reste sous-critique. On procèdera à des rappels de biologie moléculaire. Les notions mathématiques mobilisées, que l'on rappellera également, concerneront les processus de Markov en temps continu, des variantes de couplages à partir du passé et quelques rudiments de systèmes de particules et de processus de branchement.
  • 07/06/2011: Décomposition par paire pour l'optimisation combinatoire dans les modèles graphiques, Aurélie Favier (BIA, INRA Toulouse). En collaboration avec Simon de Givry, Andres Legarra et Thomas Schiex.
Résumé : Nous proposons une nouvelle decomposition addi-tive des tables de probabilites qui preserve l'equivalence de la distribution jointe permettant de reduire la taille des potentiels, sans ajout de nouvelles variables. Nous formulons le probleme de Most Probable Explanation (MPE) dans les reseaux probabilistes comme un probleme de satisfaction de contraintes ponderees (Weighted Constraint Satisfaction Problem WCSP). Notre decomposition par paire permet de remplacer une fonction de couts par des fonctions d'arites plus petites. Le WCSP resultant de cette decomposition est plus facile a resoudre par les techniques de l'etat de l'art des WCSP. Meme si tester la decomposition par paire est equivalent a tester l'independance de paire du reseau de croyances original, nous montrons comment le tester efficacement et l'appliquer, meme avec des contraintes dures. De plus, nous inferons une information supplementaire a partir des fonctions de couts non binaires resultantes par projection&soustraction dans leurs fonctions binaires. Nous observons d'importantes ameliora-
tions grace au pre-traitement avec la decompostion de paire et la projection&soustraction comparee aux solveurs actuels de l'etat de l'art sur deux ensembles de problemes difficiles.
Résumé : Les relations évolutives entre espèces sont communément décrites par des arbres phylogénétiques. Toutefois, ces arbres ne sont pas bien adaptés pour modéliser des mécanismes d' évolution réticulée, tels que les transferts horizontaux de gènes, l'hybridation, la recombinaison. Ces mécanismes d'évolution peuvent être très fréquents chez certaines espèces. Dans ces cas, le matériel génétique d'une espèce dérive de plusieurs espèces différentes et cela ne peut pas être décrit par un arbre phylogénétique. Les réseaux phylogénétiques généralisent les arbres phylogénétiques et permettent de décrire ces évènements d'évolution réticulée. Dans ce séminaire, nous donnons une introduction au sujet des réseaux phylogénétiques, en décrivant très brièvement les concepts fondamentaux et en résumant quelques unes des méthodes disponibles pour leur calcul.
  • 20/05/2011: Inférence de réseau basée sur la théorie de l'information et appliquée à l'analyse de régulations transcriptionnelles Patrick Meyer (Machine Learning Group, université libre de Bruxelles, Belgique).
Abstract: Un des problèmes typiques en bioinformatique consiste à extraire de l'information structurée des données issues de biopuces. Les jeux de données issus de biopuces sont souvent constitués de très nombreuses variables, très peu d'échantillons et beaucoup de bruit. L'analyse de ces données représente donc un des grands défis actuels pour les méthodes d'apprentissage automatique. L'inférence de réseau est une technique d'apprentissage automatique qui vise à déterminer les dépendances entre variables d'un jeu de données et à les représenter à l'aide d'un graphe. Appliquée aux données issues de biopuces, cette technique permet de retrouver le réseau de régulations transcriptionnelles d'une cellule et  d'identifier des gènes spécifiques impliqués dans diverses maladies. Cette présentation se focalise sur les méthodes d'inférence de réseau qui utilisent la théorie de l'information pour inférer les dépendances entre variables. En particulier, je vais présenter MRNET, une méthode d'inférence à base de sélection de variables, ainsi que le package R et Bioconductor qui l'implémente. .
  • 13/05/2011: Bayesian Time-Stratified-Petersen estimators for abundance, Carl Schwarz (Simon Fraser University, BC, Canada). Joint work with Simon Bonner (University of Kentucky, USA).
Abstract: Simple-Petersen or Stratified-Petersen methods are often used to estimate number of outgoing smolt or returning salmon. These methods are inadequate to deal with heterogeneity in catchability among strata and with missing data from strata caused by crew illness, high water flow, or other causes. We propose a Bayesian spline-based methodology to estimate abundance and run-timing which provides several compelling advantages over the more traditional estimators. The hierarchical model for capture probabilities and the spline model for the general shape of the run curve, allow information to be shared among stratra within a Bayesian framework and allows great flexibility to deal with missing data. It is self-calibrating- for strata with poor data, extensive pooling across strata take place but with strata with rich data, the information for a particular stratum takes precedence. The methodology automatically adjust measures of precision for heterogeneity in catchability among strata (which is ignored in the simple-Petersen) and shares information from neighbouring strata (unlike the Stratified-Petersen). Examples from estimating the number of outgoing number of salmon smolt in the Trinity River, CA will be present .
  • 22/04/2011: Algorithmes d’optimisation de criteres non-EU pour la decision sequentielle dans l’incertain, Gildas Jeantet (LIP6 - POLEIA, université Pierre et Marie Curie, Paris).
Résumé : Cet exposé traite des problèmes de décision séquencielle sous incertitude. Ces problèmes concernent les situations d'incertitude dans lesquelles le décideur est amené à prendre plusieurs décisions étalées dans le temps (i.e., établir une stratégie). La communauté des économistes a fournit de nombreux critères de décision permettant de raisonner dans l'incertitude afind e pouvoir comparer des stratégies entre elles. Cependant, les difficulté liées à leur mise en oeuvre conduit en pratique à utiliser des critères moins performants dans les problèmes de décision séquentielle. L'utilisation des critère performants étant freinée par l'absence d'algorithmes efficaces dans les littérature informatique. Nous nous intéressons ici à voir commment il es possible de repousser ces verrous algorithmiques en proposant des algorithmes permettant leur application dans des problèmes de décision séquentielle.
  •  11/04/2011:(i) Résolution d'un problème inverse pour les couches minces par l'ellipsométrie puis (ii) Méthodes d'optimisation pour quelques extensions du problème de dimensionnement de lot ), Ayse Akbalik (Industrial Engineering Department, TOBB ETU, Ankara, Turquie).
Résumé : (i) Nous cherchons a déterminer les indices optiques de couches minces supposées homogènes et déposées sur divers substrats en résolvant un problème inverse. Partant des données obtenues par l'ellipsométrie, le but est de remonter vers les paramètres inconnues de départ, tels que l'indice de réfraction et le coefficient d'extinction pour chaque niveau d'énergie et l'épaisseur de la couche mince. Quelques techniques que nous avons utilisées pour ce problème avec notre équipe au LTM, Grenoble sont discutées: régularisation de Tikhonov, cross-validation, relations de Kramers-Krönig.
(ii) Cette partie concerne les différentes méthodes en optimisation discrète que nous avons utilisées pour résoudre différentes extensions du problème de dimensionnement de lot, un problème assez classique, traité depuis fin des années 50. Quelques techniques que je vais introduire sont: la programmation dynamique, différentes formulations en PLNE, les inégalités valides, etc.
  • 06/04/2011: Routing and rerouting requests under shared risk group constraints, Florian Huc (Distributed Programming Laboratory ,EPFL, Lausanne, Suisse).
Résumé : I will present two problems related to the routing of requests in telecommunication networks. First I will address the problem of routing a set of requests while taking into account the reliability of the solution when a group of links can fail simultaneously. To solve this problem, I will present a linear programming formulation using column generation and compare its efficiency with a classical formulation. I will then present the problem of reconfiguring a set of established communications and a parameter, the process number, which model the cost of such a reconfiguration. I will finally present the link between this parameter and the pathwidth, together with algorithms to compute or approximate the pathwidth on specific class of graphs.
  • 05/04/2011: A Reliable Affine Relaxation Method for Global Optimization, Jordan Ninin (IMT, Toulouse).
Résumé : Since about thirty years, interval Branch and Bound algorithms are increasingly used to solve constrained global optimization problems in a deterministic way.
Such algorithms are reliable, i.e., they provide an optimal solution and its value with guaranteed bounds on the error, or a proof that the problem under study is infeasible. Other approaches to global optimization, while useful and often less time-consuming than interval methods, do not provide such a guarantee. However, the exponential complexity in time and memory of interval Branch and Bound algorithms implies a limitation, so it is always necessary to improve these methods. In this talk, an automatic method for constructing linear relaxations of constrained global optimization problems is proposed. Such a construction is based on affine and interval arithmetics and uses operator overloading. These linear programs have exactly the same numbers of variables and of inequality constraints as the given problems. This new procedure for computing reliable bounds and certificates of infeasibility is inserted into a classical interval Branch and Bound algorithm.
  • 01/04/2011: Plan d'expérience adaptatif pour la régression dans des bases multi-échelles, Sébastien Gadat (IMT, Toulouse III).
  • 25/03/2011: Présentation du package R GeoXP (analyse géostatistiques de données spatiales)et hair-plot pour données dépendantes, Anne Ruiz-Gazen (Toulouse School of Economics) et Prédiction dans les modèles de régression spatiale, Christine Thomas-Agnan (LSP, Toulouse III et GREMAQ, Toulouse I).
  • 24/03/2011: Fonctions de coût globale et de son application au problème de création d'emplois du temps pour le personnel hospitaliers, Jean-Philippe Métivier (GREYC, université de Caen Basse-Normandie).
Résumé : Les contraintes globales ont joué, depuis plus de 20 ans, un rôle clef dans la modélisation et la résolution de problèmes de grande taille. Depuis une dizaine d'année, la relaxation des contraintes globales a commencé à être étudiée et généralement dans des cadres ne permettant pas d'exprimer des préférences. Dans cet exposé, nous verrons comment relaxer la contrainte globale Gcc (imposant aux valeurs d'être utilisées un nombre de fois borné) et comment tenir compte de préférences sur les différentes valeurs et différentes bornes. Nous terminerons cet exposé en présentant comment utiliser cette relaxation pour la modélisation et la résolution de problème réel de grand taille comme les problèmes de création d'emplois du temps pour le personnel hospitaliers.
Résumé : La transformée en ondelettes est couramment utilisé pour traiter avec des données en forme de spectres, par exemple, des spectres NMR (Nuclear magnetic resonance) et des spectres MS (mass spectrometry). Quand la transformée en ondelettes est appliqué au signal initial, les détails les plus fins, d'habitude considéré comme le bruit, sont souvent enlevés dans la reconstruction du 'vrai' signal avant d'être analysés. Nous montrons que contrairement à l'utilisation courante de la transformée en ondelettes, en se concentrant aux détails les plus fins peut améliorer la classification d'échantillons dont les profils spectrales sont très proches l'un de l'autre.Quand les spectres ont la même forme générale, enlevant les coefficients les plus grossiers permet se débarrasser de la partie commune de l'information et ainsi se concentrer à ce qui est vraiment différent entre les échantillons.Nous décrivons une stratégie pour déterminer le meilleur niveau de détails pour des propos de classification grâce à une version 'sparse' de la PLS-DA.Nous illustrons l'utilisation de cette méthode sur un jeu de données provenant d'une étude de toxicité de di-(2-ethylhexyl)-phthalate (DEHP), un plastifiant largement utilisé qui contamine la chaîne alimentaire.
  • 25/02/2011: Planification temporellement-expressive, cycles temporels et transformation de problèmes, Frédéric Maris (IRIT, Toulouse).
Résumé : Un des challenges actuels de la planification est la prise en compte de la dimension temporelle. Nous présentons une approche simple qui permet de résoudre des problèmes temporellement expressifs, c'est-à-dire des problèmes pour lesquels toutes les solutions nécessitent la concurrence des actions. Notre planificateur TLP-GP combine les avantages de la recherche de GRAPHPLAN avec un formalisme temporel flexible basé sur des contraintes. Son langage est consistant avec PDDL 2.1 et étend son expressivité. L'étude expérimentale sur de nouveaux benchmarks montre l'efficacité de notre approche et démontre qu'il est possible en pratique de résoudre des problèmes temporellement expressifs qui ne pouvaient
jusqu'à maintenant être résolus par les techniques existantes. Néanmoins, nous avons montré que certains planificateurs existants qui permettent de résoudre ce type de problèmes (comme TLP-GP), sontincomplets. Ils ne peuvent garantir de trouver une solution à un problème comportant des ensembles cycliques d'actions (que nous appelons problèmes temporellement cycliques). Nous caractérisons les langages temporels qui permettent de représenter ces problèmes temporellement cycliques. Nous présentons également un algorithme polynomial de transformation de ces problèmes en des problèmes acycliques équivalents. L'application de notre transformation permet de restaurer la complétude de ces planificateurs. Un aspect important d’un planificateur automatique est le langage dans lequel l’utilisateur exprime les instances de problèmes. Un langage richeest un avantage pour l’utilisateur alors qu’un langage simple est un avantage pour le programmeur qui doit écrire un programme pour résoudre tous les problèmes de planification qui peuvent être exprimés dans ce langage. Considérant le langage de planification temporelle PDDL 2.1 comme un langage de bas niveau, nous montrons comment compiler automatiquement un langage plus riche en PDDL 2.1. Dans le pire des cas, la complexité de cet algorithme est quadratique. Notre langage de haut niveau permet à l’utilisateur de déclarer des time-points (variables représentant des instants) et d’imposer des contraintes temporelles simples entre ces time-points. Des conditions et effets peuvent être imposés à chacun des time-points, sur des intervalles et sur des sous-intervalles glissants à l’intérieur d’intervalles fixes. Des transitions continues peuvent également être modélisées.
  •  22/02/2011: Integrating SAT and CSP techniques, George Katsirelos (LRI, université Paris Sud 11).
Summary: Although closely related, current SAT and CSP complete solvers use different approaches. SAT solvers are based around learning and highly adaptive heuristics, while CSP solvers are focused on propagation and branching heuristics provided by the user. I will talk about recent developments towards bridging this gap. These approach the problem from both sides: improrting SAT techniques to CSP but also using CSP methods in SAT. I will present theoretical results that show that both SAT and CSP can benefit from each other and overcome exponential lower bounds. I will also show that practical implementations of these ideas bear out the theoretical promise.
  • 18/02/2011: Optimisation des réseaux à composantes unicycliques : approche polyèdrale, Makhlouf Hadji (labo "Réseaux et Services Multimedia Mobiles", groupe "Algorithmes pour les réseaux", Institut Télécom et Management SudParis). Résumé (en pdf).
  • 17/02/2011: Optimisation de la capacite des reseaux radio mailles, Christelle Molle-Caillouet (Lehrstuhl II für Mathematik, Aachen, Allemagne).
Résumé : Nous nous intéressons aux problématiques d'optimisation de la capacité des réseaux radio maillés, définie comme la quantité de flot que peut répartir équitablement une topologie aux utilisateurs qu'elle sert. Afin d'obtenir des bornes théoriques sur les performances du réseau, nous développons des modèles d'optimisation intégrant les caractéristiques inter-couche des communications radio. Nous étudions plus précisément le problème joint du routage et de l'ordonnancement. Nous dérivons une formulation qui élimine le routage pour se concentrer sur la capacité de transport disponible sur les coupes du réseau. Le processus de résolution adapté utilise une méthode de génération croisée de lignes et de colonnes. Ces études mettent en évidence la présence d'une zone de contention autour de chaque point d'accès qui contraint la capacité du réseau. Enfin, nous présenterons une extension de ce modele utilisant l'optimisation robuste afin de prendre en compte l'incertitude des demandes des utilisateurs du réseau.
  • 11/02/2011: Introduction aux modèles probabilistes de propagation de rumeurs et d'épidémie, Charles Bordenave (IMT, CNRS / Toulouse III)
Résumé : Nous exposerons deux modèles simples qui peuvent être utilisés pour décrire la propagation d'une rumeur/épidémie dans un réseau. Nous verrons que la dynamique de la propagation et la nature du réseau peuvent bouleverser les propriétés des modèles.
  • 04/02/2011: Détection et attribution des changements climatiques, Aurélien Ribes (CNRM/GAME)
Résumé : Qu'est-ce qu'un changement dans un système physique dont l'état varie en permanence ? Comment étudier l'origine (la cause) des changements d'un système physique sur lequel aucune expérience contrôlée ne peut être réalisée ni répétée ? Telles sont les questions à l'origine, respectivement, des études de détection et d'attribution des changements climatiques, qui se sont développées avec les activités du GIEC (Groupe d'experts Intergouvernemental sur l'Evolution du Climat) au cours des 20 dernières années. Ces études visent en particulier à évaluer : quels signaux ou tendances climatiques peuvent être considérés comme des changements (détection) ? Quelles sont les contributions des différents facteurs influençant le système climatique à ces changements (notamment, concentration des gaz à effet de serre, variations de l'activité solaire, etc ; attribution) ?
Un des objectifs de ce séminaire est d'essayer d'illustrer la façon dont les statistiques se sont insérées dans l'étude du système climatique, puis ont été utilisées pour faire progresser notre compréhension du système. Je présenterais quelques-uns des modèles et des outils statistiques utiles dans cette entreprise.
  • 21/01/2011: pas de séminaire le vendredi (Réunion Inférence de Réseaux) mais deux exposés (ouverts à tous) de Mark Schmidt (actuellement à Orsay) le jeudi 20 janvier à 14h suivi de Christophe Giraud à 15h en salle IFR 40 de l'INRA Castanet. Les titres respectifs : "Structure learning in hierarchical undirected graphical models" et "Modèles graphiques gaussien avec variables cachées".
  • 17/12/2010: Numberjack: une API en Python pour l'optimisation discrète, Emmanuel Hebrard (LAAS-CNRS Toulouse).
Résumé : Numberjack est un module Python pour l'optimisation combinatoire développé au Cork Constraint Computation Centre (4C). Il existe un certain nombre de langages pour  modéliser de façon concise et lisible des problèmes combinatoires (OPL, MiniZinc ou Essence par exemple). Ces langages permettent de réduire substantiellement l'effort de programmation et rendent donc plus aisé le prototypage de différentes solutions de modélisation.
En contrepartie, ce type de langages dédiés à l'optimisation nuisent (paradoxalement?) à l'interopérabilité. Ils sont en effet peu ou pas adapté aux applications hors-optimisation, et ne sont ni supporté ni utilisés à la même échelle que les langages de programmation "généralistes". De plus, parce qu'ils sont conçus en abstraction des outils de résolution, ils réduisent souvent le niveau contrôle qu'a un utilisateur sur ces outils.
L'utilisation de Python permet d'écrire des modèles aussi intuitifs et lisibles tout en élargissant le spectre des utilisateurs potentiels et en fournissant toutes les fonctionnalités d'un véritable langage de programmation. En plus d'une API commune pour la modélisation de problèmes combinatoires, Numberjack offre certaines procédures pour concevoir une interface (sous la forme d'un module Python) avec des outils de résolution. Grâce à ces modules, Il est possible de contrôler directement les solveurs sous-jacents (les accesseurs et fonctions de chaque solveur sont "enrobés" en Python).
Après les nécessaires introductions de (mon point de vue sur) l'optimisation combinatoire et de quelques structures du langage Python qui sont particulièrement utiles à Numberjack, je m'appuierai sur des exemples pour donner un aperçu du système. Puis, je montrerai comment le même modèle est transmis aux différents outils de résolution. A l'heure actuelle il existe quatre interfaces: un solveur CP (Mistral),  un solveur SAT (MiniSat), un solveur MIP (SCIP) et enfin une heuristique SAT (Walksat). 
Site web :
Tutorial : donné lors de AAAI 2010 (pdf - 9MB):
Téléchargement : puis sous Unix, décompressez l'archive, depuis le répertoire Numberjack.0.1.10-11-24/ (qu'il est conseillé de renommer Numberjack), tapez : make local_install. À la fin de l'installation il vous sera demandé de créer une variable d'environnement PYTHONPATH et de l'ajouter au fichier ~/.bash_profile ou assimilé.
  •  10/12/2010: Approches spectrales pour l'étude de réseaux et la détermination de graphes [slides], Romain Boulet (Observatoire Midi-Pyrénées).
Résumé : La théorie des graphes et l'analyse des réseaux permettent une modélisation de structures d'interactions entre objets issus de divers domaines, ouvrant ainsi la voie à des recherches interdisciplinaires incluant désormais les interactions Mathématiques / SHS. Ces interactions sont d'autant plus enrichissantes si ces sciences de l'Homme n'ont jusqu'alors que peu interagi avec les mathématiques comme l'histoire médiévale ou le Droit. De telles collaborations seront exposées dans cette présentation. Tout d'abord nous présenterons l'étude d'un réseau social entre paysans au Moyen-Âge via la théorie des graphes et en particulier des méthodes de partitionnement spectral.
Ensuite nous aborderons l'aspect de la complexité juridique induit par les multiples citations croisées de textes de loi. L'utilisation de l'analyse de réseau permet de fournir une cartographie du système juridique français et une meilleure compréhension de l'organisation réticulaire du code de l'environnement. L'exposé se terminera par une partie de mathématiques plus fondamentales de théorie algébrique de graphes. La problématique ici traitée est de savoir quels graphes sont entièrement caractérisés par la simple donnée de leur spectre pour une matrice donnée telle le Laplacien.
  • 26/11/2010: Modélisation stochastique du chemostat, Fabien Campillo (MERE project - INRIA Sophia) [travail en commun avec Marc Joannides et Irène Larramendy-Valverde de l'I3M Université de Montpellier 2]
Résumé : Dans le cadre des équations du chemostat (mais la démarche est valable dans tous les autres modèles de dynamique des population) nous présentons différents modèles à différentes échelles: des processus de sauts à une échelle microscopique, des processus de diffusion à une échelle mésoscopique et des équations différentielles ordinaires à une échelle macroscopique (le modèle classique du chemostat). Nous expliquons comment passer d'une échelle à l'autre, sur le plan de la modélisation mais aussi sur le plan mathématique comme sur le plan algorithmique. Nous essayons d'expliquer les avantages et les limites de chacun de ces modèles.
  • 8/10/2010: Optimisation de POMDP : quelles récompenses sont réellement attendues à l'exécution de la politique ? Caroline Carvalho (ONERA Toulouse).
Résumé : Les Processus Décisionnels Markoviens Partiellement Observables sont actuellement un sujet d'intérêt dans la communauté scientifique grâce aux progrès observés dans des algorithmes de résolution et dans les capacités numériques de calcul. La plupart de ces algorithmes sont focalisés sur la résolution d'un critère de performance, qui a pour ambition de caractériser les politiques qui permettront de générer les séquences de récompenses le plus importantes possibles. Dans la planification en Intelligence Artificielle, l'attention est tournée vers un critère qui optimise une somme pondérée des récompenses, et, pour des applications en perception active d'autre part, le critère est souvent défini en termes de gain d'information (entropie de Shannon). Aucun de ces critères ne prend en compte les récompenses réellement acquises lors de l'exécution de la politique. En effet, le premier critère est une moyenne linéaire sur l'espace d'états de croyance, de sorte que l'agent ne tend pas à obtenir une meilleure information des différentes observations, alors que le second critère ne prend pas en compte les récompenses. Ainsi, motivés par des exemples démonstratifs, nous étudions une combinaison additive de ces critères afin d'obtenir une meilleur séquence de récompenses et de gain d'information lors de l'exécution de la politique. Nous comparons notre critères avec le critère classique optimisé (gamma-pondéré) dans le cadre POMDP et nous soulignons l'intérêt de considérer un nouveau critère hybride non-linéaire pour des applications réalistes de reconnaissance et pistage multi-cibles.
  • 24/09/2010: Conception des systèmes de production intégrée assistée par modèles, Ould Sidi Mohamed Mahmoud (Unité de recherche Plantes et Systèmes de culture Horticoles, INRA Avignon)
Résumé : L'unité PSH (Plantes et Systèmes de culture Horticoles) a consenti des efforts sur le développement de modèles de fonctionnement des systèmes horticoles (vergers, maraîchage abrité) motivé par leur utilisation pour la conception de scénarios techniques et paysagers de production intégrée (PI). Elle a ainsi créé un nouveau volet de recherche concernant la conception des systèmes de culture innovants assistée par modèles. Ce volet correspond au projet de recherche qui m’a été confié et que je dois donc mieux finaliser et développer. Dans cette présentation, je reviendrai d’abord sur les problématiques de recherche de l’unité et plus spécifiquement de l’équipe Ecologie de la Production Intégrée EPI. Je présenterai par la suite les deux axes applicatifs que j’ai étudiés depuis mon recrutement pour bien illustrer ma propre problématique. Le premier axe concerne les interactions arbre fruitier-bioagresseurs-régulateurs sous effet des pratiques culturales dans un contexte de PFI. Le deuxième axe porte sur la conception des idéotypes pour des plantes cultivées en agriculture durable. J’illustre le premier par l’exemple de l’interaction pêcher-puceron vert-coccinelles et le deuxième par le cas pêcher-moniliose. Je présenterai par la suite les deux approches d’optimisation multiobjectif que j’ai appliquées aux deux cas. La première approche est agrégative floue évolutionnaire. Elle utilise un algorithme évolutionnaire classique. La deuxième approche est non agrégative et utilise le concept de la Pareto dominance et l’algorithme NSGA-II bien connu. Enfin, je présenterai les résultats obtenus et donnerai des perspectives par ces premiers travaux de recherche en comptant beaucoup sur vos critiques et conseils et pourquoi pas vos collaborations.
Keywords: Production intégrée, Modélisation, optimisation multiobjectif, algorithmes évolutionnaires, logique floue.
  • 17/09/2010: Le couvert végétal comme protection alternative aux épidémies, Pierre Casadebaig (INRA Toulouse).
Résumé : Cette présentation aborde l'avancée des travaux au sein de l'ANR Archidémio (2009-2012). Ce projet envisage des solutions alternatives à une protection principalement chimique des cultures en considérant l'architecture du couvert végétal comme un moyen de réduire l'incidence d'une épidémie. Cette problématique est abordée à la fois expérimentalement et par modélisation. Nous discuterons de la conception d'un modèle d'interaction plante-pathogène, de son implémentation informatique et... ...surtout de méthode de modélisation : quel niveau d'abstraction pour maintenir un lien entre les communautés agronomie-épidémiologie et informatique-simulation.
Keywords: modélisation, épidémiologie, agronomie, architecture végétale.


  • 2/07/2010: The value of information for managing biological populations, Alana Moore (INRA, Toulouse).
Résumé : Managing biological populations requires making decisions under considerable uncertainty. As well as stochastic variables such as rainfall and birth rates, there is uncertainty in the estimates of model parameters, model structure and the effectiveness of different management strategies. These latter types of uncertainty may be reduced with a combination of experimentation and monitoring. However, monitoring and experimentation are in general difficult and expensive. Hence, we would like to know how much, and what kind of, information we need to manage well. In this talk I will discuss two different modelling frameworks: adaptive management and partially observable Markov decision processes. I will briefly discuss for what kinds of uncertainty each is applicable, and present two example problems we have addressed using these frameworks.
  • 11/12/2009: Two glances on risk modelling : (i) forest managment and (ii) group and individual choices. (slides) Stéphane Couture (INRA Toulouse).
Résumé : (i) Forest management under fire risk when carbon sequestration has value (with Arnaud Reynaud) presents a model to determine the optimal harvest date for a forest stand producing both timber and carbon benefits under a risk of fire with stochastic dynamic programming method. (ii) Comparing group and individual choices under risk and ambiguity: an experimental study (with Marielle Brunette and Laure Cabantous). </blockquote>
  • 23/10/2009 : Analyse en cycle de vie et la propagation d'incertitudes pour l'éco-évaluation des procédés, avec focus sur la décision multi-critère. Laurent Lardon et Jürgen Landes (INRA LBE Narbonne).
  • 16/10/2009.  Apprentissage de la structure des réseaux Bayésiens (slides). Philippe Leray (Polytech' Nantes).
Résumé : Tutoriel (2h) sur l'apprentissage de la structure des réseaux Bayésiens: de la construction d'un modele graphique probabiliste à la recherche de causalité.
  • 09/10/2009. System-Sun : effet d'hormones végétales sur la régulation génique du Tournesol. Nicolas Langlade (LIPM, INRA Toulouse).
Résumé : Pour vous mettre l’eau à la bouche, on y parlera de la nouvelle (pour moi) technologie RNAseq., de micro-ARN (un peu comme des mRNA mais en plus court et qui inhibe soit en jouant à segmenter des ARN par hybridation soit en méthylant la séquence d’ADN). On y discutera aussi plan d’expérience et méthode d’analyse des données. Il y a pas mal de facteurs (génotype, traitement par hormones, série de mesures temporelles, stress osmotique ou salin…). Le Graal de la manip’ est de modéliser la régulation de l’expression des ARN sur 9 classes d’hormones végétales (l’organisme est ici le Tournesol) et à terme d’étudier la variation induite par des génotypes différents (voire sauvages) sur cette régulation par exemple en regard de la topologie du réseau de régulation sous-jacent. J’explique mal, Nicolas le fait très bien...
  • 04/09/2009. Sélection de modèles et champs de Markov. Aude Grelaud (INRa Jouy/CREST/CEREMADE).
  • 03/07/2009. Systèmes biologiques (Réseaux Génétiques, Métaboliques, ...).Ludovic Cottret (LBBE, Lyon).
Résumé : Qu'entend-on par réseaux biologiques? Comment sont-ils construits? Dans quelle mesure peut-on faire confiance aux données générées ? Comment les modélise-t-on ? Comment les visualise-t-on ? Quels sont les outils disponibles ? Et surtout : quel est l'intérêt d'étudier de tels objets ? En nous reposant principalement sur l'exemple des réseaux métaboliques, nous tenterons de répondre à ces questions et de mettre en lumière les enjeux actuels et à venir de l'analyse des réseaux biologiques.
  • 25/06/2009. Planification dans le risque et l'incertain : optimisation des strategies de gestion spatiale des forêts. Nicklas Forsell (SLU, Umea, Sweden).
  • 12/06/2009. Analyse de Sensibilité et Exploration de Modèles. Jennifer Baudet et Robert Faivre (BIA, INRA Toulouse).
Résumé : Présentation de l'école-chercheurs "Analyse de Sensibilité et Exploration de Modèles" qui s'est tenue à Giens du 11 au 14 mai 2009 à l'initiative du réseau Mexico.See
  • 03/04/2009. Des algorithmes de recherche aux logiciels et aux plateformes de services en bioinformatique. Jean-François Dufayard (LIRMM, Montpellier).
Résumé : Résumé des travaux menés: (a) au Pôle Bioinformatique Lyonnais (UMR 5558 - Projet INRIA Helix) de 1999 à 2005 et (b) dans l'équipe Méthodes et Algorithmes pour la bioinformatique (LIRMM - CNRS) de 2005 à 2009. Le Pôle Bioinformatique Lyonnais (PBIL) et l'équipe de Méthodes et Algorithmes pour la Bioinformatique (MAB) ont le point commun de proposer des plateformes et logiciels issus de la recherche, dans le domaine de la génomique comparative, et entre autres sous-domaines la phylogénie moléculaire. Cet exposé traitera de l'histoire de différents projets que j'ai mené ou auxquels j'ai activement participé dans ces structures, depuis leur naissance par des recherches algorithmiques, à la mise à disposition de fruit de ces recherches via des logiciels et des plateformes de calculs destinés à la communauté. Ces projets sont: (a) FamFetch: un logiciel client permettant d'interroger les banques de familles de gènes homologues disponibles au PBIL. (b) PhyML: un logiciel de phylogénie par maximum de vraisemblance, central dans la plateforme de bioinformatique montpelliéraine, et support de travail de nombreux chercheurs. J'insisterai particulièrement sur le rôle de l'ingénieur au sein d'une équipe de recherche, et du cheminement qui m'a conduit de l'activité de recherche au choix mûri de me consacrer au rôle d'ingénieur.</blockquote>

List of past organizers

Do not hesitate to contact us if you want your talk to appear here or if you need some extra information on old seminars.

Huge thanks to the past organizers:

2014-2018 Victor Picheny Nathalie Vialaneix
2010-2014 Gauthier Quesnel Matthieu Vignes
2006-2009 Simon de Givry Nathalie Peyrard
Génotoul BioInfo
Outils personnels