List of past seminars

De MIAT INRA
Aller à : navigation, rechercher

Liste des séances passées du séminaire MIAT

Pas de séminaire en juillet-août.

  • 01/07/2016 : Modelling complex biological systems: a network perspective Matthieu Vignes (Massey University, NZ)
Résumé : In this talk, after a short introduction to my (very simplified) point of view of a biological system, I will present 3 projects I am involved in and their present status: (i) Gene expression patterns in allopolyploid species, (ii) the genetics basis of host-pathogen association and (iii) the control of infectious diseases, or playing with (anti-social) networks. In particular, I would stress the use of adequate (yet basic for the moment) data analysis techniques and potential developments.
  • 24/06/2016 : La gestion des espèces envahissantes, un problème de décision dans l’incertain Mathieu Bonneau
Résumé : Les espèces envahissantes sont des espèces introduites au sein d'un nouvel écosystème, de manière involontaire lors du transport de marchandises par exemple, ou de manière volontaire pour le commerce ou le loisir. Ces espèces, de poissons, d'oiseaux, de plantes, de mammifères etc peuvent être qualifiées d'envahissantes, dès lors qu'elles impacts de manière négative l'économie ou les écosystèmes. Estimer les pertes causées par les espèces envahissantes est une tache difficile par nature, à cause du manque de données ou encore parce qu'il est difficile de quantifier les impacts négatifs sur les écosystèmes. Néanmoins, David Pimentel en 2005, article cité 2516 fois depuis, rapporte qu'aux États-Unis les pertes financières peuvent aller jusqu'à 120 billion de dollars par an. Ou encore que seulement 79 espèces ont causé des pertes financières d'au moins 97 billions de dollars de 1906 à 1991. En pratique, la lutte contre les espèces envahissantes peut consister à éradiquer l'espèce si celle-ci est découverte suffisamment tôt. Mais elle consiste généralement à en minimiser les impacts, avec peu de moyen et beaucoup d'incertitude scientifique. La gestion des espèces envahissantes est un problème de décision dans l'incertain, où la modélisation permet de quantifier les effets des différentes actions de gestion sur l'espèce et l'optimisation permet de déterminer l'action de gestion optimale. Cette présentation détaillera différents exemples où la modélisation et l'optimisation ont été utilisé pour proposer des modèles d'aide à la décision dans le cas de la gestion des espèces envahissantes. Nous développerons particulièrement le cas de la gestion de l'épervière orangée dans les Alpes situés dans l'état du Victoria. Cette plante est capable de causer un fort déclin de la biodiversité, impactant ensuite fortement l'agriculture causant la perte des espèces traditionnellement utilisées pour le pâturage. Vraisemblablement introduit dans le Victoria pour une utilisation personnelle, cette plante a ensuite colonisée plusieurs parties du parc national où elle est maintenant activement surveillée. Le contrôle de cette plante est un travail de long terme car les endroits où la plante a été précédemment détectée sont susceptibles d'être colonisés les années suivantes, causé par la présence de graines dans le sol et obligeant alors les employés du parc à revisiter chacun des sites infectés plusieurs fois par an pour détecter la plante et l'empêcher de se reproduire. L'efficacité de ces visites dépend du stade de croissance de la plante, qui influence à la fois la probabilité de la détecter et l'efficacité des méthodes de traitement (herbicide). Nous avons modélisé ce problème dans un cadre mathématique adapté afin de relier date de visite et efficacité. Un algorithme génétique a ensuite été utilisé pour calculer des plannings de visite optimaux et déterminer le nombre de visites minimal permettant d'atteindre un niveau de risque acceptable. Ce travail a permis en pratique de mieux gérer les ressources.
  • 17/06/2016 : Classification non supervisée de courbes par critère d'entropie minimum : application aux problèmes de gestion du trafic aérien Florence Nicol (ENAC)
Résumé : Dans de nombreuses applications, les objets traités peuvent être décrits comme des courbes géométriques. C'est en particulier le cas dans le domaine du trafic aérien où l'on s’intéresse à la forme des trajectoires suivies par les avions. La classification de courbes est une méthode largement utilisée en statistique et quand les données sont de nature fonctionnelle, les algorithmes existants, le plus souvent basés sur des développements en base fonctionnelle tronqués, ne tiennent pas compte de la géométrie des courbes. De plus, lorsque des contraintes particulières surviennent, ce qui est le cas lorsque l'on doit prendre en compte des considérations opérationnelles dans les problèmes de gestion du trafic aérien, les procédures habituelles produisent souvent des résultats inexploitables. Nous proposons ici d'utiliser le cadre des variétés de courbes pour séparer l'aspect géométrique de l'aspect loi des vitesses, simplifiant ainsi les comparaisons entre courbes. Une approche de classification non supervisée, basée sur l'entropie minimum et les groupes de Lie, est présentée dans le but de produire des centres de classes de faible courbure adaptés à nos problèmes. Cet outil est particulièrement intéressant pour l'analyse du trafic aérien automatisé ainsi que pour la conception de l'espace aérien ou la planification des itinéraires.
Résumé : We consider the problem of online nonparametric regression with arbitrary deterministic sequences. We will first present the setting and some of its connections with (non-sequential) nonparametric regression. Then, we will show how to use the chaining technique to design a hierarchical algorithm that achieves regret guarantees similar to those obtained in a non-constructive fashion by Rakhlin and Sridharan (2014). We will finally explain how to make this algorithm computationally efficient in the particular case of Hölder balls. Nota: this is a joint work with Pierre Gaillard; its was published in the Proceedings of COLT 2015.
  • 03/06/2016 : Aligning the unalignable: bacteriophage whole genome alignments Annie Chateau (LIRMM, Montpellier) et Séverine Bérard (ISE-M, Montpellier)
Résumé : Viruses that infect bacteria, called bacteriophages, have very compact genomes which encode a small number of biological functions. Bacteriophages that infect the same strain of bacteria regularly use some form of rearranging genomes, called modular recombination. A modular recombination exchanges a module that encodes a function against another one that fills the same role, while having no detectable similarity. A bit like one might replace a gasoline generator for a wind turbine. In this presentation, we show that even in the absence of similarity, it is possible to align bacteriophage genomes when they are colinear, meaning that functions appear in a same order in the different genomes of bacteriophages inside a family. We also present ALPHA, which is a simple and user-friendly bacteriophage whole genome aligner implementing these ideas.
  • 27/05/2016 : Séminaire des doctorants

9h00: Étienne Auclair Apprentissage et gestion de réseaux écologiques pour l'optimisation de services écosystémiques

9h20: Alyssa Imbert Imputation multiple de type hot-deck pour l'inférence de réseaux issus de données RNA-Seq

9h40: Sébastian Le Coz Une modélisation pour la dynamique des adventices dans un agrosystème

10h: Sara Maqrot Designing mixed fruit-vegetable cropping systems by integer quadratic programming

10h40: Franck Cerutti Mise au point d'une stratégie bioinformatique générique et modulaire pour analyser l'évolution des petits ARNs régulateurs et de leurs cibles chez les bactéries

11h00: Clément Viricel Algorithme de comptage pour le design d'interface de protéine

11h20: Charlotte Dayde Compréhension du processus de prise de décision opérationnelle des agriculteurs dans un cadre de rationalité limité

11h40: Valérie Sautron Multiway-SIR for biological data integration

  • lundi 23/05/2016 à 10h30 : What means high nitrates in hard rock aquifers? Insights from an irrigated agricultural catchment Buvi Sri (MIAT, INRA)
Résumé : Irrigated agriculture has large impacts on groundwater resources, both in terms of quantity and quality. Among agricultural-borne non-point source pollutants, nitrogen has been the focus of many studies due to its ubiquitous impact on ecosystems. Mapping the spatial heterogeneity of groundwater quality is not only essential for estimating the level of groundwater contamination but also to assess the impacts of different types of agricultural systems. However, low density of long term monitoring wells limits adequate description of highly heterogeneous aquifers. This issue has been addressed either by developing geo-statistical methods or by neglecting groundwater lateral transport. In peninsular India the development of minor irrigation led to high density of borewells which constitute an ideal situation for studying the heterogeneity of groundwater quality. The annual groundwater abstraction reaches 400km3, which leads to depletion of the resource and degradation of water quality. Nitrate (NO3) contamination in groundwater has been rising for the last decades due to overuse of fertilizers combined with the intensive borewell irrigation. In the Berambadi catchment (84 km2, Southern India), which is part of ORE BVET/ Kabini CZO, we studied the relative influences of land use, agricultural practices and soil/aquifer properties on NO3 concentration in groundwater based on the monitoring of >200 borewells (monthly water table level and seasonal chemistry), experiments at the soil-plant scale and using a coupled crop model and groundwater model (AICHA-Nitrogen model). Nitrate concentration in Berambadi span over two orders of magnitude with hotspots up to 400ppm. Three contrasted situations were identified according to groundwater level and gradient: i) Hot spots of NO3were associated to deep groundwater levels (30 to 60 m) and low groundwater gradient, suggesting that in the absence of lateral flow and with small groundwater reserve, local agricultural practices severely affected groundwater quality due to recycling through pumping and return flow; ii) On the contrary, when groundwater gradient was high, NO3 concentrations were low to moderate, suggesting that significant lateral flow prevented NO3 enrichment; iii) Finally, low NO3 concentrations were also found in situations where gradient was small but groundwater was shallow and hence reserve was large: these zones are potentially vulnerable to intensification of pumping and fertilizer application. Subsequent decline in groundwater level would then lead to rapid degradation of groundwater quality. Further long term evolution of the groundwater composition due to the effect of solute recycling was simulated using AICHA-Nitrogen model in the RECORD platform.

Semaine du 16 mai : Cette semaine est consacrée à une séance exceptionnelle de séminaire commun IMT / MIAT qui aura lieu à l'IMT (Université Paul Sabatier) le mardi 17 mai :

  • mardi 17/05/2016 à 11h  : Méthodes pénalisées pour la métamodélisation et l’analyse de sensibilité par  Sylvie Huet (MAIAGE, INRA)
Résumé :La modélisation en biologie repose sur des modèles complexes au sens où ils présentent des composantes fortement non-linéaires ou font intervenir un grand nombre de variables d’état et de paramètres au travers d’interactions d’ordre élevé. Il est souvent nécessaire de les simplifier, soit pour en comprendre le fonctionnement, soit pour optimiser des calculs numériques.
La construction d’un modèle simplifié, ou métamodèle, d’un modèle complexe à l’aide d’une décomposition de type ANOVA obtenue par projection sur des espaces de Hilbert auro-reproduisant a été proposée récemment. Le métamodèle doit approcher au mieux le modèle initial, tout en restant parcimonieux, et en possédant de bonnes qualités prédictives pour relier les variables de sortie aux variables d’entrée.
En utilisant les outils de l’estimation fonctionnelle sparse par minimisation de critères convexes, les propriétés prédictives des métamodèles ainsi construits peuvent être établies et les indices de sensibilité du métamodèle peuvent être estimés.
Ce travail fait l’objet d’une collaboration avec M.L. Taupin (Université d’Evry Val d’Essonne)
Résumé : At the core of Computational Protein Design, lies a compact formulation of the Global Minimum Energy Conformation problem, assuming a rigid backbone, capturing amino-acid and conformations changes through a discrete rotamer library and relying on a pairwise decomposable description of the energy. Under such assumptions, the problem of finding a sequence with an optimal conformation is NP-hard and usually tackled using stochastic methods with no finite convergence results. The Dead End Elimination Theorem combined with A* can remove all uncertainty on the optimality but only for relatively small designs. Using state-of-the-art decomposable energy field and rotamer library, we show that sequences with a guaranteed optimal conformation can be identified on CPD problems with a size that is far beyond what has been previously solved using deterministic methods. As any new capability, this unleashed computational power opens new avenues. As a first example of this, we evaluate the frequency and amplitude, in energy and sequence, at which an existing CPD biased Monte Carlo implementation may miss the optimum in problems with a sequence-conformation space that can exceed 10^200. We then exhaustively explore the neighborhood of each optimum.

Pas de séminaire les 22, 29 avril et 6 mai (vacances scolaires et Ascension).

  • 22/04/2016 : Analyse de la microévolution des génomes microbiens : approches bioinformatiques Habilitation à Diriger des Recherche de Hélène Chiapello. La soutenance aura lieu vendredi 22 avril 2016 à 14h00 dans la salle de conférence Marc Ridet (INRA Auzeville)
Résumé : Les travaux présentés dans cette HDR concernent la conception et la mise en œuvre de stratégies bioinformatiques visant à analyser la diversité des génomes de micro-organismes (bactéries, champignons) à l’échelle microévolutive. Mes activités de recherche s’inscrivent dans la champ disciplinaire de la phylogénomique avec un point de vue particulier : les génomes de micro-organismes et l’échelle de temps considérée, qui est en général courte. Dans une première partie, je présente mes travaux sur la comparaison de génomes bactériens et ses applications à différentes questions de recherche d’intérêt fondamental ou appliqué. Dans un second chapitre je décris mes contributions à l’analyse du contenu et de l’évolution des génomes fongiques. Enfin, dans une dernière partie je présente mes perspectives de recherches, en lien notamment avec deux nouveaux projets concernant d’une part l’étude de la dynamique évolutive des ARN régulateurs bactériens et de leurs cibles et d’autre part l’analyse des déterminants génomiques de l’adaptation d’une bactérie pathogène à son hôte.
  • 15/04/2016 : Présentation de l'Unité Ingenum (Ingénierie Numérique en Recherche) Hélène Chiapello, Nathalie Gandon et Hélène Raynal (MIA, Unité Ingenum)
Résumé : Présentation de la nouvelle unité en charge du pilotage des actions transversales de l’INRA en terme d’ingénierie numérique en recherche et de l'accompagnement du Délégué à la Transition Numérique dans le développement de la stratégie du numérique en recherche.
  • 08/04/2016 : Workflow-BS: an integrative workflow for RRBS and WGBS data Céline Noirot et Gaëlle Lefort (INRA, MIAT) diaporama
Résumé : DNA methylation is an epigenetic mark that has suspected regulatory roles in a broad range of biological processes and diseases. The technology is now available for genome-wide methylation studies, at a high resolution and with possibly a large number of samples. Many specific aligners for BS-seq data exist, such as BSMAP and Bismark. Also, R packages (methylKit and DSS) were designed to detect differentially methylated cytosines (DMC) and differentially methylated regions (DMR). Methy-Pipe (Peiyong Jiang et al. 2014. PLOS one) fill the gap between those analyses by combining a complete pipeline from raw data to statistical outputs but it requires a specific cluster environment (SGE software). Here, we propose a workflow which deals with fastq files from BS-seq (WGBS and RRBS) and goes through all steps to provide bed files of DMC and DMR. It can support most distributed resource management systems (Condor, SGE, ...). We will present our pipeline which uses standard software to i) clean data ii) align WGBS or RRBS reads to a reference genome iii) extract methylation and iv) identify DMC and DMR.
  • 01/04/2016 : Land use predictions on a regular grid at different scales and with easily accessible covariates. Application to the Teruti-Lucas survey. Anne Ruiz-Gazen (TSE, Université Capitole) diaporama
Résumé : It is widely accepted that land use is among the main human pressures on the environment, including climate change, biodiversity loss and pollution of water, soil and air. In this context, it is much needed to develop econometric and statistical tools that help to predict the possible land use patterns in order to improve our understanding of the causes and consequences of these phenomena. In this presentation, we consider the problem of land use modeling using point level data such as the Teruti-Lucas survey and some easily accessible explanatory variables. We analyze the components of the prediction error at different spatial scales using a synthetic data set constructed from the Teruti-Lucas points in the Midi-Pyrénées region and a five categories land use classification. We explore the link between the prediction errors and the Gini-Simpson impurity index of the vector of probabilities of each category. The study first shows that the number of points in the Teruti-Lucas survey is quite enough for estimating the probabilities of each land use category with a good quality. Furthermore it reveals that, contrary to usual practice, when the objective is to predict land use at aggregated levels, land use probabilities should be estimated at more locations where explanatory variables are available rather than restricting to the initial Teruti-Lucas points. Indeed this strategy borrows strength from the knowledge of the explanatory variables which may be heterogeneous in a given Teruti-Lucas segment. Finally, guidelines for constructing the grid of locations for estimation are given from the analysis of the heterogeneity of each explanatory variable.
Résumé : Mes travaux de thèse ont porté sur la modélisation statistique des données issues de la technologie de séquençage RNA-seq. Dans cette présentation, je m'intéresserai au problème d'inférence de réseaux. Dans le cadre du modèle graphique gaussien, je présenterai une approche non-asymptotique pour sélectionner des sous-ensembles de variables pertinentes, en décomposant la matrice de covariance en blocs diagonaux. Cette méthode permet de réduire la dimension du problème d’inférence initial. Bien que la contribution méthodologique proposée soit motivée par l'analyse des données RNA-seq, elle n'est pas spécifique à ces données et peut également être utilisée sur d'autres types de données.
  • 18/03/2016 : ChimPipe : un pipeline pour la détection de transcrits chimériques à partir de données RNA-seq Sarah Djebali Quelen (GenPhySE, INRA) diaporama
Résumé : Les transcrits chimériques, ou chimères, se définissent généralement comme des transcripts reliant deux gènes differents du génome, et peuvent s’expliquer par différents mécanismes biologiques tels que les rearrangements génomiques, la transcription “read-through” ou le trans-épissage, mais aussi par des artéfacts techniques ou biologiques. Certaines études ont montré leur importance dans le cancer, d’autres dans la pluri-potence cellulaire. Plusieurs programmes ont été développes pour identifier les chimères à partir de données RNA-seq, essentiellement dans le domaine du cancer où on les nomme gènes de fusion, cependant ces programmes produisent des ensembles de chimères largement differents sur les mêmes données RNA-seq d’entrée, et incluent généralement de très nombreux faux-positifs. Les évaluations de ces programmes souffrent aussi de données de simulation non réalistes prenant seulement en compte les chimères issues de réarrangements genomiques et non les chimères transcriptionnelles, de données réelles incluant un très faible nombre de chimères validées, et d’une évaluation au niveau de la paire de gènes plutôt que de la jonction. Ici je présente ChimPipe, un pipeline RNA-seq modulaire et facile d’utilisation fondé sur un alignement exhaustif par les “GEMtools”, qui combine les informations des paires de lectures et des lectures épissées, et qui utilise un module de filtre stringent, pour identifier les chimères les plus fiables d’un jeu de données. Nous avons aussi produit des données RNA-seq simulées reálistes de 3 longueurs de lectures différentes, et avons enrichi les données réelles habituellement utilisées comme reférence pour l’evaluation, par la détermination des coordonnées précises des jonctions correspondant aux paires de gènes validées. L'évaluation comparée de ChimPipe et de 4 autres outils de détection de chimères reconnus sur ces données, a montré que ChimPipe est le meilleur programme dans l’identification exacte du point de jonction chimérique, et qu’il est le deuxième programme le plus sensible au niveau de la paire de gènes après Chimerascan dont la précision semble bien moins grande sur les données réelles. Sur ces données ChimPipe a ainsi le meilleur compromis entre sensibilité et précision. Nous avons appliqué ChimPipe à 108 données RNA-seq humaines de très forte profondeur de séquençage produites par le projet ENCODE, et avons identifié 33 chimères très fortement exprimées dans au moins un échantillon. Nous en avons selectionné 6 pour une validation par RT-PCR et en avons confirmé 3. Le clonage et le sequençage de ces 3 cas a révélé plusieurs nouvelles structures de transcrits chimériques, dont certains préservent la phase de lecture des genes parents, pouvant ainsi correspondre à de nouvelles protéines et donc de nouvelles fonctions.

Semaine du 7 mars : Cette semaine est consacrée à une séance exceptionnelle de séminaire commun IMT / MIAT qui aura lieu à l'INRA (salle FR du centre de Toulouse Midi-Pyrénées, site d'Auzeville) :

  • vendredi 11 mars de 10h30 à 12h00 : Régression en grande dimension et épistasie par blocs pour les études d'association Christophe Ambroise (LaMME, Université d'Évry Val d'Essonne) diaporama
Résumé : Dans le domaine des études d'association pan-génome (GWAS) une partie importante de la littérature est consacrée à la détection des interactions existant entre deux ou plusieurs parties du génome (épistasie). La plupart des approches considèrent les interactions entre loci déjà connus pour être associés au phénotype étudié. Dans cette présentation, nous explorons des approches statistiques multi-variées permettant de détecter des épistasies au niveau des gènes sans filtrage préalable.

Pas de séminaire les 26 février et 4 mars (vacances scolaires).

  • 19/02/2016 : Traitement de données NGS et structuration de la diversité moléculaire : dialogue avec les diatomées Alain Franc (Biogeco, INRA de Bordeaux) diaporama
Résumé : Les technologies NGS permettent de produire en flux continu des échantillons de centaines de milliers de reads courts qui décrivent la diversité moléculaire des communautés. L'objectif est de caractériser la diversité des communautés connaissant ces séquences. L'approche retenue est l'étude de la géométrie de nuages de points associés à cette diversité. Une difficulté qui sera évoquée est le choix de la bonne dimension pour construire et étudier le nuage de points, entre la "malédiction de la dimension" en grandes dimensions la mauvaise qualité des plongements isométriques en petites dimensions. Une première étape consiste à calculer une distance entre reads, et une seconde, ces distances étant connues, de construire soit un nuage de points (MDS) soit un graphe (lien si distance inférieure à un seuil choisi) qui représente cette diversité. Ce séminaire a pour objet de discuter les connexions entre ces différentes méthodes pour étudier la forme du nuage de points, et les liens avec les communautés sur graphes. Quelques excursions seront faites sur les domaines émergents de "distance geometry" ou d'autres plus anciens et classiques de méthodes non linéaires (Sammon, isomap, etc ...). L'objectif est de discuter les connexions entre les méthodes, pour in fine utiliser un faisceau d'outils pour caractériser la biodiversité.
  • 12/02/2016 : Méthodes à noyaux et modèles parcimonieux pour la classification d'images hyperspectrales Mathieu Fauvel (ENSAT, Toulouse) diaporama
Résumé : Dans cette présentation, nous présenterons une famille de modèles de processus Gaussien parcimonieux. Ces modèles permettent de définir un classifieur quadratique dans l'espace de Hilbert (possiblement de taille infini) associé à une fonction noyau. Ces modèles sont obtenus en contraignant la décomposition spectrale du processus Gaussien représentant chaque classe. Ils correspondent à une extension d'un modèle proposé par MM Dundar et DA Landgrebe. Des résultats expérimentaux seront donnés sur des images hyperspectrales. Les résultats seront comparés avec d'autres méthodes à noyaux.
  • 05/02/2016 : Développements bio-informatiques pour l’analyse de petits ARNs bactériens: de l’exploration visuelle des résultats de prédiction de cibles à l’annotation fonctionnelle des régulateurs Patricia Thébault (LaBRI, Université de Bordeaux)
Résumé : La régulation différentielle des gènes est au coeur de la diversité des phénotypes et de l’adaptabilité du vivant. Chez les bactéries, elle repose, entre autres, sur les petits ARNs non codants qui modulent la traduction de gènes en protéines. Les approches bioinformatiques « les plus performantes » pour prédire ces interactions régulatrices sont peu spécifiques et génèrent un nombre de faux positifs rendant difficile l’expertise des résultats. Pour palier à ces problèmes, une solution consiste à se focaliser dans un premier temps sur la sensibilité et efficacité des outils de prédiction d’interaction pour ensuite améliorer la spécificité grâce à l’intégration d’informations à différents niveaux. Nous avons privilégié de combiner les approches classiques de bioinformatiques avec les méthodes théoriques de la visualisation des grandes masses de données en développant le logiciel rNAV. Les représentations graphiques des réseaux de régulation issues de rNAV tirent partie des capacités visuelle de l’expert en le mettant au cœur du processus d’analyse pour explorer et analyser le graphe en appliquant des algorithmes de filtres intégrant différents algorithmes de fouille de données. Une seconde partie de l’exposé se focalisera sur l’annotation fonctionnelle des petits ARNs qui peux se déduire à partir des groupes de gènes qu’ils ciblent. Pour des annotations pertinentes de la fonction biologique de groupes de gènes régulés, il est essentiel d’exploiter conjointement l’ensemble des informations disponibles dans les bases de données. Les approches classiques d’annotation de groupes de gènes reposent sur des méthodes statistiques d’enrichissement où les termes à plat sont considérés indépendamment les uns des autres et où la variabilité des informations disponibles d’un organisme vivant à l’autre n’est pas prise en compte. Pour palier à ces difficultés, nous développons actuellement de nouvelles procédures d’annotation qui visent : (1) à proposer de nouvelles mesures de similarité sémantique entre termes d'annotation et (2) à développer de nouvelles approches de data mining pour déterminer l’ensemble restreint des annotations les plus pertinentes à associer à un groupe de gènes.
  • 29/01/2016 : Hybrid Levenberg-Morisson-Marquardt and ensemble Kalman smoother method El Houcine Bergou (INRA, MaiAGE)
Résumé : The Levenberg-Morisson-Marquardt algorithm (LMM) is one of the most popular algorithms for the solution of nonlinear least squares problems. Motivated by the problem structure in data assimilation, we consider in this work the extension of the LMM algorithm to the scenarios where the linearized least squares subproblems are solved inexactly and/or the gradient model is noisy and accurate only withina certain probability.Under appropriate assumptions, we show that the modified algorithm converges globally and almost surely to a first order stationary point. Our approach is applied to an instance in variational data assimilation where stochastic models of the gradient are computed by the so-called ensemble Kalman smoother (EnKS). A convergence proof in L^p of EnKS in the limit for large ensembles to the Kalman smoother is given. We also show the convergence of LM-EnKS approach, which is a variant of the LMM algorithm with EnKS as a linear solver, to the classica! LMM algorithm where the linearized subproblem is solved exactly.
Résumé : Dans plusieurs domaines d'application et en particulier en agronomie, une problématique d'intérêt est d'expliquer une variable réelle à partir d'une variable fonctionnelle. Par exemple, on peut se demander comment le rendement d'une plantation de céréales est déterminé par la température durant toute la saison. Pour répondre à cette question, nous nous placerons dans le cadre du modèle de régression linéaire fonctionnelle et nous aurons pour objectif d'obtenir une estimation explicable de la fonction coefficient. Pour cela nous avons utilisé une approche bayésienne qui se base sur l'estimateur de Bayes avec une fonction de coût particulière. L'estimation finale est ensuite obtenue suivant une procédure numérique que nous présenterons. Nous comparerons alors cette méthode avec ces compétiteurs sur des jeux de données simulés et un jeu de données réel en agronomie.
  • 15/01/2016 : Optimisation bayésienne multiobjectif en grande dimension Mickael Binois (Ecole des Mines de Saint Etienne)
Résumé : Dans le cas de fonctions pour lesquelles les coûts d'appel ou les temps de calcul sont élevés, le budget d'évaluations dédié aux études d’optimisation est fortement limité. Dans ce contexte, les méthodes d'optimisation bayésiennes basées sur des métamodèles, ici des processus gaussiens, sont particulièrement adaptées. Dans le cas multiobjectif, on s’intéresse également à prédire la position du front de Pareto (ensemble des compromis optimaux) à partir des métamodèles, tout en quantifiant l’incertitude associée. Par ailleurs, la montée en dimension est l'une des principales limitations de ces techniques. Pour la surmonter, l'utilisation de plongements aléatoires ("random embeddings") a récemment été proposée, sous l'hypothèse que seules peu de variables, non identifiées, sont réellement influentes. Il s’agit alors de se restreindre à un espace de dimension modérée, plongé dans l'espace de grande dimension à partir d'une matrice aléatoire. On présentera plusieurs améliorations apportées à cette méthode : prise en compte de plusieurs objectifs ou de contraintes, création d'un noyau de covariance spécifique ainsi que des propositions de sélection de la matrice aléatoire. L’intérêt de l’approche sera illustré en particulier sur un cas test automobile.
  • 08/01/2016 : Optimization in Discrete Deterministic and Stochastic Graphical Models Thomas Schiex (MIAT, INRA Toulouse)
Résumé : In Artificial Intelligence, Graphical Models are usually understood as a family of stochastic models capturing independence through a graph representation. They cover, among others, Bayesian Networks and Markov Random Fields (MRF). In these models, a joint probability distribution over a set of variables is represented as the combination of a set of local potential functions. This same idea has been used in purely deterministic models of Artificial Intelligence such as Constraint Networks, Constraint Programming and SAT, and in their weighted variants. In these models, a boolean or cost function is represented as a combination of local boolean functions (constraints, clauses) or cost functions. In both cases, this concise expression comes at a cost: inference problems such as optimization or counting are typically NP hard. Therefore polytime approximate inference schemes have been defined such as message passing (MRF), local consistency (CSP and weighted variants) and unit propagation (SAT and weighted variants). In this talk, I will try to give a general view of these approaches in the context of the MAP/CSP/WCSP/SAT/PWMaxSAT optimization problems and show how these algorithms have evolved and been exploited in practice.

Pas de séminaire les 25 décembre et 1 janvier (vacances scolaires... entre autres...).

Résumé : Random forest algorithm provides a predictor ensemble based on a set of randomized decision trees. The good performances in practical use can explain the growing interest in this approach. However, there is still a need to better understand the algorithm and the related importance measures. We first study the permutation importance measure in presence of correlated predictors. We describe how the correlation between predictors impacts the permutation importance in an additive model. Our results motivate the use of the Recursive Feature Elimination (RFE) algorithm for variable selection in this context. We then propose an extension of the permutation importance for groups of variable. This original criterion is used in a functional data analysis framework for selecting functional variables. Using a wavelet basis, it is proposed to regroup all of the wavelet coefficients for a given functional variable and use a selection algorithm based on the grouped importance. Various other groupings which take advantage of the frequency and time localization of the wavelet basis can be proposed. These methods has been developed jointly with the startup Safety Line for aviation safety purposes. The aim was to predict and explain the risk of long landing using data from flight data recorders.
  • 11/12/2015 : Modèles graphiques pour sélection génétique avancée Sylvain Jasson et Damien Leroux (MIAT, INRA)
Résumé : L'amélioration des performances des espèces cultivées, et plus globalement la recherche en génétique, est liée au criblage de régions chromosomiques d'intérêt. Une région chromosomique qui influe sur un caractère quantitatif est appelée Quantitative Trait Locus (QTL). La détection de QTL nécessite le calcul préalable des probabilités d'origines parentales (POP) le long du génome. Il était jusqu'à présent considéré qu'une modélisation de ces probabilités sous forme d'une chaîne de Markov était impossible dès que plusieurs méioses non indépendantes étaient présentes dans le pedigree. De ce fait, chaque type de population était modélisé spécifiquement en se basant uniquement sur la densité des jonctions, moyennant un certain nombre d'hypothèses simplificatrices implicites (qui étaient vérifiées par les dispositifs de l'"ancienne école"). Nous montrons que ces hypothèses ne tiennent plus dans le cadre des populations avancées, qu'il est possible de s'en passer et de modéliser sous forme de chaîne de Markov continue n'importe quelle structure de population. Nous donnons la méthode de construction de ladite chaîne de Markov continue. Cette méthode engendre des processus dont le nombre d'états augmente avec la complexité du pedigree. Nous évoquons des pistes pour maîtriser cette inflation. Par ailleurs, si les nouvelles techniques de génotypage (e.g. SNP) fournissent plus d'observations de marqueurs pour une population donnée, l'évolution des dispositifs expérimentaux rend ces observations de plus en plus partiellement informatives (Un SNP bi-allélique ne pourra jamais permettre de discriminer 4 ou 8 fondateurs). L'inférence des POP le long du génome nécessite une estimation précise des probabilités de génotype à chaque marqueur. Nous avons développé une modélisation sous forme de réseau bayésien, sur un marqueur, et le long de l'ensemble du pedigree, afin de calculer ces probabilités en tenant compte de toute l'information disponible, quels que soient les individus observés. Enfin nous présentons succinctement notre implémentation de ces méthodes à l'intérieur d'une solution complète de détection de QTL.
  • 04/12/2015 : Analyses statistiques pour l'évaluation des systèmes de recherche d'information Sébastien Dejean (IMT, Université Toulouse 3) diaporama
Résumé : L'exposé illustre la mise en œuvre de méthodes statistiques visant à traiter deux problèmes liés à la recherche d'information (information retrieval). Le premier consiste à proposer un ensemble réduit d'indicateurs visant à évaluer la performance d'un système de recherche d'information (SRI). Le second s'intéresse à l'étude des paramètres d'un SRI qui influencent le plus ses performances. Dans les deux cas, le cadre de travail est celui de la campagne Text REtrieval Conference (TREC) qui fournit, pour un ensemble de requêtes données, les documents pertinents à retourner parmi un corpus de référence.

Semaine du 23 novembre : pas de séminaire le vendredi 27 novembre. Cette semaine est consacrée à une séance exceptionnelle de séminaire commun IMT / MIAT qui aura lieu à l'INRA (salle de séminaire AGIR) :

  • jeudi 26 novembre de 10h30 à 12h00 : Détection de communautés dans des réseaux aléatoires Nicolas Verzelen (INRA Montpellier/SupAgro)
Résumé : L'analyse des réseaux est aujourd'hui un domaine ayant donné lieu à une abondante littérature aux croisements de la combinatoire, de l'algorithmique, de la physique des systèmes complexes et plus récemment des statistiques. La détection de communautés vise à découvrir des groupe de noeuds fortement liés entre eux et faiblement liés aux autres. Dans cet exposé, on discutera de modèles de réseaux aléatoires permettant de rentre compte de l'hétérogénéité rencontrée dans les réseaux réels. Ce cadre probabiliste permet de formaliser statistiquement le problème de détection de communautés. On obtiendra ainsi une caractérisation fine des difficultés statistiques inhérentes au problème de détection en faisant apparaître un compromis précision statistique contre complexité algorithmique.
  • 20/11/2015 : Approches bioinformatiques pour l'étude des perturbations du réseau métabolique Fabien Jourdan (INRA, Toxalim, Toulouse)
Résumé : Les recherches qui seront présentées ont pour objectif d’identifier des ensembles de réactions modulées lors de perturbations environnementales ou génétiques sur l'organisme, c’est-à-dire d'y associer un sous-réseau métabolique (quelques dizaines de réactions sur les milliers que comporte le réseau métabolique). Ainsi, il est possible d'émettre des hypothèses sur les mécanismes métaboliques qui sont perturbés. Pour cela, deux types de formalismes seront utilisés. Le premier, les graphes (ensemble de nœuds reliés par des arêtes), donne une information sur la structure du réseau. Ce modèle mathématique permet de calculer des chemins dans le réseau, en particulier entre les biomarqueurs identifiés en métabolomique. La seconde approche, dite de modélisation sous contraintes (Constraint Based Modelling, CBM), est plus prédictive. Elle a pour objectif d’estimer la valeur des flux à travers chacune des réactions du réseau et peut donc être utilisée pour simuler le fonctionnement du réseau dans différentes conditions. Cette deuxième approche est souvent utilisée pour prédire la croissance des cellules ou la production de certains composés. Elle est également basée sur la structure du réseau mais nécessite un paramétrage plus complet que celui nécessaire à la modélisation par des graphes. L'enjeu plus général du projet de recherche est d’associer les modifications du réseau identifiées en utilisant les graphes et le CBM à des conséquences métaboliques à plus long terme. Par exemple, en toxicologie alimentaire, une des questions majeures est de pouvoir prédire si une modification du métabolisme identifiée par nos approches correspond à un simple phénomène adaptatif ou reflète un dysfonctionnement métabolique susceptible d’entrainer une pathologie.
  • 13/11/2015 : Planification d'expériences sur la comète Philae Emmanuel Hebrard (LAAS, Toulouse)
Résumé : Le 12 novembre dernier, Philae s'est posé, non sans quelques rebondissements, sur la comète 67P Churyumov-Gerasimenko. Dès sa séparation de la sonde Rosetta, et pendant les jours qui ont suivi, il a déroulé un plan calculé au SONC ("Scientific Operations & Navigation Centre") du CNES à Toulouse. Le calcul de ce plan, ainsi que de ceux qui ont suivi lors des trois jours de cette "First Science Sequence" est un véritable enjeu au regard des contraintes physiques et des ressources matérielles. Les principales contraintes proviennent de différentes limitations portant sur l'énergie fournie par les batteries, la température ambiante, ou encore les ressources mémoire allouées aux expériences et à Philae. Toutes ces contraintes ont été modélisés, et le problème résolu, grace au logiciel d'optimisation Ilog Scheduler. Je présenterai le problème d'ordonnancement des activités de la FSS et les techniques mises en oeuvre pour sa modélisation et résolution. En particulier, je m'attarderai sur notre contribution principale : le développement d'algorithmes pour raisonner efficacement sur les contraintes de transfert de données. Ces algorithmes ont permis de diminuer radicalement le temps de calcul (passant de quelques heures à quelques secondes dans certains cas), tout en offrant une meilleure estimation de l'usage de la mémoire et des risques de perte que la solution précédente.
  • 06/11/2015 : On the accuracy of genomic selection Charles-Elie Rabier (MIAT, INRA)
Résumé : Genomic selection focuses on the prediction of breeding values of selection candidates, using a high density of markers. It relies on the fact that all QTLs will tend to be in strong linkage disequilibrium (LD) with at least one marker.In this context, we present theoretical results regarding the accuracy in genomic selection, i.e. the correlation between predicted and true breeding values. Typically, individuals (so-called Test individuals) have their breeding values predicted on markers, using marker effects estimated by fitting a Ridge regression on a set of training individuals.We present a theoretical expression for the accuracy, suitable for any configurations of LD between QTLs and markers.In other words, the formula handles the configuration where QTLs match a few genetic markers and also the configuration where QTLs are not located on markers. We also introduce a new proxy for the accuracy, that is free of the QTL parameters, easily computable, and that outperforms other proxies suggested in the literature. In particular, our theoretical study shows that plugging an estimated effective number of independent loci ($M_{e}$) in the accuracy formula is not the way to handle properly the high dimensional framework. The theoretical formula, the new proxy, and existing proxies are compared on simulated data, suggesting the pertinence of our approach.Results are also illustrated on a new perennial ryegrass set ($367$ individuals) genotyped for 24,957 SNPs. In this case, most of the proxies studied give similar results due to the lack of markers to cover the entire genome ($2.7$Gb).

Pas de séminaire les 23 et 30 octobre (vacances scolaires).

  • 16/10/2015 : Prédiction de variants sans (ou avec) génome de référence Pierre Peterlongo (INRIA Rennes)
Résumé : Avec la démocratisation des techniques de séquençages haut débit, il est fréquent de chercher des réponses à des questions biologiques, tout en ayant à sa disposition un ou plusieurs jeux de reads mais pas de génome de référence proche. Dans une telle situation, une possibilité consiste à assembler les données afin de se créer un génome de référence qui permet, dans un second temps, d'utiliser les méthodes basées sur le mapping. Dans le cadre du projet colib'read (http://colibread.inria.fr) nous proposons une batterie d'outils dont le but est de prédire des variants (insertions, délétions, SNPs, inversions, splicing alternatif) directement via l'utilisation des reads bruts produits par les séquenceurs nouvelle génération. Dans cet exposé, je montrerai les motivations et l'idée méthodologique globale de ce type d'approche, avant de faire un focus sur l'application DiscoSnp++ permettant la détection d'Indels et de SNPs dans les reads bruts. Nous verrons les aspects algorithmiques (exploitation de motifs topologiques dans le graphe de De Bruijn) et également les avantages et les inconvénient de telles approches. Nous verrons également les potentiels avantages de l'utilisation de ce type d'approche, même lorsque qu'un bon génome de référence est disponible.
  • 09/10/2015 : pas de séminaire car Soutenance de thèse de Julia Radoszycki (à 10h30 en salle de séminaire de AGIR, INRA)
Résumé : Cette thèse porte sur la résolution de problèmes de décision séquentielle sous incertitude, modélisés sous forme de processus décisionnels de Markov (PDM) dont l'espace d'état et d'action sont tous les deux de grande dimension. Les algorithmes de résolution dédiés à ce type de problèmes sont rares quand la dimension des deux espaces excède 30, et imposent certaines limites sur la nature des problèmes représentables. Nous proposons un nouveau cadre, appelé PDMF^3, ainsi que des algorithmes de résolution approchée associés. Un PDMF^3 est un processus décisionnel de Markov à espace d'état et d'action factorisés (PDMF-AF) dont les politiques solutions sont contraintes à une certaine forme factorisée, et peuvent être stochastiques. Les algorithmes que nous proposons sont de type itération de la politique et exploitent des techniques d'optimisation continue et des méthodes d'inférence dans les modèles graphiques. Ils sont validés sur un grand nombre d'expériences numériques. En particulier, nous abordons des problèmes où l'espace d'état est de taille 32^{100}, et l'espace d'action de taille 3^{100}. Ce cadre et les algorithmes proposés sont ensuite appliqués pour déterminer des stratégies de gestion des services écosystémiques dans un paysage agricole. Notre cas d’étude est la gestion agroécologique des espèces adventices à l’échelle des territoires qui nécessite d’intégrer la double fonctionnalité des adventices sur la production agricole (réduction par compétition pour les ressources d’une part, et augmentation par son rôle dans le maintien des abeilles domestiques d’autre part). Plusieurs services écosystémiques sont par conséquent en conflit : services de production (rendement en céréales, fourrage et miel), services de régulation (régulation des populations d'espèces adventices et de pollinisateurs sauvages) et services culturels (conservation d'espèces adventices et de pollinisateurs sauvages). Nous avons développé un modèle spatio-temporel des interactions entre cultures, adventices et pollinisateurs et nous explorons quelles organisations dans l'espace et dans le temps du paysage (ici composé de parcelles de colza, blé et prairie) permettent d’atteindre un compromis entre services de production et culturels. Ce modèle permet plus généralement d'explorer par simulation l'effet de différentes stratégies d'allocation des cultures sur la magnitude de ces services écosystémiques.
  • 02/10/2015 : Optimal planning under uncertainty with goal and path constraints Florent Teichteil-Keonigsbuch (Airbus).
Résumé : Markov Decision Processes (MDPs) are a popular model for planning under probabilistic uncertainties. The solution of an MDP is a policy represented as a controlled Markov chain, whose complex properties on reachable states and execution paths can be automatically validated using stochastic model-checking techniques. However, producing optimal policies that are guaranteed to satisfy such properties is much more challenging than solving plain MDPs since such optimal property-constrained policies do not need to be Markovian nor deterministic ; moreover, traditional dynamic programming techniques do not apply in this case. In this talk, we will present two generalizations of MDPs with constraints on reachability or execution properties. The first model, named Stochastic Safest and Shortest Path (S3P) Problems, generalizes and includes the well-known Stochastic Shortest Path (SSP) problems to goal-constrained MDPs of practical interest that minimize the average (undiscounted) cost of only paths leading to the goal among all policies that maximize the probability to reach the goal. We demonstrate that any S3P admits optimal solutions in infinite horizon without any condition on the structure of the problem or on its policies contrary to the traditional SSPs (e.g. no required assumption on proper policies existence nor positive-cost cycles restriction), which actually extends the class of goal-constrained MDPs that can be solved. The second model, named Path-Constrained Markov Decision Processes (PC-MDPs) allows system designers to directly optimize path-constrained policies in a single design pass, in the sense that their possible execution paths are guaranteed to satisfy a set of probabilistic constraints expressed in a fragment of the Probabilistic Real Time Computation Tree Logic. We present optimality equations, algorithmic formulations and experimental results for both models.

Semaine du 25 septembre : pas de séminaire le vendredi 25 septembre. Cette semaine est consacré à une séance exceptionnelle de séminaire commun IMT / MIAT qui aura lieu à l'IMT :

  • mardi 22 septembre de 9h15 à 10h45 : Espaces de formes, difféomorphométrie et modèles génératifs de données géométrico-fonctionnelles Alain Trouvé (ENS Cachan, CMLA)
Résumé : Paru pour la première fois en 1917, le livre ``Growth and Forms’’ du naturaliste et mathématicien Ecossais d’Arcy Thompson, développe une théorie des transformations dont l’idée centrale est la comparaison morphologique des anatomies au travers des groupes de transformations de l’espace ambiant. Cette idée, un siècle plus tard et dans un contexte mathématique et technologique totalement différent, trouve de riches prolongements dans les approches contemporaines de comparaison quantitative de formes et de modélisation aleatoire et d’estimation de leur variabilité. Dans cet exposé en deux parties, nous présenterons progressivement les idées et techniques qui sous-tendent l’approche dite ``difféomorphométrique’’ qui s’est développée dans le contexte de l’anatomie computationnelle, ses liens avec la géométrie riemannienne de dimension infinie et la théorie du contrôle mais aussi les outils de réduction de dimension et les modèles d’attaches aux données qui sous-tendent les algorithmes utilisés dans l’analyse concrète de population de sous-variétés et les rendent effectifs. Nous présenterons également de nouveaux enjeux théoriques et applicatifs en particulier du coté de l’analyse de la variabiité des objets géométrico-fonctionnels combinant information géométrique et fonctionnelle.
Résumé : Narendra-Shapiro (NS) algorithms are bandit-type algorithms introduced in the sixties (with a view to applications in Psychology or learning automata), whose convergence has been intensively studied in the stochastic algorithm literature. In this talk, we study the efficiency of these bandit algorithms from a regret point of view. We show that some competitive bounds can be obtained for such algorithms in a modified penalized version. Up to an over-penalization modification, the pseudo-regret Rn related to the penalized two-armed bandit is uniformly bounded by C sqrt(n) (for a explicitely known constant C). We also provide a gentle introduction to the renormalized study of the algorithm. After explaining some basics, we establish the convergence and rates of convergence results to the multi-armed case of the over-penalized bandit algorithm, including the convergence toward the invariant measure of a Piecewise Deterministic Markov Process (PDMP) after a suitable renormalization. Finally, ergodic properties of this PDMP are given in the multi-armed case.
  • 11/09/2015 : Managing multiple interacting threats –prioritising invasive plant management in the Australian Alps National Park Joslin Moore (Monash Université, Victoria, Australie) diaporama.
Résumé : Most threatened species, communities or protected areas are subject to multiple threats, and the distribution of these threats varies in space and time. Existing decision frameworks can be helpful when choosing between actions targeting threats to different species or locations. However, they rarely account for potential interactions among threats and do not account for future losses associated with threats left unmanaged. These interdependencies and unattributed losses are important considerations when allocating resources to the management of a specific population, community or national park facing multiple threats. We present recent work that identifies management priorities that take account of both the benefit of taking action and the cost of failing to act when multiple processes threaten a single population or region. We formulate the problem as a multiple choice knapsack problem (or a knapsack problem with generalized upper bound) and use linear programming to solve for a range of budgets. We apply the approach to a case study of prioritising management of introduced plant species in two areas within the Australian Alps National Park. The solution provides the amount of effort to allocate to each species for a given budget and shows how the threat context affects how resources are best allocated. This approach is suitable when seeking to prioritise management for any location or population facing multiple interacting threats.
  • 04/09/2015 : Groupe ISIS: Quelque lignes de travail sur l'application de techniques d'Intelligence Informatique Gonzalo Joya Caparrós (Universidad de Málaga, Espagne) diaporama.
Résumé : Dans cette présentation, on donnera une vision globale de quelques applications des techniques de l'Intelligence Informatique mises en œuvre par le groupe de recherche ISIS (Université de Malaga) pour la résolution de différents problèmes : Réseaux des Neurones d'Hopfield pour l'estimation de paramètres d'un modèle d'épidémie, Contrôle Flou pour le choix du serveur nœud dans un réseau de communications ou pour le contrôle climatique sous serre, méthodes d'apprentisage automatique pour la classification de signaux électro-oculographiques.

Pas de séminaire entre le 10 juillet et le 3 septembre.

  • 03/07/2015 : Multivariate enrichment test for 3D chromatin domain border analysis Raphael Mourad (LMBE, UPS, Toulouse).
Résumé : Recent advances in genome-wide chromatin interaction mapping have revealed the importance of 3D structure of chromosomes in gene regulation and expression. The next challenge is to identify what are the key molecular drivers of this 3D structure. Several architectural proteins were shown to be enriched at the borders of topological domains, and thus represent good candidates. Simple univariate enrichment approaches such as Fisher's exact or Pearson's chi-squared tests were used for this purpose and there is thus a need for more sophisticated multivariate enrichment methods that could account for potential colocalizations and interactions between architectural proteins. Here we propose a multiple logistic regression model to assess multivariate enrichment of genomic features such as DNA-binding proteins and functional genomic regions at topological domain borders. The proposed method naturally deals with colocalization and interaction. Using simulations, we demonstrate the accuracy of the method to estimate enrichments of marginal features (no interactions) as well as two-way interactions. On real Drosophila data, we show the importance of considering all tested genomic features and their potential interactions within the same multivariate framework. Compared with univariate analysis, multivariate analysis reveals huge differences of enrichments among the insulator binding proteins. For instance, multivariate analysis highlights the importance of insulator binding protein Fs(1)h-L whose enrichment is the highest among the IBPs, and that was recently shown to mediate intra- or inter-chromosome interactions. In addition, analysis of interactions between insulator binding proteins and cofactors reveals that they tend to work separately at topological domain borders.
  • 02/07/2015 : Journée des stagiaires, amphi Marc Ridet, livret des résumés.
    • 9h00 Étienne Auclair Inférence d'un réseau trophique à partir de séries temporelles
    • 9h15 Romain Alexandre Analyse du compromis rendement / biodiversité sur un cas d'étude : système culture/adventices/pollinisateurs
    • 9h30 Matthieu Pluntz Modélisation HMM de la dynamique des espèces adventices dans un agrosystème
    • 9h45 Rolande Kpekou-Tossou Analyse par simulation de l'interaction climat/rendement
    • 10h00 Franck Boizard Méthode d'analyse de sensibilité de modèles pour entrées climatiques
    • 10h15 Éloi Navarro Optimisation de stratégies d'échantillonnage des stress biotiques au sein des agroécosystèmes
    • 10h30 Sara Maqrot Méthode approchée en programmation mathématique appliquée à la conception de vergers maraîchers
    • 10h45 Amélia Landre Gestion forestière et décision d'assurance en univers risqué
    • 11h00 Lina Hadj Nassar Analyse de sensibilité des modèles agronomiques à l'estimation de la réserve en eau des sols (présentation courte de début de stage)
    • 11h15 (pause)
    • 11h30 Augustin Chini Stage développeur WEB pour la mise à disposition d'un indicateur dynamique caractérisant l'évolution des écosystèmes
    • 11h45 Sara Hardy Développement et mise en oeuvre d'un pipeline d'analyse du transcriptome de différentes souches du chapignon pathogène magnaporthe oryzae
    • 12h00 Prune Pegot Espagnet Déterminisme génétique de la résistance à la septoriose et à la fusariose du blé tendre
    • 12h15 Abdallah Mechati Reconstruction exacte de réseau bayésien à partir d'observations complètes
    • 12h30 Andrea Martelletti Guide juridique sur l'ouverture des données de la recherche (open data)
  • 26/06/2015 : Analyse de sensibilité en présence d’entrées fonctionnelles Clémentine Prieur (LJK/Moise, Grenoble).
Résumé : Durant cet exposé, nous présenterons une méthodologie pour l’analyse de sensibilité d’un code numérique en présence d’entrées fonctionnelles corrélées. L’exposé sera motivé (resp. illustré) par (resp. sur) un exemple de sûreté nucléaire.

Travail joint avec S. Nanty (UJF, CEA Cadarache), C. Helbert (UCBL), A. Marrel et N. Perot (CEA Cadarache).

  • 19/06/2015 : DSML design and implementation for farming systems modeling Jean-Michel Bruel (IRIT, Université de Toulouse).
Résumé : Sustainability is a complex and multi-facet problem by definition. The overall understanding of the problem often requires intensive simulation of complex and heterogeneous models of the world. Unfortunately, there is currently no support for defining and relating such models at the right level of abstraction. This prevent scientists and the general public to define their own models in terms of their respective expertise and concern about the world. In the software and systems modeling community, research on domain-specific modeling languages (DSMLs) is focused, especially since the last decade, on providing technologies for developing languages and tools that allow domain experts to develop system solutions efficiently. In this presentation, we report an experiment which consists in defining DSMLs for farming systems using different methods, and illustrating the approaches and associated tools. The main objective is to help scientists and farmers to define the various models representing a farming system, and to help them reasoning on it for prediction and optimization. Incorporating domain-specific concepts and high-quality development experience into DSMLs can significantly help scientist and farmers to reason and optimize farming systems. Finally, we give some insights on perspectives that will illustrate the importance of the approach we advocate here.
  • 12/06/2014 : Filtre CSP sparse et classification de signaux EEG Marie Chavent (Institut de Mathématiques de Bordeaux) diaporama.
Résumé : L'objectif du travail présenté lors de cet exposé était de développer une méthode capable de déterminer automatiquement l'état de vigilance chez l'humain et ce afin de détecter automatiquement une modification de l'état de vigilance chez des personnes qui doivent rester dans un état de vigilance élevée (par exemple, les pilotes ou les personnels médicaux). Dans ce travail, les signaux électroencéphalographiques (EEG) de 58 sujets dans deux états de vigilance distincts (état de vigilance haut et bas) ont été recueillis à l'aide d'un casque à 58 électrodes posant ainsi un problème de classification binaire. Une approche de classification basée sur l'utilisation du Common Spatial Pattern (CSP) a été développée. La méthode CSP permet en effet de définir des combinaisons linéaires des variables initiales afin d'obtenir des signaux synthétiques utiles pour la tâche de classification. Mais afin d'envisager une utilisation de ces travaux sur une application du monde réel, il était nécessaire de construire une méthode de prédiction qui ne nécessite qu'un faible nombre de capteurs (électrodes) afin de limiter le temps de pose du casque à électrodes ainsi que son coût. Ainsi dans ce travail, un algorithme génétique ainsi que des méthodes de recherche séquentielle ont été proposés afin de sélectionner un sous groupes d'électrodes à conserver lors du calcul du CSP. Enfin, un algorithme de CSP parcimonieux basé sur l'utilisation des travaux existant sur l'analyse en composantes principales parcimonieuse a été développé. Les résultats de chacune des approches seront détaillés et comparés.
  • 05/06/2015 : Modélisation par processus gaussiens et conception de fonctions de covariances. Applications à l'étude du rythme circadien Nicolas Durrande (École des Mines de St Étienne) diaporama.
Résumé : Le contexte général de l'exposé est la construction de modèles mathématiques permettant d'étudier le comportement d'un phénomène à partir d'un nombre limité d'expériences. Nous verrons la méthode de krigeage sous deux points de vue (probabilités-statistiques et de l'analyse fonctionnelle) et nous mettrons l'accent sur la conception de fonctions de covariance adaptées à différent problèmes. Nous illustrerons l'intérêt de cette approche sur un cas d'application où nous chercherons à détecter, au sein du génome, les gènes susceptibles de jouer un rôle dans l'horloge circadienne. Pour cela, nous serons amenés à construire des fonctions de covariance permettant de quantifier la periodicité de l'expression d'un gène.
  • 29/05/2015 : Journée des doctorants
    • 10h00 Franck Cerruti Nouvelles approches bioinformatique pour l'analyse de la dynamique évolutive des petits ARNs non-codants et de leurs cibles chez les firmicutes
    • 10h20 Clément Viricel Approximate counting with deterministic guarantees for protein binding affinity
    • 10h40 Charlotte Dayde Comprendre le processus de prise de décision opérationnelle en agriculture
    • 11h00 Valérie Sautron Genetics systems of stress responses in pigs
    • 11h20 Jérôme Mariette Aggregating self organizing map with topology preservation
    • 11h40 Julia Radoszycki : Résolution de processus décisionnels de Markov à espaces d'état et d'action factorisés - Application en agroécologie
  • 22/05/2015 : Kolmogorov complexity and applications. Time series anomaly discovery with grammar-based compression. Pavel Senin (INRA, Unité MIAT) diaporama.
Résumé : Kolmogorov (i.e., algorithmic) complexity is a notion of randomness that deals with the quantity of information. Proposed by A.N. Kolmogorov in 1965 to quantify the information of individual objects in an objective manner, it laid a foundation for a number of modern techniques including Incompressibility method, Minimum Description Length (MDL), and Normalized Compression Distance (NCD). In the first part of this seminar, we shall review the foundations of Kolmogorov complexity as proposed by Solomonoff, Kolmogorov, and Chaitin, show its key properties, and discuss its prominent applications. Our Kolmogorov complexity-based technique for time series anomaly detection will be discussed in the second part of the seminar.

Pas de séminaire entre le 17 avril et le 15 mai (vacances scolaires + jours fériés).

  • 10/04/2015 : Sur la matrice d'information de Fisher dans le calcul du maximum de vraisemblance, avec des applications en modèles de choix discrets Fabian Bastin (Université de Montréal, Canada). diaporama
Résumé : La propriété de l'identité de la matrice d'information nous informe que pour un modèle correctement formulé, le hessien de la fonction de log-vraisemblance est égale, en espérance, à l'opposé de la matrice d'information de Fisher. Le résultat peut être étendu, sous certaines conditions assez restrictives, aux fonctions de pseudo-log-vraisemblance. Cette propriété a conduit à exploiter l'estimateur de la matrice d'information dans des méthodes quasi-Newton, donnant lieu a l'approximation BHHH. Cependant, en pratique, il est souvent difficile de garantir que le modèle proposé est effectivement correct, ce qui peut conduire à des dégradations significatives de l'approche BHHH, celle-ci pouvant même ne pas converger. Dans un premier temps, nous examinerons comment il est possible de combiner les approches BHHH avec des techniques de programmation non-linéaire classique pour garantir la convergence de la maximisation de vraisemblance, tout en exploitant la structure du problème pour accélérer cette convergence. Nous examinerons également comment l'identité de l'information peut être utilisée pour établir des tests d'hypothèses sur l'adéquation du modèle. Ces techniques seront illustrées pour les modèles de choix discrets, utilisés pour étudier les facteurs comportementaux de choix, notamment en transport et en gestion de revenu. Le modèle logit, introduit par Daniel McFadden, a été la pierre angulaire de ces modèles. La propriété associée d'indépendance des alternatives irrelevantes (IAI) a été une bénédiction théorique mais également un inconvénient majeur du modèle logit. Ceci a conduit les chercheurs et les praticiens à proposer diverses extensions dans le but de mieux capturer les observations et de relâcher l'hypothèse IIA. Parmi elles, nous examinerons en particulier le schéma "mixed logit" qui, selon Kenneth Train, "résoud les trois limitations du logit standard en permettant une variation de goût aléatoire, des schémas de substitution non-restreints, et la corrélation des facteurs non-observés au cours du temps".
  • 03/04/2015 : Deciphering genome content and evolutionary history of isolates from the fungal plant pathogen Magnaporthe Hélène Chiapello (MIAT, INRA de Toulouse).
Résumé : We have analyzed and compared a dataset of ten closely related genomes of the Magnaporthe oryzae/grisea species complex, a model pathogen fungus infecting rice and other Poaceaes. In four out of these nine genomes, we detected unexpected bacterial genomic regions assigned to Burkholderia fungorum. This study focused on the analysis of the Magnaporthe genomic regions and first revealed important variability in genome sizes between isolates [39-43 Mb]. These differences are consistent with variable gene amount among the 9 Magnaporthe isolates (12.283-14.781 genes) but don’t seem to be related neither to isolate specific genes known to be involved in pathogenicity, nor to isolate specific Transposable Elements families. We then constructed gene families to determine the core and pan-genomes of the 10 M. oryzae/grisae isolates. Evolutionary history of the predicted ortholog families was investigated using a recent method named Bayesian Concordance Analysis. We built a reference genealogy of these 10 isolates and showed a bifurcating evolution outside the lineage of isolates pathogenic to rice, and reticulate evolution within this lineage. The low level of nucleotidic diversity within the “rice” lineage suggested its recent divergence. The reticulate evolution observed in this lineage was consistent with a weak signal of recombination, but might be mainly due to incomplete lineage sorting. We also showed that a small but non-negligible proportion of the 7015 genome has a non-rice origin. Our results confirmed that the strict biological specificity of M. oryzae on different host plants was accompanied by a divergence of lineages without gene flow, and showed that adaptation to different plants does not seem to rely mainly on different gene content.
  • 27/03/2015 : Une approche par planification automatique à la cartographie en ligne par drone autonome Alexandre Albore (MIAT, INRA de Toulouse).
Résumé : Je vous présente les premiers résultats du projet de post-doc sur la cartographie automatique de plantes adventices (mauvaises herbes) par drone, une collaboration Onera-INRA. Le défi est de réaliser une plateforme utilisable "on demand" qui réalise une série d'observations de sites dans un champ pour reconstituer le mieux possible une carte de la distribution d'adventices, tout en tenant compte des limitations en temps de vol et en ressources. Ces premiers résultats ont été publiés à la conférence de planification automatique ICAPS 2015. La cartographie de la distribution de plantes adventices (mauvaises herbes) sur les champs cultivés est un support essentiel aux procès décisionnels de l'agriculteur. Établir manuellement ces cartes (soit par des annotateurs humains, que par des drones pilotés) est un processus coûteux et chronophage surtout sur de grandes étendues ou sur des domaines à l'orographie complexe. Une approche automatique s'impose! On illustrera donc une approche à la cartographie d'adventices par drone totalement autonome, équipé d'un algorithme capable de décisions dans l'incertain. Le problème de cartographier un champ se transforme, du point de vue de la décision en ligne, en un problème d’échantillonnage dans un Champ de Markov, ce qui nous permet de codifier l'incertitude sur la carte élaborée et sa qualité. Une stratégie d’échantillonnage est établie par un planificateur de façon à maximiser la qualité de la carte finale et de minimiser le temps de vol, car ce problème présente de fortes contraintes temporelles dues à la durée limitée de la batterie du drone. Le problème de planification est trop complexe (PSPACE difficile) pour être résolu de façon exacte, on opte pour une approche de planification/replanification, commune en robotique où l'environnement est dynamique, qui prend en compte aussi la durée de la batterie comme variable du problème, en générant que des plans qui permettent au drone de recréer une carte de bonne qualité sans dépasser les limites de navigation imposées par la batterie. Cette approche se compare très favorablement à d'autres approches existantes pouvant être utilisées en-ligne et à-la-demande, dans le contexte de la cartographie par drone autonome.
  • 20/03/2015 : Modelling greenhouse gas fluxes from European agriculture soils in support of decision making Lily Paniagua (JRC, European Commission, Ispra, Italy).
Résumé : The agricultural sector is challenged by securing food and industry fibre to a global population that is growing under changing climate conditions. Agriculture is the main source of greenhouse gas (GHG) emissions of non-CO2 gases like methane (CH4) and nitrous oxide (N2O). Mitigation strategies are promoted and implemented as this sector represents a low cost opportunity of emission reduction. Estimates of N2O fluxes from agriculture reported to UNFCCC present the highest uncertainty from all sectors. The challenge remains in defining robust emission factors that quantify the relationship between nitrogen (N) inputs and its effect on N2O emissions. This relationship depends on environmental factors which vary in space (soil, hydrology) and time (management practices and weather), and methods that cover both aspects are still needed. Bottom-up methods are based on field measurements, but their number is limited and they do not represent the spatial heterogeneity of Europe. There is a need to design a flexible modelling framework that allows to calculate N2O fluxes at different scales in a consistent way, based on the fact that data variability is very high and expensive to measure. The overall objective of this research is to model greenhouse gases (GHG) flows at European scale in response to agriculture management practices for support of decision making. This framework will be used for model integration, data assimilation and forecast of emissions scenarios according to crop adaptations and farming practices to future climate conditions.

This is a joint work with Adrian Leip (JRC, European Commission, Ispra, Italy) and Wim de Vries (Wageningen University).

  • 13/03/2015 : Identification et Quantification de métabolites dans un spectre RMN Rémi Servien (ENVT, INRA de Toulouse). diaporama
Résumé : Nous nous intéressons ici à un problème rencontré en métabolomique. Ce domaine vise à caractériser la composition d'un mélange complexe par ses métabolites i.e. ses petites molécules. Les spectromètres RMN fournissent un spectre de mélange complexe qui est la superposition des spectres des métabolites purs. Chaque métabolite possède un spectre caractéristique, sa signature, qui le rend identifiable. Cependant, la reconnaissance automatique des métabolites dans un mélange complexe est rendu délicate par des problèmes comme la déformation du spectre (translation, dilatation ...) ou la superposition des pics. Nous proposons ici une méthode permettant d'identifier et de quantifier rapidement les métabolites dans un spectre complexe. Nous estimons tout d'abord les déformations à l'aide d'une procédure itérative puis nous calculons les proportions des métabolites de manière simultanée en utilisant un algorithme de programmation linéaire. Cette procédure, testée sur différents mélanges, s'avère performante et rapide.
  • 6/03/2015 : Global Optimization with Sparse and Local Gaussian Process Models Tipaluck Krityakierne (Université de Berne, Suisse).
Résumé : Many engineering problems, for example, in watershed management and groundwater bioremediation, require the optimization of objective functions whose values are obtained from time-consuming black-box simulations. To reduce the computational cost, surrogate models are often employed to approximate the expensive simulation model and decide at which points the next computationally expensive function evaluation should be done. Gaussian processes (GPs) have been widely used in the literature since they provide an elegant way to model the objective function and deal with the exploration and exploitation trade-off. Nevertheless, the time-complexity and storage bottlenecks, as well as potential singularity problems for the covariance matrix, are their main practical limitations when the number of observation points gets large. A number of sparse Gaussian processes have been proposed to circumvent this limitation. In this presentation, we review some of these methods and present a novel global optimization framework based on sparse GPs. Without being overly confident, one may already say that the proposed approach offers promising perspectives for performing GP-based optimization with tens of thousands of observations. Besides this, a number of research questions arise and will be touched upon during the presentation.
  • 27/02/2015 : The optimal number of surveys when detectability varies unpredictably Alana Moore (University of Melbourne and MIA-T). diaporama
Résumé : The survey of plant and animal populations is central to undertaking field ecology. However, detection is imperfect, so the absence of a species cannot be determined with certainty. Methods developed to account for imperfect detectability during surveys do not yet account for unpredictable variation in detectability over time or space. When each survey entails a fixed cost that is not spent searching (e.g., time required to travel to the site), unpredictable variation in detectability results in a trade-off between the number of surveys and the length of each survey when surveying a single site. We present a model that addresses this trade-off and use it to determine the number of surveys that: 1) maximizes the expected probability of detection over the entire survey period; and 2) is most likely to achieve a minimally-acceptable probability of detection. We illustrate the applicability of our approach using three practical examples (minimum survey effort protocols, number of frog surveys per season and number of quadrats per site to detect a plant species) and test our model’s predictions using data from experimental plant surveys. We find that surveys can be made more efficient if unpredictable variation in detectability is taken into account. Further, the effort required to guarantee a particular probability of detection is likely to be underestimated if this variability is not accounted for in survey designs. We find that accounting for variable detection rates is likely to be particularly important for designing surveys when species detection rates are low. Our model provides a framework to do this.

Pas de séminaire les 13 et 20 février (vacances scolaires).

  • exceptionnellement séminaires joints les 05 et 06 février de 10h30 à 12h, salle de conférence de l'INRA d'Auzeville

Lei Sun (Department of Statistical Siences, University of Toronto) Hypothesis-driven GWAS identifies missing heritability: application to Meconimum Illues in Cystic Fibrosis

Résumé : It is often the case that a genome-‐wide association study (GWAS) successfully identifies one or a few susceptibility loci but the associated variants account for only a small proportion of the heritability. In the literature, efforts on identifying the missing heritability include for example analyzing imputed un­‐genotyped SNPs and copy-­number variations (CNVs), exploring GxG interactions, and more recently generating next generation sequencing (NGS) data and studying rare variants, but mostly with limited success so far. To this end, we proposed a hypothesis driven GWAS (GWAS-­HD) analytical framework that improves power by incorporating sound biological hypothesis into the prioritization and interpretation of the initial GWAS results. GWAS­‐HD uses the stratified false discovery control (sFDR) (Sun et al. 2006) to re-­evaluate the initial association evidence for all GWAS SNPs, and it also determines the statistical significance of the biological hypothesis itself, testing all high priority SNPs jointly. Prioritization of the genome is not new and is a key feature in many alternative approaches such as pathway or gene enrichment analyses. However, GWAS-­HD is not an inclusion or exclusion type of prioritization approach and has a robustness feature that safeguards against uninformative or even misleading prior information. To demonstrate the practical relevance of the method, I discuss two GWAS of Cystic Fibrosis modifier genes, in which over 500,000 SNPs are investigated for association with lung functions in individuals with CF and the available prior is of quantitative nature (Wright et al. 2011, Nature Genetics 43:539‐548), and for association with meconium ileus and the prior is of categorical nature (Sun et al. 2012, Nature Genetics 44:562-­‐569). The applications show that the GWAS-­HD framework can yield considerable amount of additional information than the standard GWAS approach. GWAS-­HD can be applied to other Mendelian disorders or even complex traits provided there is relevant prior information available.

Radu Craiu (Department of Statistical Sciences, University of Toronto) Bayesian latent variable modelling of longitudinal family data for genetic pleiotropy studies

Résumé : Motivated by genetic association studies of pleiotropy, we propose a Bayesian latent variable approach to jointly study multiple outcomes or phenotypes. The proposed method models both continuous and binary phenotypes, and it accounts for serial and familial correlations when longitudinal and pedigree data have been collected. We present a Bayesian estimation method for the model parameters and we discuss some of the model misspecification effects. Central to the analysis is a novel MCMC algorithm that builds upon hierarchical centering and parameter expansion techniques to efficiently sample the posterior distribution. We discuss phenotype and model selection, and we study the performance of two selection strategies based on Bayes factors and spike-and-slab priors.
  • 30/01/2015 : Nouvelles perspectives pour l’analyse d’incertitudes et de sensibilité : comment gérer la grande dimension et les entrées/sorties fonctionnelles. Sébastien Da Veiga (SNECMA, Paris). diaporama
Résumé : La quantification d'incertitudes et l'analyse de sensibilité sont des outils désormais essentiels dans l'étude des codes numériques coûteux. De très nombreux exemples d'applications industrielles, dans des domaines aussi variés que l'aéronautique, l'automobile, le nucléaire ou l'ingénierie pétrolière ont démontré l'intérêt de ces méthodes pour mieux évaluer l'incertitude des prévisions et identifier de manière précise quelles sont les entrées responsables des plus grosses variations des sorties. Ces dernières années ont vu le développement d'une grande variété de techniques pour l'analyse de sensibilité, que l'on peut classer en quatre catégories principales : 1) celles destinées à réduire le nombre d'évaluation du code numérique pour estimer les indices de sensibilité de Sobol (nouveaux estimateurs statistiques, utilisation de métamodèles, ...) ; 2) celles visant à améliorer les procédures de screening qualitatif pour éliminer rapidement un grand nombre de variables d'entrée non-influentes rapidement (screening de Morris, ...) ; 3) celles dédiées à la construction de nouveaux indices n'étant pas basés sur l'étude de la variance de la sortie (sensibilité pour la probabilité de dépassement d'un seuil, sensibilité globale avec dérivées, indices distributionnels) ; 4) celles dont l'objectif est de prendre en compte le caractère fonctionnel d'entrées ou de sorties du code numérique (courbes, cartes 2D ou cubes 3D, ...). Si dans chacune de ces catégories des méthodes efficaces ont été développées, il n'existe pas d'intersection claire entre les approches et le praticien peut vite se retrouver perdu face à un tel éventail de techniques. D'autre part, le traitement de la grande dimension et la prise en compte d'entrées/sorties fonctionnelles sont toujours des sujets de recherche actuels car les solutions proposées jusqu'à aujourd'hui ne sont pas complètement satisfaisantes. Dans cet exposé, nous introduisons un cadre unifié pour l'analyse de sensibilité grâce à l'utilisation de noyaux, capable de gérer des données fonctionnelles de manière naturelle tout en proposant des indices dont le calcul n'implique pas un grand nombre d'évaluations du code. Cette spécificité, ainsi que les liens de notre approche avec la sélection de variables en très grande dimension, en font entre autre un cadre particulièrement adapté pour le screening. Nous verrons également que les indices de sensibilité de Sobol apparaissent comme un cas particulier de ces nouveaux indices quand un certain noyau est choisi, et qu'il est également possible d'obtenir un équivalent de la décomposition de la variance en effets principaux, interactions, etc. Ces résultats récents font d'un tel cadre une généralisation naturelle et complète de l'analyse de sensibilité classique. D'un point de vue pratique, nous illustrerons les apports de cette nouvelle approche sur plusieurs exemples analytiques en grande dimension et des applications industrielles dont les sorties sont des cartes 2D ou des cubes 3D.
  • 23/01/2015 : Mise au point d'outils d'aide à la sélection génomique avec prise en compte de données dépendantes de facteurs environnementaux Daniel Ruiz (ENSEEIHT).
Résumé : Depuis de nombreuses années, les semenciers travaillent à améliorer les caractéristiques phénotypiques des maïs, afin d’augmenter les rendements, de les rendre moins sensibles à la verse ou à diverses maladies, par exemple. Les avancées faites dans les domaines du marquage moléculaire (puces à haute densité de génotypage SNP -- Single Nucleotide Polymorphism) ouvrent aujourd’hui de nouvelles perspectives dans le secteur de la création variétale. Le travail présenté se place dans le contexte du projet GBDS (Genomic Breeding Decision Support), financé dans le cadre du 13ème appel FUI. L'ambition du projet GBds est la mise au point d'outils statistiques d'aide à la création de variétés de maïs, permettant de prédire la valeur génétique d'un hybride, grâce au génotypage haute densité de ses lignées parentales et à l'observation de divers caractères phénotypiques (rendement, date de floraison, taux d'humidité à la récolte, etc ...) sous contraintes environnementales variés. Un aspect important concerne la modélisation de l’interaction Génotype Environnement (GxE), car l'effet environnemental (lieu, année, essai, climat…) est prépondérant dans les données phénotypiques et introduit des variations importantes dans l'évaluation de la valeur génétique seule. Il est donc nécessaire d’ajuster les observations phénotypiques des hybrides pour extraire une TBV (True Breeding Value), qui représente le potentiel génétique corrigé des variations GxE, exploitable en entrée d'algorithmes de type MLM (Modèle Linéaire Mixte). Une première difficulté provient de la présence de données très déséquilibrées dans les jeux de données des semenciers du fait que tous les hybrides ne sont pas testés dans tous les environnements (précocités différentes des plantes, dispositifs expérimentaux limités…), complexifiant l'évaluation des interactions GxE. La seconde difficulté vient du fait que, si l’information génétique à haute densité disponible permet d’imaginer de nouvelles approches de sélection, les volumes de données en jeu requièrent des développements spécifiques dans les domaines mathématiques et algorithmiques.
  • 16/01/2015 : pas de séminaire : soutenance de thèse de Hiep Nguyen - jeudi 15 janvier à 13h30 , Salle de séminaire de l'IFR, INRA

Titre : Strong consistencies for Cost Function Networks

Résumé : : This thesis focuses on strong local consistencies for solving optimization problems in costfunction networks (or weighted constraint networks). These methods provide the lowerbound necessary for Branch-and-Bound search. We first study the Virtual arc consistency,one of the strongest soft arc consistencies, which is enforced by iteratively establishing hardarc consistency in a sequence of classical Constraint Networks. The algorithm enforcingVAC is improved by integrating the dynamic arc consistency to exploit its incrementalbehavior. The dynamic arc consistency also allows to improve VAC when maintained VACduring search by efficiently exploiting the changes caused by branching operations. Sec-ondly, we are interested in stronger domain-based soft consistencies, inspired from similarconsistencies in hard constraint networks (path inverse consistency, restricted or Max-restricted path consistencies). From each of these hard consistencies, many soft variantshave been proposed for weighted constraint networks. The new consistencies provide lowerbounds stronger than soft arc consistencies by processing triplets of variables connectedtwo-by-two by binary cost functions. We have studied the properties of these new consis-tencies, implemented and tested them on a variety of problems.

Mots-clés : Weighted CSP • Cost Function Networks • Strong local consistencies • Highorder consistencies • Dynamic arc consistency • Virtual arc consistency

  • 09/01/2015 : Towards a new vision of heredity / Vers une nouvelle vision de l'hérédité Étienne Danchin (Écologie et Diversité Biologique, Toulouse).
Résumé : Many biologists are calling for an ‘extended evolutionary synthesis’ that would ‘modernize the modern synthesis’ of evolution. Biological information is typically considered as being transmitted across generations by the DNA sequence alone, but accumulating evidence indicates that both genetic and non-genetic inheritance, and the interactions between them, have important effects on evolutionary outcomes. I will review some evidence for such effects of epigenetic and cultural inheritance on the transmission of phenotypic variation across generations. These issues have major implications for diverse domains, including medicine where they may profoundly affect research strategies. For instance, non-genetic inheritance may explain a significant part of one of the major enigma of current molecular biology, namely the case of the missing heritability, which concerns many human supposedly genetic disorders. The missing heritability rather suggests that we should abandon the current genocentric framework of inheritance and adopt a broader view of biology including all of non-genetic inheritance into an "Inclusive Evolutionary Synthesis".

Pas de séminaire les 26 décembre et 2 janvier (vacances scolaires).

  • 19/12/2014 : Network visualization of conformational sampling during molecular dynamics simulation Osamu Miyashita (RIKEN Advanced Institute for Computational Sciences). slides
Résumé : Molecular dynamics (MD) simulation is a widely used approach for investigating the dynamics of biomolecules. With increases in computer processing power and the advent of enhanced sampling techniques, an extensive range of conformational changes may be probed with MD simulation. As a result, increasingly large data sets must be analyzed in order to elucidate the relevant conformational states of a particular system and the interpretation of a trajectory may become exceedingly complex. Therefore effective data reduction methods are necessary for uncovering the conformational relationships present in large MD trajectories. Clustering algorithms provide a means to interpret the conformational sampling of molecules during simulation by grouping trajectory snapshots into a few subgroups, or clusters, but the relationships between the individual clusters may not be readily understood. Here we show that network analysis can be used to visualize the dominant conformational states explored during simulation as well as the connectivity between them, providing a more coherent description of conformational space than traditional clustering techniques alone. Network annotations also increase the information content of the ensemble representations and are especially useful for visualizing the relationships between representative structures from clustering, experimental structures, and the simulated ensemble so as to reach functional conclusions. We compare the results of network visualization against 11 clustering algorithms and principal component conformer plots. Several examples of proteins undergoing distinct conformational changes demonstrate the effectiveness of network representations in understanding the conformational space explored by MD trajectories. In summary, network visualization can serve as an effective tool for uncovering the inherent conformational relationships in large MD trajectories. Networks reveal the relationship of experimental and representative structures to the simulated conformational ensemble and are instrumental in arriving at new functional insights.
  • 12/12/2014 : Data Assimilation Concepts (with an application to oceanography) Selime Gurol (CERFACS, Toulouse).
Résumé : Data assimilation is at the core of the research as a key solver to improve the estimation of the physical parameters arising in earth systems problems including oceanography, atmospheric sciences and also land studies. In this talk; one of the efficient solution approximation for these systems, four dimensional variational (4D-Var) data assimilation method, is considered with an application to ocean data assimilation systems. Variational assimilation seeks to solve a regularized nonlinear least-squares problem to determine a model state that optimally fits both observational information and a priori information. The fit is quantified by a cost function that measures the sum of the weighted squared differences between the available information and the corresponding model-predicted fields. In this talk, first the main concepts of data assimilation are explained and then a practical application from oceanography will be presented.
  • 09/12/2014 : Constraint programming on infinite data streams Jimmy Lee (Department of Computer Science and Engineering, The Chinese University of Hong Kong)
Résumé : Classical constraint satisfaction problems (CSPs) are commonly defined on finite domains. In real life, constrained quantities can evolve over time. A variable can actually take an infinite sequence of values over discrete time points. In this talk, we propose constraint programming on infinite data streams, which provides a natural way to model constrained time-varying problems. In our framework, variable domains are specified by omega-regular languages. We introduce special stream operators as basis to form stream expressions and constraints. Stream CSPs have infinite search space. We propose a search procedure that can recognize and avoid infinite search over duplicate search space. The solution set of a stream CSP can be represented by a Büchi automaton allowing stream values to be non-periodic. Consistency notions are defined to reduce the search space early. A prototype solver allows us to solve such interesting problems as eventually still life problem, traffic light control, jazzy elevator music generation, declarative specification and solving of the 15-puzzle, improvised juggling patterns, and video game engine synthesis. As diverse as these applications are, they share similar characteristics as controller specification and synthesis. Last but not least, we demonstrate how the solution automaton of a stream CSP can be used to control robotic hardware in real-time.
  • 05/12/2014 : pas de séminaire : soutenance de thèse de Magali Champion - vendredi 5 décembre à 10h30, amphithéâtre Schwartz, bâtiment 1R3 de l'Institut de Mathématiques de Toulouse, Université Paul Sabatier

Titre : Contribution à la modélisation et l'inférence de réseaux de régulation de gènes

Résumé : : Cette thèse propose des développements autour de l'étude théorique et l'utilisation de méthodes statistiques mathématiques et d'optimisation dans le contexte des réseaux géniques. De tels réseaux sont des outils puissants de représentation et d'analyse de systèmes biologiques complexes, et permettent de modéliser des relations fonctionnelles entre les éléments qui composent ces systèmes. La première partie de cette thèse est consacrée à l'étude de méthodes d'apprentissage statistique pour inférer ces réseaux par le biais de régressions parcimonieuses dans le contexte de grande dimension, et plus particulièrement les algorithmes de L2-Boosting. D'un point de vue théorique, nous montrons des résultats de consistance et de stabilité du support, sous des hypothèses concernant notamment la dimension du problème. La deuxième partie concerne l'utilisation des algorithmes de L2-Boosting pour l'apprentissage d'indices de Sobol dans le cadre d'analyse de sensibilité. Pour estimer ces indices, on s'appuie sur la décomposition du modèle sous forme de fonctionnelles d'ANOVA. Les composantes sont estimées via une procédure d'orthogonalisation hiérarchique de Gram-Schmidt, visant à construire une approximation de la base analytique, et une procédure de L2-Boosting pour reconstruire une approximation parcimonieuse du signal. Nous montrons alors que l'estimateur obtenu est consistant dans un contexte de bruit sur le dictionnaire d'approximation. La dernière partie concerne enfin le développement de méthodes d'optimisation pour estimer des interactions au sein de réseaux. Nous montrons que le problème de minimisation de la log-vraisemblance peut être réécrit sous la forme d'un problème de double optimisation, consistant à trouver la forme complète du graphe (ordre des variables au sein du graphe) puis à le rendre parcimonieux. Nous proposons de le résoudre par le biais d'un algorithme génétique, spécifiquement adapté à la structure de notre problème.

Mots-clés : statistique, grande dimension, régression, parcimonie, optimisation.

  • 28/11/2014: pas de séminaire : visite de AERES
  • 21/11/2014: Analyse des réseaux métaboliques et de leur régulation , Lucas Marmiesse (LIPM - INRA Toulouse). slides
Résumé : : L'étude de la physiologie cellulaire passe par l'analyse de différents niveaux de réseaux biologiques. Le réseau le plus étudié est le réseau métabolique car il est directement responsable du phénotype de la cellule. Cependant l'étude du métabolisme seul ne permet pas de comprendre les différences observées entre deux cellules différenciées d'un organisme, ou le comportement d'un micro-organisme en fonction de l'environnement. En effet, au cours de l'évolution, des réseaux de régulation complexes permettant de n'exprimer qu'une partie de leurs gènes selon certaines conditions se sont mis en place dans les cellules. À l'échelle d'une cellule, les paramètres cinétiques agissant sur les réseaux métaboliques et de régulation sont impossibles à définir tous. Nous évoquerons ici différents modèles permettant de les contourner : les modèles à base de contraintes, et plus spécifiquement l'analyse de balance des flux, pour les réseaux métaboliques, et les modèles logiques pour les réseaux de régulation. Enfin, nous nous intéresserons aux moyens d'interfacer ces deux réseaux pour pouvoir analyser l'effet de l'un sur l'autre.

This is a joint work with Ludovic Cottret, LIPM/INRA

  • 14/11/2014 : Les réseaux élastiques : un outil pour étudier la relation structure-fonction des protéines, Yves-Henri Sanejouand (CNRS, Nantes).
Résumé : Above its "folding temperature", a protein behaves like any polymer. Below, it has a given tridimensional structure, which allows the protein to function as a specific catalist or binder, this structure being so well defined that the position of most of its atoms can often be determined at the atomic scale. The structure of a protein can be described as a graph whose nodes are the amino-acids, the edges corresponding to pairs of amino-acids close enough in space. Such a description actually allows to predict fairly well the amplitude of the brownian motion of each amino-acid, as assessed for instance by protein crystallographic data. In order to also predict the direction of the motion of the amino-acids, tridimensional graphs can be considered. Associating an harmonic spring to each edge yields collective motions (the low-frequency modes of the system) that turned out to be relevant for protein function, namely, the kind of motion the protein experiences when it binds its ligand or to another protein. Applications have been proposed, noteworthy in the field of structural biology, which try to take advantage of these results.
  • 07/11/2014 : Fragment-based protein structure prediction and design David Simoncini (Unité MIA-T - INRA Toulouse). slides
Résumé : Proteins are fundamental components of all living cells and are among the most studied biological molecules. They are involved in numerous diseases and being able to determine their 3D structures provides critical clues to their functions. Computational protein structure prediction relies on Christian Anfinsen's hypothesis that the 3D structure of a protein is determined only by its amino acid sequence. Fragment assembly is a widely accepted method of protein structure prediction that builds protein models from a pool of candidate fragments taken from known structures. During this talk, we will first give an overview of the fragment-based approach for protein structure prediction. We will then present EdaFold, a fragment-based method using an estimation of distribution algorithm. Finally, we will show how we can modify Edafold so that it tackles the inverse problem of finding an amino acid sequence which matches a given 3D scaffold (computational protein design).

Pas de séminaire les 24 et 31 octobre (vacances scolaires).

  • 17/10/2014: Sampling-based algorithms for pathfinding on continuous cost-spaces: applications in robotics and structural biology, Juan Cortès (LAAS Toulouse)
Résumé : In robotics, motion planning algorithms have traditionally aimed at finding feasible, collision-free paths for a mobile system. However, beyond feasible solutions, in many applications it is important to compute good-quality paths with respect to a given cost criterion. When a cost function is defined on the configuration space of the system, motion planning becomes a pathfinding problem in a continuous cost-space. The cost function associated with robot configurations may be defined from the distance to obstacles in order to find high-clearance solution paths. It may also be related to controllability, to energy consumption, or to many other different criteria. In computational structural biology, where robotics-inpirered algorithms are applied to simulate molecular motions, the cost function is usually defined by the potential energy or the free energy of the molecular system. Computing low energy paths in this context is important since they correspond to the most probable conformational transitions. We have developed a variant of the popular RRT algorithm, called Transition-RRT (T-RRT), to compute good-quality paths in high dimensional continuous cost-spaces. The idea is to integrate a stochastic state-transition test, similarly to the Metropolis Monte Carlo method, which makes the exploration get focused on low-cost regions of the space. The algorithm involves a self-tuning mechanism that controls the difficulty of this transition test depending on the evolution of the exploration process, and which significantly contributes to the overall performance of the method. T-RRT is a simple and general algorithm that can take into account any type of continuous, smooth cost function defined on the configuration space. It has been successfully applied to diverse robot path-planning problems as well as structural biology problems. We have also developed several variants and improvements of the basic T-RRT algorithm to solve more efficiently particular classes of problems, and to guarantee (asymptotic) convergency to the optimal solution in an any-time fashion.
  • 10/10/2014: Stochastic block Model for Multiplex, Avner Bar-Hen (MAP5, Université Paris Descartes). slides
Résumé : Modeling relational information among individuals is a classical question and grouping the individuals allows a structure based on the observed patterns of interactions to be uncovered. Stochastic block model (SBM) is a popular approach for defining a network partition. Multiplex networks allow more than one edge between two individuals and are used when the relationships between individuals can be of various types. The aim is to extend the SBM model to multiplex in order to have a clustering based on more than one kind of relationship. A model is proposed and a procedure to obtain the maximum likelihood estimates of the parameters, such as the marginal probabilities of assignment to groups and the matrix of probabilities of connections between groups, is detailed. The number of groups is chosen thanks to a penalized likelihood criterion. Multiplex Stochastic Block Model arise in many situations but our applied example is motivated by a network of French cancer researchers. The two possible links between researchers are a direct connection or a connection through their labs. Our results show strong interactions between these two kinds of connections and the groups that are obtained are discussed to emphasize the common features of researchers grouped together.

This is a joint work with Pierre Barbillon and Sophie Donnet, AgroParisTech/INRA

  • 03/10/2014: Conception de vergers maraîchers à MIAT, Marc Tchamitchian (INRA, Ecodéveloppement, Avignon).
Résumé : Organic vegetable production systems are a solution to address the current concerns about the environmental impact of agriculture (Bellon and Hemptinne, 2012). However, these systems remain relatively specialized. Agroforestry systems mixing fruit trees and vegetable crops make a better use of biodiversity and offer a good response to economic challenges such as being able to fulfill the local market requirements, continuous provisioning of vegetable but diversified food. Designing mixed cropping systems based on fruit and vegetable is a real challenge because they combine interactions of different nature (ecological, economical and social), which take place both in time and space. Therefore, automatically building prototypes exploiting the advantages of agroforestry would be of great help. The goal of this study is to assess the validity of the methodological choice to design mixed fruit-vegetable cropping systems by automatic inference using the constraint satisfaction problem approach. The following part surveys the knowledge necessary to describe such mixed systems and how it has been modeled as constraints. The next part presents and discusses the results obtained so far.
  • 26/09/2014: Séminaire annulé
  • 19/09/2014: Allocation dynamique de ressources et modèles de bandits, Aurélien Garivier (Institut de Mathématiques de Toulouse). slides
Résumé : Un agent doit choisir, à chaque instant, une action parmi une famille d'actions disponibles. Chaque action conduit à une récompense aléatoire de distribution inconnue. Comment doit-il s'y prendre pour maximiser la somme des récompenses qu'il recueille ? Une bonne politique doit réaliser un savant équilibre entre l'exploitation des actions qui se sont révélées payantes par le passé et l'exploration de nouvelles possibilités qui pourraient s'avérer encore meilleures. L'étude mathématique de ces problèmes dits de bandits (en référence à la situation paradigmatique d'un joueur faisant face à une lignée de machines à sous) remonte aux années 1930. De nombreux travaux ont suivi : on présentera principalement dans cet exposé les algorithmes dits "optimistes", qui accordent toujours le bénéfice du doute aux actions mal connues, et qui ont l'avantage de pouvoir être appliquées dans une grande variété de situations.
  • 12/09/2014: Résolution approchée de processus décisionnels de Markov factorisés , Julia Radoszycki (Unité MIA-T - INRA Toulouse). slides
Résumé : Les processus décisionnels de Markov forment un cadre intéressant pour la décision séquentielle dans l'incertain. Cependant, l'application à des problèmes réels n'est pas directe quand l'espace d'état et l'espace d'action sont factorisés (décrits par un grand nombre de variables). La plupart des algorithmes existants ne s'appliquent pas quand le nombre de variables d'état et d'action excède 30, ou alors des hypothèses fortes sont faites sur la fonction de transition ou la fonction de valeur. Nous proposons une nouvelle approche basée sur la recherche de politiques stochastiques factorisées dont la structure est donnée. Notre approche consiste à utiliser un algorithme d'optimisation continue, et une méthode variationnelle pour l'évaluation approchée de la fonction objectif. Des expériences sur un problème jouet montrent que notre approche permet de traiter des problèmes ayant 100 variables d'état et d'action.
  • 25/07/2014: Registration of Brain Anatomy and Morphometry: Comparing genus zero surfaces , Patrice Koehl (UC Davis, Computer Science Dpt./Genome Center).
Résumé : In general, methods that compare shapes can be classified into two categories: those that derive features (also called shape descriptors) for each shape separately that can then be compared using standard distance functions, and those that directly attempt to map one shape onto the other, thereby providing both local and non-local elements for comparison. I am currently interested in developing methods that generate mappings between two shapes that are defined by surfaces of genus zero. We have recently proposed a new algorithm for shape registration based on the idea of a globally optimal conformal mapping between two surfaces of genus zero. In this approach, the whole mesh representing the source surface is warped onto the target surface, using the mapping defined through the composition of discrete conformal mappings of the surfaces onto the sphere and the Möbius transformation between these mappings. The Möbius transformation is then optimized to lead to minimal distortion between the source mesh and its image, where distortion is measured as difference from isometry.

This is a joint work with Joel Hass (UC Davis), Nina Amenta (UC Davis), Owen Carmichael (UC Davis).

  • 04/07/2014: Grammar-driven patterns discovery in time series, Pavel Senin (MIAT, INRA Toulouse).
Résumé : The problem of recurrent and anomalous patterns discovery in time series has received a lot of attention from researchers in the past decade since this ability not only provides the capacity to explore, to summarize, and to compress large datasets, but effectively translates into the capability to support decision making processes in many areas by conveying critical and actionable information, such as in health care, equipment safety, and in security. However, most of the proposed techniques require the user to provide the length of a potential pattern, which is often unreasonable for real-world problems. Addressing this limitation, we propose a technique that uses grammar induction to aid in the recurrent and anomalous patterns detection without any prior knowledge about the phenomenon duration. Our algorithm is capable of discovering co-occurring variable-length structural time series patterns and effectively extends the current state of the art. In addition, we show a highly efficient variant of our algorithm that is capable of discovering anomalous subsequences of variable length without computing costly distance functions - a procedure that typically accounts for up to 99% of most algorithms' computation time. Finally, we show and provide an implementation and a visualization tool.
  • 23/06/2014 (14h00): Attention ! Exceptionnellement un lundi ! Optimal decision-making to protect endangered species], Sam Nicol, CSIRO Ecosystem ScienceS.
Résumé : Natural resource managers are required to prevent extinction of endangered species and to control or eradicate invasive species. These objectives must be completed with limited resources and often management decisions must be taken with limited data and uncertainty about how systems will evolve in both space and time. The best practice method for managing ecological systems under uncertainty is adaptive management, an iterative process of reducing uncertainty while simultaneously optimizing a management objective. While the term ‘adaptive management’ was created by fisheries scientists for use in natural resource management, the problems of optimal decision making under uncertainty are familiar to mathematicians in other fields. In particular, adaptive management can be modelled using a discrete-time stochastic control technique called a partially observable Markov decision process. In this talk I will demonstrate how techniques borrowed from decision theory, artificial intelligence and operations research are being applied to aid decision making for conservation problems. Along with other examples, I will refer to my most recent work on managing an international network of migratory shorebirds that is threatened by the habitat loss that will be caused by an uncertain extent of sea level rise.
  • 20/06/2014: Parametric Estimation of Ordinary Differential Equations with Orthogonality Conditions, Nicolas Brunel, (ENSIEE, Evry).
Résumé : L'estimation d'équations différentielles ordinaires (EDO) par les approches de type moindres carrés non-linéaires ont tendance à aboutir des problèmes d'optimisation complexe et mal-posé. Des estimateurs alternatifs ont donc été proposés pour obtenir des estimateurs fiables. En s'inspirant d'une approche "Analyse de Données Fonctionnelles", nous proposons un estimateur "gradient matching" pour l'estimation des paramètres d'une EDO, lorsque les trajectoires sont observées avec du bruit. A partir d'une approximation non-paramétrique de la vraie trajectoire, nous construisons une estimateur paramétrique à partir d'une caractérisation variationnelle de la solution. L'estimateur introduit soit alors satisfaire un ensemble de conditions d'orthogonalité qui sont alors résolues au sens des moindres carrés. Malgré l'utilisation d'un estimateur non paramétrique, l'estimateur obtenu a bien la vitesse de convergence en racine de n, et est asymptotiquement normal. Nous obtenons aussi des intervalles de confiance grâce à une expression explicite de la variance asymptotique, et nous donnons une moyen pratique de calcul.
  • 06/06/2014: Sequential actions in a reasonable world - On the locality of action domination in sequential decision making, Emmanuel Rachelson (ISAE SupAero).

(Although the following abstract sounds rather technical, the presentation contains many fun and intuitive results and should be accessible for an audience that has no expertise in Reinforcement Learning)

Résumé : In the field of sequential decision making and reinforcement learning, it has been observed that good policies for most problems exhibit a significant amount of structure. In practice, this implies that when a learning agent discovers an action is better than any other in a given state, this action actually happens to also dominate in a certain neighbourhood around that state. This presentation will highlight some results proving that this notion of locality in action domination can be linked to the smoothness of the environment’s underlying stochastic model. Namely, we link the Lipschitz continuity of a Markov Decision Process to the Lispchitz continuity of its policies’ value functions and introduce the key concept of influence radius to describe the neighbourhood of states where the dominating action is guaranteed to be constant. These ideas are directly exploited into the proposed Localized Policy Iteration (LPI) algorithm, which is an active learning version of Rollout-based Policy Iteration. Preliminary results on the Inverted Pendulum domain demonstrate the viability and the potential of the proposed approach. (associated paper : On the Locality of Action Domination in Sequential Decision Making. E. Rachelson, M. G. Lagoudakis. 11th International Symposium on Artificial Intelligence and Mathematics, 2010)
Résumé : Stochastic networks encompass a broad class of stochastic models with the common problematic of resource sharing, e.g., transportation, energy or communication networks. In this talk I will present two renormalization techniques that can be seen as functional versions of the law of large numbers and the central limit theorem, and I will explain how these techniques can be used to analyze the performance of communication networks. I will not assume any prior knowledge on these topics.
Résumé : The recent development of high-throughput techniques makes available huge datasets where thousand genes are simultaneously measured. However, the number of observations is, comparatively, very small, and those are often measured in a variety of experimental conditions. One of the big challenge of modern systems biology is to understand the influence of controlled experimental conditions on the functioning of living organisms. This question is usually addressed by searching for the difference between gene expressions pertaining to the condition (hence for "differentially expressed genes"). But the differences in the way the genes interact with each others is also a question of interest: finding which regulation pathways are modified by a given experimental condition gives an interesting insight on the influence of the condition on the living system in its whole. One of the most popular approach to understand the complex relationships existing between the expression of a large set of genes is to infer a co-expression network from a transcriptomic dataset. In such a model, the nodes of the network represent the genes and an edge between two nodes models a strong co-expression between the two genes. A number of different methods have been developed to infer such networks: using correlations (relevance network, Butte & Kohane, 2000), Bayesian networks (Pearl, 1998 or Pearl & Russel, 2002), Graphical Gaussian Model (Edwards, 1995)... When the observations have been collected in different conditions, a naive approach would be to infer a network for each experimental condition and to compare them. However, this method will not be able to stress out specifically the differences and the commonalities of regulation phenomenons: since the number of observations is small, inferring the networks independently, forgetting that a common functioning should exist whatever the condition will lead to emphasize irrelevant differences. In this proposition, we will present a novel method for inferring co-expression networks from samples obtained in different experimental conditions. This approach is based on a double penalization: a first penalty aims at inferring a sparse solution; then, the second penalty is used to make the networks obtained in different conditions consistent with a consensual network. The "consensual network" is introduced to represent the dependency structure between genes, the common functioning of the living organism under study, whatever the condition. The estimation is made more robust by using a bootstrap approach. Our proposal is tested and compared to existing alternatives, on simulated datasets, investigating the influence of the number of different edges between conditions and of the sample size. It is also applied on a real-world dataset where the transcriptom has been measured for different breeds of a given mammalian species.
Résumé : L'agrégation d'estimateurs et de prédicteurs a motivé de très nombreux travaux depuis la fin des années 1990. Le praticien voit son activité profondément modifiée par deux mouvements conjoints : nous entrons chaque jour un peu plus dans l'ère du "big data", les volumes et dimensions des données augmentent avec les progrès constants de l'outil informatique ; parallèlement, le nombre de méthodes d'estimation et de prédiction disponibles a accompagné cette inflation impressionnante, abordant tant en classification qu'en régression une variété croissante de modèles et de contextes statistiques (estimation de probabilités, modèles additifs, modèles parcimonieux...). Citons, parmi beaucoup d'autres, les méthodes pénalisées (le Lasso et ses variantes), les k-plus proches voisins, les arbres et forêts aléatoires, les approches bayésiennes, etc. Il est dès lors légitime d'étudier des procédures d'agrégation de techniques existantes, afin de tirer le meilleur de chacune d'elles et d'éliminer autant que possible la phase---par essence subjective---de spécification d'un modèle. La littérature est riche de nombreuses méthodes d'agrégation de prédicteurs : sélection de modèles, combinaisons linéaires ou convexes sont les principales. Nous proposons dans cet exposé une approche différente, non linéaire en les prédicteurs, reposant sur un principe de moyenne locale. À la métrique usuelle induite par le design, nous proposons de substituer une métrique particulière, suggérée par des estimateurs préliminaires de la fonction de régression. Nous montrons en particulier que l'estimateur résultant est asymptotiquement aussi efficace que le meilleur des estimateurs initiaux. Nous obtenons également une inégalité oracle exacte non asymptotique en espérance, avec une vitesse de convergence explicite. Notre méthode est disponible sur le CRAN sous la forme du package R COBRA, dont les performances brutes et la vélocité sur données simulées et réelles seront commentées. Références : http://arxiv.org/abs/1303.2236 et http://cran.r-project.org/web/packages/COBRA/index.html
  • 04/04/2014: Automated planning with incomplete information and sensing: the translated-based approach and applications, Alexandre Arbore (ONERA Toulouse & MIA-T).
Résumé : Automated planning is the Artificial Intelligence branch concerned with the task of finding a plan, i.e. a sequence of basic actions -eventually conditioned on sensing- to drive the environment from an initial situation to a desired goal situation. In contrast to domain-dependent planning, where the solution is hand-coded in the problem, domain-independent planning makes use of general languages for representing problem instances (e.g. PDDL), and general algorithms to solve a wider set of puzzles, namely all the challenges expressible in the language. The principal characteristic of this approach resides in the separation of the planning engine from the world model, which is given to the solver as part of the problem, together with the initial situation and the goal. In classical planning, the environment is assumed to be fully observable by the planning agent and no uncertainty is introduced, neither through lack of knowledge about the (initial) situation, nor through actions with effects that are unpredictable, nor by exogenous effects unexpectedly triggered. This model is way too restrictive to deal with real-world applications. We will thus see the models for planning under uncertainty, that extends the model of classical planning with incomplete information about the agent’s situation, and sensing. These problems are computationally harder to solve than classical planning problems. Thus, different techniques have been employed to deal with them. A recent and successful technique is the translation-based approach, that compiles the original planning problem under uncertainty into instances easier to solve.
  • 14/03/2014: Présentation des travaux sur l’intégration du partitionnement de graphes aux modèles de simulations DEVS dans le cadre de l’optimisation du temps de calculs, Christopher Herbez (LISIC, Université du Littoral Côte d'Opale).
Résumé : Face à des simulations de plus en plus gourmande en temps, il est nécessaire de mettre en place des procédés permettant d'y remédier. Nous nous proposons, dans le cadre de ce séminaire, d'intégrer le partitionnement de graphes au modèle de simulation DEVS. Une simulation au sens DEVS peut être représentée sous forme d'un graphe où chaque nœud symbolise un simulateur et chaque arc le lien qui les unissent. Les simulations étant de plus en plus grandes, la propagation des informations au travers du graphe ainsi que l'activation des simulateurs à différents instants engendrent une augmentation conséquente des temps de simulation. Nous nous proposons de partitionner le graphe afin de ne plus travailler à partir d'un unique graphe de grande taille mais de n graphes de petite taille. Dans un premier temps, le partitionnement n'est utilisé que dans le cadre d'un découpage simple du graphe d'origine. L'objectif étant d'observer l'impact de celui-ci sur le temps de simulation. Et dans un second temps, il est utilisé dans le cadre d'une parallélisation de la simulation sur plusieurs clusters. Le but de ce séminaire est de présenter l'impact du simple découpage du graphe d'origine sur les temps de simulation et de faire une ouverture vers la parallélisation.
  • 28/02/2014: Efficient network-guided multi-locus association mapping with graph cuts, Chloe-Agathe Azencott (MPI, Tübingen, Germany & MinesParisTech).
Résumé : As an increasing number of genome-wide association studies reveal the limitations of the attempt to explain phenotypic heritability by single genetic loci, there is a recent focus on associating complex phenotypes with sets of genetic loci. Although several methods for multi-locus mapping have been proposed, it is often unclear how to relate the detected loci to the growing knowledge about gene pathways and networks. The few methods that take biological pathways or networks into account are either restricted to investigating a limited number of predetermined sets of loci or do not scale to genome-wide settings. We present SConES, a new efficient method to discover sets of genetic loci that are maximally associated with a phenotype while being connected in an underlying network. Our approach is based on a minimum cut reformulation of the problem of selecting features under sparsity and connectivity constraints, which can be solved exactly and rapidly. SConES outperforms state-of-the-art competitors in terms of runtime, scales to hundreds of thousands of genetic loci and exhibits higher power in detecting causal SNPs in simulation studies than other methods. On flowering time phenotypes and genotypes from Arabidopsis thaliana, SConES detects loci that enable accurate phenotype prediction and that are supported by the literature.
Résumé : L'application des modèles de mélanges pour l'analyse des communautés de microbes dans l'intestin humain et dans le sol permet une meilleure normalisation des tableaux d'occurrences des espèces de bactéries obtenus par les nouvelles technologies de séquençage. Je présenterai des résultats obtenus en utilisant le logiciel phyloseq (développé en package R) qui permet d'interfacer ces nouvelles données avec les logiciels classiques d'écologie comme vegan ou ade4 et de les présenter sous formes de graphiques à couches.
Résumé : Étant donné un système dynamique paramétré, le but est de choisir séquentiellement des expériences (perturbation du système et quantités à observer) pour estimer au mieux ces paramètres. On s'inspire de méthodes de type "active learning" pour choisir automatiquement la série d'expériences à réaliser.
  • 17/01/2014: Autour des processus ponctuels spatio-temporels, Edith Gabriel (équipe Statistiques, IUT STID, Avignon, France).
Résumé : Je m'intéresse aux processus ponctuels spatio-temporels pour lesquels on a une réalisation unique dans une région bornée. Les caractéristiques d'ordre 2 sont utilisées pour analyser la structure spatio-temporelle du processus sous-jacent. En particulier, la fonction de corrélation de paires et la fonction K de Ripley, spatio-temporelles et inhomogènes, mesurent l'agrégation / la régularité et l'intéraction spatio-temporelle et se révèlent utiles dans le choix de modèles. Leurs estimateurs non-paramétriques requièrent de l'information située hors de la région d'étude, résultant à des effets de bord qui doivent être corrigés. Ils dépendent également des caractéristiques d'ordre 1 qui doivent être estimées en pratique. J'ai étendu les correcteurs d'effets de bord spatiaux classiques au cadre spatio-temporel et comparé les performances des estimateurs correspondants pour des semis de points issus de processus stationnaires/non stationnaires et/ou isotropes/anisotropes. J'ai également exploré l'influence de l'estimation de l'intensité sur les estimateurs non paramétriques des caractéristiques d'ordre 2. La simulation de processus ponctuels spatio-temporels est ensuite un outil utile, d’une part pour comprendre le comportement de différents modèles et d’autre part comme composante nécessaire aux méthodes d’inférence de type Monte Carlo. Dans cette présentation, je définirai un processus ponctuel spatio-temporel, présenterai différents modèles de processus et leur implémentation dans R via le package stpp. Je donnerai ensuite les résultats sur les caractéristiques d’ordre deux de ces processus.
  • 13/12/2013: Methods for Gene Similarity Computation and Gene Prioritization in Prokaryotes , Roland Barriot (Génomique des Systèmes Intégrés, UPS, Toulouse, France)
Résumé : After a brief presentation of gene prioritization principles and its extension to cross-genomes data sources, we will focus on the underlying methods to assess gene functional relationships based on the (i) phylogenetic information and (ii) gene semantic similarity. We will conclude on preliminary results regarding the weighted fusion of prioritized gene lists.
  • 29/11/2013: Approches convexes pour la parcimonie structurée, Guillaume Obozinski (Imagine team, Laboratoire d'Informatique Gaspard Monge, Ecole des Ponts-PariTech)
Résumé : Ces dernières années ont vu l'émergence de la parcimonie structurée, dont le but est d'identifier des modèles non seulement parcimonieux mais dont le support doit également satisfaire des contraintes de structure. Deux exemples important sont celui de la parcimonie par groupe où un des ensembles de variables doivent être sélectionnés simultanément, et la parcimonie hiérarchique, correspondant au cas où la sélection des variables doit respecter une contrainte d'ordre partiel sur un arbre ou un graphe orienté acyclique. Je commencerai mon exposé par un tour d'horizon des problèmes considérés par la parcimonie simple et la parcimonie structurée, du point de vue des méthodes convexes. Dans un deuxième temps, je présenterai une approche de la parcimonie structurée pour les vecteurs basée sur des pénalités combinatoires, pour laquelle une construction d'une relaxation convexe générique peut-être proposée. Cette relaxation convexe ne retient que certaines des caractéristiques de la fonction combinatoire initiale, mais celles-ci peuvent être caractérisées par le concept d'enveloppe combinatoire inférieure. L'approche proposée permet de considérer dans une formulation unifiée des approches a priori disparates comme les pénalités définies par le codage par blocs, les fonctions sous-modulaires et les formes de group Lasso structurés. Dans certains cas, entre autres lorsque la fonction combinatoire est sous-modulaire, on pourra construire des algorithmes efficaces et montrer des résultats généraux de consistance et d'identification du support.
  • 15/11/2013: Bayesian mixed effect atlas estimation under diffeomorphic constraint on the deformation model, Stéphanie Allassionière (CMAP, Ecole Polytechnique & Parietal, INRIA Saclay, France)
Résumé : This work introduces a diffeomorphic constraint on the deformations considered in the Deformable Bayesian Mixed Effect (BME) Template model. We take advantage of the Large Diffeomorphic Deformation Metric Mapping (LDDMM) setting which parametrizes the deformation with initial momentum vector and control point locations. This enables to estimate together with the atlas the locations of optimal control points. We propose to use a stochastic version of the Expectation-Maximization (EM) algorithm where the simulation is optimized using the Anisotropic Metropolis Adjusted Langevin Algorithm (AMALA).
  • 08/11/2013: Systems Biology of a model pathogen: Listeria monocytogenes., Christophe Bécavin (Institut Pasteur, Paris)
Résumé : Listeria monocytogenes, a food-borne pathogen, has become a model organism in the past decades in Microbiology and Cell-Biology. Many transcriptomic analyses have been performed using Gene Expression array, Tiling array and RNASeq for screening Transcription Starting Site (TSS). Recently we add new "omics" scale to our systems biology approach of L. monocytogenes by applying a new Proteomics technique called N-Terminomics to screen Translation Initiation Site (TIS). Put together all our data allow us to screen the many type of transcription and translation regulation that the bacteria uses to leave in different environment, and regulate its virulence. I will present the results of our study of cross-correlation of all the "omics" scale we have now in the hand: Genomics, Transcriptomics and Proteomics. First by focusing on the statistical challenge of correlating such heterogeneous data, and then by showing the software we have developed to be able to visualize directly on a genome-wide scale the correlation within our data.
  • 18/10/2013: 5 ans à l'URGI: éléments transposables, épigénétique et transcriptomique, Matthias Zytnicki (MIA-T, ex-URGI :))
Download the slides: Fichier:Zytnicki 20131018.pdf
  • 11/10/2013: Statistical consulting in clinical research, Martin Kappler (Statalpha)
Résumé : The work of a statistical consultant in the field of clinical research, the last phase in drug development, is presented together with the steps which involve the statistician. The important skills of a statistical consultant are discussed and some methodological challenges the author faced in his projects are presented: (i) traps using block randomization, (ii) response assessment when no fixed time point is use, (iii) graphical approaches to Simon two-stage designand (iv) mixed model versus mean over existing measures.
  • 27/09/2013: Analyse des données longitudinales : nouvelles approches brièvement suivi de R++, the next step ?, Christophe Genolini (Université de Paris Ouest Nanterre)
Résumé : Many Constraint Satisfaction Problems (CSPs), consisting of non-binary constraints, include table constraints (i.e. lists of allowed or disallowed tuples). Such constraints are very important in constraint programming as they are present in many real problems from areas such as configuration and databases. As a result, numerous specialized algorithms that achieve Generalized Arc Consistency (GAC) on table constraints have been proposed in the literature. However, since these algorithms process one constraint at a time they cannot exploit possible intersections that may exist between different constraints. On the other hand, existing algorithms for consistencies stronger than GAC, that can exploit constraint intersections, are generic and thus very expensive. One objective of this research is to propose efficient algorithms for strong local consistencies that can be applied on table constraints and can be easily adopted by standard CP solvers. Towards this, we propose an extension to the state-of-the-art GAC algorithms that handles efficiently constraint intersections to achieve extra pruning. We also suggest ways to interleave GAC with stronger consistency algorithms, since GAC may still be superior in many problems. One such way is to apply heuristics that can dynamically select between GAC and a stronger propagator during search. Experimental results demonstrate that the proposed algorithm is usually more efficient than the state-of-the-art algorithm it is based on, while the proposed heuristics for adaptive propagation result in a more robust solver.
  • 22/02/2013: Series Classification Using SAX Representation and Vector Space Model. A work group animated by Pavel Senin (MIAT and university of Hawai)
Résumé : Ability to discover characteristic patterns in time series paves the road for many downstream analyses while enabling interpretability of results. I propose a novel method for time series features discovery based on two existing techniques - Symbolic Aggregate Approximation (SAX) and Vector space model, called SAX-VSM. This method is capable to automatically discover and rank time series patterns by their “importance” to the class, which not only creates well-performing classifiers, but, in turn, provides interpretable class generalization and facilitates clustering. The accuracy of this technique, as shown through experimental evaluation, is matching current state of the art while being robust to noise and lost values. While being relatively computationally expensive within a learning phase, the method provides fast, precise, and interpretable classification. At this time, there are still many open questions - how to leverage bag of patterns representation for multiple dimensions, which TF*IDF implementation to use, which way to sample for parameters, should nGrams statistics be considered etc., for which I solicit feedback.
  • 15/02/2013: Simulations for combining heuristics and consistent algorithms: applications to Minesweeper, the game of Go and Power Grids, Olivier Teytaud (INRIA and LRI).
Résumé : We optimize strategies in front of various uncertainties (including stochasticities and adversarial). We want to combine the good properties of: (i) consistent algorithms (if the computation time is sufficient, we converge arbitrarily close to optimality); (ii) fast algorithms (in moderate time, we have an approximate solution). Using Monte-Carlo Tree Search/Upper Confidence Bounds, Direct Policy Search, and specialized tools, we show some mathematical results and experiment on MineSweeper, the game of Go, and our favorite application, namely energy management.
Résumé :Both terms, "software crisis" and "software engineering" were coined within a report of 1968 NATO Software Engineering conference. While the software crisis phenomena was simply acknowledged, the new discipline of Software Engineering was "born" in order to tame the complexity of software processes. Half of the century later, seeing software project success rate as low as 30%, we may conclude, that the straightforward application of engineering to software programming fails. In my talk, I am going to present this problem, addressing past and current states of the research in software processes. I will specifically focus on current alternatives to engineering, particularly highlighting the importance of social interactions and recurrent behaviors. Finally, I will present "Software Trajectory" framework - my PhD research project - which allows the discovery of recurrent behaviors from software processes artifact trails.
  • 10/12/2012: The DEVS formalism, Bernard P. Zeigler (Professor of Electrical and Computer Engineering at the University of Arizona)
  • 16/11/2012 : Three contributions to the design and analysis of computer models using Gaussian processes. Victor Picheny (Unité BIA, Toulouse).
  • 19/10/2012: Existence and uniqueness of equilibrium for a spatial model of social interactions, Adrien Blanchet (GREMAQ, Toulouse 1, France).
Résumé : We extend Beckmann's spatial model of social interactions to the case of a two-dimensional spatial economy involving a large class of utility functions, accessing costs, and space-dependent amenities. We show that spatial equilibria derive from a potential functional. By proving the existence of a minimiser of the functional, we obtain that of a spatial equilibrium. Under mild conditions on the primitives of the economy, the functional is shown to satisfy displacement convexity, a concept used in the theory of optimal transportation. This provides a variational characterisation of spatial equilibria. Moreover, the strict displacement convexity of the functional ensures the uniqueness of spatial equilibrium. Also, the spatial symmetry of the equilibrium is derived from that of the spatial primitives of the economy. Several examples illustrate the scope of our results. In particular, the emergence of multiple of equilibria in the circular economy is interpreted as a lack of convexity of the problem.
Résumé : The paper considers linear regression problems where the number of predictor variables is possibly larger than the sample size. The basic motivation of the study is to combine the points of view of model selection and functional regression by using a factor approach: it is assumed that the predictor vector can be decomposed into a sum of two uncorrelated random components reflecting common factors and specific variabilities of the explanatory variables. It is shown that the traditional assumption of a sparse vector of parameters is restrictive in this context. Common factors may possess a significant influence on the response variable which cannot be captured by the specific effects of a small number of individual variables. We therefore propose to include principal components as additional explanatory variables in an augmented regression model. We give finite sample inequalities for estimates of these components. It is then shown that model selection procedures can be used to estimate the parameters of the augmented model, and we derive theoretical properties of the estimators. Finite sample performance is illustrated by a simulation study.
Résumé : We consider full Bayesian inference in the multivariate normal mean model in the situation that the mean vector is sparse. The prior distribution on the vector of means is constructed hierarchically by first choosing a collection of nonzero means and next a prior on the nonzero values. We consider the posterior distribution in the frequentist set-up that the observations are generated according to a mixed mean vector, and are interested in the posterior distribution of the number of nonzero components and the contraction of the posterior distribution to the true mean vector. We find various combinations of priors on the number of nonzero coefficients and on these coefficients that give desirable performance. We also find priors that give suboptimal convergence, for instance Gaussian priors on the nonzero coefficients. We illustrate the results by simulations.
  • 11/09/2012: Méta-modélisation : État de l'art et comparaison, Geoffray Bizouard, étudiant du Master MIGS de Dijon.
Résumé : Escherichia coli constitue la majeure partie de la flore microbienne commensale aéro-anaérobie du tube digestif de l’hôte. Pourtant E. coli est aussi une des espèces les plus fréquemment rencontrées en pathologie humaine et animale. C’est l’une des espèces bactériennes les plus étudiées et les plus connues. L’évolution des génomes au sein de l’espèce repose sur deux mécanismes distincts : la mutation et la recombinaison, qui génèrent une diversité génétique sur laquelle la sélection naturelle peut opérer. Dans notre travail, nous nous sommes intéressés à ces processus et aux traces qu’ils laissent dans les génomes. Nous avons, en premier lieu, décrit une forme de mutabilité variable le long du génome car liée à l‘existence de structure secondaire locale de l’ADN : la mutabilité transcriptionnelle. Nous avons pu d’une part quantifier cette mutagenèse et d’autre part révéler une réponse sélective au sein du génome pour en limiter les effets. La recombinaison, quant à elle, est connue pour brouiller le signal phylogénétique de manière importante. En second lieu, nous avons montré par une approche de génomique comparative que, malgré un taux relativement élevé de recombinaison, l’établissement d’une phylogénie robuste était possible. De plus, nous avons mis en évidence que les nombreuses acquisitions et pertes de gènes dans le génome des différentes souches d’E. coli se situaient préférentiellement à certains sites. Enfin, nous avons utilisé la structure phylogénétique de l’espèce à des applications taxonomiques et épidémiologiques.
  • 08/06/2012: Dissertation autour de l'affirmation de Albert-László Barabási: "Pure graph theory is elegant and deep, but it is not especially relevant to networks arising in the real world", Bertrand Jouve (Eric, univ. Lyon 2).
Résumé : Summary to come.
  • 01/06/2012: Optimal management of an Alaskan food web, Will Probert (Centre of Excellence for Environmental Decisions (CEED), The University of Queensland, Australia).
Résumé : I will discuss some work in progress that looks at the management of a food web - a directed acyclic graph that represents an ecological system.  At present, the work builds upon previous collaborative research between INRA (BIA) and The University of Queensland, Australia, by including a temporal aspect to the dynamics of the food web.  Previous ecological and conservation research on food webs and networks has focused on measures of network robustness and a myriad network metrics but research has yet to investigate the use and relevance of said metrics for the purposes of managing ecological systems.  Using dynamic programming we optimally solve the management of an Alaskan food web through time so as to maximise the expected number of species surviving.  Simulation methods are then used to compare the efficacy of management that is guided by various network metrics with management that uses the optimal, dynamic programming solution..
  • 18/05/2012: Assemblage de séquences : une proposition d'indexation par automates, Michel Koskas (UMR518 AgroParisTech/INRA).
Résumé : L'assemblage de séquences comporte deux étapes : une consistant en la construction du graphe de de Brujin et la seconde exploitant ce graphe pour reconstituer la séquence. La première étape, à laquelle nous nous intéressons, se fait souvent en utilisant les FM-indexes. Nous proposons ici une indexation des reads par automates `à façon' permettant une construction rapide et simple du graphe de Brujin.
Résumé : L'étude de phénomènes complexes s'appuie de manière croissante sur les simulations numériques. Quand ces simulateurs sont très coûteux à évaluer, utiliser des métamodèles (ou surfaces de réponse), construits à partir d'un jeu réduit d'expériences, s'avère souvent un choix judicieux pour faciliter l'apprentissage ou l'optimisation. Dans cet exposé, nous nous intéresserons au cas où les réponses étudiées sont bruitées, et nous expliquerons pourquoi une redéfinition des méthodes existantes est nécessaire. Nous proposerons ensuite un critère pour la sélection séquentielle des expériences, dans l'esprit de la célèbre "amélioration espérée". Enfin, nous présenterons un algorithme heuristique basé sur ce critère, qui exploite la possibilité de précision réglable souvent existante dans le cas bruité, afin d'attribuer des temps de calcul de manière hétérogène et de gagner en efficacité.
  • 27/04/2012: Comparaison de métamodèles pour l'estimation de la séquestration d'azote, Nathalie Villa-Vialaneix (Université de Perpignan / SAMM).
Résumé : The environmental costs of intensive farming activities are often underestimated or not traded by the market, even though they play an important role in addressing future society's needs. The estimation of nitrogen (N) dynamics is thus an important issue which demands detailed simulation based methods and their integrated use to correctly represent complex and nonlinear interactions into cropping systems. To calculate the N2O ux and N leaching from European arable lands, a modeling framework has been developed by linking the CAPRI agro-economic dataset with the DNDC-EUROPE bio-geo-chemical model. But, despite the great power of modern calculators, their use at continental scale is often too computationally costly. By comparing several statistical methods this paper aims to design a metamodel able to approximate the expensive code of the detailed modeling approach, devising the best compromise between estimation performance and simulation speed.
  • 06/04/2012: Taxonomie numérique moléculaire : nouvelles questions pour un vieux problème ? Alain Franc (BioGeCo, INRA Bordeaux).
Résumé : La taxonomie est une discipline vénérable, où les espèces (taxa) sont classées et identifiées selon des critères morphologiques, très variés et hétérogènes. Il s’agit donc de reconnaissance de forme, dans des espaces complexes à très grande dimension. Depuis plusieurs décennies, la diversité du vivant est analysée comme fruit de l’évolution, selon les empreintes moléculaires laissées dans le génome. La reconnaissance de formes a donc glissé vers des espaces plus simples, de chaînes de caractères. Plusieurs éléments actuels de ce courant de recherche seront présentés, notamment suite à la possibilité de réaliser des inventaires automatiques sur des jeux de données issus de NGS : comparaison de reads avec des bases de référence, forme du nuage de points image euclidienne des séquences de références selon une distance génétique, questions sur la reconnaissance de forme (méthodes linéaires, graphes, eigenmaps, etc ...), besoins en diagnostic, besoins nouveaux en calcul intensif, distribué ou parallélisé, sur des exemples issus soi de communautés de diatomées d’eau douce soit d’arbres de la forêt guyanaise.
Résumé : Les réseaux sont souvent utilisés pour représenter des systèmes complexes dans divers domaines. Dans ce contexte, l’identification de clusters, ou communautés, est couramment un domaine de recherche très actif. Je vais donner un aperçu des progrès récents sur le clustering dans les réseaux en focalisant sur le critère de modularité. La maximisation de la modularité donne lieu a de problèmes d'optimisation, le plus souvent résolus approximativement par des heuristiques. Je présenterai des algorithmes exacts ainsi que une heuristique localement optimale que nous avons récemment proposé.
Résumé : Les méthodes stochastiques sont des méthodes utiles permettant d'améliorer l'utilisation des modèles de simulation numérique dans divers domaines. Plus particulièrement, elles parviennent à réduire les incertitudes associées aux différentes grandeurs mises en jeu dans le modèle, en considérant l'information issue de la connaissance probabiliste de l'état du système et l'information issue des observations. Il existe un large panel de méthodes stochastiques permettant de s'adapter à la complexité du problème posé. Dans cet exposé, je propose d'en présenter trois, qui seront appliquées à trois modèles numériques différents. Tout d'abord, je présenterai la méthode du filtre à particules appliquée à un modèle écologique de dynamique des populations. Cette méthode séquentielle, basée sur la comparaison entre simulations mutliples du modèle et observations, m'a permis d'estimer l'évolution de l'effectif des flamants roses en Camargue ainsi que leurs paramètres démographiques. Ensuite, je présenterai la méthode "Importance Sampling" appliquée à un modèle de culture. Egalement basée sur le même type de comparaison que précédemment, mais qui se limite à l'estimation de paramètres, cette méthode m'a permis d'estimer les paramètres liés aux propriétés des sols. Je montrerai comment cette estimation permet d'améliorer la prévision du rendement des cultures. Pour finir, je présenterai une méthode dite "d'ensemble" appliquée au modèle météorologique global de Météo-France. Cette dernière méthode permet d'estimer à moindre coût, afin de répondre aux contraintes opérationnelles, les statistiques d'erreur de prévision tri-dimensionnelles. Ces statistiques sont au coeur du système d'assimilation variationnelle qui permet d'estimer l'état de l'atmosphère. Je montrerai comment cette estimation permet d'améliorer la prévision de l'état de l'atmosphère.
  • 02/03/2012: Le problème de 'distance geometry' et applications aux protéines, Antonio Mucherino (IRISA, université de Rennes 1). Transparents : contacter Antonio.
Résumé : Je travaille depuis des années sur le problème de distance geometry. Il s'agit d'un problème de satisfaction de contraintes, qui est souvent formulé comme un problème d'optimisation globale et continue. Nous travaillons sur une reformulation combinatoire de ce problème d'optimisation, et sur un algorithme de résolution très efficace. Ce problème a des applications au niveau des molécules biologiques, et particulièrement au niveau des protéines. Dans ce séminaire, je vais parler des conditions nécessaires pour effectuer la reformulation combinatoire, et discuter de la façon dont elles peuvent être satisfaites par des instances du problème qui contiennent des données expérimentales.
Résumé : Ces travaux se situent dans le contexte de l'optimisation. Trois grandes parties s'en dégagent ; la première concerne l'utilisation d'algorithmes évolutionnaires pour résoudre des problèmes d'optimisation continue et sans dérivées. La seconde partie concerne l'optimisation de séquences de décisions dans un environnement discret et à horizon fini en utilisant des méthodes de type Monte-Carlo Tree Search. La troisième partie concerne l'utilisation d'algorithmes de recherche arborescente pour la résolution de problème combinatoire avec contraintes. Dans le cadre de l'optimisation évolutionnaire, nous nous intéressons particulièrement au cadre parallèle à grand nombre d'unités de calcul. Après avoir présenté les algorithmes de référence du domaine, nous montrons que ces algorithmes, sous leur forme classique, ne sont pas adaptés à ce cadre parallèle et sont loin d'atteindre les vitesses de convergence théoriques. Nous proposons donc ensuite différentes règles (comme la modification du taux de sélection, la réduction du biais, et différentes méthodes de réduction de variance) afin de corriger et améliorer ces algorithmes. Nous faisons un comparatif empirique de ces règles appliquées à certains algorithmes. Dans le cadre de l'optimisation de séquences de décisions, nous nous intéressons aux algorithmes de type Monte-carlo Tree Search et Nested Monte-Carlo. Ces algorithmes sont aujourd'hui très utilisés pour la prise de décisions dans l'incertain, en particulier lorsque la dimension est grande. Nous proposons de faire un apprentissage de la politique Monte-Carlo de ces algorithmes. Nous montrons à travers ces expériences que les résultats sont positifs. Dans le cadre de l'optimisation combinatoire, nous étudions particulièrement les algorithmes de type Nested Monte-Carlo et Nested Rollout Policy Adaptation. Ces algorithmes sont connus pour être efficaces lorsque les décisions lointaines sont aussi importantes que les premières. Nous montrons que ces algorithmes permettent de résoudre efficacement des problèmes d'optimisation combinatoire, et qu'il est possible de guider les simulations en utilisant des connaissances expertes.
Slides : Media:FabienTeytaudSlides.pdf
Résumé : This work brings a contribution to the Bayesian theory of nonparametric and semiparametric estimation. We are interested in the asymptotic normality of the posterior distribution in Gaussian linear regression models when the number of regressors increases with the sample size. Two kinds of Bernstein–von Mises theorems are obtained in this framework: nonparametric theorems for the parameter itself, and semiparametric theorems for functionals of the parameter. We apply them to the Gaussian sequence model and to the regression of Holdër-regular functions, in which we get the minimax convergence rates. Adaptivity is reached for the Bayesian estimators of functionals in our applications.
  • 20/01/2012: La parcimonie sous toutes (?) ses formes pour un problème inverse d'analyse spectrale en échantillonnage irrégulier, Hervé Carfantan (Institut de Recherche en Astrophysique et Planétologie, Université de Toulouse, CNRS, Observatoire Midi-Pyrénées).
Résumé : La représentation et l'approximation parcimonieuses des signaux est images ont été largement exploitées dans un grand nombre d'applications en parallèle de leur développement théorique depuis une vingtaine d'année. Je mettrai l'accent ici sur l'utilisation d'une information a priori de parcimonie dans la résolution d'un problème inverse, plus particulièrement pour la déconvolution de spectres de raies à partir de données irrégulièrement échantillonnées. Je présenterai les différentes formes sous lesquelles cette information a priori de parcimonie peut-être prise en compte, via une approche d'optimisation déterministe au travers des algorithmes gloutons et des critères relaxés, ou une approche d'échantillonnage stochastique grâce au modèle Bernoulli-Gaussien. Je tenterai de présenter à la fois les propriétés théoriques et l'utilisation pratique des différentes formes que peut prendre la parcimonie dans ce contexte applicatif.
Résumé : Dans le domaine de la Biologie, les avancées technologiques (les biotechnologies) apportent aux biologistes de nouvelles méthodes d'observation du vivant. Mais ces techniques s'accompagnent le plus souvent d'une quantité d'observations très importante. Il n'est donc plus rare d'obtenir des courbes comme résultats des expériences menées avec ces technologies. D'autre part, le problème de l'analyse de données fonctionnelles est, depuis maintenant une dizaine d'années, un problème traité par de nombreux auteurs. Il est maintenant admis que l'analyse de telles données nécessite un cadre mathématique autre que celui de l'espace Euclidien. Nous présenterons donc un nouveau cadre d'analyse de telles données (les variétés) et montrerons les avantages (et les inconvénients) d'un tel cadre théorique, ainsi que les applications dans le domaine de la Biologie.
Résumé : nous nous interessons aux problemes de normalisation de donnees biopuces pour lesquelles il importe de normaliser les differentes densites etudiees. Nous analyserons les travaux de Bolstad 2003 à la lumière des méthodes d'analyse prenant en compte les méthodes de décalage d'observations, en nous fondant tout particulièrement sur la distance de Wasserstein.
  • 14/10/2011 (attention à 11h) : Modélisation pangénomique du déséquilibre de liaison à l'aide de réseaux bayésiens hiérarchiques latents et applications, Raphaël Mourad (COD, LINA, Polythech'Nantes).
Résumé : Les récentes technologies génomiques à haut-débit ont ouvert la voie aux études d'association visant la caractérisation systématique à l'échelle du génome des facteurs génétiques impliqués dans l'apparition des maladies génétiques complexes, telles que l'asthme et le diabète. Dans ces études, le déséquilibre de liaison (linkage disequilibrium, LD) reflète l'existence de dépendances complexes au sein des données génétiques et joue un rôle central, puisqu'il permet une localisation précise des facteurs génétiques. Néanmoins, la haute complexité du LD, ainsi que la dimension élevée des données génétiques, constituent autant de difficultés à prendre en compte. Les travaux de recherche réalisés au cours de cette thèse se sont placés dans cette perspective.
La contribution des travaux de recherche présentés est double, puisqu'elle est à la fois théorique et appliquée. Sur le plan théorique, nous avons proposé une nouvelle approche de modélisation du LD. Elle est basée sur le développement d'un modèle issu du domaine de l'intelligence artificielle et de l'apprentissage automatique, la forêt de modèles hiérarchiques à classes latentes (FMHCL). Les nouveautés les plus significatives introduites sont la possibilité de prendre en compte la nature floue du LD et de hiérarchiser les différents degrés de LD.
Un nouvel algorithme d'apprentissage supportant le passage à l'échelle, nommée CFHLC, a été développée et déclinée en deux versions: la première nécessitant le découpage du génome en fenêtres contiguës pour résoudre le problème de passage à l'échelle, et la seconde (CFHLC+), plus récente et évoluée, résolvant le problème au moyen d'une fenêtre glissante sur le chromosome. A l'aide d'un jeu de données réelles, la comparaison de la méthode CFHLC avec des méthodes concurrentes a montré qu'elle offre une modélisation plus fine du LD. En outre, l'apprentissage sur des données présentant des patrons de LD variés a démontré la capacité de la FMHCL a reproduire fidèlement la structure de dépendance. Enfin, l'analyse empirique de la complexité de l'apprentissage a montré la linéarité en temps lorsque le nombre de variables à traiter augmente.
Sur le plan appliqué, nous avons exploré deux pistes de recherches: la recherche de causalités et la visualisation synthétique et intuitive du LD. D'une part, une étude systématique de la capacité des FMHCL à la recherche de causalités est illustrée dans le contexte de la génétique d'association. Ce travail a établi les bases du développement de nouvelles méthodes de recherche dédiées à la découverte de facteurs génétiques causaux pour les études d'association à l'échelle du génome. D'autre part, une méthode a été développée pour la visualisation synthétique et intuitive du LD adaptée aux trois principales situations que peut rencontrer le généticien: la visualisation du LD de courte distance, de longue distance et dans un contexte pangénomique. Cette nouvelle méthode apporte des atouts majeurs qui sont les suivants: (i) le LD par paire (deux variables) et le LD multilocus (deux variables ou plus) sont simultanément visualisés, (ii) le LD de courte distance et le LD de longue distance sont facilement distingués, et (iii) l'information est synthétisée de manière hiérarchique. .
  • 01/09/2011: Optimisation des décisions pour la conservation de la biodiversité sous incertitudes : progrès et challenges, Iadine Chadès (CSIRO, Brisbane, Australia).
Résumé : La biodiversité terrestre et marine est de plus en plus menacée par la pression grandissante de l’activité humaine. Croissance de la population mondiale, urbanisation, industrialisation des pays en voie de développement et exploitation non raisonnée des ressources naturelles sont autant de causes de disparition d’espèces vivantes constituant la biodiversité de la planète. Face à ces changements environnementaux (déforestation, érosion, pollution), les espèces survivantes sont condamnées à s’adapter rapidement ou bien à disparaître. La biologie de la conservation est un domaine de l’écologie qui se donne pour objectif la protection de la biodiversité. Jadis expérimentales, les recherches actuelles en biologie de la conservation se tournent vers l’étude de la gestion optimale des efforts de conservation. L’augmentation du nombre ’espèces menacées et les faibles crédits disponibles pour les protéger sont autant d’arguments forts pour optimiser les décisions de conservation et améliorer les actions de sauvegarde de la biodiversité. Dans ce contexte, les processus décisionnels de Markov (PDM) permettent une formulation claire de ces problèmes d’optimisation. Cette présentation sera en deux parties. Je présenterai mes derniers travaux sur les règles de décisions sur la gestion de metapopulation d’espèces protégées et invasives (Chadès et al., PNAS 2011) et je donnerai un court aperçu des challenges méthodologiques qu’ils nous restent à résoudre pour sauver un nombre maximal d’espèces.
Ref: I. Chadès, T.G. Martin, S. Nicol, M.A. Burgman, H.P. Possingham and Y.M. Buckley (2011) General rules for managing and surveying networks of pests, diseases, and endangered species PNAS, 108 (20):8323-8328.
Résumé : On commencera par évoquer des modèles récents d'évolution de séquences d'ADN qui rendent compte de la dynamique singulière (mais tout à fait bien documentée par les biologistes) du dinucléotide CpG et d'autres observations similaires. On décrira ensuite la résolution miraculeuse d'une certaine classe de ces modèles, et, si le temps le permet, l'extension au forceps de ce miracle à des modèles suffisamment proches des précédents pour qu'un processus de Galton-Watson sous-jacent résumant toute l'affaire reste sous-critique. On procèdera à des rappels de biologie moléculaire. Les notions mathématiques mobilisées, que l'on rappellera également, concerneront les processus de Markov en temps continu, des variantes de couplages à partir du passé et quelques rudiments de systèmes de particules et de processus de branchement.
  • 07/06/2011: Décomposition par paire pour l'optimisation combinatoire dans les modèles graphiques, Aurélie Favier (BIA, INRA Toulouse). En collaboration avec Simon de Givry, Andres Legarra et Thomas Schiex.
Résumé : Nous proposons une nouvelle decomposition addi-tive des tables de probabilites qui preserve l'equivalence de la distribution jointe permettant de reduire la taille des potentiels, sans ajout de nouvelles variables. Nous formulons le probleme de Most Probable Explanation (MPE) dans les reseaux probabilistes comme un probleme de satisfaction de contraintes ponderees (Weighted Constraint Satisfaction Problem WCSP). Notre decomposition par paire permet de remplacer une fonction de couts par des fonctions d'arites plus petites. Le WCSP resultant de cette decomposition est plus facile a resoudre par les techniques de l'etat de l'art des WCSP. Meme si tester la decomposition par paire est equivalent a tester l'independance de paire du reseau de croyances original, nous montrons comment le tester efficacement et l'appliquer, meme avec des contraintes dures. De plus, nous inferons une information supplementaire a partir des fonctions de couts non binaires resultantes par projection&soustraction dans leurs fonctions binaires. Nous observons d'importantes ameliora-
tions grace au pre-traitement avec la decompostion de paire et la projection&soustraction comparee aux solveurs actuels de l'etat de l'art sur deux ensembles de problemes difficiles.
Résumé : Les relations évolutives entre espèces sont communément décrites par des arbres phylogénétiques. Toutefois, ces arbres ne sont pas bien adaptés pour modéliser des mécanismes d' évolution réticulée, tels que les transferts horizontaux de gènes, l'hybridation, la recombinaison. Ces mécanismes d'évolution peuvent être très fréquents chez certaines espèces. Dans ces cas, le matériel génétique d'une espèce dérive de plusieurs espèces différentes et cela ne peut pas être décrit par un arbre phylogénétique. Les réseaux phylogénétiques généralisent les arbres phylogénétiques et permettent de décrire ces évènements d'évolution réticulée. Dans ce séminaire, nous donnons une introduction au sujet des réseaux phylogénétiques, en décrivant très brièvement les concepts fondamentaux et en résumant quelques unes des méthodes disponibles pour leur calcul.
  • 20/05/2011: Inférence de réseau basée sur la théorie de l'information et appliquée à l'analyse de régulations transcriptionnelles Patrick Meyer (Machine Learning Group, université libre de Bruxelles, Belgique).
Abstract: Un des problèmes typiques en bioinformatique consiste à extraire de l'information structurée des données issues de biopuces. Les jeux de données issus de biopuces sont souvent constitués de très nombreuses variables, très peu d'échantillons et beaucoup de bruit. L'analyse de ces données représente donc un des grands défis actuels pour les méthodes d'apprentissage automatique. L'inférence de réseau est une technique d'apprentissage automatique qui vise à déterminer les dépendances entre variables d'un jeu de données et à les représenter à l'aide d'un graphe. Appliquée aux données issues de biopuces, cette technique permet de retrouver le réseau de régulations transcriptionnelles d'une cellule et  d'identifier des gènes spécifiques impliqués dans diverses maladies. Cette présentation se focalise sur les méthodes d'inférence de réseau qui utilisent la théorie de l'information pour inférer les dépendances entre variables. En particulier, je vais présenter MRNET, une méthode d'inférence à base de sélection de variables, ainsi que le package R et Bioconductor qui l'implémente. .
  • 13/05/2011: Bayesian Time-Stratified-Petersen estimators for abundance, Carl Schwarz (Simon Fraser University, BC, Canada). Joint work with Simon Bonner (University of Kentucky, USA).
Abstract: Simple-Petersen or Stratified-Petersen methods are often used to estimate number of outgoing smolt or returning salmon. These methods are inadequate to deal with heterogeneity in catchability among strata and with missing data from strata caused by crew illness, high water flow, or other causes. We propose a Bayesian spline-based methodology to estimate abundance and run-timing which provides several compelling advantages over the more traditional estimators. The hierarchical model for capture probabilities and the spline model for the general shape of the run curve, allow information to be shared among stratra within a Bayesian framework and allows great flexibility to deal with missing data. It is self-calibrating- for strata with poor data, extensive pooling across strata take place but with strata with rich data, the information for a particular stratum takes precedence. The methodology automatically adjust measures of precision for heterogeneity in catchability among strata (which is ignored in the simple-Petersen) and shares information from neighbouring strata (unlike the Stratified-Petersen). Examples from estimating the number of outgoing number of salmon smolt in the Trinity River, CA will be present .
  • 22/04/2011: Algorithmes d’optimisation de criteres non-EU pour la decision sequentielle dans l’incertain, Gildas Jeantet (LIP6 - POLEIA, université Pierre et Marie Curie, Paris).
Résumé : Cet exposé traite des problèmes de décision séquencielle sous incertitude. Ces problèmes concernent les situations d'incertitude dans lesquelles le décideur est amené à prendre plusieurs décisions étalées dans le temps (i.e., établir une stratégie). La communauté des économistes a fournit de nombreux critères de décision permettant de raisonner dans l'incertitude afind e pouvoir comparer des stratégies entre elles. Cependant, les difficulté liées à leur mise en oeuvre conduit en pratique à utiliser des critères moins performants dans les problèmes de décision séquentielle. L'utilisation des critère performants étant freinée par l'absence d'algorithmes efficaces dans les littérature informatique. Nous nous intéressons ici à voir commment il es possible de repousser ces verrous algorithmiques en proposant des algorithmes permettant leur application dans des problèmes de décision séquentielle.
  •  11/04/2011: (i) Résolution d'un problème inverse pour les couches minces par l'ellipsométrie puis (ii) Méthodes d'optimisation pour quelques extensions du problème de dimensionnement de lot ), Ayse Akbalik (Industrial Engineering Department, TOBB ETU, Ankara, Turquie).
Résumé : (i) Nous cherchons a déterminer les indices optiques de couches minces supposées homogènes et déposées sur divers substrats en résolvant un problème inverse. Partant des données obtenues par l'ellipsométrie, le but est de remonter vers les paramètres inconnues de départ, tels que l'indice de réfraction et le coefficient d'extinction pour chaque niveau d'énergie et l'épaisseur de la couche mince. Quelques techniques que nous avons utilisées pour ce problème avec notre équipe au LTM, Grenoble sont discutées: régularisation de Tikhonov, cross-validation, relations de Kramers-Krönig.
(ii) Cette partie concerne les différentes méthodes en optimisation discrète que nous avons utilisées pour résoudre différentes extensions du problème de dimensionnement de lot, un problème assez classique, traité depuis fin des années 50. Quelques techniques que je vais introduire sont: la programmation dynamique, différentes formulations en PLNE, les inégalités valides, etc.
  • 06/04/2011: Routing and rerouting requests under shared risk group constraints, Florian Huc (Distributed Programming Laboratory ,EPFL, Lausanne, Suisse).
Résumé : I will present two problems related to the routing of requests in telecommunication networks. First I will address the problem of routing a set of requests while taking into account the reliability of the solution when a group of links can fail simultaneously. To solve this problem, I will present a linear programming formulation using column generation and compare its efficiency with a classical formulation. I will then present the problem of reconfiguring a set of established communications and a parameter, the process number, which model the cost of such a reconfiguration. I will finally present the link between this parameter and the pathwidth, together with algorithms to compute or approximate the pathwidth on specific class of graphs.
  • 05/04/2011: A Reliable Affine Relaxation Method for Global Optimization, Jordan Ninin (IMT, Toulouse).
Résumé : Since about thirty years, interval Branch and Bound algorithms are increasingly used to solve constrained global optimization problems in a deterministic way.
Such algorithms are reliable, i.e., they provide an optimal solution and its value with guaranteed bounds on the error, or a proof that the problem under study is infeasible. Other approaches to global optimization, while useful and often less time-consuming than interval methods, do not provide such a guarantee. However, the exponential complexity in time and memory of interval Branch and Bound algorithms implies a limitation, so it is always necessary to improve these methods. In this talk, an automatic method for constructing linear relaxations of constrained global optimization problems is proposed. Such a construction is based on affine and interval arithmetics and uses operator overloading. These linear programs have exactly the same numbers of variables and of inequality constraints as the given problems. This new procedure for computing reliable bounds and certificates of infeasibility is inserted into a classical interval Branch and Bound algorithm.
  • 01/04/2011: Plan d'expérience adaptatif pour la régression dans des bases multi-échelles, Sébastien Gadat (IMT, Toulouse III).
  • 25/03/2011: Présentation du package R GeoXP (analyse géostatistiques de données spatiales)et hair-plot pour données dépendantes, Anne Ruiz-Gazen (Toulouse School of Economics) et Prédiction dans les modèles de régression spatiale, Christine Thomas-Agnan (LSP, Toulouse III et GREMAQ, Toulouse I).
  • 24/03/2011: Fonctions de coût globale et de son application au problème de création d'emplois du temps pour le personnel hospitaliers, Jean-Philippe Métivier (GREYC, université de Caen Basse-Normandie).
Résumé : Les contraintes globales ont joué, depuis plus de 20 ans, un rôle clef dans la modélisation et la résolution de problèmes de grande taille. Depuis une dizaine d'année, la relaxation des contraintes globales a commencé à être étudiée et généralement dans des cadres ne permettant pas d'exprimer des préférences. Dans cet exposé, nous verrons comment relaxer la contrainte globale Gcc (imposant aux valeurs d'être utilisées un nombre de fois borné) et comment tenir compte de préférences sur les différentes valeurs et différentes bornes. Nous terminerons cet exposé en présentant comment utiliser cette relaxation pour la modélisation et la résolution de problème réel de grand taille comme les problèmes de création d'emplois du temps pour le personnel hospitaliers.
Résumé : La transformée en ondelettes est couramment utilisé pour traiter avec des données en forme de spectres, par exemple, des spectres NMR (Nuclear magnetic resonance) et des spectres MS (mass spectrometry). Quand la transformée en ondelettes est appliqué au signal initial, les détails les plus fins, d'habitude considéré comme le bruit, sont souvent enlevés dans la reconstruction du 'vrai' signal avant d'être analysés. Nous montrons que contrairement à l'utilisation courante de la transformée en ondelettes, en se concentrant aux détails les plus fins peut améliorer la classification d'échantillons dont les profils spectrales sont très proches l'un de l'autre.Quand les spectres ont la même forme générale, enlevant les coefficients les plus grossiers permet se débarrasser de la partie commune de l'information et ainsi se concentrer à ce qui est vraiment différent entre les échantillons.Nous décrivons une stratégie pour déterminer le meilleur niveau de détails pour des propos de classification grâce à une version 'sparse' de la PLS-DA.Nous illustrons l'utilisation de cette méthode sur un jeu de données provenant d'une étude de toxicité de di-(2-ethylhexyl)-phthalate (DEHP), un plastifiant largement utilisé qui contamine la chaîne alimentaire.
  • 25/02/2011: Planification temporellement-expressive, cycles temporels et transformation de problèmes, Frédéric Maris (IRIT, Toulouse).
Résumé : Un des challenges actuels de la planification est la prise en compte de la dimension temporelle. Nous présentons une approche simple qui permet de résoudre des problèmes temporellement expressifs, c'est-à-dire des problèmes pour lesquels toutes les solutions nécessitent la concurrence des actions. Notre planificateur TLP-GP combine les avantages de la recherche de GRAPHPLAN avec un formalisme temporel flexible basé sur des contraintes. Son langage est consistant avec PDDL 2.1 et étend son expressivité. L'étude expérimentale sur de nouveaux benchmarks montre l'efficacité de notre approche et démontre qu'il est possible en pratique de résoudre des problèmes temporellement expressifs qui ne pouvaient
jusqu'à maintenant être résolus par les techniques existantes. Néanmoins, nous avons montré que certains planificateurs existants qui permettent de résoudre ce type de problèmes (comme TLP-GP), sontincomplets. Ils ne peuvent garantir de trouver une solution à un problème comportant des ensembles cycliques d'actions (que nous appelons problèmes temporellement cycliques). Nous caractérisons les langages temporels qui permettent de représenter ces problèmes temporellement cycliques. Nous présentons également un algorithme polynomial de transformation de ces problèmes en des problèmes acycliques équivalents. L'application de notre transformation permet de restaurer la complétude de ces planificateurs. Un aspect important d’un planificateur automatique est le langage dans lequel l’utilisateur exprime les instances de problèmes. Un langage richeest un avantage pour l’utilisateur alors qu’un langage simple est un avantage pour le programmeur qui doit écrire un programme pour résoudre tous les problèmes de planification qui peuvent être exprimés dans ce langage. Considérant le langage de planification temporelle PDDL 2.1 comme un langage de bas niveau, nous montrons comment compiler automatiquement un langage plus riche en PDDL 2.1. Dans le pire des cas, la complexité de cet algorithme est quadratique. Notre langage de haut niveau permet à l’utilisateur de déclarer des time-points (variables représentant des instants) et d’imposer des contraintes temporelles simples entre ces time-points. Des conditions et effets peuvent être imposés à chacun des time-points, sur des intervalles et sur des sous-intervalles glissants à l’intérieur d’intervalles fixes. Des transitions continues peuvent également être modélisées.
  •  22/02/2011: Integrating SAT and CSP techniques, George Katsirelos (LRI, université Paris Sud 11).
Summary: Although closely related, current SAT and CSP complete solvers use different approaches. SAT solvers are based around learning and highly adaptive heuristics, while CSP solvers are focused on propagation and branching heuristics provided by the user. I will talk about recent developments towards bridging this gap. These approach the problem from both sides: improrting SAT techniques to CSP but also using CSP methods in SAT. I will present theoretical results that show that both SAT and CSP can benefit from each other and overcome exponential lower bounds. I will also show that practical implementations of these ideas bear out the theoretical promise.
  • 18/02/2011: Optimisation des réseaux à composantes unicycliques : approche polyèdrale, Makhlouf Hadji (labo "Réseaux et Services Multimedia Mobiles", groupe "Algorithmes pour les réseaux", Institut Télécom et Management SudParis). Résumé (en pdf).
  • 17/02/2011: Optimisation de la capacite des reseaux radio mailles, Christelle Molle-Caillouet (Lehrstuhl II für Mathematik, Aachen, Allemagne).
Résumé : Nous nous intéressons aux problématiques d'optimisation de la capacité des réseaux radio maillés, définie comme la quantité de flot que peut répartir équitablement une topologie aux utilisateurs qu'elle sert. Afin d'obtenir des bornes théoriques sur les performances du réseau, nous développons des modèles d'optimisation intégrant les caractéristiques inter-couche des communications radio. Nous étudions plus précisément le problème joint du routage et de l'ordonnancement. Nous dérivons une formulation qui élimine le routage pour se concentrer sur la capacité de transport disponible sur les coupes du réseau. Le processus de résolution adapté utilise une méthode de génération croisée de lignes et de colonnes. Ces études mettent en évidence la présence d'une zone de contention autour de chaque point d'accès qui contraint la capacité du réseau. Enfin, nous présenterons une extension de ce modele utilisant l'optimisation robuste afin de prendre en compte l'incertitude des demandes des utilisateurs du réseau.
  • 11/02/2011: Introduction aux modèles probabilistes de propagation de rumeurs et d'épidémie, Charles Bordenave (IMT, CNRS / Toulouse III)
Résumé : Nous exposerons deux modèles simples qui peuvent être utilisés pour décrire la propagation d'une rumeur/épidémie dans un réseau. Nous verrons que la dynamique de la propagation et la nature du réseau peuvent bouleverser les propriétés des modèles.
  • 04/02/2011: Détection et attribution des changements climatiques, Aurélien Ribes (CNRM/GAME)
Résumé : Qu'est-ce qu'un changement dans un système physique dont l'état varie en permanence ? Comment étudier l'origine (la cause) des changements d'un système physique sur lequel aucune expérience contrôlée ne peut être réalisée ni répétée ? Telles sont les questions à l'origine, respectivement, des études de détection et d'attribution des changements climatiques, qui se sont développées avec les activités du GIEC (Groupe d'experts Intergouvernemental sur l'Evolution du Climat) au cours des 20 dernières années. Ces études visent en particulier à évaluer : quels signaux ou tendances climatiques peuvent être considérés comme des changements (détection) ? Quelles sont les contributions des différents facteurs influençant le système climatique à ces changements (notamment, concentration des gaz à effet de serre, variations de l'activité solaire, etc ; attribution) ?
Un des objectifs de ce séminaire est d'essayer d'illustrer la façon dont les statistiques se sont insérées dans l'étude du système climatique, puis ont été utilisées pour faire progresser notre compréhension du système. Je présenterais quelques-uns des modèles et des outils statistiques utiles dans cette entreprise.
  • 21/01/2011: pas de séminaire le vendredi (Réunion Inférence de Réseaux) mais deux exposés (ouverts à tous) de Mark Schmidt (actuellement à Orsay) le jeudi 20 janvier à 14h suivi de Christophe Giraud à 15h en salle IFR 40 de l'INRA Castanet. Les titres respectifs : "Structure learning in hierarchical undirected graphical models" et "Modèles graphiques gaussien avec variables cachées".
  • 17/12/2010: Numberjack: une API en Python pour l'optimisation discrète, Emmanuel Hebrard (LAAS-CNRS Toulouse).
Résumé : Numberjack est un module Python pour l'optimisation combinatoire développé au Cork Constraint Computation Centre (4C). Il existe un certain nombre de langages pour  modéliser de façon concise et lisible des problèmes combinatoires (OPL, MiniZinc ou Essence par exemple). Ces langages permettent de réduire substantiellement l'effort de programmation et rendent donc plus aisé le prototypage de différentes solutions de modélisation.
En contrepartie, ce type de langages dédiés à l'optimisation nuisent (paradoxalement?) à l'interopérabilité. Ils sont en effet peu ou pas adapté aux applications hors-optimisation, et ne sont ni supporté ni utilisés à la même échelle que les langages de programmation "généralistes". De plus, parce qu'ils sont conçus en abstraction des outils de résolution, ils réduisent souvent le niveau contrôle qu'a un utilisateur sur ces outils.
L'utilisation de Python permet d'écrire des modèles aussi intuitifs et lisibles tout en élargissant le spectre des utilisateurs potentiels et en fournissant toutes les fonctionnalités d'un véritable langage de programmation. En plus d'une API commune pour la modélisation de problèmes combinatoires, Numberjack offre certaines procédures pour concevoir une interface (sous la forme d'un module Python) avec des outils de résolution. Grâce à ces modules, Il est possible de contrôler directement les solveurs sous-jacents (les accesseurs et fonctions de chaque solveur sont "enrobés" en Python).
Après les nécessaires introductions de (mon point de vue sur) l'optimisation combinatoire et de quelques structures du langage Python qui sont particulièrement utiles à Numberjack, je m'appuierai sur des exemples pour donner un aperçu du système. Puis, je montrerai comment le même modèle est transmis aux différents outils de résolution. A l'heure actuelle il existe quatre interfaces: un solveur CP (Mistral),  un solveur SAT (MiniSat), un solveur MIP (SCIP) et enfin une heuristique SAT (Walksat). 
Site web : http://4c110.ucc.ie/numberjack
Tutorial : donné lors de AAAI 2010 (pdf - 9MB): http://4c110.ucc.ie/numberjack/NJ_Main.pdf
Téléchargement : Numberjack.0.1.10-11-24.zip puis sous Unix, décompressez l'archive, depuis le répertoire Numberjack.0.1.10-11-24/ (qu'il est conseillé de renommer Numberjack), tapez : make local_install. À la fin de l'installation il vous sera demandé de créer une variable d'environnement PYTHONPATH et de l'ajouter au fichier ~/.bash_profile ou assimilé.
  •  10/12/2010: Approches spectrales pour l'étude de réseaux et la détermination de graphes [slides], Romain Boulet (Observatoire Midi-Pyrénées).
Résumé : La théorie des graphes et l'analyse des réseaux permettent une modélisation de structures d'interactions entre objets issus de divers domaines, ouvrant ainsi la voie à des recherches interdisciplinaires incluant désormais les interactions Mathématiques / SHS. Ces interactions sont d'autant plus enrichissantes si ces sciences de l'Homme n'ont jusqu'alors que peu interagi avec les mathématiques comme l'histoire médiévale ou le Droit. De telles collaborations seront exposées dans cette présentation. Tout d'abord nous présenterons l'étude d'un réseau social entre paysans au Moyen-Âge via la théorie des graphes et en particulier des méthodes de partitionnement spectral.
Ensuite nous aborderons l'aspect de la complexité juridique induit par les multiples citations croisées de textes de loi. L'utilisation de l'analyse de réseau permet de fournir une cartographie du système juridique français et une meilleure compréhension de l'organisation réticulaire du code de l'environnement. L'exposé se terminera par une partie de mathématiques plus fondamentales de théorie algébrique de graphes. La problématique ici traitée est de savoir quels graphes sont entièrement caractérisés par la simple donnée de leur spectre pour une matrice donnée telle le Laplacien.
  • 26/11/2010: Modélisation stochastique du chemostat, Fabien Campillo (MERE project - INRIA Sophia) [travail en commun avec Marc Joannides et Irène Larramendy-Valverde de l'I3M Université de Montpellier 2]
Résumé : Dans le cadre des équations du chemostat (mais la démarche est valable dans tous les autres modèles de dynamique des population) nous présentons différents modèles à différentes échelles: des processus de sauts à une échelle microscopique, des processus de diffusion à une échelle mésoscopique et des équations différentielles ordinaires à une échelle macroscopique (le modèle classique du chemostat). Nous expliquons comment passer d'une échelle à l'autre, sur le plan de la modélisation mais aussi sur le plan mathématique comme sur le plan algorithmique. Nous essayons d'expliquer les avantages et les limites de chacun de ces modèles.
  • 8/10/2010: Optimisation de POMDP : quelles récompenses sont réellement attendues à l'exécution de la politique ? Caroline Carvalho (ONERA Toulouse).
Résumé : Les Processus Décisionnels Markoviens Partiellement Observables sont actuellement un sujet d'intérêt dans la communauté scientifique grâce aux progrès observés dans des algorithmes de résolution et dans les capacités numériques de calcul. La plupart de ces algorithmes sont focalisés sur la résolution d'un critère de performance, qui a pour ambition de caractériser les politiques qui permettront de générer les séquences de récompenses le plus importantes possibles. Dans la planification en Intelligence Artificielle, l'attention est tournée vers un critère qui optimise une somme pondérée des récompenses, et, pour des applications en perception active d'autre part, le critère est souvent défini en termes de gain d'information (entropie de Shannon). Aucun de ces critères ne prend en compte les récompenses réellement acquises lors de l'exécution de la politique. En effet, le premier critère est une moyenne linéaire sur l'espace d'états de croyance, de sorte que l'agent ne tend pas à obtenir une meilleure information des différentes observations, alors que le second critère ne prend pas en compte les récompenses. Ainsi, motivés par des exemples démonstratifs, nous étudions une combinaison additive de ces critères afin d'obtenir une meilleur séquence de récompenses et de gain d'information lors de l'exécution de la politique. Nous comparons notre critères avec le critère classique optimisé (gamma-pondéré) dans le cadre POMDP et nous soulignons l'intérêt de considérer un nouveau critère hybride non-linéaire pour des applications réalistes de reconnaissance et pistage multi-cibles.
  • 24/09/2010: Conception des systèmes de production intégrée assistée par modèles, Ould Sidi Mohamed Mahmoud (Unité de recherche Plantes et Systèmes de culture Horticoles, INRA Avignon)
Résumé : L'unité PSH (Plantes et Systèmes de culture Horticoles) a consenti des efforts sur le développement de modèles de fonctionnement des systèmes horticoles (vergers, maraîchage abrité) motivé par leur utilisation pour la conception de scénarios techniques et paysagers de production intégrée (PI). Elle a ainsi créé un nouveau volet de recherche concernant la conception des systèmes de culture innovants assistée par modèles. Ce volet correspond au projet de recherche qui m’a été confié et que je dois donc mieux finaliser et développer. Dans cette présentation, je reviendrai d’abord sur les problématiques de recherche de l’unité et plus spécifiquement de l’équipe Ecologie de la Production Intégrée EPI. Je présenterai par la suite les deux axes applicatifs que j’ai étudiés depuis mon recrutement pour bien illustrer ma propre problématique. Le premier axe concerne les interactions arbre fruitier-bioagresseurs-régulateurs sous effet des pratiques culturales dans un contexte de PFI. Le deuxième axe porte sur la conception des idéotypes pour des plantes cultivées en agriculture durable. J’illustre le premier par l’exemple de l’interaction pêcher-puceron vert-coccinelles et le deuxième par le cas pêcher-moniliose. Je présenterai par la suite les deux approches d’optimisation multiobjectif que j’ai appliquées aux deux cas. La première approche est agrégative floue évolutionnaire. Elle utilise un algorithme évolutionnaire classique. La deuxième approche est non agrégative et utilise le concept de la Pareto dominance et l’algorithme NSGA-II bien connu. Enfin, je présenterai les résultats obtenus et donnerai des perspectives par ces premiers travaux de recherche en comptant beaucoup sur vos critiques et conseils et pourquoi pas vos collaborations.
Keywords: Production intégrée, Modélisation, optimisation multiobjectif, algorithmes évolutionnaires, logique floue.
  • 17/09/2010: Le couvert végétal comme protection alternative aux épidémies, Pierre Casadebaig (INRA Toulouse).
Résumé : Cette présentation aborde l'avancée des travaux au sein de l'ANR Archidémio (2009-2012). Ce projet envisage des solutions alternatives à une protection principalement chimique des cultures en considérant l'architecture du couvert végétal comme un moyen de réduire l'incidence d'une épidémie. Cette problématique est abordée à la fois expérimentalement et par modélisation. Nous discuterons de la conception d'un modèle d'interaction plante-pathogène, de son implémentation informatique et... ...surtout de méthode de modélisation : quel niveau d'abstraction pour maintenir un lien entre les communautés agronomie-épidémiologie et informatique-simulation.
Keywords: modélisation, épidémiologie, agronomie, architecture végétale.
  • 2/07/2010: The value of information for managing biological populations, Alana Moore (INRA, Toulouse).
Résumé : Managing biological populations requires making decisions under considerable uncertainty. As well as stochastic variables such as rainfall and birth rates, there is uncertainty in the estimates of model parameters, model structure and the effectiveness of different management strategies. These latter types of uncertainty may be reduced with a combination of experimentation and monitoring. However, monitoring and experimentation are in general difficult and expensive. Hence, we would like to know how much, and what kind of, information we need to manage well. In this talk I will discuss two different modelling frameworks: adaptive management and partially observable Markov decision processes. I will briefly discuss for what kinds of uncertainty each is applicable, and present two example problems we have addressed using these frameworks.
  • 11/12/2009: Two glances on risk modelling : (i) forest managment and (ii) group and individual choices. (slides) Stéphane Couture (INRA Toulouse).
Résumé : (i) Forest management under fire risk when carbon sequestration has value (with Arnaud Reynaud) presents a model to determine the optimal harvest date for a forest stand producing both timber and carbon benefits under a risk of fire with stochastic dynamic programming method. (ii) Comparing group and individual choices under risk and ambiguity: an experimental study (with Marielle Brunette and Laure Cabantous). </blockquote>
  • 23/10/2009 : Analyse en cycle de vie et la propagation d'incertitudes pour l'éco-évaluation des procédés, avec focus sur la décision multi-critère. Laurent Lardon et Jürgen Landes (INRA LBE Narbonne).
  • 16/10/2009.  Apprentissage de la structure des réseaux Bayésiens (slides). Philippe Leray (Polytech' Nantes).
Résumé : Tutoriel (2h) sur l'apprentissage de la structure des réseaux Bayésiens: de la construction d'un modele graphique probabiliste à la recherche de causalité.
  • 09/10/2009. System-Sun : effet d'hormones végétales sur la régulation génique du Tournesol. Nicolas Langlade (LIPM, INRA Toulouse).
Résumé : Pour vous mettre l’eau à la bouche, on y parlera de la nouvelle (pour moi) technologie RNAseq., de micro-ARN (un peu comme des mRNA mais en plus court et qui inhibe soit en jouant à segmenter des ARN par hybridation soit en méthylant la séquence d’ADN). On y discutera aussi plan d’expérience et méthode d’analyse des données. Il y a pas mal de facteurs (génotype, traitement par hormones, série de mesures temporelles, stress osmotique ou salin…). Le Graal de la manip’ est de modéliser la régulation de l’expression des ARN sur 9 classes d’hormones végétales (l’organisme est ici le Tournesol) et à terme d’étudier la variation induite par des génotypes différents (voire sauvages) sur cette régulation par exemple en regard de la topologie du réseau de régulation sous-jacent. J’explique mal, Nicolas le fait très bien...
  • 04/09/2009. Sélection de modèles et champs de Markov. Aude Grelaud (INRa Jouy/CREST/CEREMADE).
  • 03/07/2009. Systèmes biologiques (Réseaux Génétiques, Métaboliques, ...).Ludovic Cottret (LBBE, Lyon).
Résumé : Qu'entend-on par réseaux biologiques? Comment sont-ils construits? Dans quelle mesure peut-on faire confiance aux données générées ? Comment les modélise-t-on ? Comment les visualise-t-on ? Quels sont les outils disponibles ? Et surtout : quel est l'intérêt d'étudier de tels objets ? En nous reposant principalement sur l'exemple des réseaux métaboliques, nous tenterons de répondre à ces questions et de mettre en lumière les enjeux actuels et à venir de l'analyse des réseaux biologiques.
  • 25/06/2009. Planification dans le risque et l'incertain : optimisation des strategies de gestion spatiale des forêts. Nicklas Forsell (SLU, Umea, Sweden).
  • 12/06/2009. Analyse de Sensibilité et Exploration de Modèles. Jennifer Baudet et Robert Faivre (BIA, INRA Toulouse).
Résumé : Présentation de l'école-chercheurs "Analyse de Sensibilité et Exploration de Modèles" qui s'est tenue à Giens du 11 au 14 mai 2009 à l'initiative du réseau Mexico.See http://reseau-mexico.fr/AnnonceECMEXICO.
  • 03/04/2009. Des algorithmes de recherche aux logiciels et aux plateformes de services en bioinformatique. Jean-François Dufayard (LIRMM, Montpellier).
Résumé : Résumé des travaux menés: (a) au Pôle Bioinformatique Lyonnais (UMR 5558 - Projet INRIA Helix) de 1999 à 2005 et (b) dans l'équipe Méthodes et Algorithmes pour la bioinformatique (LIRMM - CNRS) de 2005 à 2009. Le Pôle Bioinformatique Lyonnais (PBIL) et l'équipe de Méthodes et Algorithmes pour la Bioinformatique (MAB) ont le point commun de proposer des plateformes et logiciels issus de la recherche, dans le domaine de la génomique comparative, et entre autres sous-domaines la phylogénie moléculaire. Cet exposé traitera de l'histoire de différents projets que j'ai mené ou auxquels j'ai activement participé dans ces structures, depuis leur naissance par des recherches algorithmiques, à la mise à disposition de fruit de ces recherches via des logiciels et des plateformes de calculs destinés à la communauté. Ces projets sont: (a) FamFetch: un logiciel client permettant d'interroger les banques de familles de gènes homologues disponibles au PBIL. (b) PhyML: un logiciel de phylogénie par maximum de vraisemblance, central dans la plateforme de bioinformatique montpelliéraine, et support de travail de nombreux chercheurs. J'insisterai particulièrement sur le rôle de l'ingénieur au sein d'une équipe de recherche, et du cheminement qui m'a conduit de l'activité de recherche au choix mûri de me consacrer au rôle d'ingénieur.</blockquote>


Do not hesitate to contact us if you want your talk to appear here or if you need some extra information on old seminars.

Huge thanks to Nathalie Peyrard and Simon de Givry who organized the seminars from 2006 to Sept. 2009 and to Matthieu Vignes and Gauthier Quesnel who organized them from Sept. 2010 to June 2014.

Génotoul BioInfo
Équipe RECORD
IMABS
Outils personnels