Web Maker

Teaching 

This page provides information of the classes I teach. Blocks are described in the language used for the class (French or English).  

Magistère d'Informatique

(Depuis Juin 2016 je suis responsable de la formation) Le magistère est une formation d'excellence (diplôme d'université) d'une durée de trois ans, du L3 au M2 qui s'appuie sur les formations initiales de Licence et de Master.

Elle s'adresse aux étudiants de très bon niveau scolaire, ayant une curiosité scientifique, désirant renforcer leurs compétences, s'ouvrir sur l'innovation et la recherche (en particulier par le biais de stages) et profiter pleinement des enseignements dispensés à l'université Paris-Sud, mais aussi dans l'environnement Paris-Saclay.

Le recrutement au Magistère d'informatique a lieu chaque année au mois de Juin.
Plus d'information sur le magistère est disponible sur le site du département.
N'hesitez pas à me contacter en cas de questions !

Introduction aux bases de données

Ce cours introduit les bases théoriques et outils pratiques permettant de concevoir et de développer une base de données. La première partie du cours se focalise sur la conception d'une base de données relationnelle (modélisation UML, schéma de base de données). Dans un second temps, nous présentons les techniques et outils pouvant être utilisés pour développer et interroger une base de données. Le langage de requêtes SQL et les systèmes de gestion de base de données mySQL et Postgres sont la base des aspects pratiques de ce cours.

  • Chapitre 1 : Introduction
  • Chapitre 2 : Modélisation de Bases de Données : modelisation UML
  • Chapitre 3 : Le modèle Relationnel
  • Chapitre 4 : Introduction à SQL: Fichiers pour le TP 1 : Informations sur le schema de la base et informations sur les instances.
  • Chapitre 5 : Algebre relationnelle
  • Sujet de TP 2 SQL avancé, des scripts sont disponibles : Schema de la base, Instances pour remplir les tables
  • Chapitre 6 : SQL avancé
  • TP3 : scripts: Schema de la base, Instances pour remplir les tables, Suppression des tables
  • Accès à Postgres (interne)
  • Livres de references et autres pages Web : ouvrage Ramakrishman (en anglais), Page de Nicole Bidoit, Page de Serge Abiteboul (incluant des cours de Philippe Rigaux) 

Optimisation des bases de données


  • Chapitre 1 : Rappels -- Modelisation en UML puis Passage au relationnel ; Mémo SQL recapitulatif (avec une sous partie algebrique);
  • Informations TP: Les informations générales sur les TP de BDs au PUIO/Polytech sont disponibles ici; Acces à Postgres (interne). Attention à créer un schema avant de lancer les scripts.
  • Chapitre 2 : Stockage 
    Chapitre 3 : Indexation
  • Chapitre 4 : Optimisation opérateurs
  • Chapitre 5 : Database Tuning
    Livres de references et autres pages Web : ouvrage Ramakrishman (en anglais), ouvrage Database Tuning.

Very large Data and Knowledge in Bioinformatics

Topic: Biological research is a science which derives its findings from the proper analysis of experiments. But what has changed dramatically over the last three decades is the throughput of those experiments – from single observations to gigabytes of sequences in a single day – and the breadth of questions that are studied – from single molecules to entire genomes, transcriptomes, proteomes, etc. Today, a large variety of experiments are carried-out in hundreds of labs around the world, and their results are reported in a myriad of different databases, web-sites, publications etc., using different formats, conventions, and schemas. The integration of these diverse and distributed databases has been a topic of bioinformatics research for more than 20 years. 

Recent years have seen a revitalization of Data integration research in the Life Sciences. But the perception of the problem has changed: While early approaches concentrated on handling schema-dependent queries over heterogeneous and distributed databases, current research emphasizes instances rather than schemas, tries to place the human back into the loop, and intertwines data integration and data analysis. Transparency, one of the main goals of federated databases, is not a target anymore; instead, users want to know exactly which data from which source was used in which way in studies (provenance). The old model of “first integrate, then analyze” is replaced by a new, process-oriented paradigm: “integration is analysis – and analysis is integration”. These new views on DI, lessons learnt from the past, and the challenges to face are the subject of this course. 

Notice: No prior knowledge in biology is necessary to follow this course. 

Organisation
  • The lecture starts with a lab session where students will search for biological data in the major molecular biological sources. The problematics of data integration will thus be concretely experienced by students (dealing with highly heterogeneous data, various levels of quality...). We will use real queries daily performed by several of our biologist collaborators. 
  • The second part of the lecture will wrap-up what has been found during the lab session and more generally present the current and major challenges to face with to integrate bio data.
  • The lecture will be dedicated to two major trends to integration biological data, namely, the use of scientific workflows and the problematics of ranking biological data.
  • The lecture will intertwine lab sessions with more classical lecture sessions to allow students to concretely test the various systems available and understand concretely the capabilities of such systems and their weaknesses. Wrap-up will be given.

Intégration de données Biologiques et Big Data

Contexte : Ce cours introduit la problématique d'intégration de données et les différentes familles de solutions existantes. Plus précisément, ce cours démarre par une "visite guidée" des principales bases de données de biologie moléculaires publiques (NCBI, EBI). Les différents niveaux d'hétérogénéité sont mis en évidence. Le cours se poursuit par la présentation des solutions existantes en termes de standards (ontologies, formats d'échange de données...), d'architectures d'intégration (en particulier, les entrepôts de données), et les systèmes disponibles pour analyser et intégrer les données biologiques (systèmes de workflows biologiques - Galaxy, NextFlow, SnakeMake...). Un focus particulier est donné aux solutions existantes capables d'assurer la reproductibilité d'une analyse de données biologiques (visant à intégrer des données).

Outils (et standards) d'intérêt pour ce module (liste non exhaustive)