Sciences des données : Entretien avec Serge Abiteboul
1. Serge Abiteboul, vous abordez au Collège de France un siècle d'évolution informatique sur le thème des données. Pourquoi avoir choisi un aussi vaste sujet ?
L'information produite, stockée, traitée, échangée est au cœur de toute activité humaine. S'il fallait donner une date de naissance au domaine de la gestion de données, ce serait peut-être un article de Ted Codd en 1970 qui définit le modèle relationnel. Il n'aurait pas 50 ans. Mais il prend évidemment sa source dans l'utilisation de signes pour représenter de l'information. Alors là il aurait des milliers d'années. Le point de départ donc ce sont des systèmes pour gérer des données. La gestion du stock dans une entreprise, la gestion de son compte bancaire. C'est simplissime. Beaucoup plus simple que de faire de gros calculs comme des résolutions d'équations différentielles. Mais il faut savoir faire ça très vite et sur de grosses quantités de données. Et il faut protéger les données contre les pannes, les accès malveillants, etc.
2. Pouvez-vous résumer les principales étapes de cette évolution ?
Pour moi l'évolution correspond au passage des données, à l'information, aux connaissances. En simplifiant, des mesures de température relevées chaque jour dans une station météo, ce sont des données. Une courbe donnant l'évolution dans le temps de la température moyenne dans un lieu, c'est une information. Le fait que la température sur Terre augmente du fait de l'activité humaine, c'est une connaissance. Une première grande réalisation du domaine a été les systèmes de gestion de bases de données dans les années 1980-1990. Ensuite à la fin du 20e siècle, avec le Web des textes, le Web comme bibliothèque universelle, nous sommes passés à l'information. Une réalisation emblématique dans cette direction a été les moteurs de recherche du Web. La prochaine étape c'est de passer aux connaissances. C'est par exemple le Web sémantique ou l'analyse de données du Web à grande échelle pour en extraire des connaissances collectives.
3. Le web propose aujourd'hui une multitude de données, d'informations. Comment trouver la bonne information aujourd'hui ?
Il n'y a en effet aucune difficulté à produire des informations aujourd'hui. On en produit toujours plus. Le volume de données produites double à peu près tous les 18 mois. Nous produisons plus de données par an que nous ne pouvons stocker. Comment choisir ce qu'on garde ? Et puis la difficulté c'est de filtrer, classer, organiser cette information. Comment trouver une information dans cet océan ? Comment évaluer sa qualité ? Ce sont des défis de ce siècle.
4. Vous êtes le 3e titulaire de la Chaire d'Informatique et Sciences Numériques depuis sa création, après Gérard Berry (INRIA Sophia-Antipolis) et Martin Abadi (Microsoft Research et University of California, Santa Cruz). Quels sont vos objectifs pour cette année académique ?
Continuer à faire de la recherche, à enseigner en licence à l'ENS Cachan et au sein du Master parisien de recherche en informatique (MPRI). Et évidemment assurer mes cours du Collège de France.