Mieux connaitre la population parisienne grâce à l'intelligence artificielle
Baptiste COULMONT, professeur au Département d’enseignement et de recherche Sciences humaines et sociales (SHS) et chercheur à l'Institut des sciences sociales du politique (ISP) a contribué au projet pour la partie des "prénoms".
Histoire du recensement de la population en France
Les premiers recensements datent de 1801, mais c’est surtout à partir de 1836 que des instructions précises sont données dans toutes les communes de France pour faire, de manière uniforme, le recensement de la population.
Le recensement de la population est alors organisé tous les cinq ans, les années se terminant en 1 et en 6, jusqu’en 1946, à l’exception de celui de 1871 qui est reporté à l’année suivante en raison de la guerre franco-prussienne, et de ceux de 1916 et de 1941 qui ne sont pas organisés à cause des deux guerres mondiales.
Les statistiques étaient faites à partir des bulletins individuels et/ou (selon les années) "des feuilles de ménage" (les feuilles de ménages récapitulent les individus vivant dans le même ménage et leurs liens au chef de ménage) remplies par les individus et publiées dans des publications spécifiques intitulées "Résultats statistiques du recensement de la population".
En plus de ces statistiques, les maires devaient également dresser une liste nominative de la population de leur commune.
À paris
La ville de Paris avait obtenu le droit de ne pas dresser ces listes jusqu’en 1926 à cause du coût du recensement de sa population. La population parisienne était, en effet, déjà près de 1,7 million d’habitants en 1861, un million de plus en 1901 et 2,9 millions d’individus en 1921. Les listes nominatives de 1926, de 1931 et de 1936 sont donc les seules, avec celle de 1946, à exister pour la population parisienne. Les données contenues dans ces listes sont particulièrement intéressantes, car elles permettent d’affiner considérablement les statistiques dressées pendant l’entre-deux-guerres.
Le projet POPP
L’objectif principal du recensement de la population est de connaître la taille de la population par communes pour l’application d’un certain nombre de lois. Il permet également de recueillir des informations sur les personnes résidant en France à un instant "t" pour en connaître la structure.
Faciliter l’analyse des listes de recensement grâce à une base de données conçue à l’aide de l’Intelligence artificielle (IA)
Les listes de recensements, conservées et mises en ligne aux Archives de Paris depuis une dizaine d’années, intéressent les chercheurs et chercheuses pour comprendre l’évolution de Paris pendant l’entre-deux-guerres.
Mais elles n’avaient jamais été utilisées dans leur ensemble en raison de leur volume.
Neuf millions d’identités de Parisiens répartis sur 300 000 pages de grands registres remplis à la main par les recenseurs pendant l’entre-deux-guerres, avec plusieurs colonnes pour les prénom, nom, adresse, profession… Pour tout restituer dans une base de données numérique exhaustive et interrogeable, « il nous aurait sans doute fallu vingt ans à quatre ou cinq chercheurs », explique Sandra BRÉE, démographe et historienne et responsable du projet POPP.
Le projet d’océrisation des recensements de la population parisienne (POPP) a abouti à la création d’une banque de données inédite qui permet une recherche nominative parmi les recensements de la population de 1926, 1931 et 1936 sur le site internet des archives de Paris, institution qui avait déjà entièrement numérisé ces registres.
Une coopération scientifique Informatique / Sciences humaines et sociales
Le premier traitement des listes parisiennes de 1926, de 1931 et de 1936 a été créé avec les informaticiens du Laboratoire d’informatique, de traitement de l’information et des systèmes (LITIS), Thierry PAQUET, Thomas CONSTUM, Pierrick TRANOUEZ et Nicolas KEMPF, spécialistes de l’intelligence artificielle. Les 50 000 images numérisées par les Archives de Paris, ont été traitées par les outils d’apprentissage profond et de reconnaissance optique des caractères développés au LITIS pour créer une première version de la base de données POPP
Ce traitement IA a été ensuite revu par une équipe de sciences humaines et sociales – composée de Victor GAY (École d’économie de Toulouse, Université Toulouse Capitole), Marion LETURCQ (Ined), Yoann DOIGNON (CNRS, Idées), Baptiste COULMONT (ENS Paris-Saclay), Mariia BUIDZE (CNRS, Progedo), Jean-Luc PINOL (ENS Lyon, Larhra) –, pour corriger au maximum les erreurs de lecture de la machine ou les décalages de colonnes.
Baptiste COULMONT, professeur de sociologie au Département d’enseignement et de recherche SHS à l’ENS Paris-Saclay et chercheur à l'Institut des sciences sociales du politique (ISP), enquête depuis de nombreuses années sur les prénoms. Il a été contacté par la responsable du projet, Sandra BRÉE, « qui a constitué autour d'elle une équipe de spécialistes très solide, comprenant par exemple Marion LETURCQ à l'Ined ou Victor GAY à la Toulouse School of Economics, chacun chargé d'une partie du travail. »
Adapter la base à l’analyse statistique
Ensemble, les chercheuses et chercheurs ont adapter la base à l’analyse statistique. En effet, l’utilisation d’abréviations dans les listes nominatives, établies directement à partir des bulletins individuels et des feuilles de ménage, rendait l’analyse statistique impossible. L’équipe a donc dû uniformiser la manière d’écrire des prénoms, des professions, des départements ou pays de naissance et des situations dans le ménage. Pour ce faire, les chercheuses et chercheurs se sont appuyés sur différents dictionnaires, des listes de mots correspondant à la variable traitée provenant de recherches antérieures ou d’autres bases de données.
- Baptiste COULMONT s’est chargé des prénoms.
Il a travaillé avec les bases Insee des prénoms et des personnes décédées. « La reconnaissance de l'écriture manuscrite pouvait, dans un petit nombre de cas, être défaillante. Mais même 0,5% d'erreur, sur une liste de plusieurs millions d'individus, cela finit par faire un nombre important. Les agents recenseurs utilisent aussi de nombreuses abbréviations (Jph pour Joseph, Mie pour Marie, J pour Jean...). J'ai proposé des corrections pour les abbréviations et les erreurs fréquentes (Camelle au lieu de Camille, par exemple). Enfin, en m'appuyant sur le Fichier des prénoms ou le Fichier des personnes décédées, nous avons pu valider comme prénom certaines graphies rares. » - Marion LETURCQ et Victor GAY étaient en charge des professions et des départements/pays. Ils ont utilisé les listes des départements français, des colonies et des pays étrangers, tels qu’ils étaient appelés pendant l’entre-deux-guerres, ou encore la nomenclature des professions utilisées par la Statistique générale de la France (SGF).
Des variables manquantes pour l’analyse statistique ont été créés, comme la variable "sexe" qui n’existait pas dans les listes nominatives (alors que le renseignement apparaît dans les fiches individuelles), ou encore délimiter les ménages afin d’en comprendre la composition.
Ce travail de correction et d’adaptation de la base est toujours en cours en 2025 avec l’ajout d’une nomenclature des professions et la création du système d’information géographique (SIG) de la base pour réaliser la géolocalisation de chaque immeuble dans la ville.
Les premiers résultats tirés de la base POPP
Les premiers résultats, confrontés aux résultats statistiques des recensements publiés, ont été publiés Sandra BRÉE avec l'équipe de Popp (The POPP team) dans l’article « Paris il y a 100 ans : une population plus nombreuse qu’aujourd’hui et déjà originaire d’ailleurs » (Ined, septembre 2025)
Le travail de Baptiste COULMONT est terminé en 2025. « Il reste des erreurs, c'est inévitable sur des fichiers aussi gros. J'espère que le site internet des Archives de Paris permettra aux visiteurs de proposer des corrections. »
Un usage pour les recherches généalogiques
En octobre 2025, une partie de la base POPP avec les noms de famille, les prénoms et les adresses, est rendue publique aux Archives de Paris pour permettre la recherche nominative dans les listes de recensement a déjà permis à de nombreuses personnes de retrouver leurs ancêtres.
Elle a déjà permis à de nombreuses personnes de retrouver leurs ancêtres.
La base POPP est également disponible à l’exposition « Les gens de Paris, 1926-1936. Dans le miroir des recensements de population ».