Note : le contenu de cette page sera modifié dans les prochaines semaines.
Les objectifs du projet sont les suivants :
Le graphique ci-dessous donne une idée de la répartition des descriptions dans la collection de fichiers source, par type de notice puis par type d’entité.
Le tableau ci-dessous présente des statistiques sur le nombre de relations existant entre les notices de producteurs dans les fichiers source, relations actuellement non interrogeables via la Salle de lecture virtuelle (SLV) des AnF.
Nous donnons ci-après quelques informations sur le processus suivi pour la production de la version 2.0 des référentiels sémantisés. Le travail a été réalisé par le Lab en plusieurs phases et itérations, à partir des données source exportées du SIA des AnF en janvier 2025, en suivant des processus automatiques bien souvent associés à des travaux de correction manuels.
Les URIs des entités (agents, concepts et lieux) sont formés comme suit, conformément à une approche choisie depuis plusieurs années :
https://rdf.archives-nationales.culture.gouv.fr/
agent/
place/
Sauf exception (cas du vocabulaire dit des types de documents scindé en trois fichiers RDF), un fichier RDF/XML a été généré par vocabulaire source du SIA. La structure de ce fichier est conforme au modèle SKOS (donc à ISO 25964). En outre, chacun des concepts (skos:Concept) définis dans ces vocabulaires est également défini comme étant une instance d’une classe de l’ontologie RiC-O 1.1.
skos:Concept
Les données stockées initialement dans quelques éléments XML d’une DTD propre aux AnF ont été restructurées pour distinguer libellés, définition, note d’application, relations sémantiques, alignements, informations de gestion. Dans quelques cas (notamment pour le vocabulaire des types de collectivités), des contenus également produits par les AnF et stockés à l’externe ont été agrégés aux vocabulaires.
Des métadonnées précises ont été ajoutées à chaque vocabulaire (skos:ConceptScheme). Quelques nouveaux concepts ont été ajoutés à ceux qui existaient déjà. Un nouveau vocabulaire contrôlé, celui des types de lieux, qui était indispensable pour catégoriser l’ensemble des lieux décrits, a par ailleurs été entièrement produit en RDF (il n’a pas d’équivalent actuel dans le SIA). Tous les concepts ainsi ajoutés à ceux existant dans le SIA sont qualifiés de candidats. Des exemples ont été ajoutés dans certains vocabulaires.
skos:ConceptScheme
Enfin, pour faciliter certaines réutilisations, à partir de chacun des fichiers SKOS produits, un fichier CSV, contenant l’intégralité de ce qui est stocké dans le vocabulaire, a été généré et est téléchargeable depuis GitHub ou depuis les pages de vocabulaires de Garance.
Les quelque 16 000 notices de producteurs des AnF ont été converties en autant de fichiers RDF/XML conformes à RiC-O 1.1, à l’aide de la version 3 du logiciel RiC-O Converter et conformément à ses spécifications. Quelques post-traitements ont ensuite été réalisés.
Chacune des petites notices contenues dans les deux référentiels dits d’indexation des personnes physiques et des personnes morales (un fichier par référentiel) a été convertie en un fichier RDF/XML conforme à la même ontologie et ayant la même structure, en tirant le meilleur parti des conventions suivies aux AnF pour la saisie des données (distinction des informations historiques, des dates d’existence, des relations d’équivalence, des mentions de sources, des métadonnées de gestion).
Les notices obtenues ont ensuite été réconciliées puis dédoublonnées. En tout, le contenu de 255 fichiers RDF issus d’autant de notices d’indexation a été fusionné avec les notices de producteurs, puis ces fichiers RDF supprimés. Le numéro de la notice du référentiel d’indexation est conservé dans le fichier RDF résultat. Enfin, les fichiers RDF ont été enrichis de plus de 4 000 relations d’équivalence avec des entités Wikidata et de plus de 1 200 liens vers des pages Wikipédia, en partant du travail effectué par les archivistes des AnF dans le cadre d’un atelier organisé en décembre 2025.
Un fichier XML/RDF a été produit à partir de chacune des notices contenues dans les 8 fichiers XML source (sauf pour les notices des arrondissements et cantons français, laissées de côté dans l’immédiat).
En ce qui concerne les régions, départements et communes français, un travail d’alignement a été réalisé en 2021, d’une part avec les données RDF de l’INSEE (ce qui a permis de récupérer en particulier des informations historiques), d’autre part avec les données RDF de l’IGN – fournies à l’époque par Nathalie Abadie du LASTIG, que nous remercions. Ce dernier alignement a permis de récupérer en particulier les coordonnées géographiques (polygones) des lieux et les relations d’adjacence entre territoires. Les relations partitives (comme la localisation d’une commune dans un département) ont été explicitées.
Pour tous les autres lieux sauf ceux situés dans Paris (pays et territoires étrangers, lieux géographiques naturels, aménagements et édifices, lieux-dits), et pour les 1 492 édifices situés à Paris, le contenu des petites notices source a été traité pour identifier et restructurer les informations de datation, de description, ainsi que, lorsqu’elles étaient présentes, les relations d’alignement avec des référentiels externes (surtout Geonames et Wikidata), les sources d’information et les métadonnées de gestion.
Pour les arrondissements, quartiers et paroisses de Paris et les communes rattachées à Paris au XIXe siècle, la nomenclature initiale a été enrichie manuellement sur la base de sources d’information généralistes (Wikipédia) essentiellement. Les relations entre quartiers et arrondissements ont aussi été ajoutées, ainsi que les relations spécifiant l’absorption partielle ou totale du territoire d’une commune à un arrondissement ou quartier parisien.
Pour les voies de Paris, le projet a permis de passer, en plusieurs étapes et itérations incluant des travaux de réconciliation et de modélisation, d’une simple nomenclature de 13 189 noms à une description souvent beaucoup plus précise de chaque rue. Les noms du référentiel des AnF ont été alignés avec les noms de la nomenclature des voies caduques et actuelles de Paris publiée en open data par la mairie de Paris (version de 2023). Puis les données de cette nomenclature ont été ramenées dans le jeu de données des AnF sous la forme d’informations restructurées conformément à RiC-O : historique, événements de gestion de la voirie ayant affecté la rue, dimensions, coordonnées géographiques (notamment polygones), indications des quartiers et arrondissements traversés et des points de départ et d’arrivée de la rue. Le type de voie a été ajouté en utilisant le vocabulaire des types de lieux.
Pour tous les lieux, les dénominations préférentielles ont été mises en conformité, autant que possible, avec les règles énoncées par le code RDA-FR, transposition française du standard RDA (Ressources : Description et Accès) pour le signalement des ressources des bibliothèques. Enfin, tous les lieux ont été catégorisés à l’aide d’un type de lieu trouvé dans le référentiel des types de lieux des AnF.
La version 2.0 du graphe obtenu est en cours de finalisation. Certains travaux sont encore en cours, notamment pour ce qui concerne la normalisation des noms de lieux de Paris et leur catégorisation. L’ensemble des fichiers est d’ores et déjà disponible sur GitHub. Par ailleurs chacun des fichiers RDF source des pages de Garance est téléchargeable depuis cette page.
Une release complète et cohérente sera publiée sur GitHub avant la mi-juin 2026, et son contenu sera bien évidemment en même temps rendu accessible via Garance.
Par ailleurs, pour les besoins du projet (en particulier pour la description des agents et des voies de Paris) et d’autres projets, une petite extension de l’ontologie RiC-O 1.1 a été élaborée (voir ici), dont la version 1.0 sera publiée en juin 2026.
La réalisation de l’application Garance a été confiée à la société Sparna, avec laquelle les AnF collaborent sur divers projets depuis plusieurs années et que nous remercions ici. Une approche agile est suivie pour l’ensemble des travaux. La version de Garance actuellement disponible sur le web est la version 1. Le triplestore QLever a été déployé et est maintenu par la société Zazuko GmbH, que nous remercions également.
L’architecture technique actuelle de Garance inclut :
Le code source de Garance est disponible ici.
La version 1 de Garance propose actuellement, via une interface disponible en français et en anglais, diverses fonctionnalités accessibles par le menu horizontal présent sur toutes les pages :
Par l’item Référentiels, un accès direct aux données :
Par l’item Recherche, une page permettant d’effectuer une recherche rapide dans le contenu des pages à l’aide d’un index produit par PageFind, configuré pour s’adapter à la structure et à la nature des données disponibles. Les résultats de recherche montrent le mot ou l’expression saisie en contexte. Une fois une première recherche effectuée, la colonne de gauche permet d’afficher et de choisir ou décocher divers filtres (comme le type de lieu ou le type de collectivité), pour réduire le périmètre de la recherche.
Par l’item Accès SPARQL, une page qui donne notamment les liens utiles aux utilisateurs désirant soit interroger à distance le service SPARQL via une application tierce, soit interroger directement le endpoint SPARQL via une interface de saisie de requêtes dans ce langage.
Les URIs des entités décrites sont par ailleurs déréférençables (négociation de contenu).
Chaque page d’entité présente une structure définie par un fichier de spécifications propre au type d’entité (agent, lieu ou concept). Un soin tout particulier a été apporté à la conception et à l’organisation de ces pages. Les vocabulaires s’affichent sous la forme d’un diagramme dépliable. Il est par ailleurs possible de copier/coller l’URI d’une entité, de télécharger le fichier RDF décrivant l’agent, le lieu ou le vocabulaire contrôlé, ainsi que les fichiers CSV (pour les vocabulaires contrôlés) ou XML/EAC-CPF (pour les notices d’agents issues des notices de producteurs des AnF).
Vous trouverez ci-après quelques informations non exhaustives sur la feuille de route du projet Garance.
Avant la mi-juin 2026
Avant la fin 2026
Le projet a été présenté rapidement lors de la conférence annuelle SemWeb.Pro 2025, fin novembre 2025 à Paris. Retrouvez le poster et l’enregistrement vidéo de la présentation ici.