Publier des données ouvertes sans stratégie de format, c'est l'erreur la plus coûteuse observée sur les portails publics. Le format de diffusion conditionne directement la réutilisabilité réelle des données, bien avant leur contenu.
Les formats de données en comparaison
Le format d'un jeu de données conditionne directement son taux de réutilisation. CSV, JSON, XML, Parquet, GeoJSON : chaque format répond à un périmètre d'usage précis.
Forces et faiblesses de chaque format
Le choix d'un format de données n'est pas neutre : un mauvais alignement entre la structure de vos données et le format retenu génère des frictions à chaque réutilisation. Trois formats dominent l'écosystème open data, chacun avec un périmètre d'efficacité distinct.
| Format | Avantages | Inconvénients |
|---|---|---|
| CSV | Simplicité, compatibilité universelle | Aucun support pour les données hiérarchiques |
| JSON | Léger, flexible, natif pour les API web | Lisibilité humaine limitée sur de gros volumes |
| XML | Extensible, standardisé, validable par schéma | Verbeux, manipulation complexe |
| Parquet | Performant pour les grands volumes, compressé | Peu lisible sans outil dédié |
| GeoJSON | Interopérabilité géospatiale native | Spécialisé, inadapté aux données tabulaires pures |
La colonne « inconvénients » est ici le vrai signal de décision. Un CSV convient parfaitement à des données tabulaires plates ; dès qu'une relation parent-enfant apparaît, JSON reprend la main. XML reste pertinent là où la validation par schéma est contractuellement requise.
Identification des usages adaptés
Choisir un format par défaut est l'erreur la plus répandue dans les projets de diffusion ouverte. Le mauvais choix génère des frictions d'intégration, des rejets de validation ou une sous-utilisation des données publiées.
Trois formats dominent les pratiques actuelles, chacun avec un périmètre d'usage précis :
- Le CSV est le format des données tabulaires simples. Sa légèreté le rend optimal pour les jeux de données statistiques ou géographiques destinés à une analyse directe sous tableur ou en Python.
- Le JSON structure les échanges via des API. Sa hiérarchie native convient aux applications web qui consomment des données en temps réel.
- L'XML s'impose dès qu'une validation stricte est requise. Son schéma déclaratif agit comme un contrat de structure, bloquant toute donnée non conforme avant ingestion.
- Un format inadapté augmente le coût d'intégration pour le réutilisateur, ce qui réduit mécaniquement le taux de réutilisation réelle.
- Documenter le choix de format dans les métadonnées du jeu de données permet aux consommateurs d'évaluer la compatibilité avant tout téléchargement.
Impact de la compatibilité sur l'intégration
Le choix d'un format sans évaluer sa compatibilité native avec les systèmes cibles est l'erreur qui génère le plus de surcoûts d'intégration.
Le CSV s'impose comme le dénominateur commun : tableurs, bases de données relationnelles, outils d'analyse — presque tout l'accepte sans transformation. C'est sa force, mais aussi sa limite structurelle face aux données hiérarchiques.
Le JSON répond à une logique différente. Nativement supporté par les langages de programmation modernes, il s'intègre directement dans les pipelines applicatifs sans couche de conversion intermédiaire. Le temps de mise en œuvre s'en trouve mécaniquement réduit.
L'XML occupe un registre distinct : les systèmes d'entreprise l'ont adopté pour son extensibilité et sa capacité à valider des structures complexes via des schémas. Il reste dominant dans les architectures legacy et les échanges inter-applicatifs normés.
La compatibilité n'est donc pas un critère secondaire. C'est le filtre qui détermine si votre donnée circule librement ou génère une dette technique dès le premier déploiement.
La compatibilité n'est pas un détail technique : c'est le critère qui détermine si votre donnée circule ou génère une dette d'intégration dès sa première publication.
Les pratiques exemplaires en diffusion de données
La diffusion de données ouvertes échoue rarement sur le volume publié. Elle échoue sur la standardisation : sans elle, chaque jeu de données devient une île.
Adoption des normes et standards
Un catalogue de données sans standard de référence est, dans les faits, une bibliothèque sans catalogue. Les systèmes tiers ne peuvent pas l'interroger automatiquement.
L'adoption de DCAT comme standard de description des catalogues résout ce blocage structurel : les métadonnées deviennent lisibles par n'importe quel moteur de découverte compatible, sans développement spécifique. La découvrabilité des jeux de données augmente mécaniquement, car les agrégateurs publics — comme data.gouv.fr — ingèrent directement les flux conformes.
L'enjeu de cohérence interne relève d'une logique différente. Adopter des schémas JSON ou XML standardisés garantit que chaque champ d'un jeu de données respecte le même format, quelle que soit l'équipe productrice. Une organisation qui publie sans schéma imposé génère des variantes incompatibles entre services, rendant toute réutilisation externe coûteuse.
Ces deux niveaux — catalogue et structure — fonctionnent comme des couches complémentaires : l'un assure la visibilité, l'autre assure la fiabilité de ce que l'on trouve.
Études de cas inspirantes
Deux démarches institutionnelles illustrent ce que la standardisation produit concrètement.
La ville de Paris a adopté des formats ouverts pour ses jeux de données publics. Résultat direct : les développeurs, associations et chercheurs accèdent aux mêmes ressources sans friction technique. L'engagement citoyen progresse parce que la donnée devient lisible par tous, pas seulement par les équipes internes.
Le gouvernement britannique a opté pour une logique différente, mais complémentaire. En standardisant ses formats à l'échelle nationale, il a éliminé les silos entre administrations. L'accès public n'est plus conditionné à la connaissance du système source. Un format unique agit comme un protocole commun : chaque service produit une donnée que n'importe quel outil peut consommer.
Ces deux cas convergent vers le même diagnostic. La réussite d'une stratégie open data repose moins sur le volume de données publiées que sur leur interopérabilité structurelle.
Standards de catalogue, schémas structurels, cas concrets : ces trois niveaux forment un système cohérent. La prochaine question est celle de sa gouvernance dans le temps.
Le format n'est pas un détail technique. C'est le premier filtre qui détermine si vos données seront réutilisées ou ignorées.
Privilégiez les formats ouverts et non-propriétaires, documentez chaque jeu de données avec des métadonnées standardisées.
Questions fréquentes
Quels sont les formats de diffusion les plus utilisés en open data ?
Les formats CSV, JSON et XML dominent les usages. Le CSV convient aux données tabulaires simples. Le JSON s'impose pour les API. Le XML reste présent dans les systèmes publics legacy. Le choix dépend du public cible et de la complexité des données.
Quelle est la différence entre un format ouvert et un format propriétaire en open data ?
Un format ouvert repose sur une spécification publique, sans licence restrictive : CSV, GeoJSON, ODS. Un format propriétaire (XLSX, PDF natif) crée une dépendance logicielle. La loi pour une République numérique impose les formats ouverts aux administrations françaises.
Comment choisir le bon format de diffusion pour ses données ouvertes ?
Trois critères structurent le choix : la nature des données (tabulaire, géographique, hiérarchique), le profil des réutilisateurs (développeurs, analystes, grand public) et la fréquence de mise à jour. Un jeu de données géographiques appelle le GeoJSON ou le Shapefile, pas le CSV.
Le format PDF est-il acceptable pour diffuser des données open data ?
Non. Le PDF verrouille les données dans une mise en page non exploitable par machine. Il viole le principe de réutilisabilité. Les référentiels DCAT et les recommandations data.gouv.fr l'excluent explicitement des formats de diffusion valides pour l'open data.
Qu'est-ce qu'une API et en quoi complète-t-elle les formats de fichiers statiques ?
Une API (Application Programming Interface) expose les données en temps réel via des requêtes HTTP. Elle complète les fichiers statiques en permettant l'accès sélectif, la mise à jour continue et l'intégration directe dans des applications. Les deux approches sont complémentaires, non substituables.