open data

Mettre ses données en Open Data : Prérequis et Perspectives – PARTIE 3

Mettre ses données en Open Data : Prérequis et Perspectives - PARTIE 3

15 avril 2024

Julien Leverrier

Consultant Transformation Data

Louis Allavena

Consultant Transformation Data

Nous l’avons vu dans les deux premiers articles de cette trilogie: la question du libre accès à l’information date d’avant l’ère informatique. Cette question, qui s’est transformée en obligation pour les acteurs ayant trait au service public, doit bénéficier d’une réponse adaptée. En France, la plateforme “data.gouv.fr” joue un rôle central en permettant aux administrations de publier et de partager leurs données de manière transparente avec le public. Cependant, pour garantir une publication de qualité et exploitable, les contributeurs doivent entre autres suivre trois étapes importantes.

open data
Midjourney, prompt : A technical drawing of a computers and databases network. A pole with a French flag is located in the middle.

Étape 1 : Mise en gouvernance des données et des produits

La première étape du processus consiste à identifier les ensembles de données à publier, ou plutôt, vu que la règle est la publication, et l’exception est la rétention, identifier quelles données ne pas publier.

Cela suggère un prérequis important : Connaitre son patrimoine des données. Dans ce cas de figure, être capable de déterminer exhaustivement et explicitement quelles données possèdent des caractéristiques empêchant leur publication en open data (telles que des données personnelles ou des atteintes à la sûreté de l’État).

Un autre sujet important est celui de la connaissance et de la maitrise du cycle de vie des données. Où la donnée est-elle créée dans le Système d’Informations ? Où la récupérer dans son état le plus consolidé et certifié en termes de qualité ? A quelle fréquence la donnée devient-elle obsolète ?

Enfin, et sujet tout aussi majeur : quelle est la notion « Métier » (Ou « Réelle ») portée par cette donnée ? Quelle information interprétable et exploitable dans différents cas d’usages recouvre-t-elle ? En somme, quelle est sa définition ?

Afin d’arriver à cette connaissance et cette gestion systématique et qualitative des données, c’est toute une organisation qui doit être transformée, dotée de rôles et de processus adéquats. Et si l’Open Data est une bonne raison de se lancer dans une telle démarche, de nombreuses externalités positives (Par exemple, fiabilisation d’indicateurs, réduction du temps de traitement/recherches de données) sont à anticiper pour l’ensemble de ses usages basés sur les données, donc pour l’activité de la structure.

Enfin, un angle pertinent pour amorcer une transformation peut être de considérer le jeu de données à publier comme un « Data Product ». Même s’il n’y a pas de finalité financière directe attendue de la publication en open data, il est bénéfique de penser au jeu de données comme un produit. Responsabiliser des collaborateurs, tels que des Data Product Managers, autour de leur conception ou de leur suivi, au-delà des données qui les composent, permet d’aller vers une véritable gestion d’un portefeuille open data. La structure peut alors traiter les données comme un actif, et les produits qui en résultent permettent d’activer leur valeur.

open data
Midjourney, prompt : An orchestra conductor in front of a computer assembly

Étape 2 : Préparer son jeu de données

Nous identifions les données, assurons leur qualité et déterminons leur point d’accès. C’est un bon début, mais il reste encore quelques étapes techniques avant de procéder au chargement des données.

Une des obligations légales de l’Open Data est de proposer un format exploitable par machine.

Data.gouv.fr détaille la liste des formats de fichier adéquats :

La proposition et l’adoption d’une nomenclature particulière pour un type de données qui sera fréquemment mis à jour ou régulièrement complété par d’autres acteurs constituent le schéma de données. Par exemple, si des communes commencent à publier des jeux de données sur l’installation de défibrillateurs dans les lieux public, il existe un grand intérêt à converger vers un schéma de données commun afin de valoriser l’information.

Étape 3 : Publication des Données sur Data.gouv.fr et suivi

En fonction du type de données, de leur taille, de la fréquence de mise à jour de l’informations, il existe plusieurs possibilités pour les publier.

Du dépôt manuel de données à la mise à disposition par API , ou à l’import automatique en moissonnage, ces différents itinéraires techniques sont à examiner pour chaque situation, avec possibilité de consulter les collaborateurs administrateurs de datagouv.fr


En première partie, nous avons vu que dès les premières réflexions et bien en amont de la première publication, il est essentiel de penser à l’aspect « pérenne » d’un jeu de données, en commençant par une démarche de gouvernance des données. Il existe cependant un suivi possible à postériori, sur l’utilisation et la réutilisation des jeux de données. Là encore la plateforme datagouv.fr permet aux organisations d’accéder à des statistiques sur l’exploitation des données qu’elles mettent en Open Data.

open data
Midjourney, prompt : A golden and shiny computer

Encore récent, et pour l’instant souvent « contraint », le sujet de l’Open Data pourrait voir un basculement de paradigme dans les années à venir.
L’ensemble des acteurs socio-économiques pourraient s’engager à partager des connaissances, ce qui pourrait être inscrit comme un objectif RSE. Et au-delà de penser l’open data comme un centre de coût du fait de l’activité nécessaire à la mise à disposition des jeux de données, les acteurs économiques légalement contraints à la publication pourraient également en faire un centre de profit en tant que ré-utilisateurs.

open source data

La Culture Open Source – Partie 2 : Histoire et Lien avec l’Open Data

La Culture Open Source - Partie 2 : Histoire et Lien avec l'Open Data

22 février 2024

Louis Allavena

Consultant Transformation Data

Julien Leverrier

Consultant Transformation Data


Au cours des dernières décennies, l’évolution de la technologie a vu émerger une culture et une philosophie qui ont profondément influencé la manière dont nous développons, partageons et utilisons les logiciels et les données. Cette culture repose sur des principes fondamentaux de transparence, de collaboration et de partage. Pour faire suite à notre premier article, explicitant ce qu’était l’Open Data, nous aborderons ici l’histoire de la Culture Open Source et expliquerons en quoi l’open data en découle naturellement.

Qu’est-ce que la Culture Open Source ?

La culture open source est un mouvement qui promeut l’accès ouvert et le partage de logiciels et de ressources, permettant à quiconque de consulter, d’utiliser, de modifier et de distribuer ces ressources. Cela contraste avec le modèle de développement de logiciels propriétaires, où les entreprises gardent le code source secret et limitent les droits de modification et de distribution. Bien que le terme « open source » ait été popularisé au début des années 2000, les principes qui le sous-tendent remontent beaucoup plus loin dans l’histoire de l’informatique.

La Culture Open Source repose sur plusieurs principes clés :

culture open source

Longtemps considérée comme une culture ne renfermant que des geek et informaticiens, l’Open Source s’est démocratisée et se retrouve dans de nombreux outils que nous utilisons tous (VLC, Mozilla Firefox, la suite LibreOffice, 7Zip…). Le partage des logiciels Open Source est favorisé par des plateformes de centralisation dont la plus connue est GitHub. Malgré une réputation de visuel dépassé et d’une utilisation parfois laborieuse et incomplète, le logiciel Open Source est souvent considéré comme plus sûr car ses failles sont rapidement identifiées, les mises à jour disponibles et l’adaptabilité favorisé (on n’est pas obligé de mettre à jour constamment son logiciel si on ne le souhaite pas, gardant ainsi la possibilité ou non d’ajouter des fonctionnalités).

open date source
Image générée par Midjourney: A picture of an orange firefox wrapped around an orange and silver traffic cone

L’Histoire de la Culture Open Source

L’histoire de la culture open source remonte aux débuts de l’informatique moderne. En effet, dans les années 1950 et 1960, les chercheurs construisaient souvent les premiers ordinateurs en tant que projets collaboratifs, et ils partageaient librement des informations sur la conception et le fonctionnement de ces machines, considérant le partage d’informations comme essentiel pour faire progresser la technologie.

L’une des premières incarnations de la culture open source telle que nous la connaissons aujourd’hui est le mouvement du logiciel libre, lancé par Richard Stallman dans les années 1980. Stallman a fondé la Free Software Foundation (FSF) et a développé la licence GNU General Public License (GPL), qui garantit que les logiciels libres restent accessibles à tous, permettant la modification et la redistribution. Cette licence a joué un rôle crucial dans la création d’une communauté de développeurs engagés dans le partage de logiciels.

Dans les années 1990, le développement de Linux, un système d’exploitation open source, a été un événement majeur. Linus Torvalds, son créateur, a adopté la philosophie du logiciel libre et a permis à des milliers de développeurs du monde entier de contribuer au projet. Linux est devenu un exemple emblématique de la puissance de la collaboration open source et a prouvé que des logiciels de haute qualité pouvaient être produits sans les restrictions du modèle propriétaire. 

Plus récemment, le sujet de l’open source apparait comme un marqueur majeur de différenciation entre les différents acteurs AI :

Si l’on regarde du côté de l’entrainement de différents moteurs, une majorité des acteurs de l’IA utilise des données publiques issues d’espace de stockage disponible tels que CommonCrawl, WebText, C4, BookCorpus, ou encore les plus structurés Red Pajama et OSCAR. C’est lorsque l’on observe l’usage et la publication des résultats que plusieurs stratégies s’opposent.

Le leader de l’IA générative Open AI a un positionnement “restrictif” dans la publication de ses avancées, au motif de protéger l’humanité de publications trop libre de sa création. Cela a par ailleurs contribué au feuilleton médiatique récent qui a secoué la direction de la structure. De l’autre côté du spectre, nous avons Mistral AI, que nous avons eu l’occasion de présenter auprès des journalistes de Libération et du site internet d’Europe 1. En effet, celle-ci propose l’ouverture totale de l’ensemble des données, modèles et moteurs, dans une orientation typiquement Européenne (Data Act). 

Les données ouvertes dans l’histoire

Le développement de cette culture open source, par le développement des outils informatiques, marque le vingtième siècle. Mais l’humanité n’a pas attendu ces progrès technologiques pour se poser des questions sur la libre diffusion des connaissances.

Au premier siècle avant JC, Rome édifie une bibliothèque publique au sein de l’Atrium Libertatis, ouverte aux citoyens. 

De plus, si le moyen-âge marque une restriction des accès aux livres pour la population, de nombreux ouvrages restent accessibles à la lecture, mais pas encore à l’emprunt ! Les livres sont attachés aux tables par des chaînes, et l’on trouve dans certaines bibliothèques des avertissements assez clairs : « Desciré soit de truyes et porceaulx / Et puys son corps trayné en leaue du Rin / le cueur fendu decoupé par morceaulx / Qui ces heures prendra par larcin » (voir plus)

Enfin, plus récemment, la révolution française provoque des évolutions significatives dans la diffusion des connaissances, et cette ouverture à tous des données: la loi fixe maintenant l’obligation de rédiger et de diffuser au public les comptes rendus des séances d’assemblées.

Qu’il s’agisse de processus de démocratisation, ou simplement d’outil de rayonnement culturel, on voit donc que la question du libre accès à l’information ne date pas de l’ère de l’informatique.

open source data
Image générée par Midjourney: A picture of an antic roman library, with people dressed in toga. There is several modern objects like computers and screens on tables.

L’Open Data : Une Conséquence Logique

L’open data est une extension naturelle de la culture open source. Cependant, comme nous l’avons déjà présenté dans notre premier article, l’Open Data est un concept qui repose sur la mise à disposition libre et gratuite de données, afin de permettre leur consultation, leur réutilisation, leur partage. Elle repose sur des principes similaires à ceux de l’open source, à savoir la transparence, la collaboration et le partage.

L’open data présente de nombreux avantages. Il favorise la transparence gouvernementale en rendant les données gouvernementales accessibles au public. Cela renforce la responsabilité des gouvernements envers leurs citoyens. De plus, l’open data stimule l’innovation en permettant aux entreprises et aux développeurs de créer de nouvelles applications et solutions basées sur ces données.

Par exemple, de nombreuses villes publient des données ouvertes sur les transports en commun. Cela a permis le développement d’applications de suivi des horaires de bus en temps réel et d’autres outils qui améliorent la vie quotidienne des citoyens.

En conclusion, la culture de l’Open Source repose sur des principes de transparence, de collaboration et de partage. Tout cela a permis la création de logiciels de haute qualité et l’innovation continue. L’open data, en tant qu’extension de cette culture, renforce la transparence, l’innovation et la responsabilité gouvernementale en permettant un accès libre aux données publiques et privées. Ensemble, l’open source et l’open data façonnent un monde numérique plus ouvert, collaboratif. Par conséquent, cette culture est quasi omniprésente de nos jours, en 2022, selon un rapport Red Hat. 82 % sont plus susceptibles de sélectionner un fournisseur qui contribue à la communauté open source. De plus, 80 % prévoient d’augmenter leur utilisation de logiciels open source d’entreprise pour les technologies émergentes.

Merci d’avoir pris le temps de lire ce second article de notre trilogie consacrée à l’open data. Retrouvez-nous prochainement pour le dernier tome, consacré aux modes opératoires et aux bonnes pratiques de la publication de données en open data.

as Prompt” va-t-il devenir la norme ?

Open Data en France – PARTIE 1 : contexte légal et pratiques actuelles

Open Data en France - PARTIE 1 : contexte légal et pratiques actuelles

8 janvier 2024

Louis Allavena

Consultant Transformation Data

Julien Leverrier

Consultant Transformation Data

L’Open Data est un concept qui repose sur la mise à disposition libre et gratuite de données. Cela va permettre leur consultation, leur réutilisation, leur partage. C’est aujourd’hui un enjeu majeur pour la transparence gouvernementale, l’innovation et le développement économique.

Nous allons explorer ce qu’est l’Open Data, son contexte légal et son obligation pour certains acteurs publics. Mais aussi les pratiques de mutualisation de données hybrides telles que le data sharing et les plateformes data.

Enfin, nous aborderons les enjeux organisationnels et techniques nécessaires à prendre en compte avant de se lancer dans une telle démarche.

Qu’est-ce que l’Open Data ?

Tout d’abord, l’Open Data se caractérise, entre autres, par les principes suivants :

L’Open Data et la loi 

Image générée automatiquement / Midjourney: A judge in a tribunal, surrounded by datas in assembly.

En France, l’Open Data a été promu par la Loi pour une République Numérique, adoptée en octobre 2016. Cette loi impose aux administrations publiques de publier certaines catégories de données de manière ouverte, à moins que des exceptions ne s’appliquent. Ces données incluent les données relatives aux marchés publics, aux prestations et services publics, aux résultats électoraux, et bien d’autres.

RATPDonnées relatives à la pollution des stations de métrolien  
SNCFDonnées relatives au trafic ferroviaire en Francelien
Agence BioDonnées relatives aux parcelles en agriculture biologiquelien
Mairie de ParisRésultats électoraux depuis 2007 dans la ville de Parislien

Cette loi a modifié le paradigme de publication de l’Open Data. Avant, la publication était souvent conditionnée à une demande d’accès à l’administration, avec des modalités de refus spécifiques à chaque demande qui étaient encadrées par la Commission d’Accès aux Documents Administratifs (CADA). Dorénavant, la publication en Open Data devient la norme, et doit anticiper une éventuelle demande par un citoyen, une association.

Les administrations peuvent toujours choisir de ne pas publier certaines données, en justifiant par exemple que leur publication porterait atteinte à la sureté de l’Etat. Ou bien encore qu’une anonymisation des données personnelles serait un effort disproportionné ou qu’elle dénaturerait le sens des données. Il convient de préciser que la publication des documents est obligatoire uniquement pour les documents dits « achevés» (a atteint sa version finale, à date : les brouillons, documents de travail, notes préalables ne sont pas considérés comme des documents achevés), c’est à dire validés et n’ayant plus objet à évoluer.

Il est également important de noter que les articles L. 300-2 et L. 300-3 du CRPA précisent que les acteurs privés investis d’une mission de service publique sont également soumis à ces obligations de publication.

Quels usages de l’Open Data

Image générée automatiquement / MidJourney: An anthropomorphic computer ingesting data and creating charts and plots.

Un des principes de l’Open Data est de permettre le “re-use” des données, à des fins d’analyses simples ou croisées, à titre non lucratif ou commerciales.

Le site datagouv.fr permet d’inventorier toutes les réutilisations des données liées à un data set, par exemple pour le data set des parcelles et agricultures biologiques :

Sur la page « Parcelles en Agriculture Biologique (AB) déclarées à la PAC » comprenant les données issues des demandes d’aides de la Politique Agricole Commune entre 2019 et 2021, on peut trouver des utilisations de ces données par l’agence bio elle-même, par l’Institut Technique et Scientifique de l’Abeille et de la Pollinisation ou par des sociétés privées de cartographies.

Ces exemples montrent la diversité des réutilisations de données, aussi bien en termes de cas d’usage, que d’acteurs impliqués.

Autres pratiques de Mutualisation de Données

Outre l’Open Data dans le sens “Obligation légale” auprès des acteurs publics, on trouve aujourd’hui des formes hybrides qui font du partage de la donnée un sujet transverse :

Le Data Sharing

Le data sharing, ou partage de données, implique la collaboration entre différentes organisations pour partager leurs données. Par exemple, des acteurs économiques ayant un domaine d’activité similaire mais n’étant pas en concurrence directe (Verticalité de l’offre, Disparité géographique) peuvent mutualiser des donner afin d’optimiser leur R&D, ou leurs études commerciales.

Les Plateformes Data

Les plateformes data sont des infrastructures qui facilitent le stockage, la gestion et le partage de données. On les retrouve au sein de structures, qui souhaitent mutualiser le patrimoine de leurs services, voire de leurs filiales. Il s’agit souvent de créer un point de référence unique, standardisé et facilement accessible des données pour toutes les parties intéressées. Cette plateforme n’est applicable que dans certain cas de figure (plusieurs filiales d’un même groupe par exemple).

L’Open Data s’adresse donc à la fois à la sphère publique et aux acteurs privés de par les obligations légales. Mais aussi par adoption volontaire du principe, ou par exploitation de données mises en open data. Et avec les pratiques liées (plateformes de données, data sharing), on retrouve des enjeux et des risques communs.

Image générée automatiquement / MidJourney: Three books on a table, one of them is open, the two others are closed

Cet article est le premier d’une trilogie consacrée à l’Open Data, qui se conclura par les modes opératoires et les prérequis de réalisation. D’ici-là, le second tome fera office de prequel, en s’intéressant aux origines culturelles de l’Open Data, notamment l’Open Source.

Articles qui pourraient vous intéresser

data visualisation

La dataviz périodique by Rhapsodies Conseil

La dataviz périodique by Rhapsodies Conseil 

23 novembre 2023

Pierre Moneyron

Consultant Transformation Data

Camille Petit

Consultante Transformation Data

n°1 – Les biais de perception en dataviz 

La dataviz périodique est une publication qui a pour objectif de mettre en évidence les bonnes pratiques et les écueils à éviter en matière de data visualisation (aussi appelée dataviz). A chaque publication, nous vous proposons de décrypter un nouveau sujet et un exemple de dataviz pour comprendre les ficelles de la réussite en datavisualisation. 

Dans cette édition, nous aborderons le thème des biais de perception en dataviz et nous verrons comment les limiter en prenant exemple sur une publication du Monde : lien vers la dataviz.

Visuel extrait de l’article du Monde présenté en introduction (lien vers l’article)

Si vous souhaitez aborder un sujet complexe, comme celui du Monde qui s’attache à expliquer le positionnement des députés par rapport à la majorité de l’Assemblée nationale, il est nécessaire de porter une attention particulière au type de graphique utilisé. 

Une pratique courante est de proposer une vision moyennée d’un phénomène mesurable sur un groupe (e.g. individus, produits) séparé en catégories (e.g. taille, lieu) en utilisant un graphique en barre. Ce type de visuel a l’avantage de comparer les sujets simplement et de donner l’impression de pouvoir appréhender la réalité d’un coup d’œil. 

Or ce n’est qu’une impression. La plupart du temps, nous ne nous rendons pas compte du biais de perception qu’induisent les graphiques en barre en gommant les disparités présentes au sein de chaque catégorie (ou barre du graphique). 

Dans son article publié sur Data Visualisation Society, Eli Holder explique l’importance de réintroduire de la dispersion dans la dataviz afin de ne pas créer ou confirmer des stéréotypes. [1]

Le stéréotype est une tendance naturelle, souvent inconsciente, qui consiste à penser aux individus en termes d’appartenance à leur groupe social. C’est une façon pratique et utile de réduire la complexité du monde qui nous entoure. Par exemple, au moment de visiter une ville que nous ne connaissons pas, nous pouvons nous adresser à un officier de police ou à un chauffeur de taxi pour demander notre direction, en partant du présupposé que ces personnes seront à même de détenir l’information. [2]

Cependant, il n’est pas opportun d’encourager cette tendance naturelle quand nous concevons des dataviz, en particulier quand le sujet est complexe et appelle une prise de décision éclairée et réfléchie.

Dans le cas du sujet traité par le Monde, il aurait été possible de représenter l’adhésion au texte de la majorité non pas par député mais par parti politique. Or une représentation en graphique en barre du taux d’adhésion moyen des parlementaires par parti politique aurait renvoyé une illusion de similarité au sein des différents partis et aurait amené mécaniquement le lecteur à penser (cf schéma ci-dessous) : « Le parti politique A vote davantage en faveur des textes portés par la majorité que le parti politique C. Donc tous les députés du parti politique A sont plus proches de la majorité que tous les députés du parti politique C. »

Schéma illustratif réalisé à partir de données fictives (toute ressemblance avec des éléments réels serait fortuite)

Pour casser ces biais de perception, il est possible d’introduire de la dispersion dans nos dataviz et ainsi mieux refléter la complexité de la réalité. Des visuels tels que le nuage de point (Scatter Plot) ou le Jitter Plot sont de bonnes alternatives aux graphiques en barre ou histogrammes. 

Dans la dataviz du Monde, le nuage de points a été judicieusement choisi pour montrer le positionnement de chaque député. Cette représentation permet par ailleurs de croiser le taux d’adhésion des députés avec leur niveau de participation aux scrutins étudiés. Cela permet de calculer un indice de proximité plus complet et d’éclairer le sujet avec un nouvel axe d’analyse. 

Le lecteur est alors moins tenté de confondre le positionnement des députés avec celui des partis politiques pour le comprendre, et donc moins enclins à faire des préjugés.

Visuel extrait de l’article du Monde présenté en introduction (lien vers l’article)

En définitive, nous observons à travers l’exemple du Monde, qu’il est parfois nécessaire d’introduire de la dispersion dans les représentations visuelles pour traiter un sujet complexe. 

Les nuages de points et autres diagrammes de dispersion, permettent au lecteur d’appréhender un phénomène à la maille la plus fine et de limiter la création ou l’entretien de stéréotypes. Le lecteur est alors plus à-même de prendre du recul par rapport au sujet traité et de développer un point de vue éclairé quant au phénomène étudié. 

De manière plus générale, Eli Holder propose d’élargir notre conception de la “bonne dataviz” et d’aller au-delà de la représentation claire, accessible et esthétique. Il est nécessaire de prendre en compte sa responsabilité, en tant que créateur de dataviz, vis-à-vis de son public et du sujet traité. Il est essentiel de porter une attention particulière aux visuels choisis pour minimiser les interprétations inexactes, et par extension, la création de stéréotypes. 

[1] Eli Holder : Unfair Comparisons: How Visualizing Social Inequality Can Make It Worse

[2] Principles of Social Psychology – 1st International H5P Edition – Simple Book Production (opentextbc.ca)

Articles qui pourraient vous intéresser

gouvernance de données et innovation

Les brouettes chinoises : une bonne raison de faire de la gouvernance de la donnée 

Les brouettes chinoises : une bonne raison de faire de la gouvernance de la donnée 

18 octobre 2023

– 4 minutes de lecture

Julien Leverrier

Consultant Transformation Data

Dans un monde où l’innovation est un facteur clef de Création et de développement des entreprises, reviennent deux questions :  « Comment innover ? », et « Quelle sera la prochaine innovation ? ». Les sujets tels que le machine learning ou les plateformes data sont des incontournables de la décennie, mais des entreprises se lançant sur ces sujets sont parfois confrontées à des freins fondamentaux, faute de s’être posées la question suivante : « Quels sont les prérequis à l’innovation ? ».

Si l’innovation s’entend aujourd’hui quasi-exclusivement dans le cadre du numérique, il est important de se rappeler qu’elle existe depuis que l’humanité a commencé à développer des concepts technologiques, et ce, dans tous les domaines. Et dans ces 6000 ans d’Histoire, on peut trouver des exemples aux résonances contemporaines : des sociétés sont passées à côté d’innovations majeures pourtant à leur portée. Les freins innovatifs fondamentaux ne sont pas récents…

L’histoire de la brouette chinoise 

Quoi de plus banal qu’une brouette : ce n’est qu’une plateforme avec des roues, permettant de transporter des charges d’un point A à un point B. C’est encore utilisé de nos jours, que ce soit dans le BTP, ou pour faire son potager. L’évidence de son usage, et sa simplicité de conception nous feraient croire que les brouettes ont toujours existé. 

En Europe, les premières traces écrites relevant l’utilisation de brouettes datent d’il y a mille ans. Et, matériaux et détails de proportions mis à part, elles sont en tous points semblables à nos brouettes contemporaines. 

En Chine, les choses sont différentes. Les brouettes apparaissent bien plus tôt, et elles ont rapidement évoluées (IIIème siècle après JC) vers une conception différente, bien plus efficace : la roue est placée de manière centrale sous la plateforme de charge. 1

brouette chinoise
Brouette chinoise – © Julien Leverrier 2023

Le poids est bien mieux réparti, et à charge égale, l’opérateur dépense bien moins d’énergie. Compte tenu de la fréquence d’utilisation de cet objet, sur une période aussi longue qu’un millénaire, le gain collectif en productivité est incalculable mais doit être phénoménal. Mais ils ne se sont pas arrêtés là ! Dès le XVIème siècle, des explorateurs et marchands européens rapportent, stupéfaits, la description de brouettes à voile2. L’énergie éolienne est utilisée pour faciliter le transport terrestre, les Chinois sont donc capables de transporter, sur de longues distances et à faible effort, des charges importantes.  

Brouette chinoise vs Brouette européenne, pourquoi un tel écart d’innovation ?

Une question semble évidente : pourquoi les Européens, également en recherche d’efficacité, et par ailleurs capables théoriquement d’appréhender ce concept (comme les trébuchets, inventés au XIIème siècle, sont bien plus complexes que ces brouettes en termes de compréhension et d’application de la physique), ne sont pas arrivés aux mêmes conclusions technologiques que les Chinois ? 

L’hypothèse seule de la force des habitudes semble trop générique et supporte mal l’effort du temps. Ce frein culturel est réel, mais des dizaines de générations successives auraient dû en venir à bout. On peut proposer, parmi d’autres (modèle agraire, rapport culturel aux déplacements…), une hypothèse portée par le concept de « Dette d’infrastructure« . 

L’innovation requiert autant l’intelligence et la capacité de réalisation que le contexte lui permettant d’exister. Cet exemple de la brouette chinoise met en lumière un défaut fondamental d’infrastructure de l’Europe médiévale par rapport à la Chine. Le gain en masse déplaçable (grâce à l’emplacement central de la roue), puis en distance parcourable (grâce à la voile) nécessite d’avoir des routes suffisamment solides pour accepter ce surplus de charge, et suffisamment longues pour que la volonté de parcourir de longues distances ait du sens. Or, jusqu’à la révolution industrielle, le point culminant du réseau routier européen a été atteint lors de l’Empire Romain. Réseau caractérisé par deux aspects : peu de dessertes “locales” et une infrastructure très lourde, potentiellement plus durable mais nécessitant des travaux d’entretiens massifs. Or, la chute de l’empire a marqué la fin des programmes d’entretiens, et de constructions de nouvelles routes. Le réseau chinois se basait, lui, sur un maillage local plus dense, et sur des infrastructures plus légères, et les dynasties continentales successives ont permis la pérennité d’une administration capable de garantir un entretien au long cours. 3  

brouette occidentale
Brouette occidentale – © Julien Leverrier 2023

On se rend alors compte, qu’avant même d’avoir l’idée nécessaire pour développer une brouette performante, il eut été nécessaire de maintenir l’infrastructure routière en bon état, et qu’une amélioration potentielle des brouettes seule ne peut être un motif raisonnable et suffisant pour remettre à niveau l’infrastructure. 

Les conclusions modernes liées à la gouvernance des données

Cet exemple historique peut sûrement être extrapolé par chacun dans son appréhension du secteur du numérique. Qu’il s’agisse d’infrastructure technique, logicielle, ou également de capital humain (Formation, culture d’entreprise), maintenir un haut niveau sur ce « fond » permet de saisir les progrès ponctuels que constituent les ruptures technologiques et innovantes.

Une entreprise peut rencontrer des difficultés à créer des modèles de machine learning pertinents, de la BI qualitative, ou encore une plateforme data ne se transformant pas en capharnaüm désorganisé, sans que cela soit du à des manques de compétences sur le projet, mais à cause des défauts structurels du patrimoine de données et d’une gouvernance défaillante ou inexistante. La temporalité longue de cet exemple nous renvoie aussi à l’approche de l’acquisition des compétences et des bonnes pratiques : préférer des formations et des acquis durables, réguliers, plutôt que des actions « coup de poing » permettant de répondre à un besoin dans la précipitation. Ou encore, privilégier l’agilité et la durabilité dans les infrastructures.

brouette chinoise a voile
Brouette chinoise à voile – © Julien Leverrier 2023

Plutôt que d’être réactive aux tendances, l’entreprise profondément innovante saura maintenir un haut niveau d’infrastructure, afin de pouvoir accueillir le plus facilement possible la prochaine brique innovante. Tout comme les brouettes, les applicatifs finaux que sont les modèles de ML, la BI, ne sont que des appendices portés par une infrastructure dont la qualité est déterminante, qu’il s’agisse d’un réseau routier, ou d’un patrimoine de données. Et pour garantir la vision stratégique de cette infrastructure, une autorité transverse durable est nécessaire, qu’il s’agisse d’un empire ou d’un Data Office.

1 Lewis, M. J. T. « The Origins of the Wheelbarrow. » Technology and Culture (1994): 453–75.

2 van Braam Houckgeest, A.E. (1797). Voyage de l’ambassade de la Compagnie des Indes Orientales hollandaises vers l’empereur de la Chine, dans les années 1794 et 1795.3 https://www.landesgeschichte.uni-goettingen.de/roads/viabundus/the-dark-ages-of-the-roman-roads/

auto-ml data scientist

Les étapes pour réussir son projet de Data Visualisation

Les étapes pour réussir son projet de Data Visualisation

24 juillet 2023

– 3 minutes de lecture

Armand-Julien Bitalika

Consultant Senior Transformation Data

Les 5 étapes pour réussir son projet de Data Visualisation 

Vous êtes en charge d’un projet de Data Visualisation mais vous ne savez pas par où commencer ?

Nous avons formalisé pour vous les 5 étapes clés à suivre  :

Poser le problème et les besoins métiers
Maquetter les Data Visualisations
Concevoir la solution technique Data
Déployer, industrialiser
Améliorer en continu

Ces différentes étapes sont décrites et accompagnées de fiches pratiques dans notre livre blanc
Principes et Méthodes pour maîtriser vos projets de data visualisation

 

Projet-data-visualisation
besoins-métiers
maquette-data-visualisation
solution-data
déployez-industrialisez
amélioration-continue-transformation
Projet-data-visualisation
besoins-métiers
maquette-data-visualisation
solution-data
déployez-industrialisez
amélioration-continue-transformation