principes clé projet plateforme data centric
Architectures innovantes - Articles

Les grands principes pour réussir votre projet de plateforme Data Centric

Le Big Data est maintenant passé au stade industriel pour beaucoup de moyennes et grandes entreprises. Les objectifs qui doivent être atteints pour ce type d’initiatives étant de dé-siloter les données de l’entreprise et d’en favoriser l’accès.

Ceci a donc donné lieu à toutes sortes de projets de plateformes Data Centric : Data Lab, Data Hub, Data Lake, … Certains de ces projets ont échoué, d’autres ont réussi. Nous avons regroupé dans cet article les astuces et principes qui nous semblent clés pour réussir votre projet de Data Hub.

Tout d’abord qu’est-ce qu’un Data Hub ?

Auparavant les traditionnels entrepôts de données ne traitaient que des données structurées ayant préalablement subi une transformation technique avec une logique métier particulière. Ceci rendait complexe toute intégration d’une nouvelle source de données ou projet d’évolution de cet entrepôt de données. Le Data Hub permet de répondre aux critères ci-dessous :


bénéfices data hub

Découpez votre projet de Data Hub en 4 grandes étapes

Le Data Hub ne se résume pas à une plateforme technique pour sauvegarder un historique de vos données d’entreprise. Les architectes ont un vrai rôle à jouer dans le projet afin de définir le positionnement de cette plateforme dans le paysage SI de votre entreprise et par rapport au cycle de vie de vos données comme nous l’indiquions dans cet article : un data lake sans architecture est un vrai saut dans le vide.


Vous pourrez ensuite lancer votre projet de Data Hub au travers de ces 4 grandes étapes :

4 étapes data hub

1 . Identifier vos principaux usages

Comment faire pour sélectionner les sources de données qui alimentent votre Data Hub ? Faut-il chercher à tout historiser et trouver les usages ensuite ? Faut-il d’abord définir un langage commun avec tous les métiers et définir les concepts associés avant de pouvoir les valoriser ? Pour ce faire, nous vous proposons une démarche pragmatique en partant des cas d’usages métier auxquels vous souhaitez répondre. Ceci vous permettra d’identifier rapidement les sources de données pertinentes pour votre Data Hub, qu’elles soient internes/externes à l’entreprise, déjà existantes et accessibles ou à acquérir/enrichir depuis différentes sources.

2 . Cadrer l’architecture,

Quand viendra le temps de définir l’architecture de votre futur Data Hub, il conviendra à minima d’adresser les principaux domaines fonctionnels suivants et d’identifier ensuite les technologies les plus appropriées en fonction des catégories de cas d’usages que vous avez choisies de traiter :


cadrer architecture data hub


Avant de mettre en production la ou les briques de stockage, il faudra définir et convenir d’une politique et de règles d’urbanisation afin d’organiser les espaces :


Exemples de besoins qu’il faudra gérer:


besoin stockage data hub

3 . Démarrer l’industrialisation et la gouvernance de vos données

La gouvernance de vos données dans le Data Hub doit commencer dès le début de l’ingestion en créant une fiche d’identité de cette source de données que vous compléterez par des métadonnées. Ceci devrait permettre d’avoir une classification de cette donnée et lui associer les responsables.


Exemples de métadonnées pouvant y être associés :

  • techniques (description du format et des colonnes) via un dictionnaire de données,
  • métiers (à quel terme ou objet métier fait référence cette donnée) via un glossaire métier,
  • responsables métiers et IT.
  • tout autres métadonnées servant à qualifier vos données: confidentialité, type de donnée (référentiel, opérationnel, etc), application source, …
  • les politiques et règles associés à vos données lié à la qualité, à une réglementation où à la sécurité.

Ces informations devront ensuite être centralisées et partagées au sein d’un Data Catalog. Celui-ci deviendra ensuite la pierre angulaire qui permettra d’opérer et piloter votre gouvernance de données que ce soit en terme de qualité, de partage, de conformité ou de son cycle de vie via du Data Lineage.


Malheureusement plusieurs organisations font le choix d’adresser cette problématique plus tard pour différentes raisons. Le risque de ne pas adresser dès le départ cette gouvernance est de vous retrouver dans un marécage de données (Data Swamp) où il vous sera très difficile d’identifier les données qui ont de la valeur pour vos usages ou tout simplement de déployer les mesures de sécurité conformément à leur niveau de sensibilité. Prenez le temps d’urbaniser et structurer votre Data lake (lac de données).

4 . Qualifiez vos données et déployer vos usages

Un autre défi qu’il vous faudra relever est de bien qualifier la qualité d’une source de données par rapport à vos usages. Le monitoring de cette qualité pouvant se faire au travers plusieurs dimensions :

Les propriétés de vos données :

  • Est-ce que le schéma de vos données est stable ou sera amené à évoluer ?
  • Est-ce qu’il y a des patterns de format à harmoniser pour certains attributs comme les dates par exemple ?
  • Quel est le volume attendu ?
  • Quel est le niveau de performance attendu par les usages métiers ?

Les patterns d’ingestion et consommation

Comment sera alimenté le Data lake ? Par API, message, fichier plat ?


Quel format d’exposition sera le plus pertinent ?

Disponibilité, complétude et intégrité

A quelle fréquence seront rafraîchies les données ? Quelles sont les règles techniques et métiers à mettre en place afin de s’assurer de la bonne qualité de vos données pour vos usages?



En conclusion, vous trouverez ci-dessous le récapitulatif des grands principes à respecter pour réussir votre projet de Data Hub :


6 principes data hub




Découvrez-en plus concernant l’expertise de Sébastien : Architectures Innovantes.

Découvrir également
Découvrir plus d'articles
load