principes-clé-projet-plateforme-data-centric

Les grands principes pour réussir votre projet plateforme Data Centric

Les grands principes pour réussir votre projet plateforme Data Centric

14 avril 2020

– 3 min de lecture

Sébastien Grenier-Fontaine

Le Big Data est maintenant passé au stade industriel pour beaucoup de moyennes et grandes entreprises. Les objectifs qui doivent être atteints pour ce type d’initiatives étant de dé-siloter les données de l’entreprise et d’en favoriser l’accès.

Ceci a donc donné lieu à toutes sortes de projets de plateformes Data Centric : Data Lab, Data Hub, Data Lake, … Certains de ces projets ont échoué, d’autres ont réussi. Nous avons regroupé dans cet article les astuces et principes qui nous semblent clés pour réussir votre projet de Data Hub.

Tout d’abord qu’est-ce qu’un Data Hub ?

Auparavant les traditionnels entrepôts de données ne traitaient que des données structurées ayant préalablement subi une transformation technique avec une logique métier particulière. Ceci rendait complexe toute intégration d’une nouvelle source de données ou projet d’évolution de cet entrepôt de données. Le Data Hub permet de répondre aux critères ci-dessous :

bénéfices data hub

Découpez votre projet de Data Hub en 4 grandes étapes

Le Data Hub ne se résume pas à une plateforme technique pour sauvegarder un historique de vos données d’entreprise. Les architectes ont un vrai rôle à jouer dans le projet afin de définir le positionnement de cette plateforme dans le paysage SI de votre entreprise et par rapport au cycle de vie de vos données comme nous l’indiquions dans cet article : un data lake sans architecture est un vrai saut dans le vide.

Vous pourrez ensuite lancer votre projet de Data Hub au travers de ces 4 grandes étapes :

1 . Identifier vos principaux usages

Comment faire pour sélectionner les sources de données qui alimentent votre Data Hub ? Faut-il chercher à tout historiser et trouver les usages ensuite ? Faut-il d’abord définir un langage commun avec tous les métiers et définir les concepts associés avant de pouvoir les valoriser ? Pour ce faire, nous vous proposons une démarche pragmatique en partant des cas d’usages métier auxquels vous souhaitez répondre. Ceci vous permettra d’identifier rapidement les sources de données pertinentes pour votre Data Hub, qu’elles soient internes/externes à l’entreprise, déjà existantes et accessibles ou à acquérir/enrichir depuis différentes sources.

2 . Cadrer l’architecture,

Quand viendra le temps de définir l’architecture de votre futur Data Hub, il conviendra à minima d’adresser les principaux domaines fonctionnels suivants et d’identifier ensuite les technologies les plus appropriées en fonction des catégories de cas d’usages que vous avez choisies de traiter :

Avant de mettre en production la ou les briques de stockage, il faudra définir et convenir d’une politique et de règles d’urbanisation afin d’organiser les espaces :

Exemples de besoins qu’il faudra gérer:

3 . Démarrer l’industrialisation et la gouvernance de vos données

La gouvernance de vos données dans le Data Hub doit commencer dès le début de l’ingestion en créant une fiche d’identité de cette source de données que vous compléterez par des métadonnées. Ceci devrait permettre d’avoir une classification de cette donnée et lui associer les responsables.

Exemples de métadonnées pouvant y être associés :

Ces informations devront ensuite être centralisées et partagées au sein d’un Data Catalog. Celui-ci deviendra ensuite la pierre angulaire qui permettra d’opérer et piloter votre gouvernance de données que ce soit en terme de qualité, de partage, de conformité ou de son cycle de vie via du Data Lineage.

Malheureusement plusieurs organisations font le choix d’adresser cette problématique plus tard pour différentes raisons. Le risque de ne pas adresser dès le départ cette gouvernance est de vous retrouver dans un marécage de données (Data Swamp) où il vous sera très difficile d’identifier les données qui ont de la valeur pour vos usages ou tout simplement de déployer les mesures de sécurité conformément à leur niveau de sensibilité. Prenez le temps d’urbaniser et structurer votre Data lake (lac de données).

4 . Qualifiez vos données et déployer vos usages

Un autre défi qu’il vous faudra relever est de bien qualifier la qualité d’une source de données par rapport à vos usages. Le monitoring de cette qualité pouvant se faire au travers plusieurs dimensions :

Les propriétés de vos données :

Les patterns d’ingestion et consommation

Comment sera alimenté le Data lake ? Par API, message, fichier plat ?

Quel format d’exposition sera le plus pertinent ?

Disponibilité, complétude et intégrité

A quelle fréquence seront rafraîchies les données ? Quelles sont les règles techniques et métiers à mettre en place afin de s’assurer de la bonne qualité de vos données pour vos usages?

En conclusion, vous trouverez ci-dessous le récapitulatif des grands principes à respecter pour réussir votre projet de Data Hub :