cdo-en-2021

Retour sur le rôle de Chief Data Officer en 2021

Retour sur le rôle de Chief Data Officer en 2021

21 juin 2021

– 4 min de lecture

Maureen Delaloi

Manager Transformation Data

« La data actif essentiel et incontestable de nombreuses organisations ».

Il suffit de poursuivre cette phrase en citant 2 ou 3 chiffres clefs de grands cabinets de conseil en stratégie, et voilà l’argument d’autorité posé… Oui mais quand on a dit ça, hé bien, qu’est-ce qu’on en fait ?

« La data » est en effet transverse aux entités d’une organisation, source d’opportunités commerciales, d’innovation ou de relation client de qualité, mais elle est bien souvent jugée comme un sujet technique ou abstrait. Le rôle de CDO est encore récent dans de nombreuses organisations : il lui faut trouver sa place et la meilleure articulation avec les Métiers, la DSI, mais aussi la Direction Générale. Il y a donc un enjeu à ce que ce dernier asseye son rôle stratégique dans toute organisation qui veut gérer ses données comme des actifs stratégiques. Le Chief Data Officer a un rôle clef, transverse et à de multiples facettes pour exploiter pleinement le potentiel que représentent les données : compétences humaines, techniques et de leadership. Il doit incarner la transformation vers un mode d’organisation orienté données.

Constructeur de fondations stables

Partons du plus évident (mais pas forcément du plus simple !). Pour toute construction il faut des fondations stables, hé bien avec la data c’est pareil. Des « datas », objets parfois suspects et mal identifiés, sont stockées un peu partout dans les bases de données des entreprises, des Sharepoint collaboratifs ou des fichiers Excel sur le disque dur des collaborateurs… La clef sera dans un premier temps de maîtriser et de sécuriser ces données. Le CDO doit impulser cette dynamique, s’assurer que les données soient connues (recensement dans un data catalog par exemple), accessibles (stockage efficient ), de qualité (règle de gouvernance des données avec des data owners), conformes aux réglementations et à l’éthique (RGPD ou autre) et répondent à des cas d’usages simples et concrets (avant de vouloir faire de l’IA ne faut-il pas que les reporting opérationnels les plus basiques et indispensables soient bien accessibles par les bonnes personnes au bon moment et avec le bon niveau de qualité ?).

Le CDO : architecte et chef d’orchestre

Le Chief Data Officer doit être l’architecte (rôle opérationnel) et le chef d’orchestre (rôle stratégique) de ces projets de fondations en concertation avec les métiers et l’IT. Avec son équipe, il doit accompagner les métiers pour répondre aux usages à valeur et avancer de façon pragmatique. Rien ne sert de lancer 12 projets stratégiques sur la data en même temps : apporter des preuves concrètes en traitant de façon pertinente 2 ou 3 cas d’usages clefs pour améliorer les enjeux opérationnels et vous pouvez être certain que la dynamique métier autour de votre transformation data sera bien mieux lancée ! Il en est de même pour l’IT : il doit aussi soigner sa relation avec la DSI avec laquelle il doit travailler sur des solutions concrètes nécessaires à la mise en œuvre de sa vision data et des usages métiers. 

Le Chief Data Officer doit être fédérateur

Le CDO n’a pas nécessairement pour vocation à prendre en charge lui-même l’ensemble des sujets qui traitent de la donnée. Les métiers doivent être des acteurs de première ligne sur le sujet. Le CDO s’intègre régulièrement à un existant désordonné, où les sujets sont déjà plus ou moins traités, mais de façon dispersée. Il doit apporter la vision transverse tout en laissant de l’autonomie aux métiers. Dans la mesure où les équipes data se sont constituées et professionnalisées dans les grands groupes, l’enjeu se déplace aujourd’hui vers la capacité à faire travailler ensemble tous les départements de l’organisation. L’acculturation de l’entreprise et la formation des équipes sont au cœur des enjeux du CDO en 2021.

En résumé : le Chief Data Officer doit faire preuve de savoir-faire mais aussi de savoir-être. Il doit incarner la vision, adosser son action au sponsorship inconditionnel de la Direction Générale, tout en restant au contact des équipes métier et en travaillant avec bonne intelligence avec les équipes IT.

Chiefs Data Officers, si vous n’aviez qu’une idée à retenir de cet article : pour en tirer sa valeur, la data doit pouvoir être expliquée et comprise par ma grand-mère (et je précise que ma grand-mère n’est pas data scientist !) ; visez le pragmatisme et les sujets à valeur immédiate pour votre organisation. Cela fondera le socle indispensable de votre transformation data dans la durée : expériences, résultats concrets et crédibilité ! 

Les idées exposées ici sont peut-être évidentes pour certains, utiles pour d’autres ! En tout cas, chez Rhapsodies Conseil, au sein de notre équipe Transformation Data, nous essayons d’appliquer cela systématiquement, et nous pensons que c’est le minimum vital.

Parlons de votre projet !








    Les informations recueillies sur ce formulaire sont enregistrées pour pouvoir vous identifier et vous répondre. Plus d’informations concernant notre gestion des données sur notre page mention d’information.

    explicabilite-machine-learning

    Interprétez simplement vos modèles de Machine Learning

    Interprétez simplement vos modèles de Machine Learning

    17 juin 2021

    – 8 min de lecture

    Valentin Defour

    Consultant Senior Transformation Data

    A l’heure de l’omniprésence algorithmique dans une multitude de domaines de notre société, une commission européenne dédiée publiait, il y a un an déjà, un livre blanc mettant en lumière le concept d’IA de confiance. Si ce concept englobe une multitude de notions et d’axes de réflexion (prise en compte des biais, robustesse des algorithmes, respect de la privacy, …), nous nous intéresserons ici particulièrement à la transparence et l’explicabilité des systèmes d’IA. Dans cette optique et après un rappel des enjeux et challenges de l’explication des modèles, nous construirons un simple tableau de bord rassemblant les principales métriques d’explicabilité d’un modèle, à l’aide d’une librairie Python spécialisée : Explainer-Dashboard.

    Vous avez dit “explicabilité” ?

    L’IA Explicable est l’intelligence artificielle dans laquelle les résultats de la solution peuvent être compris par les humains. Cela contraste avec le concept de «boîte noire» où parfois même les concepteurs du modèle ne peuvent pas expliquer pourquoi il est arrivé à une prédiction spécifique.

    Le besoin d’explicabilité de ces algorithmes peut être motivé par différents facteurs :

    Quand on adresse cette problématique, il convient de définir les différents termes (étroitement liés) que l’on peut retrouver :

    Si l’on considère des travaux de chimie au lycée, une interprétabilité de cette expérience serait “on constate un précipité rouge”. De son côté, l’explicabilité de l’expérience nécessitera de plonger dans les formules des différents composants chimiques.

    Note : dans un souci de simplification, nous utiliserons largement le terme “explicabilité” dans la suite de cet article.

    Via l’explication d’un modèle, nous allons chercher à répondre à des questions telles que :

    Quelles sont les causes d’une décision ou prédiction donnée ?

    Quelle est l’incertitude inhérente au modèle ?

    Quelles informations supplémentaires sont disponibles pour la prise de décision finale ?

    Les objectifs de ces explications sont multiples, car dépendants des parties prenantes :

    Et concrètement ?

    Le caractère “explicable” d’une IA donnée va principalement dépendre de la méthode d’apprentissage associée. Les méthodes d’apprentissage sont structurées en deux groupes conduisant, selon leur type, à un modèle explicite ou à une boîte noire :

    Dans le cas d’un modèle explicite (linéaire, gaussien, binomial, arbres de décision,…), la décision qui en découle est nativement explicable. Sa complexité (principalement son nombre de paramètres) peut toutefois endommager son explicabilité ;

    La plupart des autres méthodes et algorithmes d’apprentissage (réseaux neuronaux, agrégation de modèles, KNN, SVM,…) sont considérés comme des boîtes noires avec néanmoins la possibilité de construire des indicateurs d’importance des variables.

    Lors du choix d’un modèle de Machine Learning, on parle alors du compromis Performance / Explicabilité.

    Récupérer les données et entraîner un modèle simple

    Pour cette démonstration, notre cas d’usage analytique sera de prédire, pour un individu donné, le risque d’occurrence d’une défaillance cardiaque en fonction de données de santé, genre, âge, vie professionnelle, …

    Si cette problématique ne revêt pas spécifiquement d’aspect éthique relatif à la transparence de l’algorithme utilisé, nous pouvons toutefois bien percevoir l’utilité de l’explicabilité d’un diagnostic de risque assisté par IA : collaboration facilitée avec l’expert métier (en l’occurrence, le médecin) et information plus concrète du patient, entre autres bénéfices.

    Le jeu de données éducatif utilisé est fourni par l’OMS et peut être téléchargé sur la plateforme de data science Kaggle :

    Il contient les données de 5110 personnes, réparties comme suit :

    Données :

    • Age du sujet ;
    • Genre du sujet ;
    • A déjà souffert d’hypertension (oui / non)
    • A déjà souffert de maladies cardiaques (oui / non)
    • Statut marital
    • Type d’emploi
    • Type de résidence (citadin, rural)
    • Niveau moyen sanguin de glucose
    • IMC
    • Fumeur (oui / non)

    Note : nous avons procédé à une simple préparation des données qu’il est possible de retrouver dans le notebook complet en bas de page.

    Pour la partie modélisation, nous utiliserons un modèle « baseline » de Random Forest. Pour éviter que notre modèle ne reflète seulement que la distribution des classes (très déséquilibrée dans notre cas, 95-5), nous avons ajouté des données “synthétiques” à la classe la moins représentée (i.e. les patients victimes de crises cardiaques) en utilisant l’algorithme SMOTE, pour atteindre une répartition équilibrée (50-50) :

    Notre modèle est prêt, nous pouvons à présent l’utiliser en input du dashboard !

    Création du dashboard

    Nous avons donc à disposition un modèle entraîné sur notre dataset et allons à présent construire notre tableau de bord d’interprétation de ce modèle.

    Pour ce faire, nous utilisons la librairie explainer-dashboard, qui s’installe directement via le package installer pip :


    pip install --upgrade explainerdashboard

    Une fois la librairie installée, nous pouvons l’importer et créer simplement une instance “Explainer” à l’aide des lignes suivantes :

    from explainerdashboard import ClassifierExplainer, ExplainerDashboard
    
    explainer = ClassifierExplainer(RF, X_test, y_test)
    
    db = ExplainerDashboard(explainer,
                           n_jobs = -1,
                            title="Heart Stroke Prediction Explainer"
                           )
    
    db.run(port=8050)

    Plusieurs modes d’exécution sont possibles (directement dans le notebook, dans un onglet séparé hébergé sur une IP locale, …) (plus d’informations sur les différents paramètres de la librairie dans sa documentation).

    Note : le dashboard nécessitera d’avoir installé la librairie de visualisation “Dash” pour fonctionner.

    Interprétation des différents indicateurs

    Le tableau de bord se présente sous la forme de différents onglets, qu’il est possible d’afficher / masquer via son paramétrage :

    Plongeons à présent dans les détails de chacun de ces onglets !

    Features Importance

    A l’instar de l’attribut feature_importances_ de notre modèle de Random Forest, cet onglet nous permet de visualiser, pour chaque colonne de notre dataset, le pouvoir de prédiction de chaque variable.

    L’importance des features a ici été calculée selon la méthode des valeurs de SHAP (acronyme de SHapley Additive exPlanations). Nous n’approfondirons pas ce concept dans cet article (voir rubrique “aller plus loin”).

    Ces scores d’importance peuvent permettre de :

    Dans l’exemple ci-dessous, on peut constater que :

    Classification Stats

    Cet onglet nous permet de visualiser les différentes métriques de performance de notre modèle de classification : matrice de confusion, listing des différents scores, courbes AUC, … Il sera utile en phase de paramétrage / optimisation du modèle pour avoir un aperçu rapide et complet de sa performance :

    Individual Predictions

    Cet onglet va nous permettre, pour un individu donné, de visualiser les 2 indicateurs principaux relatifs à la décision prise par le modèle :

    Le graphe des contributions : 

    La contribution d’un feature à une prédiction représente l’impact probabilistique sur la décision finale de la valeur de la donnée considérée.

    Suite à notre traitement du déséquilibre des classes, nous avons autant de sujets “sains” que de sujets “à risque” dans notre jeu de données d’apprentissage. Un estimateur aléatoire aura donc 50% de chances de trouver la bonne prédiction. Cette probabilité est donc la valeur “baseline” d’entrée dans notre graphe des contributions.

    Ensuite, viennent s’ajouter en vert sur le visuel les contributions des features pour lesquelles la valeur a fait pencher la décision vers un sujet “à risque”. Ces features et leur contribution amènent la décision à une probabilité de ~60% de risque.

    Puis, les features dont la contribution fait pencher la décision vers un sujet “sain” viennent s’ajouter (en rouge sur le graphe). On retrouve ici nos prédicteurs forts tels que l’âge ou encore l’IMC.

    On a donc :

    décision finale = 50% + probabilité(sain) + probabilité(à risque) = 5.08%

    > Le sujet est proposé comme sain par l’algorithme

    Le graphe des dépendances partielles :

    Ce visuel nous permet de visualiser la probabilité de risque en fonction de la variation d’une des features, en conservant la valeur des autres constantes. Dans l’exemple ci-dessus, on peut voir que pour l’individu considéré, augmenter son âge aura pour effet d’augmenter sa probabilité d’être détecté comme “à risque”, ce qui correspond bien au sens commun.

    What if Analysis

    Dans l’optique de l’onglet précédent, l’analyse “what if” nous permet de renseigner nous mêmes les valeurs des différents features et de calculer l’output du modèle pour le profil de patient renseigné :

    Il reprend par ailleurs les différents indicateurs présentés dans l’onglet précédent : graphe des contributions, dépendances partielles, …

    Features Dependance

    Cet onglet présente un graphe intéressant : la dépendance des features.

    Il nous renseigne sur la relation entre les valeurs de features et les valeurs de SHAP. Il permet ainsi d’étudier la relation générale entre la valeur des features et l’impact sur la prédiction.

    Dans notre exemple ci-dessus, le nuage de points nous apprend deux choses :

    Decision Trees

    Enfin, dans le cas où l’input du dashboard est un modèle à base d’arbres de décisions (gradient boosted trees, random forest, …), cet onglet sera utile pour visualiser le cheminement des décisions de la totalité des arbres du modèle.

    Dans l’exemple ci-dessous, nous considérons le 2712ème individu du jeu de données pour lequel 50 arbres ont été calculés via l’algorithme de Random Forest. Nous visualisons la matrice de décision de l’arbre n°13 :

    Ce tableau nous montre le cheminement de la décision, depuis une probabilité de ~50% (qui serait la prédiction d’un estimateur ne se basant que sur la moyenne observée sur le jeu de données). On peut constater que, pour cet individu et pour l’arbre de décision considéré :

    L’onglet nous propose également une fonctionnalité de visualisation des arbres via la librairie graphviz.

    L’étude des différents indicateurs présentés dans les onglets du dashboard nous a permis :

    L’étude de ces indicateurs doit être partie intégrante de tout projet d’IA actuel et futur

    L’explicabilité des modèles de Machine Learning, aujourd’hui considéré comme l’un des piliers d’une IA éthique, responsable et de confiance, représente un challenge important pour accroître la confiance de la société envers les algorithmes et la transparence de leurs décisions, mais également la conformité réglementaire des traitements en résultant.

    Dans notre cas d’étude, si la librairie explainer-dashboard est à l’initiative d’un particulier, on remarque une propension à l’éclosion de plusieurs frameworks et outils servant le mouvement “Fair AI”, dont plusieurs développés par des mastodontes du domaine. On peut citer le projet AIF360 lancé par IBM, une boîte à outils d’identification et de traitement des biais dans les jeux de données et algorithmes.

    Cette librairie est utile en phase de développement et d’échanges avec le métier mais peut toutefois ne pas suffire en industrialisation. Alors un dashboard “maison” sera nécessaire. Elle a toutefois un potentiel élevé de personnalisation qui lui permettra de répondre à de nombreux usages.

    Note : l’intégralité du notebook utilisé est disponible sur ce lien.



    Parlons de votre projet !








      Les informations recueillies sur ce formulaire sont enregistrées pour pouvoir vous identifier et vous répondre. Plus d’informations concernant notre gestion des données sur notre page mention d’information.

      Pour aller plus loin :

      Paiements-de-compte-a-compte-en-proximite-Prerequis-et-interet

      Paiement de compte à compte en proximité – Prérequis et intérêt

      Paiement de compte à compte en proximité - Prérequis et intérêt

      2 juin 2021

      – 2 min de lecture

      Ikbel Snoussi

      Senior Manager Retail Payments

      J’ai eu le plaisir d’introduire la table ronde « Le futur du paiement de proximité », organisée par le groupe de travail Perspectives & Innovations du France Payment Forum. J’ai présenté une synthèse des différents éléments qui pourraient favoriser la construction de nouveaux parcours utilisateurs en proximité, à commencer par l’émergence et le développement des schemes de Real Time Payment 

      En effet, depuis le Zengin japonais lancé en 1973, les schemes de paiement en temps réel n’ont cessé de se développer et se généraliser avec une certaine accélération sur les dernières années. Les derniers en date étant le SCT Inst en Europe en 2017, la Malaisie et la Roumanie en 2019 et le Vietnam en 2020.

      Un environnement favorable

      Parmi ces initiatives, les transferts de compte à compte en proximité constituent une partie significative des cas d’usage. Une analyse comparative fait apparaître des similitudes en termes d’écosystème. En effet, au-delà de l’existence d’un scheme de real time payment, nous remarquons la présence de catalyseurs tels que :

      Pour quels bénéfices ?

      Toutefois, bien que ces catalyseurs favorisent indéniablement l’émergence de nouveaux usages, le véritable challenge reste celui de l’adhésion à la fois des consommateurs et des marchands. Pour cela, la nouvelle proposition de valeur devra résoudre un véritable pain point ou bien améliorer substantiellement un usage existant. Parmi les bénéfices attendus de la part des consommateurs, nous pouvons citer :

      Du côté des commerçants il sera important de :

      Comment s’y prendre ?

      Face à cet objectif de fluidification de l’expérience utilisateur, plusieurs approches sont envisageables. A titre d’exemple, le tableau récapitulatif présenté ci-dessous fait le parallèle entre le modèle du consortium Bizum, fruit de la coopération de 31 banques espagnoles, et celui de la FinTech (AISP/PISP) Vibe Pay.

      Bien que sensiblement différents en termes de scheme sous-jacent, de stratégie de couverture et de moyen, il est à noter que les deux modèles adressent les mêmes cas d’usage, à savoir le P2P, l’e-commerce et le paiement en proximité. De ce fait, le dernier challenge à relever, et non des moindres, sera de construire une expérience d’achat unifiée sans coutures

      Pour atteindre cet objectif, il est essentiel d’intégrer le paiement bien en amont lors de la conception de l’expérience utilisateur afin qu’il se fonde dans le parcours d’achat et non pas être un nième moyen de paiement qui arriverait en bout de chaîne.

      Les autres articles qui peuvent vous intéresser

      7-question-comparer-couts-solutions-paiement

      Solutions de Paiement – 7 questions pour comparer les coûts

      Solutions de Paiement - 7 questions pour comparer les coûts

      18 mai 2021

      – 3 min de lecture

      Outre l’offre bancaire classique, la France compte plus de 600 FinTechs, dont pas moins de 150 PayTechs. Bonne nouvelle au niveau de l’offre, mais comment s’y retrouver au moment du choix de solution de paiement, que l’on soit commerçant, marketplace, fournisseur de service en ligne, association…

      Les critères à prendre en compte sont multiples dans le choix de son PSP. Concentrons-nous ici sur le critère économique, autour de 7 questions visant à :

      1. Quel est le positionnement du PSP ?

      Derrière le check-out ou plus généralement l’ordre client, nombreux sont les intervenants dans la chaîne de paiement. Les stratégies fournisseurs varient largement :

      Le couplage Acceptation / Acquisition illustre cette problématique de périmètre, avec ses conséquences directes sur l’analyse des coûts : 

      2. Quelle est votre maîtrise de vos volumes d’opérations de paiement ? 

      « La prévision est difficile surtout lorsqu’elle concerne l’avenir… ». Au moment du choix d’une solution de paiement, il peut être difficile d’évaluer les volumes d’opérations, leur répartition par moyen de paiement

      S’ils sont bien maîtrisés, les propositions plus détaillées (jusqu’à 25 paramètres recensés dans notre grille d’analyse) pourront permettre d’optimiser les coûts, au prix d’un engagement dans la durée, de minima de volumes, de conditions de modification et de sortie….

      Dans l’autre cas, les propositions plus flexibles et plus intégrées seront plus adaptées à un modèle économique à prouver.

      3. Quelle palette de moyens de paiement ?

      couts des moyens de paiement

      Les nouveaux PSP se sont d’abord développés sur le modèle de la carte, en tant que moyen de paiement privilégié des clients, en ligne et en magasin.

      Les autres moyens de paiement (Virement, Prélèvement…) ont depuis commencé à percer, notamment pour des raisons de coût à la transaction.

      Le Virement Instantané va contribuer à élargir cette palette, en concurrence directe avec la carte, à la fois au niveau des coûts, mais aussi pour des paiements supérieurs aux plafonds cartes.

      Au niveau de la comparaison des coûts, les PSP proposant ces différents moyens de paiement bénéficieront de coûts moyens inférieurs aux pure-players de la carte.

      4. Faut-il prévoir des coûts complémentaires pour les retries, rejets, chargebacks, reporting… ?

      Au-delà du traitement nominal des opérations, il est important d’intégrer aussi les cas d’exception (trop nombreux d’ailleurs, pour être qualifiés d’exceptions…). 

      Là encore, les PSP se distinguent entre :

      5. Quel impact sur la fraude et les charges internes ?

      La fraude intervient dans la comparaison économique des PSP à 2 niveaux :

      Outre la fraude, d’autres postes de charge interne sont touchés par le choix du PSP :

      6. Encaissement direct ou reversement ?

      Au-delà des coûts de transaction, les offres des PSP peuvent aussi impacter la trésorerie. Deux modèles coexistent :

      7. Quels coûts de mise en œuvre de la solution de paiement ?

      cout mise en oeuvre solution de paiement

      Au-delà des coûts de fonctionnement traités plus haut, les coûts de mise en œuvre peuvent aussi varier :

      En conclusion, la multiplication des PSP a apporté une plus grande richesse des services de paiement. Elle a aussi rendu plus complexe la comparaison des offres, au moment du choix du Prestataire de Services de Paiement.

      Rien que sur le critère des coûts, la comparaison nécessite de prendre en compte le modèle économique du PSP, sa position dans la chaîne de bout en bout, la palette de moyens de paiement supportés, la fraude, les optimisations possibles sur les charges internes et les opportunités des solutions de digitalisation dans l’entreprise…

      En rappelant toutefois que l’équation économique repose avant tout sur le taux de transformation client et que la fluidité du parcours de paiement proposé par le PSP précède la question du coût !

      Alors, rendez-vous sur nos prochains articles sur le choix des solutions de paiement pour éclairer l’ensemble de ces critères.

      Les autres articles qui peuvent vous intéresser

      Survivre grâce à son SI

      Survivre grâce à son SI

      15 décembre 2020

      15 décembre 2020

      – 5 minutes de lecture

      Architecture inno

      Lionel Martin

      Consultant Senior Architecture

      Les données sont partout et nulle part et sont bien souvent intangibles. Notre quotidien devient petit à petit un flot permanent de données générées, collectées et traitées. Elles sont cependant un moyen pour atteindre des objectifs et non une finalité. 

      Les entreprises doivent donc avoir la capacité à naviguer vers leurs objectifs business, sur une rivière qui deviendra vite un océan de données. L’important maintenant est donc de savoir si elles ont les moyens de braver les éléments.

      Les ‘éléments’ auxquels il faut faire face

      1. L’obligation de la donnée

      La donnée est omniprésente. Données personnelles, confidentielles, de navigation, de consentement, data science, data platform, data visualization, chief data officer font partie d’une longue liste de termes qui font le quotidien des experts mais aussi du client consommateur. Les données sont aujourd’hui un asset reconnu et à forte valeur ajoutée (1). Elles sont aussi un asset pérenne du fait des usages numériques et des opportunités business qui se réinventent tous les jours. 

      Premier constat donc, l’obligation de la donnée. Elle est un passage obligatoire pour mieux connaître les consommateurs, répondre à leurs nouveaux besoins et être innovant.

      2. La surabondance

      La digitalisation croissante dans tous les secteurs, les réseaux sociaux, l’IOT, la mobilité, l’utilisation croissante des smartphones sont des exemples qui provoquent une forte augmentation de la génération de données. Les sources se multiplient, les besoins en stockage également (2). Par conséquent, nous sommes vite confrontés à une problématique grandissante : comment maîtriser toutes ces données ? Comment faire face à ce flot surabondant ? Et comment en tirer des informations utiles sans être noyé ? 

      Les prévisions (3) tablent en effet sur une multiplication par trois ou quatre du volume annuel de données créées tous les cinq ans. Les chiffres sont implacables. 

      Le deuxième constat est donc la surabondance. Un océan numérique déferle et chaque entreprise, peu importe sa taille, devra y faire face.

      3. L’éphémère

      Le numérique génère de nouvelles habitudes chez le consommateur : l’instantanéité, le choix abondant et la rapidité de changement. (offre, prix, produit, etc.). Ces habitudes se traduisent par des besoins de plus en plus éphémères. Elles raccourcissent les durées de vie des produits et des services, ou imposent de continuellement se renouveler pour se différencier. Les opportunités marchés sont nombreuses et il faut aller vite pour les saisir le premier. Être le premier est ainsi souvent synonyme de leadership sur le marché. (exemple : Tesla, Airbnb, Uber) L’éphémérité des besoins impose donc d’accélérer en permanence tous les processus internes, métier et SI. 

      Le troisième constat est donc l’éphémère (besoin, produits, services) qui devient de plus en plus présent. Il est ainsi nécessaire d’être de plus en plus réactif pour s’adapter et évoluer rapidement face à ces changements permanents.

      4. L’innovation permanente

      Le numérique engendre aussi une accélération de l’innovation. Il rend accessible au plus grand nombre la possibilité de réinventer son quotidien. Cette accélération permanente rend plus rapidement obsolète l’invention d’hier. 

      Qui aurait en effet pensé que nous allions pouvoir partager nos appartements il y a 10 ans ? Qui aurait pensé que payer sa place de parking se ferait sur son téléphone ? Et surtout qui aurait pensé qu’un téléphone deviendrait l’accès privilégié à toutes nos innovations de demain ?

      Le dernier constat est donc l’innovation permanente. Comme pour l’instantanéité, cela génère un besoin de flexibilité et de rapidité fort pour pouvoir suivre le rythme d’innovations imposé par le monde digital.

      5. La capillarité de la donnée

      Quel est le point commun aux constats précédents ? La donnée. La donnée est présente dans tous les processus et tous les usages en contact ou non avec le client. Ainsi la donnée, par nature, telle la propagation d’un liquide sur une surface, oblige à s’interroger sur les briques du SI qui l’utilisent pendant ces processus et ces usages : c’est la capillarité des données. 

      Ensuite avec de l’expertise et de la méthodologie, tout s’enchaîne! La définition des besoins et la conception fonctionnelle au travers du prisme “donnée” dans une vision d’ensemble, feront que naturellement par capillarité, vous adresserez le cycle de vie de la donnée, sa valeur et l’architecture de votre SI pour répondre à ces besoins.

      Survivre grâce au SI Data Centric

      Dans ce contexte de surabondance, d’éphémérité et d’innovation permanente, comment alors maîtriser son patrimoine de données ? Il s’agit de raisonner données et non plus SI. L’objectif devient la gestion de la donnée. Se poser la question de comment gérer des données permet en effet d’adresser ces changements détaillés précédemment et par capillarité, le SI. Un SI centré sur les données est donc le moyen d’adresser ces vagues de changements et de résister aux éléments.
      En effet, gérer les données impliquent des notions d’unicité, de qualité, de volumétrie, de performance, de confidentialité, d’échanges, de réglementations. L’amélioration de la conception du SI pour faire face à ce nouveau contexte est donc immédiate.

      Les fonctions à adresser par le SI, qu’elles soient métiers ou techniques, et la gouvernance nécessaire à la gestion des données vont soulever des questions qui permettront d’adresser ce nouveau contexte d’éphémérité et de surabondance.
      L’innovation permanente oblige, elle, à industrialiser la livraison des nouvelles fonctionnalités de ce SI centré sur les données.
      Le SI se construit ainsi autour de la donnée : flexible, modulaire, et industrialisé. Par exemple des référentiels (produits, clients, fournisseurs, etc.) sont mis en place, garantissant la qualité et la mise à jour des données utilisées par toute l’entreprise. Un autre exemple est que les données collectées sont conservées à un seul endroit brutes puis standardisées pour identifier les relations entre elles. Ou encore des outils permettant d’avoir la définition, le cycle de vie et le propriétaire de chaque donnée sont déployés. Le SI devient ainsi un SI centré sur les données. (“Data Centric”). 

      Il s’adaptera donc naturellement aux futurs changements du marché grâce à tout ce qu’implique la donnée. Il devient un socle solide adressant différents usages sans forcément avoir besoin de transformation en profondeur, longue et coûteuse.
      Pourquoi ? Car encore une fois, gérer une donnée et faire en sorte qu’elle soit collectée, de qualité, sous contrôle, disponible partout en temps réel et en unitaire ou en masse, intégrées aux processus cœur de métier de l’entreprise, est universel et adaptable à tout usage.

      Intrinsèquement la donnée est agnostique de l’usage qu’elle sert. C’est le SI Data Centric qui garantit cette fonction, et assure la survie de l’entreprise dans la jungle digitale.

      Conclusion

      S’impliquer fortement dans l’évolution du SI est donc nécessaire. L’objectif est de commencer petit mais de commencer Data Centric. Usage après usage, votre SI se construit toujours plus résilient aux différentes vagues de cet océan de données. Un autre bénéfice, et non des moindres : l’innovation des équipes n’étant plus ralentie par le SI, elle s’en trouve ainsi décuplée.

      Construire un SI Data Centric, c’est la garantie d’avoir un SI modulaire et adaptable qui répond aux enjeux d’aujourd’hui et de demain. Il est ainsi une base solide sur laquelle construire la pérennité de l’entreprise dans ce nouveau contexte.

      Découvrez-en davantage concernant l’expertise de Lionel : Architectures Innovantes.

      (1) Comment valoriser vos données ? Le livre blanc ‘Augmentez la valeur de vos données’ Rhapsodies Conseil est là pour répondre à vos interrogations

      (2) Quels sont les principaux inducteurs pour choisir le bon stockage de données ? Rhapsodies Conseil vous donne son point de vue.

      (3) Estimations publiées dans le Digital Economy Compass 2019

      Les autres articles qui peuvent vous intéresser

      solution-miracle-stockage-donnees

      Une solution miracle pour choisir le bon stockage de données ?

      Une solution miracle pour choisir le bon stockage de données ?

      14 décembre 2020

      – 2 min de lecture

      Sébastien Grenier-Fontaine

      Nous aurions pu dresser ici un panorama des technologies, mais mis à part l’intérêt artistique de la présentation, même si l’analyse de notre exemple est très pertinente, sa plus-value en termes d’architecture s’en serait trouvée limitée (1).

      Certains proposent une vision basée sur les prérogatives technologiques.

      Cette approche (2) oublie la finalité du stockage de la donnée et ne propose qu’un nombre limité de solutions. Nous préférons donc proposer une approche axée sur l’usage de la donnée et sur le besoin utilisateur…

      Faisons un rapide tour d’horizon des technologies

      Aujourd’hui lorsque nous parlons de data stores, plusieurs familles sont représentées :

      Bref, plus de 350 bases de données sont répertoriées à ce jour. Certaines sont uniquement disponibles en PaaS, d’autres sont hybrides et certaines plus traditionnelles ne sont pas éligibles au Cloud(3). Il est donc indispensable de construire une méthodologie qui permette de choisir la technologie qui réponde au besoin.

      Pas facile de faire son choix !

      Répondre à notre question initiale est bien plus complexe aujourd’hui qu’il y a quelques années, tant les usages ont évolués et les technologies se sont multipliées.

      Toutefois pour ne pas se tromper, les bonnes questions à adresser en amont sont les suivantes :

      1. De quelle manière l’application va-t-elle consommer les données : via des appels directs, une couche d’API, des requêtes GraphQL ?
      2. Est-ce que les fonctionnalités attendues doivent être portées uniquement par la base de données ? Ou est-ce que des composants supplémentaires sont nécessaires ?
      3. Est-ce que les transactions doivent être ACID (4) ?
      4. A quelles contraintes du théorème CAP(Consistency, Availability, Partition tolerance) (5) la base de données doit-elle répondre en priorité ? 
      5. Quelles structures ou formats de données se prêtent le mieux à l’usage demandé : clé/valeur, colonne, document ou encore graph ?
      6. Quelle va être la volumétrie de ces données ? Quels sont les besoins en termes de performances, de résilience ?
      7. Pour quel type d’usage ? (Décisionnel ? Transactionnel ? Événementiel ?)
      8. Pour quelle nature de données ? (IoT ? Géographiques ? Coordonnées GPS ? Données chronologiques ? Spatio-temporelles ?)

      D’autres considérations doivent également être prisent en compte :

      Au cas par cas, suivant l’usage qui sera fait des données, selon le type des données, selon le niveau de protection nécessaire, nous vous conseillons de construire un arbre de décision cohérent avec l’ensemble des contraintes à appliquer.

      Dans certains cas, la solution pour simplifier la spécialisation du stockage sera complétée par une orientation microservice. Cette approche permettra d’exposer et de consommer les données de manière beaucoup plus souple qu’avec l’approche monolithique traditionnelle (un seul data store pour toutes vos données).

      Pour en savoir plus sur ces sujets, nous vous invitons à consulter nos articles dédiés :

      La solution, concentrez-vous sur le besoin initial

      Que l’on se le dise, il n’y aura pas de solution permettant de répondre à l’ensemble des besoins. Les projets qui réussissent sont ceux qui se concentrent sur le besoin initial, prennent en compte le savoir-faire de l’équipe en charge du projet et qui, lorsque le besoin évolue, complètent leur architecture en restant concentrés sur le besoin métier.

      En conclusion, la solution de stockage ne doit pas être choisie uniquement en fonction des contraintes technologiques, mais bien en fonction de l’usage qui sera fait de la donnée.



      1 : https://mattturck.com/data2020/
      2 : https://docs.microsoft.com/en-us/azure/architecture/guide/technology-choices/data-store-decision-tree#feedback
      3 :  https://db-engines.com/en/ranking
      4  : https://fr.wikipedia.org/wiki/Propri%C3%A9t%C3%A9s_ACID
      5 : https://fr.wikipedia.org/wiki/Th%C3%A9or%C3%A8me_CAP
      6 : https://www.mongodb.com/cloud/stitch

      Les autres articles qui peuvent vous intéresser