La dataviz périodique est une publication qui a pour objectif de mettre en évidence les bonnes pratiques et les écueils à éviter en matière de data visualisation (aussi appelée dataviz). A chaque publication, nous vous proposons de décrypter un nouveau sujet et un exemple de dataviz pour comprendre les ficelles de la réussite en datavisualisation.
Dans cette édition, nous aborderons le thème des biais de perception en dataviz et nous verrons comment les limiter en prenant exemple sur une publication du Monde : lien vers la dataviz.
Visuel extrait de l’article du Monde présenté en introduction (lien vers l’article)
Si vous souhaitez aborder un sujet complexe, comme celui du Monde qui s’attache à expliquer le positionnement des députés par rapport à la majorité de l’Assemblée nationale, il est nécessaire de porter une attention particulière au type de graphique utilisé.
Une pratique courante est de proposer une vision moyennée d’un phénomène mesurable sur un groupe (e.g. individus, produits) séparé en catégories (e.g. taille, lieu) en utilisant un graphique en barre. Ce type de visuel a l’avantage de comparer les sujets simplement et de donner l’impression de pouvoir appréhender la réalité d’un coup d’œil.
Or ce n’est qu’une impression. La plupart du temps, nous ne nous rendons pas compte du biais de perception qu’induisent les graphiques en barre en gommant les disparités présentes au sein de chaque catégorie (ou barre du graphique).
Dans son article publié sur Data Visualisation Society, Eli Holder explique l’importance de réintroduire de la dispersion dans la dataviz afin de ne pas créer ou confirmer des stéréotypes. [1]
Le stéréotype est une tendance naturelle, souvent inconsciente, qui consiste à penser aux individus en termes d’appartenance à leur groupe social. C’est une façon pratique et utile de réduire la complexité du monde qui nous entoure. Par exemple, au moment de visiter une ville que nous ne connaissons pas, nous pouvons nous adresser à un officier de police ou à un chauffeur de taxi pour demander notre direction, en partant du présupposé que ces personnes seront à même de détenir l’information. [2]
Cependant, il n’est pas opportun d’encourager cette tendance naturelle quand nous concevons des dataviz, en particulier quand le sujet est complexe et appelle une prise de décision éclairée et réfléchie.
Dans le cas du sujet traité par le Monde, il aurait été possible de représenter l’adhésion au texte de la majorité non pas par député mais par parti politique. Or une représentation en graphique en barre du taux d’adhésion moyen des parlementaires par parti politique aurait renvoyé une illusion de similarité au sein des différents partis et aurait amené mécaniquement le lecteur à penser (cf schéma ci-dessous) : « Le parti politique A vote davantage en faveur des textes portés par la majorité que le parti politique C. Donc tous les députés du parti politique A sont plus proches de la majorité que tous les députés du parti politique C. »
Schéma illustratif réalisé à partir de données fictives (toute ressemblance avec des éléments réels serait fortuite)
Pour casser ces biais de perception, il est possible d’introduire de la dispersion dans nos dataviz et ainsi mieux refléter la complexité de la réalité. Des visuels tels que le nuage de point (Scatter Plot) ou le Jitter Plot sont de bonnes alternatives aux graphiques en barre ou histogrammes.
Dans la dataviz du Monde, le nuage de points a été judicieusement choisi pour montrer le positionnement de chaque député. Cette représentation permet par ailleurs de croiser le taux d’adhésion des députés avec leur niveau de participation aux scrutins étudiés. Cela permet de calculer un indice de proximité plus complet et d’éclairer le sujet avec un nouvel axe d’analyse.
Le lecteur est alors moins tenté de confondre le positionnement des députés avec celui des partis politiques pour le comprendre, et donc moins enclins à faire des préjugés.
Visuel extrait de l’article du Monde présenté en introduction (lien vers l’article)
En définitive, nous observons à travers l’exemple du Monde, qu’il est parfois nécessaire d’introduire de la dispersion dans les représentations visuelles pour traiter un sujet complexe.
Les nuages de points et autres diagrammes de dispersion, permettent au lecteur d’appréhender un phénomène à la maille la plus fine et de limiter la création ou l’entretien de stéréotypes. Le lecteur est alors plus à-même de prendre du recul par rapport au sujet traité et de développer un point de vue éclairé quant au phénomène étudié.
De manière plus générale, Eli Holder propose d’élargir notre conception de la “bonne dataviz” et d’aller au-delà de la représentation claire, accessible et esthétique. Il est nécessaire de prendre en compte sa responsabilité, en tant que créateur de dataviz, vis-à-vis de son public et du sujet traité. Il est essentiel de porter une attention particulière aux visuels choisis pour minimiser les interprétations inexactes, et par extension, la création de stéréotypes.
Dans un monde où l’innovation est un facteur clef de Création et de développement des entreprises, reviennent deux questions : « Comment innover ? », et « Quelle sera la prochaine innovation ? ». Les sujets tels que le machine learning ou les plateformes data sont des incontournables de la décennie, mais des entreprises se lançant sur ces sujets sont parfois confrontées à des freins fondamentaux, faute de s’être posées la question suivante : « Quels sont les prérequis à l’innovation ? ».
Si l’innovation s’entend aujourd’hui quasi-exclusivement dans le cadre du numérique, il est important de se rappeler qu’elle existe depuis que l’humanité a commencé à développer des concepts technologiques, et ce, dans tous les domaines. Et dans ces 6000 ans d’Histoire, on peut trouver des exemples aux résonances contemporaines : des sociétés sont passées à côté d’innovations majeures pourtant à leur portée. Les freins innovatifs fondamentaux ne sont pas récents…
L’histoire de la brouette chinoise
Quoi de plus banal qu’une brouette : ce n’est qu’une plateforme avec des roues, permettant de transporter des charges d’un point A à un point B. C’est encore utilisé de nos jours, que ce soit dans le BTP, ou pour faire son potager. L’évidence de son usage, et sa simplicité de conception nous feraient croire que les brouettes ont toujours existé.
En Europe, les premières traces écrites relevant l’utilisation de brouettes datent d’il y a mille ans. Et, matériaux et détails de proportions mis à part, elles sont en tous points semblables à nos brouettes contemporaines.
En Chine, les choses sont différentes. Les brouettes apparaissent bien plus tôt, et elles ont rapidement évoluées (IIIème siècle après JC) vers une conception différente, bien plus efficace : la roue est placée de manière centrale sous la plateforme de charge. 1
Le poids est bien mieux réparti, et à charge égale, l’opérateur dépense bien moins d’énergie. Compte tenu de la fréquence d’utilisation de cet objet, sur une période aussi longue qu’un millénaire, le gain collectif en productivité est incalculable mais doit être phénoménal. Mais ils ne se sont pas arrêtés là ! Dès le XVIème siècle, des explorateurs et marchands européens rapportent, stupéfaits, la description de brouettes à voile2. L’énergie éolienne est utilisée pour faciliter le transport terrestre, les Chinois sont donc capables de transporter, sur de longues distances et à faible effort, des charges importantes.
Brouette chinoise vs Brouette européenne, pourquoi un tel écart d’innovation ?
Une question semble évidente : pourquoi les Européens, également en recherche d’efficacité, et par ailleurs capables théoriquement d’appréhender ce concept (comme les trébuchets, inventés au XIIème siècle, sont bien plus complexes que ces brouettes en termes de compréhension et d’application de la physique), ne sont pas arrivés aux mêmes conclusions technologiques que les Chinois ?
L’hypothèse seule de la force des habitudes semble trop générique et supporte mal l’effort du temps. Ce frein culturel est réel, mais des dizaines de générations successives auraient dû en venir à bout. On peut proposer, parmi d’autres (modèle agraire, rapport culturel aux déplacements…), une hypothèse portée par le concept de « Dette d’infrastructure« .
L’innovation requiert autant l’intelligence et la capacité de réalisation que le contexte lui permettant d’exister. Cet exemple de la brouette chinoise met en lumière un défaut fondamental d’infrastructure de l’Europe médiévale par rapport à la Chine. Le gain en masse déplaçable (grâce à l’emplacement central de la roue), puis en distance parcourable (grâce à la voile) nécessite d’avoir des routes suffisamment solides pour accepter ce surplus de charge, et suffisamment longues pour que la volonté de parcourir de longues distances ait du sens. Or, jusqu’à la révolution industrielle, le point culminant du réseau routier européen a été atteint lors de l’Empire Romain. Réseau caractérisé par deux aspects : peu de dessertes “locales” et une infrastructure très lourde, potentiellement plus durable mais nécessitant des travaux d’entretiens massifs. Or, la chute de l’empire a marqué la fin des programmes d’entretiens, et de constructions de nouvelles routes. Le réseau chinois se basait, lui, sur un maillage local plus dense, et sur des infrastructures plus légères, et les dynasties continentales successives ont permis la pérennité d’une administration capable de garantir un entretien au long cours. 3
On se rend alors compte, qu’avant même d’avoir l’idée nécessaire pour développer une brouette performante, il eut été nécessaire de maintenir l’infrastructure routière en bon état, et qu’une amélioration potentielle des brouettes seule ne peut être un motif raisonnable et suffisant pour remettre à niveau l’infrastructure.
Les conclusions modernes liées à la gouvernance des données
Cet exemple historique peut sûrement être extrapolé par chacun dans son appréhension du secteur du numérique. Qu’il s’agisse d’infrastructure technique, logicielle, ou également de capital humain (Formation, culture d’entreprise), maintenir un haut niveau sur ce « fond » permet de saisir les progrès ponctuels que constituent les ruptures technologiques et innovantes.
Une entreprise peut rencontrer des difficultés à créer des modèles de machine learning pertinents, de la BI qualitative, ou encore une plateforme data ne se transformant pas en capharnaüm désorganisé, sans que cela soit du à des manques de compétences sur le projet, mais à cause des défauts structurels du patrimoine de données et d’une gouvernance défaillante ou inexistante. La temporalité longue de cet exemple nous renvoie aussi à l’approche de l’acquisition des compétences et des bonnes pratiques : préférer des formations et des acquis durables, réguliers, plutôt que des actions « coup de poing » permettant de répondre à un besoin dans la précipitation. Ou encore, privilégier l’agilité et la durabilité dans les infrastructures.
Plutôt que d’être réactive aux tendances, l’entreprise profondément innovante saura maintenir un haut niveau d’infrastructure, afin de pouvoir accueillir le plus facilement possible la prochaine brique innovante. Tout comme les brouettes, les applicatifs finaux que sont les modèles de ML, la BI, ne sont que des appendices portés par une infrastructure dont la qualité est déterminante, qu’il s’agisse d’un réseau routier, ou d’un patrimoine de données. Et pour garantir la vision stratégique de cette infrastructure, une autorité transverse durable est nécessaire, qu’il s’agisse d’un empire ou d’un Data Office.
2 van Braam Houckgeest, A.E. (1797). Voyage de l’ambassade de la Compagnie des Indes Orientales hollandaises vers l’empereur de la Chine, dans les années 1794 et 1795.3 https://www.landesgeschichte.uni-goettingen.de/roads/viabundus/the-dark-ages-of-the-roman-roads/
Les 5 étapes pour réussir son projet de Data Visualisation
Vous êtes en charge d’un projet de Data Visualisation mais vous ne savez pas par où commencer ?
Nous avons formalisé pour vous les 5 étapes clés à suivre :
Poser le problème et les besoins métiers
Maquetter les Data Visualisations
Concevoir la solution technique Data
Déployer, industrialiser
Améliorer en continu
Ces différentes étapes sont décrites et accompagnées de fiches pratiques dans notre livre blanc
Principes et Méthodes pour maîtriser vos projets de data visualisation
Pour les entreprises qui sont confrontées à un virage vers le data driven, le fait de sous-estimer le besoin de changement organisationnel est souvent un problème plus important que les questions de technologie. Une entreprise peut disposer d’outils puissants et de données significatives, mais sans l’accompagnement et les processus appropriés pour mettre ces données entre les mains des bonnes personnes, l’extraction de la valeur peut s’avérer difficile.
Mettre en place une culture de l’apprentissage continu au sein de l’entreprise est un vrai levier de performance pour votre organisation et d’épanouissement de vos salariés.
Prenons l’exemple d’un programme de libre accès aux données:
Lorsque les données sont fondamentales pour la gestion de votre organisation, des analyses doivent être effectuées très rapidement au sein de toute votre organisation car elles sont essentielles à votre business.
L’idée des données en libre-service est la suivante : plutôt que d’engager un nombre infini de talents hautement qualifiés en data, pourquoi ne pas employer votre capital intellectuel et votre capital humain existant au sein votre organisation et leur donner les moyens de faire leur propre travail d’analyse des données ? Dans un système en libre-service, les différents métiers de votre organisation et les analystes peuvent accéder et travailler directement avec les données et leur visualisation. Ils sont aidés par des experts data, mais sans en dépendre, pour effectuer leur travail. C’est l’essor des “citizen data scientist”.
Ce type de programme permet aux entreprises de supprimer les frontières techniques et donne aux collaborateurs la possibilité d’utiliser leur propre expertise en la matière – après tout, ils connaissent mieux les problèmes auxquels ils s’attaquent, et ils savent de quelles données ils ont besoin – pour générer des idées et exécuter leur travail.
Qu’est-ce que cela signifie pour la gouvernance des données ?
Les données en libre-service et la gouvernance vont certainement de pair. Il y a un équilibre délicat à trouver dès le départ. Vous devez protéger les utilisateurs et l’entreprise, vous assurer que vous êtes en conformité et que vous respectez les règlements, et permettre une meilleure compréhension des données. Mais en même temps, vous ne voulez pas être un obstacle tel que les gens ne puissent pas faire leur travail.
Le catalogage des données, la traçabilité des données et la mise en place d’un cadre d’utilisation (rôles, responsabilités, process, etc.) autour des données sont des éléments clefs de la gouvernance, car les collaborateurs doivent disposer des bonnes informations et du bon contexte concernant les données qu’ils consultent pour réussir.
Construisez la culture data d’apprentissage et prévoyez un temps de réflexion
Ce paragraphe ne concerne pas uniquement vos enjeux data, mais peut répondre à la question plus globale de l’organisation apprenante.
Établissez les bonnes bases culturelles en plaçant l’apprentissage au centre de votre organisation. Une organisation apprenante ne peut voir le jour que dans le cadre d’une culture d’intégration, de confiance, de collaboration et de leadership engagés sur le lieu de travail. Le changement cela ne se décrète pas. Donnez à votre équipe l’espace et le temps de réfléchir, de prendre du recul et de travailler sur leurs idées. Créez une culture de travail personnalisée et adaptée, qui accueille la dissidence, récompense la créativité et sollicite des avis extérieurs pour améliorer la prise de décision globale.
In fine ces bonnes pratiques d’acculturation data en interne et de gouvernance des données vous aideront à répondre à une solution simple à fort potentiel : au lieu de trouver un objectif pour les données, trouvez des données pour un objectif. Cela vous permet de piloter vos données comme des actifs précieux au service des besoins métiers à valeur !
Depuis quelque temps, la question de la conformité interne prend une place indéniable dans les entreprises. En effet, même si le RGPD est un règlement datant de 2018, l’attention a été portée aux données clients, aux besoins des équipes marketing, data ou digital et fournisseurs, délaissant de fait les données RH des organisations.
Une conformité RGPD permet cependant d’améliorer l’image employeur de son entreprise (pour les employés mais aussi pour les candidats) au travers du respect de la confidentialité et de la gestion des risques sur la vie privée, par une politique de protection des données.
De plus, c’est un moyen d’améliorer la gestion des employés et de mettre à la disposition du DRH, des informations à jour, complètes et centralisées qui permettront d’améliorer la prise de décision et de planification des ressources humaines.
Enfin, c’est aussi un moyen d’éviter à l’entreprise des sanctions financières et des poursuites en cas de violation des données des employés, sans compter les conséquences sur la réputation de l’entreprise.
Cet article a pour but de donner quelques conseils aux équipes RH et aux consultants. J’ai procédé à un exercice de collecte d’informations qui, je l’espère, vous sera utile pour vous guider dans votre mise en conformité.
Cependant, je n’aborderai pas tous les sujets nécessaires pour se mettre complètement en conformité, mais uniquement les points récurrents qui me sont souvent demandés.
Les 3 points à respecter pour que votre RH soit conforme à la RGPD
La base légale des traitements des données
Chaque traitement de données personnelles doit respecter une base légale.
Bases légales envisageables (sous réserve de choix différents justifiés par un contexte spécifique)
Recrutement
Traitement des candidatures (CV et lettre de motivation) et gestion des entretiens
Mesures précontractuelles
Constitution d’une CV-thèque
Intérêt légitime
Gestion administrative du personnel
Gestion du dossier professionnel des employés, tenu conformément aux dispositions législatives et réglementaires, ainsi qu’aux dispositions statutaires, conventionnelles ou contractuelles qui régissent les intéressés.
Exécution du contrat
Réalisation d’états statistiques ou de listes d’employés pour répondre à des besoins de gestion administrative.
Intérêt légitime
Gestion des annuaires internes et des organigrammes.
Intérêt légitime
Gestion des dotations individuelles en fournitures, équipements, véhicules et cartes de paiement.
Intérêt légitime
Gestion des élections professionnelles.
Obligation légale
Organisation des réunions des instances représentatives du personnel.
Obligation légale
Gestion des rémunérations et accomplissement des formalités administratives
Etablissement des rémunérations, mise à disposition des bulletins de salaire
Exécution du contrat
Déclaration sociale nominative.
Obligation légale
Mise à disposition des personnels d’outils informatiques
Suivi et maintenance du parc informatique.
Intérêt légitime
Gestion des annuaires informatiques permettant de définir les autorisations d’accès aux applications et aux réseaux.
Intérêt légitime
Mise en œuvre de dispositifs destinés à assurer la sécurité et le bon fonctionnement des applications informatiques et des réseaux.
Intérêt légitime
Gestion de la messagerie électronique professionnelle.
Intérêt légitime
Réseaux privés virtuels internes à l’organisme permettant la diffusion ou la collecte de données de gestion administrative des personnels (intranet).
Intérêt légitime
Organisation du travail
Gestion des agendas et projets professionnels.
Intérêt légitime
Suivi des carrières et de la mobilité
Évaluation professionnelle des personnels, dans le respect des dispositions législatives, réglementaires ou conventionnelles qui la régissent.
Intérêt légitime
Gestion des compétences professionnelles internes.
Intérêt légitime
Gestion prévisionnelle de l’emploi et des compétences (GPEC)
Intérêt légitime
Gestion de la mobilité professionnelle.
Exécution du contrat
Formation
Gestion des demandes de formation et des périodes de formation effectuées.
Exécution du contrat
Organisation des sessions de formation et évaluation des connaissances et des formations.
Intérêt légitime
Gestion des aides sociales
Gestion de l’action sociale et culturelle directement mise en œuvre par l’employeur, à l’exclusion des activités de médecine du travail, de service social ou de soutien psychologique.
Intérêt légitime
La durée de conservation des données RH
Les données personnelles ne pouvant pas être conservées à vie, il est nécessaire de mettre en place des purges automatisées ou non (selon la taille de vos espaces de stockage, il est parfois indispensable de passer par une purge automatisée).
Les durées de conservations sont généralement à définir par le métier, selon son besoin (la personne utilisant la donnée ou la collectant) ; dans votre cas : le DRH ou le responsable administratif en collaboration avec votre DPO ou le référent RGPD de votre organisation. Cependant, certains documents doivent respecter des durées légales de conservation déjà prévues par le droit.
Le tableau ci-dessous vous permet d’avoir une liste (non exhaustive) des documents les plus souvent demandés/collectés en interne :
Activités de traitement
Détails du traitement
Base active
Archivage intermédiaire
Textes de référence
Gestion de la paie
Bulletin de salaire
1 mois
5 ans
L. 3243-4 du code du travail
Bulletin de salaire
1 mois
50 ans (en version dématérialisée)
D. 3243-8 du code du travail
Eléments nécessaires au calcul de l’assiette
1 mois
6 ans
L. 243-16 du code sécurité sociale
Saisie des données calculées (DSN)
Le temps nécessaire à l’accomplissement de la déclaration
6 ans
L. 243-16 du code sécurité sociale
Ordre de virement pour paiement
Le temps nécessaire à l’émission du bulletin de paie
10 ans à compter de la clôture de l’exercice comptable
L. 123-22 du code du commerce
Registre unique du personnel
Ordre de virement pour paiement
La durée pendant laquelle le salarié fait partie des effectifs
5 ans à compter du départ du salarié de l’organisme
R. 1221-26 du code du travail
Gestion des mandats des représentants du personnel
Nature du mandat et syndicat d’appartenance
6 mois après la fin du mandat
6 ans (prescription pénale pour délit)
L. 2411-5 du code du travail
Les données relatives aux sujétions particulières ouvrant droit à congés spéciaux ou à crédit d’heures de délégation (ex: exercice d’un mandat électif ou représentatif syndical)
Le temps de la période de sujétion de l’employé concerné
6 ans (prescription pénale pour délit)
L. 2142-1-3 du code du travail
La gestion des droits des personnes (candidats et employés)
La gestion des droits des personnes est une obligation sur toutes les données personnelles, il faut donc prendre en compte le processus de réponse à ces demandes. Les droits sont : le droit d’accès (avoir une copie des données personnelles), le droit de suppression (demander la suppression de tout ou partie de ses données personnelles), le droit de modification (demander la modification de ses données personnelles en cas d’erreur), le droit de portabilité (demander une copie sous format lisible par une machine (ex. : csv) de ses données personnelles), le droit de limitation (demander la non utilisation de ses données personnelles pour un traitement spécifique).
Des règles simples sont à respecter :
La réponse à une demande doit se faire au maximum 30 jours après la réception de celle-ci. Il peut y avoir une exception si la demande est complexe (si on vous demande une copie de la totalité des données personnelles que vous avez en votre possession), dans ce cas le délai monte à 3 mois, mais il faudra prévenir la personne que la durée est augmentée de 23 mois, un mois maximum à partir de la réception de la demande.
La confirmation de l’identité du demandeur est nécessaire afin d’éviter d’envoyer/modifier/supprimer les données d’une une tierce personne. Si ça arrive, il s’agit alors d’une fuite de donnée qui doit être notifiée auprès de la CNIL. La confirmation est nécessaire seulement en cas de doute sur l’identité de la personne, elle n’est donc pas obligatoire. Enfin, une fois l’identité de la personne confirmée, la preuve doit être supprimée.
La réponse doit être sous le format de la demande, c’est-à-dire qu’une demande par courrier doit avoir une réponse par voie postale, et une demande par mail, par mail.
Il est possible de refuser une demande si celle-ci n’est pas fondée ou paraît excessive, ou encore si les données de la personne concernée ont été effacées. Ou enfin, s’il est demandé de supprimer des documents légaux ou devant être conservés obligatoirement (ex. : fiche de paie, contrat, …).
Mettre en place la conformité RGPD de vos Ressources Humaines
Pour bien commencer, il est important d’avoir une équipe dédiée à la conformité, en complément du DPO et du DRH qui sont indispensables. Cette équipe devra être formée et aura des rôles précis. Cette formation peut se faire directement par le MOOC de la CNIL, régulièrement mis à jour, qui est complet et qui donne de très bonnes bases (testé et approuvé par mon équipe).
En interne, il est indispensable de pouvoir sensibiliser les collaborateurs sur leurs droits (droits des personnes, bases légales, limitations, …), mais aussi leurs devoirs vis-à-vis des données personnelles qu’ils traitent (sécurité des postes de travail, sécurité des documents, politique de mot de passe, …).
Enfin et afin de pouvoir être totalement conforme, il est nécessaire de créer un registre de traitement, de faire une revue des process de gestion des droits des personnes, d’analyser les applications internes, les contrats de sous-traitance et les mesures de sécurité de la DSI. Il est également nécessaire de s’assurer du bon fonctionnement des purges et archivages ou encore de mettre en place des analyses d’impacts sur la vie privée et des audits.