data privacy rgpd rh

RH et Data Privacy (RGPD) : les 3 points clés à respecter

RH et Data Privacy (RGPD) : les 3 points clés à respecter

3 mai 2023

– 8 min de lecture

Louis Allavena

Consultant Transformation Data

Depuis quelque temps, la question de la conformité interne prend une place indéniable dans les entreprises. En effet, même si le RGPD est un règlement datant de 2018, l’attention a été portée aux données clients, aux besoins des équipes marketing, data ou digital et fournisseurs, délaissant de fait les données RH des organisations.

Une conformité RGPD permet cependant d’améliorer l’image employeur de son entreprise (pour les employés mais aussi pour les candidats) au travers du respect de la confidentialité et de la gestion des risques sur la vie privée, par une politique de protection des données.

De plus, c’est un moyen d’améliorer la gestion des employés et de mettre à la disposition du DRH, des informations à jour, complètes et centralisées qui permettront d’améliorer la prise de décision et de planification des ressources humaines.

Enfin, c’est aussi un moyen d’éviter à l’entreprise des sanctions financières et des poursuites en cas de violation des données des employés, sans compter les conséquences sur la réputation de l’entreprise.

Cet article a pour but de donner quelques conseils aux équipes RH et aux consultants. J’ai procédé à un exercice de collecte d’informations qui, je l’espère, vous sera utile pour vous guider dans votre mise en conformité.

Cependant, je n’aborderai pas tous les sujets nécessaires pour se mettre complètement en conformité, mais uniquement les points récurrents qui me sont souvent demandés.

Les 3 points à respecter pour que votre RH soit conforme à la RGPD

La base légale des traitements des données

Chaque traitement de données personnelles doit respecter une base légale.

Parce qu’il n’est pas nécessaire de réinventer la roue et que la CNIL a fait un excellent travail de présentation des bases légales envisageables pour les activités de traitements spécifiques à la gestion des ressources humaines, je vous propose ce tableau :

Activités de traitementFinalitésBases légales envisageables (sous réserve de choix différents justifiés par un contexte spécifique)
RecrutementTraitement des candidatures (CV et lettre de motivation) et gestion des entretiensMesures précontractuelles
Constitution d’une CV-thèqueIntérêt légitime
Gestion administrative du personnelGestion du dossier professionnel des employés, tenu conformément aux dispositions législatives et réglementaires, ainsi qu’aux dispositions statutaires, conventionnelles ou contractuelles qui régissent les intéressés.Exécution du contrat
Réalisation d’états statistiques ou de listes d’employés pour répondre à des besoins de gestion administrative.Intérêt légitime
Gestion des annuaires internes et des organigrammes.Intérêt légitime
Gestion des dotations individuelles en fournitures, équipements, véhicules et cartes de paiement.Intérêt légitime
Gestion des élections professionnelles.Obligation légale
Organisation des réunions des instances représentatives du personnel.Obligation légale
Gestion des rémunérations et accomplissement des formalités administrativesEtablissement des rémunérations, mise à disposition des bulletins de salaireExécution du contrat
Déclaration sociale nominative.Obligation légale
Mise à disposition des personnels d’outils informatiquesSuivi et maintenance du parc informatique.Intérêt légitime
Gestion des annuaires informatiques permettant de définir les autorisations d’accès aux applications et aux réseaux.Intérêt légitime
Mise en œuvre de dispositifs destinés à assurer la sécurité et le bon fonctionnement des applications informatiques et des réseaux.Intérêt légitime
Gestion de la messagerie électronique professionnelle.Intérêt légitime
Réseaux privés virtuels internes à l’organisme permettant la diffusion ou la collecte de données de gestion administrative des personnels (intranet).Intérêt légitime
Organisation du travailGestion des agendas et projets  professionnels.Intérêt légitime
Suivi des carrières et de la mobilitéÉvaluation professionnelle des personnels, dans le respect des dispositions législatives, réglementaires ou conventionnelles qui la régissent.Intérêt légitime
Gestion des compétences professionnelles internes.Intérêt légitime
Gestion prévisionnelle de l’emploi et des compétences (GPEC)Intérêt légitime
Gestion de la mobilité professionnelle.Exécution du contrat
FormationGestion des demandes de formation et des périodes de formation effectuées.Exécution du contrat
Organisation des sessions de formation et évaluation des connaissances et des formations.Intérêt légitime
Gestion des aides socialesGestion de l’action sociale et culturelle directement mise en œuvre par l’employeur, à l’exclusion des activités de médecine du travail, de service social ou de soutien psychologique.Intérêt légitime

La durée de conservation des données RH

Les données personnelles ne pouvant pas être conservées à vie, il est nécessaire de mettre en place des purges automatisées ou non (selon la taille de vos espaces de stockage, il est parfois indispensable de passer par une purge automatisée).

Les durées de conservations sont généralement à définir par le métier, selon son besoin (la personne utilisant la donnée ou la collectant) ; dans votre cas : le DRH ou le responsable administratif en collaboration avec votre DPO ou le référent RGPD de votre organisation. Cependant, certains documents doivent respecter des durées légales de conservation déjà prévues par le droit.

Le tableau ci-dessous vous permet d’avoir une liste (non exhaustive) des documents les plus souvent demandés/collectés en interne :

Activités de traitementDétails du traitementBase activeArchivage intermédiaireTextes de référence
Gestion de la paieBulletin de salaire1 mois5 ansL. 3243-4 du code du travail
Bulletin de salaire1 mois50 ans (en version dématérialisée)D. 3243-8 du code du travail
Eléments nécessaires au calcul de l’assiette1 mois6 ansL. 243-16 du code sécurité sociale
Saisie des données calculées (DSN)Le temps nécessaire à l’accomplissement de la déclaration6 ansL. 243-16 du code sécurité sociale
Ordre de virement pour paiementLe temps nécessaire à l’émission du bulletin de paie10 ans à compter de la clôture de l’exercice comptableL. 123-22 du code du commerce
Registre unique du personnelOrdre de virement pour paiementLa durée pendant laquelle le salarié fait partie des effectifs5 ans à compter du départ du salarié de l’organismeR. 1221-26 du code du travail
Gestion des mandats des représentants du personnelNature du mandat et syndicat d’appartenance6 mois après la fin du mandat6 ans (prescription pénale pour délit)L. 2411-5 du code du travail
Les données relatives aux sujétions particulières ouvrant droit à congés spéciaux ou à crédit d’heures de délégation (ex: exercice d’un mandat électif ou représentatif syndical)Le temps de la période de sujétion de l’employé concerné6 ans (prescription pénale pour délit)L. 2142-1-3 du code du travail

La gestion des droits des personnes (candidats et employés)

La gestion des droits des personnes est une obligation sur toutes les données personnelles, il faut donc prendre en compte le processus de réponse à ces demandes. Les droits sont : le droit d’accès (avoir une copie des données personnelles), le droit de suppression (demander la suppression de tout ou partie de ses données personnelles), le droit de modification (demander la modification de ses données personnelles en cas d’erreur), le droit de portabilité (demander une copie sous format lisible par une machine (ex. : csv) de ses données personnelles), le droit de limitation (demander la non utilisation de ses données personnelles pour un traitement spécifique).

Des règles simples sont à respecter : 

Mettre en place la conformité RGPD de vos Ressources Humaines

Pour bien commencer, il est important d’avoir une équipe dédiée à la conformité, en complément du DPO et du DRH qui sont indispensables. Cette équipe devra être formée et aura des rôles précis. Cette formation peut se faire directement par le MOOC de la CNIL, régulièrement mis à jour, qui est complet et qui donne de très bonnes bases (testé et approuvé par mon équipe). 

En interne, il est indispensable de pouvoir sensibiliser les collaborateurs sur leurs droits (droits des personnes, bases légales, limitations, …), mais aussi leurs devoirs vis-à-vis des données personnelles qu’ils traitent (sécurité des postes de travail, sécurité des documents, politique de mot de passe, …).

Enfin et afin de pouvoir être totalement conforme, il est nécessaire de créer un registre de traitement, de faire une revue des process de gestion des droits des personnes, d’analyser les applications internes, les contrats de sous-traitance et les mesures de sécurité de la DSI. Il est également nécessaire de s’assurer du bon fonctionnement des purges et archivages ou encore de mettre en place des analyses d’impacts sur la vie privée et des audits.

Les autres articles qui vont vous intéresser

comment maîtriser qualité données

Comment piloter la qualité de vos données ?

Comment piloter la qualité de vos données ?

18 avril 2023

– 2 min de lecture

Zied Ben Khalifa

Consultant Transformation Data

Les 3 étapes pour maîtriser la qualité de vos données

Qui ?

État des lieux

Quoi ?

Outillage

Attentes des métiers

Quoi ?

Outillage

Plan d’actions d’amélioration

Quoi ?

Outillage

Les dimensions de la qualité des données

Les autres articles qui vont vous intéresser

archimate 3.2 nouveautés

Toutes les nouveautés d’ArchiMate 3.2

Toutes les nouveautés d'ArchiMate 3.2

12 avril 2023

– 4 min de lecture

Ariane Chassagne

Consultante Architecture

ArchiMate est un langage de modélisation développé par l’Open Group, basé sur les concepts TOGAF, qui permet de partager un langage commun pour décrire, analyser et visualiser l’architecture d’entreprise. Le but ?  Aider à la prise de décision des transformations de l’entreprise.

Résultat d’années de réflexions (travaux débutés en avril 2020), la nouvelle spécification ArchiMate 3.2 est publiée le 18 octobre 2022. 

L’objectif de cet article est de montrer l’exhaustivité des modifications apportées par la spécification 3.2 d’ArchiMate.

Voici une synthèse de ces modifications qui seront détaillées plus bas :

La couche physique devient un composant de la couche technologie

Jusqu’ici indépendantes, Archimate 3.2 intègre la couche Physique dans la couche Technologie.

couches physique et technologie archimate 3.2

Les modifications de la notation

Deux changements majeurs dans la notation ArchiMate sont apportés par la spécification 3.2 :

Nous avons fait le travail de synthèse des modifications de la notation dans le tableau suivant :

modifications notations archimate 3.2
Modification de la notation ArchiMate 3.2

Voici donc la nouvelle notation Archimate 3.2 :

Notation ArchiMate 3.2
Notation ArchiMate 3.2

La modification de définitions

ArchiMate 3.2 clarifie et simplifie les définitions des concepts Outcome, Constraint, Business Function, Product et Technology Interface.

Issu de la spécification ArchiMate, nous avons synthétisé l’ensemble des modifications de définitions dans ce tableau (rouge : supprimé ; vert : ajouté) :

CoucheÉlémentArchiMate 3.1ArchiMate 3.2
MotivationOutcomeRepresents an end result.Represents an end result, effect, or consequence of a certain state of affairs.
MotivationConstraintRepresents a factor that limits the realization of goals.Represents a limitation on aspects of the architecture, its implementation process, or its realization.
BusinessBusiness FunctionRepresents a collection of business behavior based on a chosen set of criteria (typically required business resources and/or competencies), closely aligned to an organization, but not necessarily explicitly governed by the organization.Represents a collection of business behavior based on a chosen set of criteria such as required business resources and/or competencies, and is managed or performed as a whole.
BusinessProductRepresents a coherent collection of services and/or passive structure elements, accompanied by a contract/set of agreements, which is offered as a whole to (internal or external) customers.Represents a coherent collection of services and/or passive structure elements, accompanied by a contract, which is offered as a whole to (internal or external) customers.
TechnologyTechnology InterfaceRepresents a point of access where technology services offered by a node can be accessed.Represents a point of access where technology services offered by a technology internal active structure can be accessed.

La modification des méta-modèles

La spécification 3.2 modifie les méta-modèles des couches Business, Technologie, Physical, et des liens entre la couche Implémentation et Migration et l’aspect Motivation. 

Voici les évolutions de ces méta-modèles :


Business Composite Elements Archimate 3.2
Business Composite Elements

Technology Layer Metamodel Archimate 3.2
Technology Layer Metamodel

Technology Passive Structure Elements Archimate 3.2
Technology Passive Structure Elements

Physical Elements Metamodel Archimate 3.2
Physical Elements Metamodel

Implementation and Migration Elements with Motivation Eléments Archimate 3.2
Relationships of Implementation and Migration Elements with Motivation Eléments

En synthèse, les modifications des méta-modèles apportent les changements suivants :

Évolution des relations dérivées

Dans le but de réaliser des analyses d’impacts plus poussées, la spécification ArchiMate 3.1 avait introduit la notion de relation dérivée :

Si on a deux relations p(b,a):S et q(b,c):T avec a, b, c des éléments, p et q des relations respectivement de type S et T, alors on cherche à connaître la relation r de type U tel que r(a,c):U.

relation dérivées archimate 3.2

ArchiMate 3.1 définit :

En complément, Archimate 3.2 : 

évolution relation dérivées archimate 3.2

Conclusion

Les modifications du langage de modélisation Archimate apportées par la spécification 3.2, bien que mineures, permettent d’homogénéiser la notation, d’améliorer le méta-modèle et de supprimer des ambiguïtés par la clarification à la fois des définitions et des règles de restrictions des relations dérivées.

Pour approfondir le sujet, vous pouvez consulter la spécification d’Archimate 3.2.

Les autres articles qui vont vous intéresser

outils data visualisation

Gouverner vos data visualisation : enjeux et principes clefs

Gouverner vos Data Visualisation : enjeux et principes clefs

21 mars 2023

– 5 minutes de lecture

Xavier Hammond

Consultant Transformation Data

Gouvernance des data visualisation

Les entreprises, dans la mise en place de leur stratégie Data Driven, s’appliquent à rendre la donnée accessible à tous leurs acteurs métiers. Parmi les solutions d’exposition des données, on trouve majoritairement des outils de data visualisation ou « dataviz ». Ces outils sont choisis pour leur facilité d’interaction avec les différentes sources de données de l’entreprise, et également pour leurs fonctionnalités de présentation des données et d’indicateurs sous forme de graphique, carte, etc. Les cas d’usage de ces solutions sont multiples :

Réglementation et sécurité de la Data Visualisation

De plus en plus de liberté et d’autonomie sont laissées au métier aujourd’hui pour construire et publier leurs data visualisations. Ce gain d’autonomie ne doit pas aller à l’encontre des principes de base sur la sécurité des données. La sécurité et la compliance doivent rester sous contrôle.
Pour cela, les usages de données sont à répertorier dans un “portefeuille d’usage”, ce qui va assurer leur documentation et faciliter leur partage au sein de l’entreprise.
Pour ceux utilisant des données à caractère personnel, les référencer permettra d’assurer le respect de la réglementation RGPD.

Lors de la documentation des usages, la liste des utilisateurs est définie. La politique de gestion des habilitations est ensuite utilisée pour rapprocher chaque utilisateur à un rôle lié au type de persona défini. Cette gestion des habilitations restreint les risques de diffusion des données sensibles et/ou stratégiques de l’entreprise auprès d’acteurs ne devant pas y avoir accès. Centraliser cette politique d’accès améliore le suivi et l’évolution des habilitations, à la suite de réorganisations par exemple.
Cette politique doit être menée de front par les équipes DSI en responsabilité des outils de data visualisation, les équipes d’audit interne ainsi que risque et conformité.

Disponibilité et qualité de l’information de la Data Visualisation

La multiplication des data visualisations a tendance également à augmenter le nombre d’indicateurs (parfois dupliquer), avec un manque de transparence sur la traçabilité et la qualité des données sous jacentes. L’utilisateur d’une data visualisation doit systématiquement pouvoir identifier le niveau de confiance qu’il peut avoir dans les chiffres qui lui sont fournis. Cet axe est donc majeur et on y distingue deux phases : la mise en production et le maintien en condition opérationnelle de la data visualisation.

Phase de mise en production de la donnée

Lors de la mise en production, l’inscription des sources de données dans le plan d’actualisation assure la fraicheur des données en correspondance avec le besoin métier. Avant la mise en place de plan d’actualisation, on observe parfois chez nos clients utilisant des bases de données dans le Cloud, des surcoûts non anticipés. Ils sont liés à des interactions trop nombreuses ou trop consommatrices den ressources.

Une non-gouvernance des plans d’actualisation peut également se traduire par un « plantage » du système s’il n’est pas prévu d’élargir les ressources disponibles. L’impact budgétaire dans le cas d’un environnement Cloud, est d’autant plus important que les data visualisations se multiplient et tendent à sur-solliciter les serveurs des data sources.
Lister les data sources permet de répondre par la suite à des besoins de mutualisation des data préparations, pour notamment réduire les interactions serveurs, ou des besoins liés à des études d’impact en cas de correctif en amont dans le cycle de vie des données.

Maintien en condition opérationnelle de la donnée

Au quotidien, les rapports sont utilisés à des fin de reporting et d’aide à la prise de décision.
Pour assurer la bonne qualité des données utilisées dans les data source, un suivi de la qualité peut être effectué dans un rapport annexe. Les indicateurs de qualité sont à construire selon différentes dimensions pour s’assurer de couvrir tout le spectre de la qualité des données.

Ce rapport n’a pas une visée à réaliser du data profiling, mais assure que les données sont en qualité pour répondre à l’usage. Des alertes sur des seuils par exemple, sont à paramétrer pour déclencher des actions de mise en qualité ainsi que pour alerter les utilisateurs dans un principe de transparence.

Une Data Visualisation qui satisfait les métiers

Donner de l’autonomie au métier dans la production de ces data visualisations ne va pas automatiquement leur permettre de répondre à leurs usages et ainsi provoquer leur satisfaction. Ce gain d’autonomie nécessite aussi un accompagnement plus important en termes de formation et de change management. De même, la multiplication des data visualisations peut voir la quantité l’emporter au dépend de la qualité et donc drastiquement réduire l’expérience utilisateur qui se retrouve perdue dans une multitude de visualisations de données. La satisfaction métier est donc évidemment un axe clé à maîtriser.

En effet si l’on résume les deux points précédents, on obtient, une data visualisation :

Ceci a pour bénéfice de maximiser la satisfaction des utilisateurs mais également des acteurs projets internes.

La satisfaction des métiers s’apprécie au regard de leur utilisation des data visualisations auxquelles ils peuvent accéder. La mise en place de rapport de suivi de l’utilisation des data visualisations est un outil qui est à utiliser pour effectuer des revues des rapports en production. Ces revues peuvent déclencher des actions pour réétudier le besoin métier.
Ceci fait partie d’un axe important de la gouvernance qui s’assure que le produit répond à un besoin et est maintenu dans le temps.


Vous l’aurez compris par ces trois enjeux, gouverner les data visualisations passe par des actions simples, qui permettent d’assurer leur gouvernance. Celle-ci est importante et permettra d’assurer que ces rapports soient fiables, de confiance, et utilisés à bon escient pour tous les utilisateurs.

Pour en savoir plus, n’hésitez pas à contacter nos experts Transformation Data.

Les autres articles qui vont vous intéresser

comité architecture

Définition d’une comitologie : Comment mettre en place une comitologie d’architecture efficace ?

Définition d'une comitologie : Comment mettre en place une comitologie d'architecture efficace ?

17 février 2023

– 7 min de lecture

Salomé Culis

Consultante Architecture

Il n’est pas toujours évident de s’y retrouver dans la jungle que constituent les différents comités en entreprise, et les comités d’architecture ne font pas exception. Vous êtes perdus et ne savez pas comment définir la comitologie qui répondra aux besoins de votre organisation ? Suivez le guide !

Dans cet article, nous aborderons deux grandes étapes : 

Une comitologie utile et intéressante doit être construite pour répondre à vos objectifs

étapes définition comitologie

Identifier clairement les objectifs de la comitologie

Les objectifs des organisations étant très divers, il est naturel qu’une myriade de comités d’architecture différents existent : 

L’un des écueils principaux consiste à faire surgir dans les agendas autant de comités que de champignons après les premières pluies d’automne. On voit souvent des participants occasionnels se mélanger les pinceaux avec les trois ou quatre réunions portant un nom approchant. Et s’ils ne savent pas les différencier, nul doute qu’ils ignorent leurs objectifs…

Mais dans ce cas, comment créer une comitologie d’architecture claire, lisible et utile ? 

Afin de choisir la plus adaptée, il est tout d’abord capital de bien comprendre le contexte de votre entreprise et d’identifier vos objectifs. Cela peut passer par des interviews mais aussi être exploré dans le cadre d’un audit de maturité de l’architecture, qui comporte un volet sur la comitologie. 

Définir ensemble la comitologie qui répond aux objectifs identifiés

Une fois les objectifs clarifiés, la construction collaborative de la comitologie peut ensuite débuter !

Rhapsodies Conseil vous aide à dessiner la comitologie qui vous conviendra le mieux en s’appuyant sur : 

Votre connaissance fine de l’organisation dans laquelle vous évoluez sera également précieuse et devra être prise en compte. 

Vous obtiendrez à terme une description des différents comités d’architecture à mettre en place précisant : 

Ces éléments seront bien sûr diffusés au sein de l’organisation pour bien expliquer le rôle du ou des comités d’architecture. Bien communiquer en amont de la mise en place des comités permettra de s’assurer que tous les participants, récurrents ou occasionnels, n’aient pas de doutes sur leurs objectifs.

Il ne reste plus qu’à les mettre en œuvre et les animer !

Pas si simple me direz-vous ? Comment s’assurer que cette comitologie soit animée de manière efficace et réponde ainsi aux objectifs de l’organisation ? 

Tout en évitant à tout un chacun d’écouter distraitement d’une oreille en travaillant sur un autre sujet en parallèle ou en traînant sur son téléphone… 

Eh bien, en s’appuyant sur le PMO de l’architecture ! 

Le PMO de l’architecture : cet acteur clé qui rend vos comités efficaces et productifs

Qui est le PMO de l’architecture ?

Ce terme de “PMO” a été dévoyé et il peut paraître n’être qu’un scribe qui n’apporte pas de vraie valeur ajoutée. Notre conviction chez Rhapsodies Conseil est la suivante : cet acteur doit avoir une culture de l’architecture d’entreprise. Il peut alors faire tellement plus pour l’équipe architecture que compléter un fichier excel une fois par mois !

Il  dispose ainsi de nombreuses compétences : 

C’est pourquoi il est le plus à même d’animer la comitologie d’architecture et de la rendre intéressante pour l’ensemble des participants, décideurs y compris.

étapes comitologie

La première activité du PMO de l’architecture : sélectionner et vérifier les dossiers d’architecture

C’est lui qui propose un ordre du jour en fonction de la maturité et du niveau d’urgence des dossiers d’architecture. Il vérifie que ceux-ci sont bien complets avant leur passage en comité. Il comprend les enjeux et peut donc appuyer les différents architectes dans la préparation de leurs dossiers. Il dispose aussi de templates de dossiers d’architecture afin de guider les architectes nouvellement arrivés dans la rédaction de leurs premiers dossiers. 

Une bonne préparation avec des attendus précis, dont le PMO de l’architecture est le garant, permet d’éviter bien des désillusions en comité… Et de devoir à de nombreuses reprises rapporter les mêmes éléments complémentaires devant des participants qui ont oublié une bonne partie du sujet…

Le PMO de l’architecture est aussi en charge de l’animation des comités le jour J

L’animation des comités en tant que tels fait également partie de son rôle : il partage l’ordre du jour, suit le bon déroulement du comité, recueille les avis en séance et prend les notes explicatives. Il établit le relevé de décision et partage le compte-rendu aux différents participants. 

Il peut aider à remettre le comité sur le droit chemin quand les échanges s’enlisent. 

Un suivi est mis en place par le PMO pour que les décisions ne restent pas lettre morte

Suite aux comités, il réalise le suivi des dossiers en fonction des décisions : 

Il établit donc les ordres du jour des prochains comités. 

Ce suivi fin des ordres du jour permet d’éviter ce que l’on voit parfois : 

Il peut identifier les décisions qui donnent lieu à de la dette et en faire le suivi. 

De plus, connaissant les différents dossiers en cours, il maîtrise les dépendances entre les sujets. Il est donc à même de prévenir les architectes dont les sujets peuvent être impactés par les décisions du comité. Le PMO de l’architecture ayant une vision globale de l’avancement des sujets, il peut créer du lien entre les architectes. Cela permet aussi d’assurer que l’ensemble des décisions prises lors des comités restent cohérentes.

Le PMO de l’architecture participe également à l’amélioration continue de la gouvernance de l’architecture 

Enfin, son rôle transverse lui permet de construire le reporting de la comitologie : il suit le nombre de dossiers qui passent en comité, les décisions et les avis émis… Il peut alors proposer des améliorations de la comitologie afin d’optimiser la gouvernance de l’architecture. Il pourra donc vous aider à ajuster la comitologie si nécessaire en fonction de ce qu’il observe en comité et des issues des présentations. 

J’ai tenu ce rôle pendant 1 an et eu la chance de travailler avec des collègues qui avaient aussi tenu ce rôle. J’espère que cette synthèse vous sera utile et que vous connaissez désormais mieux le PMO de l’architecture, cet acteur qui garantit le succès de vos comités. N’hésitez pas à nous contacter pour échanger sur vos retours d’expérience. 

Les autres articles qui vont vous intéresser

auto-ml data scientist

Auto-ML : outil ou menace pour le Data Scientist ?

Auto-ML : outil ou menace pour le data scientist ?

15 février 2023

– 6 min de lecture

Valentin Defour

Consultant Senior Transformation Data

Après avoir été successivement décrit comme le job le plus sexy du 21ème siècle puis comme aisément remplaçable par la suite, le data scientist a de quoi souffrir aujourd’hui de sacrés questionnements. Son remplaçant le plus pertinent ? Les solutions d’Auto-Machine Learning, véritables scientifiques artificiels des données, capables de développer seuls des pipelines d’apprentissage automatique pour répondre à des problématiques métier données.

Mais une IA peut-elle prendre en charge la totalité du métier de data scientist ? Peut-elle saisir les nuances et spécificités fonctionnelles d’un métier, distinguer variables statistiquement intéressantes et fonctionnellement pertinentes ? Mais aussi, les considérations d’éthique des algorithmes peuvent-elles être laissées à la main … des mêmes algorithmes ?

Le Data Scientist, vraiment éphémère ?

Le data scientist est une figure centrale de la transformation numérique et data des entreprises. Il est l’un des maîtres d’œuvre de la data au sein de l’organisation. Ses tâches principales impliquent de comprendre, analyser, interpréter, modéliser et restituer les données, avec pour objectifs d’améliorer les performances et processus de l’entreprise ou encore d’aller expérimenter de nouveaux usages. 

Toutes les études sur les métiers du numérique depuis 5 ans sont unanimes : le data scientist est l’un des métiers les plus en vogue du moment. Pourtant, il est plus récemment la cible de critiques. 

Des observateurs notent une baisse de la « hype » autour de la fonction et une décroissance du ratio offre – demande, qui viendrait même pour certains à s’inverser. Trop de data scientists, pas assez de postes ni de missions. 

Deux principales raisons à cela : 

Mais également, et c’est cela qui va nous intéresser pour la suite, pour certains experts, le « data scientist » ne serait qu’un buzzword : l’apport de valeur de ce rôle et de ses missions serait surévalué, jusqu’à considérer le poste comme un effet de mode passager voué à disparaître des organisations. 

En effet, les mêmes experts affirment qu’il sera facilement remplacé par des algorithmes dans les années à venir. D’ici là, les modèles en question deviendraient de plus en plus performants et seraient capable de réaliser la plupart des tâches incombées mieux que leurs homologues humains. 

Mais ces systèmes si menaçants, qui sont-ils ?

L’Auto-ML, qu’est-ce que c’est ?

L’apprentissage automatique automatisé (Auto-ML) est le processus d’automatisation des différentes activités menées dans le cadre du développement d’un système d’intelligence artificielle, et notamment d’un modèle de Machine Learning.

data analyst

Cette technologie permet d’automatiser la plupart des étapes du procédé de développement d’un modèle de Machine Learning :

L’Auto-ML démocratise ainsi l’accès aux modèles d’IA et techniques d’apprentissage automatique. L’automatisation du processus de bout en bout offre l’opportunité de produire des solutions (ou à minima POC ou MVP) plus simplement et plus rapidement. Il est également possible d’obtenir en résultat des modèles pouvant surpasser les modèles conçus « à la main » en matière de performances pures.

En pratique, l’utilisateur fournit au système :

Le système va alors entraîner plusieurs modèles – ensemble de modèles et modéliser les résultats de cette tache sous la forme d’un « leaderboard », soit un podium des modèles les plus pertinents dans le cadre de l’usage donné et des contraintes listées par l’utilisateur.

machine learning automatisé
Source : Microsoft Learn

Quelles sont les limites de l’Auto-ML ?

Pour autant, l’Auto-ML n’est pas de la magie et ne vient pas sans son lot de faiblesses. 

Tout d’abord, les technologies d’Auto-ML rencontrent encore des difficultés à traiter des données brutes complexes et à optimiser le processus de construction de nouvelles variables. N’ayant qu’une perception statistique d’un jeu de données et (aujourd’hui) étant dénué d’intuition fonctionnelle, il est difficile de faire comprendre à ces modèles les finesses et particularités de tel ou tel métier. La sélection des variables significatives restant l’une des pierres angulaires du processus d’apprentissage du modèle, apparaît ainsi une limite à l’utilisation d’Auto-ML : l’intuition business humaine n’est ainsi pas (encore) remplaçable.

Également, du fait de leur complexité, les modèles développés par les technologies d’Auto-ML sont souvent opaques vis-à-vis de leur architecture et processus de décision (phénomène de boîte noire). Il peut être ainsi complexe de comprendre comment ils sont arrivés à un modèle particulier, malgré les efforts apportés à l’explicabilité par certaines solutions. Cela peut ainsi amoindrir la confiance dans les résultats affichés, limiter la reproductibilité et éloigner l’humain dans le processus de contrôle. Dans une dynamique actuelle de prise de conscience et de premiers travaux autour de l’IA éthique, durable et de confiance, l’utilisation de cette technologie pourrait être remise en question.

Enfin, cette technologie peut aussi être coûteuse à exécuter. Elle nécessite souvent beaucoup de ressources de calcul (entrainement d’une grande volumétrie de modèles en « one-shot », fine tuning multiple des hyperparamètres, choix fréquent de modèles complexes – deep learning, …) ce qui peut rendre son utilisation contraignante pour beaucoup d’organisations. Pour cette même raison, dans une optique de mise en place de bonnes pratiques de numérique durable et responsable, ces technologies seraient naturellement écartées au profit de méthodologies de modélisation et d’entrainement plus sobres (mais potentiellement moins performantes).

Quelles solutions d’Auto-ML sur le marché ?

On peut noter 3 typologies de solutions sur le marché : 

outils d'auto machine learning

H2o Auto-ML en pratique

Jetons un coup d’œil à H2o.ai, librairie Python open source d’Auto-ML développée par l’entreprise éponyme. Nous prendrons comme cas d’usage un problème de classification binaire classique sur des données tabulaires, issu du challenge mensuel Kaggle d’Août dernier. 

Après un chargement des données et une initialisation de l’instance locale, on va pouvoir lancer le moteur d’AutoML : 

H2o auto-ml

Doivent être spécifiés : 

Il est également possible d’ajouter des paramètres tels que :

Il est important de noter que H2o AutoML ne propose aujourd’hui qu’une fonctionnalité limitée de préparation des données, se limitant à de l’encodage de variables catégorielles. Mais la société travaille aujourd’hui à enrichir ces fonctionnalités.

Une fois l’entraînement terminé, des informations sur le modèle vainqueur sont affichées : 

Il est également possible d’avoir accès au « leaderboard » des modèles entrainés et testés : identifiant, performances, temps d’entrainement et de prédiction, typologies des modèles (ensembles, gradient boosting, …) .

Enfin, le module d’explicabilité (restreinte…) nous permet d’obtenir des informations sur l’importance globale des variables dans les décisions du modèle, ainsi que l’importance globale des variables par modèle entraîné / testé, des graphes de dépendance partielle, une représentation des valeurs de SHAP des variables, … Il est également possible d’obtenir des explications locales sur des prédictions données.

H2O auto ml

En définitive, H2o AutoML permet d’expérimenter rapidement sur un cas d’usage donné, permettant par exemple de valider l’intérêt d’une approche par Machine Learning. Pour autant, dans notre cas précis, le modèle vainqueur constitue un assemblage complexe de plusieurs modèles non clairement spécifiés (il faut chercher…longtemps !) et cette complexité et ce manque de transparence peuvent en premier lieu rebuter les utilisateurs.

En définitive, l’Auto-ML signe-t-il vraiment la fin du Data Scientist ?

Le succès futur de cette technologie repose aujourd’hui sur les progrès à venir en matière d’apprentissage par renforcement, discipline qui peine aujourd’hui à percer et convaincre dans le monde professionnel. L’explicabilité et la transparence sont également des challenges à relever par cette technologie pour accélérer son adoption.

Mais de toute évidence, l’Auto-ML s’inscrira durablement dans le paysage IA des années à venir. 

Quant au data scientist, il est certain que la profession telle que nous la connaissons va être amenée à évoluer. Nouvelle au début des années 2010, comme tous les métiers depuis et selon les organisations, leurs profils et activités vont évoluer.

D’un côté, des profils data scientists plus « business » et moins « tech » vont certainement se dégager se concentrant sur des échanges avec les métiers et la compréhension fine du fonctionnement et des enjeux des organisations. On peut d’ores et déjà voir que ces profils émergent des équipes business elles-mêmes : les fameux citizen data scientists. Ces derniers seront très certainement des fervents utilisateurs des outils d’AutoML. 

Également, des profils hybrides data scientist – engineer se multiplient aujourd’hui, ajoutant aux activités classiques de data science la mise en place de pipelines d’alimentation en données et l’exposition des résultats et prédictions sous un format packagé (API, web app, …). L’ère du Machine Learning Engineer a déjà démarré ! 

Les autres articles qui vont vous intéresser