Les projets d’API Management sont fondamentalement simples. Il s’agit de faire échanger des données d’un système A vers un système B. Mais c’est sans compter sur le fait qu’un projet d’API Management fait intervenir un grand nombre d’acteurs, ce qui engendre de la complexité.
Les acteurs de la gestion des API
Pour commencer, nous pouvons énumérer les acteurs typiques impliqués :
Le CxO qui a décidé que les API faisaient partie de la stratégie de l’entreprise, mais qui ne vous donne pas un parrainage très fort ;
Les autres CxOs qui ont d’autres priorités que les APIs ;
L’équipe A qui veut accéder à des données, mais qui n’a pas le temps de s’occuper de vous ;
L’équipe B qui est responsable de données exposées, mais qui n’a pas de temps à vous consacrer ;
Les développeurs de la solution qui veulent accéder aux données ;
Les développeurs de la solution qui exposent les données ;
Les membres de l’équipe de gestion de l’API ;
Et au moins un architecte, bien évidemment !
On voit bien qu’il y a une multiplicité d’acteurs, qui vont tous pousser dans leur propre direction. Et on perd rapidement toute forme de coordination si :
L’équipe de gestion de l’API ne joue pas un rôle de coordination constructif ;
Il n’y a pas de parrainage des membres du CxO.
Le défi de la complexité
Il est donc nécessaire de maîtriser la complexité de l’entreprise et la complexité due à ses interactions et à ses acteurs. En effet, selon la théorie des systèmes complexes, la complexité du système « entreprise » réside dans le nombre élevé d’acteurs et le nombre élevé d’interactions entre eux !
Ce qui est complexe, ce n’est pas de faire une API avec un acteur, mais de faire une API avec, par et pour de multiples acteurs.
Il est donc fondamental de :
Chercher à aligner tous les acteurs dans la même direction par une très bonne communication, des explications sur les bonnes pratiques, etc. ;
Faire de l’équipe de gestion des API un point d’échange central pour toute conversation sur les API ;
Infuser les connaissances dans toutes les équipes autant que possible.
A partir de là, on peut déduire deux prérequis :
Une gouvernance claire, simple et efficace est essentielle ;
Un sponsorship solide doit garantir l’alignement de l’entreprise sur un projet d’API.
Le mode d’organisation le plus souvent utilisé est le mode de gouvernance que j’appelle open source. L’équipe API encadre, guide, aide, soutient, mais surtout permet à chacun de contribuer facilement et efficacement.
De ces activités et défis ainsi énumérés, nous pouvons ainsi déduire deux types d’activités.
Deux typologies d’activités de l’équipe API
On peut ainsi diviser les activités d’une équipe API en deux types d’activités : les activités régaliennes et les activités étendues. En effet, la gouvernance d’une équipe de gestion d’API doit fixer un cadre dans lequel tous les acteurs impliqués dans les API doivent s’inscrire, afin que tous les acteurs puissent pleinement travailler.
Les activités régaliennes
Nous pouvons appeler activités régaliennes les activités pour lesquelles l’équipe de gestion des API a toute l’autorité et ne peut être supprimée. Dans ces activités, nous pouvons mettre :
La mise en œuvre et l’administration technique de la plateforme API Management.
La définition des meilleures pratiques de gestion d’API.
Les formats des ateliers de définition des API – pour passer de réunions interminables et contre-productives à des réunions efficaces et productives. J’ai personnellement réduit par 4 le nombre d’ateliers, juste en repensant la façon dont nous les animons !
L’organisation des ateliers API – Pour être le moteur des sujets API, mais libre à l’équipe API Management de laisser les équipes concernées s’organiser elles-mêmes si elles sont suffisamment autonomes.
La gestion de la formation et de la communication – Pour assurer l’adhésion des équipes, et pour démontrer la valeur ajoutée des équipes d’API Management.
Les activités étendues
Certaines activités doivent cependant être menées non pas sur un mode purement régalien mais sur un modèle beaucoup plus collaboratif, car après tout, il s’agit d’organiser les échanges entre au moins deux systèmes :
Définir et gérer le cycle de vie des API avec les projets et les architectes fonctionnels – Même si l’équipe API a le dernier mot, elle reste au service des projets et du métier ! Ne l’oubliez jamais !
Travailler avec les architectes sur l’alignement des besoins en API dans une feuille de route claire – Les architectes sont censés avoir une vision à moyen et long terme des besoins futurs, les équipes API sont censées s’aligner sur eux !
Outiller pour les développeurs afin d’apporter les bons outils et cadres de travail – Dire à un projet « allez-y et faites l’API » n’est pas suffisant ! Dites-le à un projet Legacy ! C’est aux équipes API de travailler avec les projets pour moderniser la base technique, la distribuer et la partager avec d’autres équipes de développement.
Contribuer à l’idéation avec les métiers pour trouver de nouvelles idées d’API – Le but étant de tirer le maximum de valeur des actifs de l’entreprise.
2 typologies de gouvernance, ou plutôt 2 “curseurs” de gouvernance
Enumérer une liste de tâches n’est pas pour autant équivalent à définir une gouvernance API.
De ces deux typologies d’activités, on remarque que le pattern “décentralisée” revient forcément.
En effet, le mode de gouvernance qu’on pourrait appeler “décentralisée” revient très souvent. Dans ce mode de gouvernance, l’équipe d’API Management a comme but principal de permettre à tout à chacun de contribuer facilement et efficacement. Ainsi, charge à l’équipe API Management de cadrer, orienter, aider, d’apporter du support, mais pas nécessairement d’implémenter et définir les APIs. C’est une logique de gouvernance qui cherche avant tout à permettre aux autres équipes de travailler de manière autonome.
Dans une logique totalement inverse, l’autre mode de gouvernance que l’on rencontre régulièrement est une gouvernance centralisée. Le centre de compétence d’API regroupe alors toutes les compétences nécessaires, et travaille de manière auto-suffisante.
Pour autant, rares sont les entreprises qui mettent en place une gouvernance aussi “marquée” par une de ces deux logiques. Toute la question est de pouvoir s’adapter à l’organisation de l’entreprise et de son SI, mais aussi de s’adapter à la maturité et à l’autonomie des équipes en place. Il faut toutefois bien chercher à autonomiser les équipes, sans quoi il vous sera impossible de “scaler” votre organisation autour des APIs, sans compter les effets de bord d’une logique de tour d’ivoire…
Le site internet est une vitrine de l’entreprise, celui qui vous permet de vous présenter à vos partenaires, candidats, clients, prospects… bref, à tout votre écosystème. Il est donc primordial qu’il donne confiance quant à la gestion des données de vos visiteurs, et qu’il soit conforme à la réglementation en vigueur. Un site conforme au RGPD, transparent sur l’utilisation qu’il fait des données que le visiteur lui fournit, offre une bonne première impression et évite de devoir expliquer à vos clients que vous n’êtes pas conforme RGPD si la CNIL décide d’auditer votre entreprise.
Le RGPD n’est pas l’unique règle qu’il faille appliquer pour considérer son site internet comme absolument conforme (règle EPrivacy, régle de régulation des mentions légales, …). Nous nous sommes principalement focalisés ici sur le RGPD.
Il n’est toutefois pas toujours aisé de démêler concrètement les impacts de la réglementation sur votre site et de savoir s’il est bien en phase avec celle-ci. Chez Rhapsodies Conseil, nous vous avons donc préparé une synthèse des quelques points clefs auxquels vous devez vous intéresser.
1. Les cookies
Première action du visiteur sur le site : le bandeau cookie
Un bandeau cookie, doit répondre à 3 obligations indispensables :
Acceptation, refus, paramétrage
Les boutons accepter tous les cookies et refuser tous les cookies sont obligatoires. L’interface ne doit pas avantager un choix plus qu’un autre, les deux boutons doivent, entre autre, avoir la même taille, la même forme et la même couleur.
Le bouton paramètrage n’a pas l’obligation d’être identique aux deux autres, et doit permettre de choisir quel type de cookie j’accepte et quel type de cookie je refuse.
Lors du paramètrage, lesopt-in doivent obligatoirement être désactivés par défaut. Accepter tel ou tel type de cookie doit résulter d’une action du visiteur.
Chaque type de cookie (Fonctionnel, Performance, Analytique, …) doit être décrit afin d’éclairer le visiteur dans son choix. Chaque choix doit se faire par finalité, c’est-à-dire que le visiteur peut refuser les cookies de Performance et de Publicité et accepter tous les autres sans que son parcours sur le site ne soit différent.
Tant que le visiteur n’a pas donné son accord explicite de dépôt de cookies (autre qu’obligatoire), aucun cookie ne doit être déposé.
L’utilisateur doit pouvoir revenir sur son choix dès qu’il le souhaite, il doit donc y avoir un moyen pour le visiteur de revenir sur le paramétrage des cookies afin de refuser/accepter les cookies.
Le bon fonctionnement du paramétrage des cookies & preuve de consentement
Il arrive souvent que, bien que le bandeau cookie permette de refuser le dépôt de certains cookies, celui-ci ne soit pas totalement fonctionnel. Il est donc primordial de vérifier régulièrement que l’outil de paramétrage est bien opérationnel.
Enfin, il est indispensable de pouvoir conserver la preuve du consentement (article 7 du RGPD).
Lien vers la charte des données ou charte des cookies
Le visiteur doit pouvoir accéder à la politique d’utilisation des cookies, rapidement et avant de faire son choix. Un lien vers la politique d’utilisation des cookies doit donc être présent sur le bandeau.
Cette Politique des cookies doit comprendre : une description de ce qu’est un cookie, une description de comment supprimer les cookies par navigateur, la finalité et la durée de conservation des cookies, le type de cookies et préciser (dans le cas d’un cookie tiers) le tiers en question et le lien vers sa propre politique de confidentialité ou de cookies. Contrairement aux idées reçues, la liste exhaustive des cookies n’est pas obligatoire.
ATTENTION : les cookies collectent des données personnelles, ils ne peuvent donc pas être transférés vers des pays où la réglementation sur la protection des données personnelles n’est pas conforme au RGPD. Les Etats-Unis, par exemple, ne donnent pas une protection sur les données personnelles suffisante pour que les données y soient envoyées. L’utilisation des Cookies Google Analytics (_ga, _gat, …) n’est donc pas acceptée.
2. Les mentions d’informations et la charte des données personnelles
Les mentions d’informations sont les petits textes se trouvant sous les « points de collecte de données » (Newsletter, point de contact, inscription, …). Afin de pouvoir faciliter la compréhension, j’aime décrire les mentions d’informations comme une « charte des données personnelles spécifique au point de collecte »
Une mention d’information doit notamment contenir certaines informations que sont :
Un rappel des données personnelles qui sont collectées suivi par l’utilisation qui en est faite ;
Un lien vers la charte des données personnelles ;
La base légale sur lequel s’appuie le traitement ;
Le destinataire des données (préciser si un transfert des données hors de l’UE est effectué) ;
La durée de conservation des données (non-obligatoire si celles-ci sont présentes dans la charte des données personnelles) ;
Le rappel des droits ;
Le point de contact (DPO).
Toutes les informations peuvent se trouver dans un texte sous le point de collecte, il est possible de créer une page spécifique à la mention d’information accessible via un lien (cf. exemple ci-dessus). L’important est de respecter le principe de transparence qui implique que les informations soient présentées d’une forme claire. Il est conseillé que cela soit ludique et adapté aux interlocuteurs concernés.
La charte des données personnelles quant à elle est indispensable dès qu’une donnée personnelle est collectée sur le site. Cette charte doit comprendre les informations suivantes :
Le nom du responsable de traitement ;
Les finalités de traitement ;
Les bases légales sur lesquelles reposent les traitements (si un traitement repose sur le consentement, il faut préciser que celui-ci peut être retiré) ;
Les destinataires des données (avec précision si les données sont transférées hors de l’UE et les garantis quant au respect des règles de sécurités imposées par le RGPD (anonymisation, pseudonymisation, …)) ;
La durée de conservation des données personnelles ;
Le rappel des droits des personnes (accès, limitation, suppression, opposition, rectification et portabilité) ;
Le contact pour faire valoir ses droits (DPO) ;
Le droit de déposer une réclamation auprès de la CNIL ;
L’existence (ou non) d’une prise de décision automatisée ;
La source des données s’il existe une collecte indirecte.
La charte doit être mise à jour dès qu’un nouveau traitement est créé.
Il est possible que vous n’ayez pas besoin de créer de charte des données personnelles. C’est le cas si les mentions d’informations de tous les points de collecte de votre site internet contiennent des mentions d’informations spécifiques et complètes comprenant les informations obligatoires. Si vous répondez à ce cas de figure, il vous faudra cependant une charte des cookies.
3. CGU, CGV, mentions légales
Les CGU ne sont pas obligatoires mais apportent un cadre d’utilisation du site internet (droits et obligations respectives à l’éditeur et au visiteur). Si votre site internet n’est qu’une vitrine et qu’il ne permet pas la création d’un compte, un achat, le dépôt d’un commentaire, … il n’est pas obligatoire d’avoir des CGU.
Cependant, celles-ci sont indispensables dans les cas contraires. En effet, les CGU peuvent être considérées comme le “règlement intérieur du site”. Elles donnent les droits de l’utilisateur, ses responsabilités et également celles en cas de non-respect.
Les droits de l’utilisateur doivent être précisés, par exemple dans le cas de la création d’un espace personnel. Ces dispositions des conditions générales d’utilisation permettent d’engager la responsabilité de l’utilisateur en cas de dommage résultant du non-respect desdites obligations.
Francenum.gouv.fr
L’utilisateur du site doit accepter explicitement les CGU pour qu’elles puissent être considérées comme légales.
Contrairement aux CGU, les CGV sont obligatoires dès que le site propose un service de paiement, vente, livraison en ligne. Les CGV correspondent à la politique commerciale du site internet (modalité de paiement, délais de livraison, rétractation, …). Elles sont particulièrement utiles en cas de contentieux. Cependant, il n’est pas obligatoire de les avoir disponibles directement sur votre site internet, si vos clients sont professionnels (B2B). Elles le sont si vos clients sont des particuliers (obligation précontractuelle d’information du vendeur). Pour chaque vente, les CGV doivent être acceptées par le particulier (B2C).
Les mentions légales sont les informations permettant d’identifier facilement les responsables du site. Pour une personne physique, il faut inclure :
Le nom et le prénom ;
L’adresse du domicile ;
Le numéros de téléphone et l’adresse mail.
Pour une personne morale (une société), il faut inclure :
Le nom de l’entreprise et le numéro SIRET ;
La forme juridique de la société ;
Le montant de son capital social ;
L’adresse du siège social.
Il est aussi impératif de préciser les mentions relatives à la propriété intellectuelle :
La propriété intellectuelle des photos, images, illustrations, textes qui ne sont pas les vôtre (à minima la source des tactes).
En complément de ces informations, il est indispensable d’inclure :
Le nom de l’hébergeur et sa raison sociale ;
L’adresse de l’hébergeur ;
Le numéros de SIRET de l’hébergeur ;
Le numéro de téléphone de l’hébergeur.
Certaines activités impliquent d’ajouter certaines informations :
le numéro d’inscription au registre du commerce et des sociétés (RCS) (et numéro de TVA intercommunautaire, si vous en avez un) ;
le numéro d’immatriculation au répertoire des métiers (RM) ;
le nom du directeur/codirecteur ou responsable de la publication (si vous proposez des articles, des blogs, des informations, …) ;
le nom et l’adresse de l’autorité vous ayant délivré l’autorisation d’exercer (si votre activité est soumise à un régime d’autorisation).
4. Le principe de minimisation
Très souvent, on a tendance à vouloir collecter le plus de données possibles « au cas où », sans finalité précise. Cependant, depuis le RGPD, le principe de minimisation limite cette tendance.
Le principe de minimisation prévoit que les données à caractère personnel doivent être adéquates, pertinentes et limitées à ce qui est nécessaire au regard des finalités pour lesquelles elles sont traitées.
CNIL
Ainsi, il n’est plus possible de collecter des données ne pouvant pas être justifiées par la finalité de traitement. Par exemple, demander le genre de la personne pour une inscription à une Newsletter n’est pas possible, sauf si on le justifie (par ex. le contenu de la Newsletter est différent selon que l’on est un homme ou une femme).
Ces quelques points vous donnent une première approche à avoir pour vérifier que votre site est bien conforme. La revue du site est aussi un bon moyen de faire une passe sur les données collectées et lancer une véritable mise en conformité de vos traitements de données (bases de données, contrats, CRM, …).
Chez Rhapsodies Conseil, nous nous appuyons sur des outils internes et externes qui ont fait leurs preuves et sur l’expertise de consultants expérimentés pour analyser la conformité de vos sites internet.
J’ai analysé Pro Santé Connect, un service fort intéressant avec plein de potentiels, réalisé dans les règles de l’art et qui suit les standards actuels du domaine de l’authentification. Mon retour : j’adore ! (oui bon laissez-moi mes kiffes hein…).
Pro Santé Connect, c’est quoi ?
Il s’agit d’un service d’authentification et d’identification des professionnels de santé.
Ce service est construit sur les bases des standards du marché actuel : OAUTH2 pour l’authentification et, cerise sur le gâteau, de l’OpenID Connect pour avoir le complément d’information d’identification qui va bien : que pouvons-nous demander de plus ?
À quoi sert Pro Santé Connect ?
Ce service permet qu’un organisme d’état certifie :
La personne qui est en train de s’authentifier est bien celle qu’elle dit être, avec des preuves à l’appui ;
La personne qui accède à mon site dispose bien de certaines caractéristiques qui ne viennent pas d’une auto-déclaration mais d’informations recensées et vérifiées au niveau des organismes d’État ;
Ces informations sont transmises de façon sécurisée et non corruptibles (jetons JWT signés).
Pour être clair, il fonctionne un peu comme France Connect, mais son caractère médical, associé aux caractéristiques spécifiques de la profession, sécurisé et complété par l’OiDC, ouvre la possibilité d’exploiter beaucoup plus d’informations : quel est son lieu de travail ? dans quel établissement ? quelle spécialisation médicale le professionnel pratique ? et d’autres encore…
Pour finir, ces informations peuvent être propagées à des applications tierces, avec un simple transfert de jeton sécurisé, ce qui permet d’éviter les surcoûts et les efforts d’authentification à plusieurs niveaux.
Et alors, on en pense quoi de ce service d’authentification ?
J’adore. Je n’aurais pas fait mieux, ni pire… Techniquement ça a l’air de tenir la route et même plus.
L’utilisation de standards reconnus et plébiscités par le marché, alors que personnellement j’en ai ch…, pardon bavé… Veuillez m’excuser, j’ai eu un peu de mal dans le passé avec des standards d’interconnexion mal documentés, incompréhensibles… Ils étaient pondus par des organismes publics qui, dans un souci de sécurisation, avaient rédigé des documents illisibles et impossibles à utiliser. Bref, je pense qu’ils n’ont jamais rencontré de problèmes de sécurité, vu que personne n’a dû réussir à les implémenter…
Dans le cas de Pro Santé Connect, ceux qui ont déjà implémenté de l’OAUTH2 ou de l’OiDC, se retrouvent dans un cadre familier, clair, bien documenté, enfin un vrai plaisir (bon au moins de mon point de vue hein… laissez moi ce plaisir…). Pour les autres, ces standards sont tellement bien documentés que, avec un peu d’effort de lecture, on peut vite en comprendre les concepts.
Des informations certifiées, complètes, simples à lire ? Il est où le pépin ?
C’est beau tout ça, magnifique, dans ce monde parfait nous n’avons plus rien à craindre ! Plus de questions à se poser ! Nah…
Bon ce n’est pas forcément le cas, une alerte reste d’actualité et se base sur un concept cher à pas mal de DSI : la qualité des données traitées et leur fraîcheur.
Si le service a une chance de marcher tel qu’il est présenté, la collecte des informations devra se faire :
Dans des délais très courts, à partir du changement de situation du professionnel de santé ;
Avec une qualité irréprochable.
Or, la fusion de plusieurs référentiels dans un seul (le RPPS), en cours, plus l’effort que l’ANS semble mettre dans cette initiative, laissent présager des bons résultats.
En conclusion
La voie est la bonne, techniquement pas de surprise, une implémentation reconnue et éprouvée, un service qui nous plaît !
Et maintenant nous attendons le même service pour les personnes physiques, en lien avec Mon Espace Santé et les domaines associés !
Dans un récent post de blog, le Gartner prévoit que d’ici 2030, 60% des données d’entrainement des modèles d’apprentissage seront générées artificiellement. Souvent considérées comme substituts de qualité moindre et uniquement utiles dans des contextes réglementaires forts ou en cas de volumétrie réduite ou déséquilibrée des datasets, les données synthétiques ont aujourd’hui un rôle fort à jouer dans les systèmes d’IA.
Nous dresserons donc dans cet article un portrait des données synthétiques, les différents usages gravitant autour de leur utilisation, leur histoire, les méthodologies et technologies de génération ainsi qu’un rapide overview des acteurs du marché.
Les données synthétiques, outil de performance et de confidentialité des modèles de machine learning
Vous avez dit données synthétiques ?
Le travail sur les données d’entrainement lors du développement d’un modèle de Machine Learning est une étape d’amélioration de ses performances parfois négligée, au profit d’un fine-tuning itératif et laborieux des hyperparamètres. Volumétrie trop faible, déséquilibre des classes, échantillons biaisés, sous-représentativité ou encore mauvaise qualité sont tout autant de problématiques à adresser. Cette attention portée aux données comme unique outil d’amélioration des performances a d’ailleurs été mis à l’honneur dans une récente compétition organisée par Andrew Ng, la Data-centric AI competition.
Également, le renforcement des différentes réglementations sur les données personnelles et la prise de conscience des particuliers sur la valeur de leurs données et la nécessité de les protéger imposent aujourd’hui aux entreprises de faire évoluer leurs pratiques analytiques. Fini « l’open bar » et les partages et transferts bruts, il est aujourd’hui indispensable de mettre en place des protections de l’asset données personnelles.
C’est ainsi qu’entre en jeu un outil bien pratique quand il s’agit d’adresser de front ces deux contraintes : les données synthétiques.
Par opposition aux données « traditionnelles » générées par des événements concrets et retranscrivant le fonctionnement de systèmes de la vie réelle, elles sont générées artificiellement par des algorithmes qui ingèrent des données réelles, s’entraînent sur les modèles de comportement, puis produisent des données entièrement artificielles qui conservent les caractéristiques statistiques de l’ensemble de données d’origine.
D’un point de vue utilisabilité data on peut alors adresser des situations où :
La donnée est coûteuse à collecter ou à produire – certains usages nécessitent par exemple l’acquisition de jeux de données auprès de data brokers. Ici, la génération et l’utilisation de données synthétiques permettent de diminuer les coûts d’acquisition et favorisent ainsi une économie d’échelle pour l’usage data considéré.
Le volume de données existant n’est pas suffisant pour l’application souhaitée – on peut citer les cas d’usage de détection de fraude ou de classification d’imagerie médicale, où les situations « d’anomalie » sont souvent bien moins représentées dans les jeux d’apprentissage. Dans certains cas, la donnée n’existe simplement pas et le phénomène que l’on souhaite modéliser n’est pas présent dans les datasets collectés. Dans ce cas d’usage, la génération de données synthétiques est toutefois à différencier des méthodes de « data augmentation », technique consistant à altérer une donnée existante pour en créer une nouvelle. Dans le cas d’une base d’images par exemple, ce processus d’augmentation pourra passer par des rotations, des colorisations, l’ajout de bruits… l’objectif étant d’aboutir à différentes versions de l’image de départ.
Il n’est pas nécessaire d’utiliser des données réelles, comme lors du développement d’un pipeline d’alimentation en données. Dans ces situations, un dataset synthétique peut être largement suffisant pour pouvoir itérer rapidement sur la mise en place de l’usage, sans se préoccuper de l’alimentation en données réelles en amont.
Mais comme vu précédemment, ces données synthétiques permettent aussi d’adresser certaines problématiques de confidentialité des données personnelles. En raison de leur nature synthétique, elles ne sont pas régies par les mêmes réglementations puisque non représentatives d’individus réels. Les data scientists peuvent donc utiliser en toute confiance ces données synthétiques pour leurs analyses et modélisations, sachant qu’elles se comporteront de la même manière que les données réelles. Cela protège simultanément la confidentialité des clients et atténue les risques (sécuritaires, concurrentiels, …) pour les entreprises qui en tirent parti, tout en levant les barrières de conformité imposées par le RGPD…
Parmi les bénéfices réglementaires de cette pratique :
Les cyber-attaques par techniques de ré-identification sont, par essence, inefficaces sur des jeux de données synthétiques, à la différence de datasets anonymisés : les données synthétiques n’étant pas issues du monde réel, le risque de ré-identification est ainsi nul.
La réglementation limite la durée pendant laquelle une entreprise peut conserver des données personnelles, ce qui peut rendre difficile la réalisation d’analyses à plus long terme, comme lorsqu’il s’agit de détecter une saisonnalité sur plusieurs années. Ici, les données synthétiques s’avèrent pratiques puisque non identifiantes : les entreprises ont ainsi le droit de conserver leurs données synthétiques aussi longtemps qu’elles le souhaitent. Ces données pourront être réutilisées à tout moment dans le futur pour effectuer de nouvelles analyses qui n’étaient pas menées auparavant ou même technologiquement irréalisables au moment de la collecte des données.
L’utilisation de services tiers (ex : ressources de stockage / calcul dans le cloud) nécessitent la transmission de données (parfois personnelles et sensibles) vers ce service. Il en va de même pour le partage de données avec des tiers pour réalisation d’analyses externes. En plus du casse-tête habituel de la conformité, cela peut (et devrait) être une préoccupation importante pour les entreprises, car une faille de sécurité peut rendre vulnérables à la fois leurs clients et leur réputation. Dans ce cas, utiliser des données synthétiques permet de réduire les risques liés aux transferts de données (vers des tiers, des fournisseurs de cloud, des prestataires ou encore des entités hors UE pour les entreprises européennes).
Un peu d’histoire…
L’idée de mettre en place des techniques de préservation de la confidentialité des données via les données synthétiques date d’une trentaine d’années, période à laquelle le US Census Bureau (organisme de recensement américain) décida de partager plus largement les données collectées dans le cadre de son activité. A l’époque, Donald B. Rubin, professeur de statistiques à Harvard, aide le gouvernement américain à régler des problèmes tels que le sous-dénombrement, en particulier des pauvres, dans un recensement, lorsqu’il a eu une idée, décrite dans un article de 1993 .
« J’ai utilisé le terme ‘données synthétiques’ dans cet article en référence à plusieurs ensembles de données simulées. Chacun semble avoir pu être créé par le même processus qui a créé l’ensemble de données réel, mais aucun des ensembles de données ne révèle de données réelles – cela présente un énorme avantage lors de l’étude d’ensembles de données personnels et confidentiels. »
Les données synthétiques sont nées.
Par la suite, on retrouvera des données synthétiques dans le concours ImageNet de 2012 et, en 2018, elles font l’objet d’un défi d’innovation lancé par le National Institute of Standards and Technology des États-Unis sur la thématique des techniques de confidentialité. En 2019, Deloitte et l’équipe du Forum économique mondial ont publié une étude soulignant le potentiel des technologies améliorant la confidentialité, y compris les données synthétiques, dans l’avenir des services financiers. Depuis, ces données artificielles ont infiltré le monde professionnel et servent aujourd’hui des usages analytiques multiples.
Méthodologies de génération de données synthétiques
Pour un dataset réel donné, on peut distinguer 3 types d’approche quant à la génération et l’utilisation de données synthétiques :
Données entièrement synthétiques – Ces données sont purement synthétiques et ne contiennent rien des données d’origine.
Données partiellement synthétiques – Ces données remplacent uniquement les valeurs de certaines caractéristiques sensibles sélectionnées par les valeurs synthétiques. Les valeurs réelles, dans ce cas, ne sont remplacées que si elles comportent un risque élevé de divulgation. Ceci est fait pour préserver la confidentialité des données nouvellement générées. Il est également possible d’utiliser des données synthétiques pour adresser les valeurs manquantes de certaines lignes pour une colonne donnée, soit par méthode déterministe (exemple : compléter un âge manquant avec la moyenne des âges du dataset) ou statistique (exemple : entraîner un modèle qui déterminerait l’âge de la personne en fonction d’autres données – niveau d’emploi, statut marital, …).
Données synthétiques hybrides – Ces données sont générées à l’aide de données réelles et synthétiques. Pour chaque enregistrement aléatoire de données réelles, un enregistrement proche dans les données synthétiques est choisi, puis les deux sont combinés pour former des données hybrides. Il est prisé pour fournir une bonne préservation de la vie privée avec une grande utilité par rapport aux deux autres, mais avec un inconvénient de plus de mémoire et de temps de traitement.
GAN ?
Certaines des solutions de génération de données synthétiques utilisent des réseaux de neurones dits « GAN » pour « Generative Adversarial Networks » (ou Réseaux Antagonistes Génératifs).
Vous connaissez le jeu du menteur ? Cette technologie combine deux joueurs, les « antagonistes » : un générateur (le menteur) et un discriminant (le « devineur »). Ils interagissent selon la dynamique suivante :
Le générateur ment : il essaie de créer une observation de dataset censée ressembler à une observation du dataset réel, qui peut être une image, du texte ou simplement des données tabulaires.
Le discriminateur – devineur essaie de distinguer l’observation générée de l’observation réelle.
Le menteur marque un point si le devineur n’est pas capable de faire la distinction entre le contenu réel et généré. Le devineur marque un point s’il détecte le mensonge.
Plus le jeu avance, plus le menteur devient performant et marquera de points. Ces « points » gagnés se retrouveront modélisés sous la forme de poids dans un réseau de neurones génératif.
L’objectif final est que le générateur soit capable de produire des données qui semblent si proches des données réelles que le discriminateur ne puisse plus éviter la tromperie.
Pour une lecture plus approfondie sur le sujet des GANs, il en existe une excellente et détaillée dans un article du blog Google Developers.
Un marché dynamique pour les solutions de génération de données synthétiques
Plusieurs approches sont aujourd’hui envisageables, selon que l’on souhaite s’équiper d’une solution dédiée ou bien prendre soi-même en charge la génération de ces jeux de données artificielles.
Parmi les solutions Open Source, on peut citer les quelques librairies Python suivantes :
Mais des éditeurs ont également mis sur le marché des solutions packagées de génération de données artificielles. Aux Etats-Unis, notamment, les éditeurs spécialisés se multiplient. Parmi eux figurent Tonic.ai, Mostly AI, Latice ou encore Gretel.ai, qui affichent de fortes croissances et qui ont toutes récemment bouclé d’importantes levées de fond
Un outil puissant, mais…
Même si l’on doit être optimiste et confiant quant à l’avenir des données synthétiques pour, entre autres, les projets de Machine Learning, il existe quelques limites, techniques ou business, à cette technologie.
De nombreux utilisateurs peuvent ne pas accepter que des données synthétiques, « artificielles », non issues du monde réel, … soient valides et permettent des applications analytiques pertinentes. Il convient alors de mener des initiatives de sensibilisation auprès des parties prenantes business afin de les rassurer sur les avantages à utiliser de telles données et d’instaurer une confiance en la pertinence de l’usage. Pour asseoir cette confiance :
Bien que de nombreux progrès soient réalisés dans ce domaine, un défi qui persiste est de garantir l’exactitude des données synthétiques. Il faut s’assurer que les propriétés statistiques des données synthétiques correspondent aux propriétés des données d’origine et mettre en place une supervision sur le long terme de ce matching. Mais ce qui fait également la complexité d’un jeu de données réelles, c’est qu’il capture les micro-spécificités et les cas hyper particuliers d’un cas d’usage donné, et ces « outliers » sont parfois autant voire plus important que les données plus traditionnelles. La génération de données synthétiques ne permettra pas d’adresser ni de générer ce genre de cas particuliers à valeur.
Également, une attention particulière est à porter sur les performances des modèles entrainés, partiellement ou complètement, avec des données synthétiques. Si un modèle performe moins bien en utilisant des données synthétiques, il convient de mettre cette sous-performance en regard du gain de confidentialité et d’arbitrer la perte de performance que l’on peut accepter. Dans le cas contraire où un modèle venait à mieux performer quand entrainé avec des données synthétiques, cela peut lever des inquiétudes quand à sa généralisation future sur des vraies données : un monitoring est donc nécessaire pour suivre les performances dans le temps et empêcher toute dérive du modèle, qu’elle soit de concept ou de données.
Aussi, si les données synthétiques permettent d’adresser des problématiques de confidentialité, elles ne protègent naturellement pas des biais présents dans les jeux de données initiaux et ils seront statistiquement répliqués si une attention n’y est pas portée. Elles sont cependant un outil puissant pour les réduire, en permettant par exemple de « peupler » d’observations synthétiques des classes sous-représentées dans un jeu de données déséquilibré. Un moteur de classification des CV des candidats développé chez Amazon est un exemple de modèle comportant un biais sexiste du fait de la sous représentativité des individus de sexe féminin dans le dataset d’apprentissage. Il aurait pu être corrigé via l’injection de données synthétiques représentant des CV féminins.
On conclura sur un triptyque synthétique imageant bien la puissance des sus-cités réseaux GAN, utilisés dans ce cas là pour générer des visages humains synthétiques, d’un réalisme frappant.
Il est à noter que c’est également cette technologie qui est à l’origine des deepfakes, vidéos mettant en scène des personnalités publiques ou politiques tenant des propos qu’ils n’ont en réalité jamais déclarés (un exemple récent est celui de Volodymyr Zelensky, président Ukrainien, victime d’un deepfake diffusé sur une chaine de télévision d’information).
Ce qui était vrai hier, ne l’est plus forcément aujourd’hui. Et ce qui fonctionnait hier pourrait causer votre perte demain. Votre entreprise fait face à de nombreux enjeux au quotidien. À travers cet article, nous allons nous concentrer sur les déclencheurs qui incitent à considérer l’organisation sous un angle plus souple et flexible.
L’avantage n’est pas au premier à se mettre en mouvement. L’avantage est à celui qui apprend le plus vite. La seule façon de gagner est d’apprendre plus vite que n’importe qui d’autre.
Eric Ries
The Lean Startup
1881 : vous créez une petite entreprise de fabrication de pellicules photographiques sur la base d’une innovation de votre création : un procédé révolutionnaire de plaque sèche qui améliore considérablement la maniabilité des plaques auparavant recouvertes de gélatine. 4 ans plus tard, vous créez le premier film souple transparent qui permet aux photographes du monde entier de vous envoyer leurs films pour que vous les développiez. Vous devenez leader sur le marché de la photographie. 1907 : votre entreprise compte déjà 5000 salariés. 1927 : en 20 ans, votre entreprise a quadruplé sa taille, passant à 20000 employés.
1950 : à la sortie de la guerre, après avoir racheté Pathé quelques années plus tôt, vous êtes à la tête d’une entreprise florissante. Un inventeur, Edwin Land, vient vous proposer une idée : un appareil photo avec des pellicules qui se développent en quelques minutes après la prise de vue. Peu convaincu, vous le laissez partir. Il fondera sa propre compagnie : Polaroid…
1972 : toutes les idées de vos collaborateurs sont maintenant brevetées. L’un d’entre eux développe un capteur numérique qui permet de stocker les photos sur un support informatique. La technologie est naissante, la qualité médiocre par rapport aux appareils argentiques existants. Vous n’y croyez pas. 3 ans plus tard, vous abandonnez le projet et enterrez cette technologie. En tout, votre entreprise aura déposé 1100 brevets sur l’imagerie numérique.
2012 : le lancement de quelques appareils photos numériques sur un marché déjà en pleine explosion et sur lequel vous avez du mal à vous faire une place ne suffira pas à vous sauver. Vous êtes déclarés en faillite. Tous vos brevets sont rachetés pour 1/4 de leur valeur par des sociétés comme Apple, Google ou votre principal concurrent : Fuji.
Vous aurez reconnu l’histoire de Kodak, souvent évoquée pour montrer comment un mastodonte âgé de plus d’un siècle peut s’effondrer car il n’a pas su s’adapter à un changement de paradigme technologique. Alors que de plus en plus de clients étaient séduits par la facilité d’utilisation et le côté pratique de l’appareil photo numérique (quitte à accepter une baisse de qualité), Kodak est resté campé sur sa stratégie argentique et a continué à investir sur la qualité de ses pellicules et de ses appareils photos. Au moment où Kodak s’en est rendu compte, il était trop tard pour s’adapter aux nouvelles orientations du marché. La marche était devenue trop grande.
Le principal concurrent de Kodak, Fuji, possède dans son ADN les secrets d’une histoire qui dure encore aujourd’hui. Créé en 1934, Fuji fabrique des pellicules photo et cinéma. En 1986, il lance un produit innovant qui sera un succès commercial : l’appareil photo jetable. Financé par ce succès, Fuji lance en 1988 son premier appareil numérique et en 1994 son premier appareil reflex numérique (allié avec Nikon). Néanmoins ce marché hyper concurrentiel des appareils numériques et la quasi disparition du marché de la pellicule argentique ne lui permet pas de maintenir son niveau de revenu. En 1997, Fuji décide de se diversifier et lance sa première machine pour imprimer simplement les photos numériques directement dans les boutiques (Minilab Frontier). Ils deviendront leader de ce marché. En 2006, l’entreprise lance le FinePix S5 Pro, un boitier réflex très apprécié par les professionnels. Ce produit fait de Fuji un acteur de référence de ce marché de niche, très rentable.
Au milieu des années 70, Harley-Davidson était à 3 mois de la faillite. Une nouvelle direction va se concentrer non plus uniquement sur le produit mais sur tout l’écosystème : le lifestyle ! Accompagnée d’une profonde transformation interne, avec beaucoup plus d’autonomie pour ses salariés, l’entreprise va rapidement redresser la barre. En 2005, la capitalisation boursière de Harley-Davidson va dépasser celle du géant General Motors.
Ces exemples nous montrent que le risque de faillite ou de disparition est important pour tout type d’entreprise, des plus petites et plus jeunes aux plus grandes et plus anciennes, dès lors qu’elles cessent de s’adapter aux changements et restent sur leurs acquis. L’avènement d’internet, sur les 20 dernières années, a intensifié ce phénomène où l’on voit de nouveaux acteurs arriver et chambouler des marchés historiques (par exemple : N26 ou Revolut dans le monde bancaire). Avez-vous déjà entendu parler de Meero ? Cette start-up parisienne quasiment inconnue est spécialisée dans la mise en relation de photographes. Elle a effectué en juin 2019 la plus grosse levée de fond française (205 millions d’€). Aucun marché n’est à l’abri.
Ce dynamisme actuel doit avant tout être vu comme une opportunité, celle d’explorer de nouveaux sentiers en expérimentant en permanence pour trouver des réponses aux besoins de vos clients. Les évolutions de stratégie qui ont fait le succès des entreprises ci-dessus sont le fruit d’une organisation performante qui plébiscite l’innovation et l’adaptabilité.
2. Pour être plus performant
Sans solidarité, performances ni durables ni honorables.
François Proust
Maximes à l’usage des dirigés et de leurs dirigeants
Nous entendons souvent nos clients nous indiquer qu’ils veulent se transformer pour être agile. Mais être agile n’est pas une fin en soi. C’est plutôt un facteur déterminant pour améliorer les performances de l’entreprise.
Les leviers de performance sont propres à chaque entreprise : satisfaction clients et/ou collaborateurs, time-to-market, qualité, positionnement marché, gestion du risque, innovation, stratégie produit, collaboration, bien-être… Ces leviers sont très nombreux et chaque entreprise doit définir les siens.
Une partie non négligeable de la performance est liée à la culture et aux valeurs de l’entreprise. C’est ainsi que l’entreprise FAVI a subsisté dans un petit village de Picardie. Sa raison d’être ? Le maintien de l’emploi dans cette zone sinistrée. Un de ses leviers de performance est donc le maintien de l’emploi dans ce bassin.
Nous avons vu dans l’exemple du chapitre précédent qu’il ne suffit pas d’être (extrêmement) performant à un instant t, il est nécessaire de viser un niveau de performance sur une longue durée. Pour cela, la manière dont votre entreprise pilote sa performance, ainsi que la manière de produire et de développer de nouvelles idées, vont être prépondérantes. Nous en reparlerons dans la 2ème partie.
3. Pour continuer à grandir
Vessels large may venture more, but little boats should keep near shore.
Benjamin Franklin
The Way To Wealth
En grandissant, les entreprises font souvent face à des problèmes similaires. Lorsqu’elles atteignent certains paliers en nombre d’employés, les règles du jeu changent.
Ainsi, à partir de 30 personnes, les dirigeants font face au premier défi : la délégation. Il est impossible de continuer à tout gérer à 2-3 fondateurs. Continuer à grandir passe par une bonne distribution des activités, et des responsabilités qui vont avec.
À partir de 100 personnes, apparait un nouveau défi : comment réussir à scaler son organisation. Un des premiers signaux est qu’on commence à ne plus connaître tout le monde. De nombreux chefs d’entreprises nous ont indiqué avoir été surpris un jour de croiser quelqu’un dans leur entreprise qu’ils ne connaissent pas et qui pourtant y travaille. Un autre signal souvent observé est l’émergence d’une concurrence interne : 2 équipes peuvent travailler sur un même sujet sans le savoir. La structure de communication n’est plus adaptée. Cela doit déclencher un déclic et un travail important est nécessaire pour mieux diriger les flux d’information et la gestion des priorités.
A partir de 500 personnes, le niveau de complexité de l’organisation explose. Les interactions peuvent devenir difficiles entre départements qui peuvent avoir tendance à se replier sur eux-mêmes, quitte à créer un fonctionnement en silos. Les collaborateurs voient s’accumuler les couches hiérarchiques au-dessus d’eux, perdant ainsi le contact avec les dirigeants. Maintenir la culture d’origine est souvent difficile car des micro-cultures émergent et le nous contre eux peut prendre le pli sur la collaboration.
4. Pour renforcer la culture
Culture eats strategy for breakfast.
Peter Drucker
La culture d’une entreprise correspond à l’ensemble des comportements qui sont promus et encouragés au sein de l’organisation. Elle se traduit à travers les interactions entre collaborateurs dans un contexte donné.
La culture va agir comme un élément fédérateur pour l’entreprise et permettre de construire un liant entre les collaborateurs, nouveaux ou anciens. Elle constitue les fondations ou les piliers sur lesquels les collaborateurs peuvent s’appuyer pour prendre les (meilleures) décisions au quotidien.
Néanmoins, il faut garder à l’esprit qu’une culture s’incarne plus qu’elle ne se décrète. Ce sont les comportements du quotidien qui la matérialisent. De nombreuses entreprises disposent même de plusieurs cultures qui cohabitent, par exemple à la suite de rachats, fusions ou dans une organisation multi-sites. Poussées à l’extrême, ces cultures peuvent rendre l’entreprise “schizophrène” et alimenter une compétition interne qui va au détriment de la performance collective de l’entreprise. C’est particulièrement vrai quand des équipes qui travaillent de manière différente (outils, méthodes, comportement et donc culture) se retrouvent à collaborer ensemble.
L’enjeu est donc de (re)mettre à plat la culture de l’entreprise, de la rendre compréhensible et palpable, afin d’unifier les collaborateurs autour d’un projet commun.
5. Pour (ré)engager les collaborateurs
Un employé responsabilisé et écouté sera mieux dans son travail, son attachement à l’entreprise grandira et il aura fatalement une meilleure relation avec les clients.
Vineet Nayar
Les employés d’abord, les clients ensuite
Des études sur le niveau d’engagement moyen dans le monde entier montrent des résultats assez déstabilisants.
Ainsi, en 2017 en France, seuls 6% des employés étaient dans la catégorie «activement engagés». Cela représente 1 personne sur 16 impliquée et enthousiaste dans son travail.
69% des employés étaient «désengagés». Cette catégorie d’employés vient au travail avec une seule idée en tête : chercher son salaire, ne pas prendre d’initiatives et en repartir le plus tôt possible.
Enfin 25%, soit 1 employé sur 4, étaient « activement désengagés ». Cela signifie qu’ils sont tellement déçus et démotivés par leur entreprise qu’ils passent leur temps à détruire le travail et la motivation des autres.
Mettre en place un modèle d’organisation qui favorise l’émergence de collaborateurs engagés va aider à améliorer la performance de votre entreprise.
6. Pour (re)mettre le client au centre
Faites du service au client une priorité pour toute la société et pas seulement pour un département de l’entreprise. Par ailleurs, une attitude de service client doit venir du sommet de la hiérarchie.
Tony Hsieh
PDG de Zappos
Nombre de ces maximes ornent les murs des entreprises pour rappeler à tous que, avant tout, le client -celui qui paie pour notre produit ou service – doit être au centre de nos préoccupations.
Si votre attention de dirigeant ne doit pas forcément être prioritairement affectée aux clients (voir le livre Les employés d’abord, les clients ensuite de Vineet Nayar), il est évident que les clients sont essentiels au développement de l’entreprise.
Dans certaines entreprise, il arrive que les jeux de pouvoir prennent le dessus sur le bon sens. Par exemple, une direction va développer ses propres processus d’innovation sans consulter la direction en charge de l’innovation, créant de fait des projets concurrents au sein de la même entreprise. Et si on peut considérer que de la concurrence naissent parfois d’excellentes idées, elle conduit probablement plus fréquemment à dépenser l’énergie (et donc l’argent) à mauvais escient au sein d’une même entreprise. Se concentrer sur son client nécessite de le connaître, décrypter ses besoins, et donc de multiplier les points de rencontre avec lui, et ce à tous les niveaux de l’entreprise.
Il ne faut pas non plus oublier que votre client – celui qui utilise votre produit ou service – n’est pas nécessairement à l’extérieur de votre entreprise. D’une part, vous avez des collaborateurs qui sont des utilisateurs de votre produit ou service. D’autre part, vous avez des produits ou services qui sont conçus directement pour vos collaborateurs.
Être assis côte à côte avec son client est un avantage trop peu utilisé. Il n’est pas normal de développer des applications internes totalement inadaptées aux besoins des utilisateurs, qui, bien que logés dans le même bâtiment, n’auront jamais été sollicités. Cela va se traduire par des effets négatifs sur la motivation des équipes : les utilisateurs enragent que le produit ne leur convienne pas, tandis que l’équipe qui a fabriqué le produit récupère un flot de critiques et de demandes de modifications qui gâche leurs efforts.
7. Pour préparer l’avenir
Préparer l’avenir ce n’est que fonder le présent. Il n’est jamais que du présent à mettre en ordre. A quoi bon discuter cet héritage. L’avenir, tu n’as point à le prévoir mais à le permettre.
Antoine de Saint Exupéry
Si vous êtes les fondateurs de votre entreprise, et que vous lisez ces lignes, vous avez certainement déjà franchi certains des paliers de croissance évoqués précédemment. Vous en êtes peut-être même à cette étape de votre vie où après 10-15-20 ans à avoir des activités opérationnelles, vous souhaitez «prendre du recul». C’est normal.
Et c’est parfois compliqué car il existe un risque à confier les clés du camion à quelqu’un qui pourrait déconstruire tout ce que vous avez bâti. Pour éviter les déconvenues, au lieu de confier ces clés à un nouveau chauffeur, vous pouvez construire un camion autonome.
Déjà parce que l’aventure de transformation est une aventure passionnante : elle vous permet de sortir de l’opérationnel et vous fera (re)découvrir votre entreprise sous un jour nouveau. Cela peut vous remotiver et vous apprendrez beaucoup.
Ensuite, construire une entreprise autonome, c’est la préparer à passer les tempêtes qui l’attendent. L’organisation en réseaux qui caractérise ces formes d’entreprises amène une meilleure capacité de résilience. Cela vous rassurera au moment de réellement passer la main.
Rhapsodies Conseil a participé à la table ronde FPF organisée par France Payments Forum le 8 avril 2021. Lors de cet événement, Hervé de France Payments Forum, Damien de Galitt, Sami de Hipay, Jean-Michel de Mercatel, Aude de Market Pay, Hervé de Arkea, Régis de Worldline et Ikbel, notre Senior Manager et expert Digital Payment Experience ont échangé sur les nouveaux modes de paiement en point de vente.
Ce sujet, bien que les événements liés à la pandémie de COVID-19 soient d’actualité, a été choisi étant donné que la Commission Européenne a établi une nouvelle stratégie de paiement.
Le débat présenté a permis de montrer les scénarios potentiels d’évolutiondes paiements au point de vente et les préalables qu’il faudrait lever pour les réaliser.
Vous souhaitez (re)voir la table ronde en partie ou en intégralité? Cliquez sur le bouton play situé ci-dessous.