algorithmes-biaises

Des algorithmes biaisés

Des algorithmes biaisés

Algorithmes racistes, sexistes… les biais algorithmiques sont un risque pour la confiance envers le recours à l’intelligence artificielle. En quoi consistent-ils ?

28 novembre 2019

– 6 min

Valentin Defour

Consultant Senior Transformation Data

Le 8 Avril dernier, le ‘High Level Expert Group on AI’, sorte d’Avengers de l’Intelligence Artificielle dépêchés par la commission Européenne, présentait ses recommandations en matière d’éthique de l’IA. Basé sur une consultation publique ayant recueilli plus de 500 commentaires, ce rapport pointe, entre autres, le sujet du biais algorithmique et met en garde les acteurs de l’IA sur les conséquences négatives que ce dernier peut entraîner, de la marginalisation des minorités vulnérables à l’exacerbation des préjugés et des discriminations. Il présente ainsi les systèmes d’IA comme devant être de véritables acteurs de la diversité en impliquant dans leur développement la totalité des parties prenantes.

Des algorithmes racistes ?

Il y a aujourd’hui quelques années, Propublica, média indépendant d’investigation américain, publiait une étude simplement intitulée “Machine Bias”. Son message : C.O.M.P.A.S. (pour Correctional Offender Management Profiling for Alternative Sanctions), un algorithme largement utilisé dans les cours de justice américaines, serait racialement biaisé, avec pour effet de désigner comme potentiels récidivistes un trop grand nombre de personnes noires. Par la suite, l’expérience a démontré que le nombre de faux positifs chez la population noire était bien plus élevé que celui constaté du côté de la population blanche, comme relaté ci-dessous :

Tim Brennan, professeur de statistiques à l’université et co-fondateur de l’algorithme C.O.M.P.A.S., expliquait déjà que le concept de ‘race’ était selon lui difficile à complètement exclure du calcul de score, car également corrélé à des indicateurs indispensables pour l’algorithme tels que le niveau de pauvreté du prévenu, le taux de chômage constaté dans son quartier, … Retirer également ce type de données du calcul de score entraînerait selon lui une chute de la précision du prédicteur, précision alors quantifiée à 68% (précision : nombre de véritables récidivistes / nombre de récidivistes désignés). En aparté, on s’interroge déjà sur cette valeur qui, en pratique, image le fait qu’une personne analysée sur 3 serait désignée comme récidiviste, à tort. Même si les cours pénales américaines n’appliquent pas à la lettre le résultat de l’algorithme, on imagine bien l’influence de ce dernier concernant la décision finale…

L’étude de Propublica, complétée des datasets utilisés

Quelques définitions…

Une manière simplifiée d’expliciter un algorithme serait de le décrire comme une liste finie d’instructions s’enchaînant selon des conditions logiques, produisant potentiellement une sortie en fonction d’aucune, une ou plusieurs entrées. Ainsi, peuvent être considérés comme algorithmes une recette de cuisine, un itinéraire GPS ou un ensemble d’instructions médicales. Appliqués au monde informatique, on peut les qualifier d’algorithmes numériques, transformant une ou plusieurs données d’entrée en une ou plusieurs sorties numériques. Ainsi, une simple formule qui, en considérant l’âge, le statut de fumeur, la pression artérielle et quelques autres caractéristiques d’un individu afin de prédire un risque d’AVC est un algorithme.

De manière plus précise, les algorithmes que nous adresserons dans cette suite d’articles sont ceux relatifs au machine learning, littéralement « apprentissage machine ». Soit la capacité pour un programme d’apprendre d’expériences passées pour anticiper des événements futurs. Nous nous focaliserons sur les algorithmes supervisés : ils ont besoin d’un grand nombre d’exemples en entrée pour pouvoir exercer sur une nouvelle situation ou événement à prédire. On retrouve tout un ensemble de situations où l’apprentissage supervisé est utile : reconnaître des personnes sur une photo, filtrer des spams dans une messagerie ou encore prévenir d’un risque de défaut de remboursement de crédit.

Le phénomène de biais, quant à lui, peut prendre plusieurs significations selon le contexte dans lequel il est nommé. Nous nous concentrerons ici sur les définitions englobées dans le spectre “statistiques appliquées”, mais il faut savoir que ce terme, en plus d’être le nom de bourgades du Lot-Et-Garonne et de la Virginie Occidentale, est applicable à de nombreux domaines (électronique, psychologie, …).

De manière non exhaustive, en statistiques appliquées, ce biais peut être de plusieurs types :

Quel rapport avec les systèmes d’IA ? Eh bien ce sont ces biais statistiques qui se trouveront exprimés dans les modèles, du fait de la sélection des données d’entrée, de l’expression plus ou moins marquée de certains features du modèle ou encore de l’interprétation des résultats. C’est ainsi que, fonctionnellement, des algorithmes peuvent “accoucher” de résultats fonctionnellement biaisés : biais raciaux, de genre, d’âge, …

Le risque ?

De plus en plus de décisions sont aujourd’hui prises par des algorithmes. De l’analyse automatique des CV à celle des dossiers de demande de prêts, de l’ordre des publications sur un réseau social à la liste de publicités affichées sur le net, ces algorithmes prennent une place de plus en plus importante dans nos vies quotidiennes. C’est pourquoi y inclure, volontairement ou non, des biais de toute sorte représente un danger important. Il est certain que ces décisions, autrefois prises par des humains, étaient déjà sujettes aux différents biais cognitifs. Mais c’est bien l’industrialisation de ces biais qui pose le problème.

Big data doesn’t eliminate bias, we’re just camouflaging it with technology

Cathy O’ Neil

En considérant un algorithme, régi par des préceptes mathématiques, on pourrait penser que ce dernier est objectif par définition et dénué des biais qui peuvent affecter les décisions humaines. C’est le principe du MATHWASHING, derrière lequel beaucoup de décisions algorithmiques ont été dissimulées.

Mais alors pourquoi cette objectivité algorithmique et mathématique serait-elle une illusion ?

Les algorithmes sont conçus par des humains

Leurs créateurs sont en charge de décisions structurantes telles que le périmètre de données à utiliser, les éventuels poids attribués à ces données, … Et, par définition, les décisions humaines sont biaisées, volontairement ou non. Par exemple, utiliser des données de genre pour déterminer quelles annonces d’emploi mettre en avant sur la page LinkedIn d’un individu a eu pour effet de recommander, en moyenne, des offres moins rémunérées pour les utilisatrices.

Les données en entrée sont également subjectives

Les algorithmes traitent les données qu’on leur présente en entrée. Ni plus, ni moins, sans avoir la possibilité d’évaluer leur caractère biaisé. En effet, les données reflètent toutes sortes de biais sociétaux bien ancrés, en plus d’en perpétrer des anciens. Quid de l’utilisation de données raciales dans un pays qui prônait la ségrégation raciale un demi-siècle plus tôt ? Quid de l’éradication du pay gap quand la plupart des données utilisées pour entraîner les algorithmes reflètent ce problème majeur de société comme une situation normale, ou au moins nominale.

Ainsi, cette amplification du biais peut être accidentelle (utilisation involontaire de données biaisées) mais également réalisée en toute connaissance de cause et d’effet, soit dans un but de manipulation de la décision algorithmique (ex : design de la ‘Gerrymandering map’ optimale), soit encore dans une optique de dé-responsabilisation : l’algorithme encaisse ainsi la responsabilité des décisions biaisées prises par les humains sur son bon conseil.

En résumé,


Ces considérations viennent alimenter un spectre plus large de problématiques relatives à l’éthique de l’IA. Il va sans dire que l’explicabilité de l’IA est un défi pour la suite de l’ère IA dans laquelle nous sommes entrés depuis quelques années. On connaissait le problème classique d’éthique de l’IA imagé par le MIT sur son site ‘Moral Machine’. Celui-ci permet, à l’aide d’une mise en situation, de sensibiliser les utilisateurs aux choix difficiles effectués par les IA embarquées dans les voitures autonomes. Dans le même esprit, myGoodness interroge sur l’attribution de sommes d’argent à des causes humanitaires ou avec objectif d’enrichissement personnel.

L’utilisation d’algorithmes d’intelligence artificielle est une forte opportunité de progrès technologique, et ce de manière très transverse. Toutefois, une perte globale de confiance en leurs résultats pourraient entraîner ce pan important de la recherche dans un nouvel hiver de l’IA si jamais leur caractère objectif venait à être décrié et leurs biais prouvés. Il en va donc de la responsabilité de leurs créateurs d’en faciliter la transparence, de leurs utilisateurs d’en vérifier l’accord avec les lois et de la totalité de la population d’exercer une pensée critique vis à vis des résultats obtenus.

Comprendre la limite des algorithmes aidera à juger leurs recommandations. De par leur définition, données et algorithmes réduisent une réalité complexe à une vision plus simple du monde. Seules les parties mesurables de cette vision devraient être utilisées. Il convient ainsi d’éviter la religion de l’algorithme et la vision réductrice inhérente, en gardant des décideurs humains dans la boucle du choix.

Dans une seconde partie, nous nous concentrerons sur les différentes approches existantes permettant de réduire voire d’éradiquer ces biais algorithmiques, pour des systèmes aux décisions plus justes et peut-être un jour réellement objectives…

Note : l’étude menée par Propublica sera par la suite fortement contestée par une étude gouvernementale. Indépendamment de la véracité des résultats, Propublica aura mis sur la table le sujet du biais algorithmique et l’aura rendu compréhensible (à minima accessible) au plus grand nombre.

Parlons de votre projet !








    Les informations recueillies sur ce formulaire sont enregistrées pour pouvoir vous identifier et vous répondre. Plus d’informations concernant notre gestion des données sur notre page mention d’information.

    Data-ia-augmentez-la-valeur-de-vos-donnees

    Mesurez et Augmentez la Valeur de vos Données

    Mesurez et Augmentez la Valeur de vos Données

    4 octobre 2019

    – 1 min de lecture

    Albert Bendayan

    Directeur Architecture, Data & Transformation

    Vous souhaitez développer les usages de vos données ?

    Vous souhaitez augmenter le potentiel de vos données ?

    Nous avons synthétisé pour vous les 5 étapes pour mesurer et augmenter la valeur de vos données !

    Si cette infographie vous a intéressé, vous pouvez approfondir le sujet en téléchargeant notre livre blanc : Augmentez la valeur de vos données.

    parlons de votre projet !








      Les informations recueillies sur ce formulaire sont enregistrées pour pouvoir vous identifier et vous répondre. Plus d’informations concernant notre gestion des données sur notre page mention d’information.

      communication-connection-contemporary-261706

      Lettre pour un CDO

      Lettre pour un CDO

      Votre objectif majeur en tant que Chief Data Officer est de mesurer et d’augmenter la valeur des données de votre Organisation.

      15 mai 2019

      – 2 min de lecture

      Jean-Baptiste Piccirillo

      Manager Transformation Data

      Cher/Chère CDO,

      Vous êtes probablement en train de mettre en place votre « Data Lake », « Data Hub » et autres « Data Labs ». A cet instant, nombreux sont les vendeurs autour de vous, briguant une place dans votre cœur…Ils peuvent tout changer ! Ils peuvent faire de vous un brillant Chief Data Officer…

      « D’abord, Migrez toutes vos données dans le Cloud sans inquiétude, c’est là que vous trouverez nos outils magiques qui tirerons toute la valeur de vos données ! » Allez, avouez qu’il ne le disent pas comme ça, mais que ce n’est qu’à peine caricaturale. Une variante ? : « Si vous voulez être THE Data Driven Company, notre outil est fait pour vous. Et, il est justement tout à fait adapté et pensé pour votre métier et vos données. Alors Essayez-le. Nous avons même ce qu’il faut pour vos Data Scientist. Tout en un ! ». En changeant quelques mots de leur beau scénario, on ne serait pas si loin d’une pub pour dentifrice…

      Je vous prie de ne pas répondre trop vite à ces « experts » de la donnée. De même, n’embauchez pas trop hâtivement une armée de jeunes « Data Scientists ». Ne leur dites pas qu’ils sont l’avenir et qu’ils vont construire des algorithmes des plus innovants, quand au final ils deviendront les rois des Dashboards à faire pour hier.

      Votre seul objectif en tant que CDO est de mesurer et d’augmenter la valeur des données de votre Organisation. Et avant d’embaucher qui que ce soit, ou d’avoir le plus gros Data Lake avec le plus de données possible pour justifier l’existence de votre équipe, si vous commenciez par structurer deux approches : L’une par la valeur « Potentielle » de vos données, l’autre par sa valeur « Effective » :

      Appréciez et faites comprendre aux acteurs de votre entreprise la valeur de son patrimoine data. Peut être, allez-vous à la salle de sport tous les jours, ou peut être faites vous votre petit jogging quotidien ? Les gens vous disent : « Tu as l’air en forme, tu es en bonne santé ! ». Et vos données sont-elles en bonne santé ? Qualité ? Disponibilité ? Sécurité ? Travaillez sur vos assets transversaux (Client, Produit, …), assurez-vous qu’a minima leur santé est assurée par une gouvernance adaptée. Sécurisez ce potentiel minimal. Documentez, explorez, améliorez la valeur intrinsèque de vos données clés, mettez à disposition des données à potentiel à vos analystes (via une plateforme adaptée : « Data Lake » ou autre !). Mais ne faites pas que ça, ou c’est la gueule de bois assurée.

      Parce que ce sont les usages de la donnée qui concrétisent réellement sa valeur, dans le même temps, travaillez continuellement avec les métiers pour comprendre et répondre à leurs usages concrets des données, et améliorez les usages existants !

      Et pas seulement les usages qui rendent heureux vos Data Scientists et vos vendeurs de dentifrices préférés. Vous devriez précisément connaître les usages actuels des données pour lesquels certains collaborateurs bondissent : « Cette donnée ne sert à rien ! Je ne peux pas faire mon travail ! Je perds un temps fou, tout est faux 🙁 » Et s’il vous plaît, faites quelque chose pour eux en priorité, rentrez dans leur quotidien et leurs moultes fichiers excel, et changez les choses car vous êtes responsable. Améliorez la valeur d’usage de vos données.

      Cher CDO, acheter une belle plateforme dans le Cloud et embaucher quelques Data Scientists ne suffira malheureusement pas à améliorer la valeur de vos données. Avant toute chose, assurez-vous que votre organisation est bien fondée sur l’équilibrage de deux axes clés :

      1/ transformez des usages à valeur ajoutée grâce aux données

      2/ développez le potentiel de votre patrimoine data pourrait bien vous faire gagner du temps et de l’argent.

      Cordialement,



      N’hésitez pas à lire notre livre blanc qui approfondit ce sujet.

      Parlons de votre projet !








        Les informations recueillies sur ce formulaire sont enregistrées pour pouvoir vous identifier et vous répondre. Plus d’informations concernant notre gestion des données sur notre page mention d’information.

        Livre blanc

        Téléchargez notre livre blanc
        Augmenter la valeur des données

        Téléchargez notre livre blanc Augmenter la valeur des données

        Ce livre blanc s’adresse à tous les acteurs de la Data et propose une approche concrète et opérationnelle, orientée risques et valeur, pour définir une feuille de route Data.

        27 mars 2019

        27 mars 2019

        – 1 minute de lecture

        Albert Bendayan

        Directeur Architecture, Data & Transformation

        Approche méthodologique pour mesurer et augmenter la valeur de vos données

        Téléchargez le livre blanc

        La valeur des données pour une entreprise n’est plus à démontrer : les rapports des analystes fourmillent d’exemples d’entreprises qui ont su valoriser leurs données et en mesurer les bénéfices, que ce soit en revenus directs (augmentation des ventes, innovation produits & services,…) ou en économies réalisées (performance financière & opérationnelle, réduction des risques,…). Dans un cas comme dans l’autre, ces bénéfices se chiffrent souvent en dizaines de millions d’euros par an !

        Cette prise de conscience s’est accélérée ces dernières années avec la montée en maturité de technologies (IoT, Big Data, IA, …) permettant de collecter massivement des données, de lever les contraintes de stockage et de multiplier le champ des possibles en matière d’analyse et d’exploitation de ces données en temps réel.

        Cependant, après les phases d’expérimentation, l’industrialisation de ces technologies est freinée par la capacité des entreprises à réellement maîtriser leurs données : les analystes estiment qu’une mauvaise qualité des données est en cause dans 40% des initiatives métier qui n’atteignent pas leurs objectifs.

        Dans ce contexte : Par où commencer ? Quelles initiatives lancer ? Comment s’y prendre pour construire une feuille de route Data permettant de maîtriser et de valoriser son patrimoine de données ?

        Ce livre blanc s’adresse à tous les acteurs de la Data et propose une approche concrète et opérationnelle, orientée risques et valeur, pour définir une feuille de route Data.

        Téléchargez le livre blanc

        Parlons de votre projet !








          Les informations recueillies sur ce formulaire sont enregistrées pour pouvoir vous identifier et vous répondre. Plus d’informations concernant notre gestion des données sur notre page mention d’information.

          data-hotnews

          Data hotnews

          Data hotnews

          20 mars 2019

          – 1 min de lecture

          Albert Bendayan

          Directeur Architecture, Data & Transformation

          Les métadonnées deviennent une composante clé des approches data, en particulier pour s’y retrouver dans les méandres des sources de données et autres Data lakes / Data hubs.

          Cet article, en Anglais, propose une vision historique et exhaustive des métadonnées jusque dans la dimension marketing, d’automatisation des traitements et, plus récemment, de GDPR.

          En lire plus, cliquez ici : https://www.dataversity.net/a-brief-history-of-metadata/

          Happy reading.

          Parlons de votre projet !








            Les informations recueillies sur ce formulaire sont enregistrées pour pouvoir vous identifier et vous répondre. Plus d’informations concernant notre gestion des données sur notre page mention d’information.

            protection-des-données

            Journée Mondiale de la Protection des Données

            Journée Mondiale de la Protection des Données

            28 janvier 2019

            – 2 min de lecture

            Albert Bendayan

            Directeur Architecture, Data & Transformation

            Il y a une journée mondiale de la protection des données et c’est aujourd’hui, lundi 28 janvier 2019.

            C’est le Conseil de l’Europe qui a, le premier et dès 2007, proclamé une journée européenne de la protection des données à caractère personnel.

            Dernièrement, et au-delà de GDPR (oui je fais le pari qu’il n’y a plus besoin de dire ce que c’est), l’actualité nous a montré à quel point les données personnelles étaient un enjeu énorme et qu’il y avait encore une longue route à parcourir. La liste des « évènements » liés aux données personnelles ne cesse de s’allonger : Amende Google, Facebook et Cambridge Analytica, vol des données d’élus Allemands, piratage « Collection #1 »… et ce ne sont que les plus emblématiques (il y en a de multiples rien qu’avec Facebook).

            Au-delà du fait de mettre en place des responsabilités, des procédures et des outils pour se conformer à GDPR, il me semble important de mettre en avant quelques éléments-clés :

            Dès lors, c’est au sein de la culture même de chaque organisation qu’il faut intégrer la protection des données personnelles et, plus largement, la valeur des données.
            D’un côté, nous avons la culture d’une organisation qui peut se caractériser par ses valeurs partagées, ses croyances et convictions, ses pratiques, ses comportements.
            De l’autre, nous avons une Culture Data qu’il devient de plus en plus nécessaire de partager le plus largement possible.

            Il faut donc diffuser une Culture Data à tous les étages des organisations : C’est cela qui va permettre de prendre la mesure, à l’échelle de l’organisation, de la protection des données personnelles mais aussi de la valeur des données (qualité, disponibilité…).
            Mais il faut faire cela en s’insérant dans la culture en place, pour venir l’étendre et l’enrichir, et pour s’assurer que cela est fait de façon durable.
            En effet, penser qu’il suffirait de mettre en place un plan « Culture Data pour tous » générique et sans personnalisation est probablement voué à l’échec.

            Et comme il ne faut pas rester sur un « échec », espérons que cette journée de protection des données personnelles permettra de faire avancer la Culture Data à tous les étages de la société.

            Parlons de votre projet !








              Les informations recueillies sur ce formulaire sont enregistrées pour pouvoir vous identifier et vous répondre. Plus d’informations concernant notre gestion des données sur notre page mention d’information.