Éclairer le futur est notre métier

Taille du texte: +

Une pandémie de données ne soigne pas de la vérité

Big Data & SocietyLe géographe américain Taylor Shelton (@kyjts) a publié dans l’excellente revue en libre accès Big Data & Society (@BigDataSoc, blog), une intéressante analyse sur les limites des politiques conduites par les données.

Chaque jour, depuis mars, nous sommes sous le joug de décomptes d’infections et de décès dus au coronavirus. D’innombrables tableaux et visualisations de données nous sont proposés pour comprendre et contrer la pandémie. Tant et si bien que certains parlent de la première « pandémie conduite par les données » (data-driven pandemic). Pourtant, alors que les données sont générées, analysées et consommées à une vitesse vertigineuse, notre emprise collective sur le virus est loin d’être parfaite. Malgré cette incroyable débauche d’outils et de chiffres, nous n’avons aucune idée du nombre exact de personnes qui ont eu le virus, qui ont été hospitalisées ou sont décédées à cause de lui – enfin, malgré de nombreuses lacunes, les données tentent d’en avoir une bonne idée, notamment sur le suivi des personnes hospitalisées ou décédées. Pour Taylor Shelton, ce problème provient d’une confluence de facteurs : une obfuscation active, une mauvaise gestion des autorités et une vague de désinformation sans précédent. En plus de ces dynamiques, il faut aussi compter sur les pratiques subjectives d’enregistrement (comme par exemple, la déclaration de la cause de mortalité, ou, comme le pointaient les décodeurs du Monde, l’évolution des indicateurs ou encore la difficulté à faire entrer un cas dans une case de tableur, comme pour le taux d’occupation en réanimation…), d’analyse et de visualisations de données qui ont le potentiel de reproduire ces mêmes dynamiques où la donnée est à la fois valorisée et ignorée, prééminente et en même temps inutile. Pour le géographe, il faut voir là une forme d’inadéquation générale de nos infrastructures de données, mais également une forme de glissement généralisé vers une disposition à la « post vérité » de la vie sociale contemporaine, où les faits objectifs ont moins d’influence sur l’opinion publique que les appels à l’émotion et aux croyances personnelles (voir notamment « Comment la techno bouleverse-t-elle notre rapport aux faits ? » où l’on pointait déjà combien le passage à une société de données créait une crise de l’information).

Pour Shelton, c’est une erreur de considérer que la centralité des données s’opposerait à la post-vérité. « Ces deux dynamiques ostensiblement opposées sont fondamentalement entrelacées et coproduites ». Shelton évoque les nombreuses querelles sur les chiffres des autorités de plusieurs États américains à faire pression sur les producteurs et les modes de production des données – oubliant peut-être un peu le rôle des vides de données qui peinent à relier les données entre elles, par exemple sur l’origine et les lieux de contaminations – hors clusters – qui demeurent bien trop floues. Il pointe également bien sûr, la désinformation qui s’est répandue sur les médias sociaux et dans les médias, tant et si bien que l’OMS et les Nations Unies ont mis en garde contre une « infodémie » où les fausses nouvelles se répandent plus vites que le virus (voir notre article « naviguer dans les ruines de la réalité consensuelle »). Pour Shelton, le fait que la désinformation prospère dans des systèmes de données qui paraissent être le mieux à même de nous en préserver, souligne une tension dialectique entre post-vérité et données. Des points de données individualisés et décontextualisés servent de point de focal pour la vie sociale et politique au détriment de la narration qui lie les données en un tout compréhensible. En l’absence de récit cohérent sur ce qu’il se passe, les points de données, ostensiblement objectifs, mais pas toujours reliés entre eux, conduisent à des endroits où la vérité peut être contrecarrée. Les biais et subjectivités de données ne fournissent pas un regard sans fard sur la réalité objective du monde. Pour Shelton, les indicateurs quantitatifs reflètent le régime incohérent et fracturé de la collecte de données épidémiologique, notamment du fait du manque d’une capacité centralisée de collecte explique-t-il (pas sûr pourtant que la centralisation des données puisse réparer les innombrables régimes de production de données). Il est impossible de produire « un compte rendu véritablement objectif, holistique et complet de la pandémie par les données », estime le géographe.

À défaut, nous avons construit des combinaisons subjectives et contingentes qu’on ne cesse de corriger et de tenter d’améliorer, mais qui soulignent surtout que les données ne sont pas une panacée ni un rempart parfait et étanche à la post-vérité. Au final, la pandémie a créé une défiance envers les données, la science, les autorités et la « vérité », alors même qu’elles sont convoquées comme des arbitres apolitiques et neutres de la vérité. Pour Shelton, les fondements mêmes d’une société de la « post-vérité » se trouvent dans les données elles-mêmes ! Nous ne vivons pas seulement une pandémie conduite par les données, mais surtout une pandémie de la post-vérité ! Pour le dire autrement, une surenchère de données ne soigne pas le problème qu’il y a à établir la vérité, au contraire, elle l’entretient certainement bien plus qu’on ne le pense. Les données ne sont pas magiques, elles cachent et obscurcissent autant qu’elles révèlent et éclairent. Un meilleur accès et une meilleure transparence des données semblent partout une solution indispensable et indépassable, mais cette injonction à la raison oublie certainement d’en voir les limites intrinsèques. En se focalisant sur la pandémie par exemple, elles cristallisent le temps présent au détriment du long terme, elles focalisent sur la pandémie au détriment de tout autre indicateur : en nous concentrant sur la pandémie, les chiffres nous font par exemple oublier tous les autres indicateurs, que ce soit d’autres formes de mortalité ou les effets économiques et sociaux tout aussi délétères à long terme.

Ni les données ni la transparence ne suffisent à produire la vérité

La Los Angeles Review of Books (@LAReviewofBooks) a interviewé Sun-ha Hong (@sunhahong, blog), l’auteur de Technologies de spéculation : des limites de la connaissance dans une société conduite par les données (New York University Press, 2020, non traduit). Et s’interroge : pourquoi accordons-nous autant de pouvoir aux chiffres ? Les données demeurent souvent recueillies de manière désordonnée et soumises à des normes arbitraires : elles privilégient des aspects quantifiables au détriment des aspects qualitatifs qui comptent pourtant parfois davantage, mais qui ne savent pas se réduire à des chiffres (voir notamment notre article « De la tyrannie des métriques »). Pourtant, nous gardons une foi inébranlable dans les chiffres, comme s’ils étaient exempts d’erreurs. Pour Sun-ha Hong, cette croyance dans la suprématie du quantitatif tient du fantasme. Pour le chercheur, l’intimité des données, c’est-à-dire la croyance que plus nous confierons des aspects privés de nous-mêmes aux machines et aux mesures, plus nous obtiendrons ce que nous désirons, tient d’un fantasme de commodité, qui oublie qu’une plus grande vulnérabilité accompagne toujours l’exploitation de notre intimité. Fitbit par exemple fait croire aux gens que leurs données d’exercices vont leur donner plus de pouvoir… Mais cette promesse masque le risque bien réel de la disparition de toute intimité et leur utilisation pour une surveillance renforcée de nos comportements.

Derrière l’impulsion à collecter toujours plus de données, subsiste la croyance que la transparence et l’information demeurent intrinsèquement bénéfiques, remarque la journaliste et essayiste Emily Watlington (@KeysWalletPh0ne) qui l’interviewe. Pourtant, cela n’empêche pas qu’en examinant les mêmes données, on puisse arriver à des conclusions radicalement différentes. Pour Hong, le problème n’est pas que les données soient imparfaites, mais que leur recueil ouvre un fossé entre la connaissance et sa fabrication. Pour l’anthropologue britannique Mary Douglas, déverser des quantités massives d’information, comme c’est le cas sur la question climatique, nuit souvent au débat rationnel. Nous avons trop tendance à croire que la transparence produit automatiquement la vérité et la raison. Et notamment, lorsque finalement les données sont très confuses comme on le voit autour de la crise épidémique. Les données désordonnées peuvent finalement étouffer le débat public… et tous leurs biais, lacunes et marges d’erreur deviennent alors des occasions de doute et de spéculation.

Le problème n’est pas que les gens n’ont pas la culture pour lire les données. Le problème est que bien souvent trop d’information est inutile, estime Hong. « Ce qui s’est passé avec l’affaire Snowden est assez semblable à ce qui se passe avec les informations sur les coronavirus. Edward Snowden a publié une masse incroyable de documents dans l’espoir d’aider les gens à avoir un débat rationnel sur la surveillance de la NSA. Cela s’est produit dans une certaine mesure, mais cela a également alimenté les théories de conspiration, la spéculation, le doute et le désaccord. » Ceci est révélateur d’un problème plus large de relation entre les personnes et l’information, explique Hong en prenant l’exemple des caméras de surveillance corporelle de la police. Ces dispositifs étaient censés résoudre le problème de la brutalité policière raciste par la transparence. « Mais le flic qui a tué George Floyd … savait qu’il était filmé, et il s’en fichait. » Pourquoi ? Parce que quand les gens voient une vidéo comme celle-ci, certains en concluront que l’homme à terre était un pillard, un émeutier ou un anarchiste. « Les flics savent par expérience que les données ne sont pas objectives, ni universelles, ni impartiales. » Quelque soit ce qu’on voit, l’interprétation demeure !

Pour Emily Watlington, ce qui est collecté par une machine nous semble toujours objectif, alors que ce qui est montré, son montage, son cadrage ont un impact sur ce que nous voyons ou croyons voir. Le constat est le même pour les chiffres et les données.

Quand bien même nous disposerions de l’enregistrement vidéo de l’heure avant et après le meurtre de Flyod, nous ne serions pas nécessairement plus avancés, explique Hong. « On ne peut pas obtenir de certitude ou de connaissance en accumulant toujours plus de faits, de données, de statistiques ou de vidéos. Pourtant, c’est le modèle mental avec lequel nous travaillons lorsque nous utilisons des données pour essayer de comprendre le monde : nous voulons croire que nous pouvons simplement accumuler de plus en plus de connaissances jusqu’à ce que nous ayons tout compris. Or, ce qui nous fait vraiment passer de l’information à la compréhension, ou ce qui nous fait passer des chiffres au jugement et au consensus, c’est tout ce qui est qualitatif autour des données. » « Cela nous amène à une autre partie essentielle de votre livre : la remise en question de notre foi dans la quantification. Vous écrivez que les chiffres sont « quelque chose que nous recherchons et dont nous voulons être sûrs ». Mais vous écrivez aussi que « les preuves n’éteignent pas l’incertitude, mais la recentrent », et aussi qu' »il existe de nombreux écarts banals entre la promesse de la révélation et le désordre de l’information » », souligne la journaliste.

« Il y a ce fantasme que, lorsque vous voyez un nombre, il va avoir cette attraction gravitationnelle de la vérité objective, une force qui oblige tous les autres à s’y soumettre », répond Hong. Dans la pratique, les chiffres sont incroyablement utiles, surtout parce que nous y avons investi beaucoup de crédibilité. Cela signifie que les chiffres sont des opportunités pour les gens de faire avancer des programmes partisans ou pour renforcer leur vision du monde. Dans le livre, Hong parle des dimensions imaginaires des chiffres, ainsi que de leurs dimensions affectives et spéculatives. Or, la mesure demande très souvent d’écarter les obstacles du monde réel qui l’en empêchent. La soif de données est inépuisable, mais aucune donnée ne désaltère. Les données révélées par Edward Snowden montraient pourtant combien la NSA avait du mal à déterminer quels types de données seraient utiles pour accomplir son programme de surveillance de masse. Un de mémos internes qui a fuité parlait d’ailleurs de la paralysie de l’analyse, montrant le fossé grandissant entre les attentes et la réalité. « Nous allons sur le terrain, nous recueillons des données et nous attendons qu’elles nous permettent de faire des prévisions. Nous en avons besoin pour obtenir des certitudes. Nous en avons besoin pour fournir des informations exploitables. Ainsi, lorsque les données ne sont pas à la hauteur, nous obtenons ce que j’appelle de la fabrication : ce processus consistant à combler les lacunes par des suppositions humaines pour essayer de faire en sorte que les données fassent ce que nous voulons qu’elles fassent. C’est là que beaucoup de préjugés et d’erreurs sont introduits par des moyens détournés. »

Hong évoque le documentaire de la journaliste Algéro-américaine Assia Boundaoui, « Le sentiment d’être surveillé » (2018) qui se passe dans le quartier arabe de Chicago ou la réalisatrice a grandi. Dans ce quartier, explique Hong, tout le monde a grandi avec le sentiment d’être surveillé par le FBI et effectivement, le FBI a particulièrement surveillé cette communauté… mais cette surveillance n’a donné lieu à aucune accusation ! Les systèmes de surveillance de masse sont dominés par des faux positifs et par de grandes marges d’erreur. Le FBI pour prédire la probabilité qu’un suspect commette un acte terroriste ou violent a dans ses indicateurs la question de la conversion religieuse récente. Mais cette question permet de cibler un djihadiste, pas un adepte suprémaciste…, explique Hong… et dans les années qui ont suivi le 11 septembre aux États-Unis, le terrorisme nationaliste a tué plus de personnes aux États-Unis que le terrorisme islamiste.

Page d'accueil du site du documentaire 'Le sentiment d'être surveillé'

On pourrait s’amuser des applications pour suivre nos performances sexuelles, s’amuse Hong. En quoi le niveau de décibel ou vos mouvements sont-ils synonymes d’une bonne vie sexuelle ? En quoi ces données sont-elles significatives ? Ces applications ne font que collecter les données qu’elles peuvent obtenir au détriment des données subjectives. Le même principe s’applique dans nombre d’autres situations. Quand des parents, des enseignants, des médecins, des employeurs, des policiers ou des agents de l’immigration disposent de données sensibles vous concernant, ce sont eux qui décident de la signification et de l’importance de ces données. Pas les données !

Ré-interroger la datafication du monde ?

Couverture du livre Technologies of SpeculationDans l’introduction de son livre, Hong souligne que « l’expansion rapide des technologies numériques transforme ce qui compte comme connu, probable, certain, et, ce faisant, réécrit les conditions d’existence sociale du sujet humain ». « Les limites pratiques d’une connaissance conduite par les données conduisent au développement d’un ensemble de pratiques spéculatives, mettant les incertitudes à profit au nom de l’objectivité technologique ». Des indicateurs défaillants, des données fragmentaires et sujettes à erreurs sont reconditionnés pour devenir des connaissances probabilistes enfermées dans des boîtes noires. Le problème c’est que l’imaginaire d’une prédictivité absolue, parfaite, dote nos machines imparfaites d’une légitimée qu’elles ne devraient pas avoir. La question morale et politique qui se pose n’est pas de savoir si la datafication du monde permet d’améliorer la connaissance, mais comment elle transforme ce qui compte dans notre société. La promesse d’une meilleure connaissance par les données dépend d’une asymétrie cruciale, irréductible : les systèmes deviennent trop massifs et opaques pour l’examen humain alors même que nous devons nous-mêmes nous rendre toujours plus lisibles pour les machines. Pour Hong, le problème, c’est que ce que créent nos machines est une invention, c’est-à-dire une solidification d’approximations : les supputations, les spéculations sont alors dotées d’une autorité, les biais sont investis d’une crédibilité qui dépassent leurs capacités réelles. Ce qui est fabriqué par la mise en données du monde demeure ambigu et instable, opaque et peu fiable. Cette fabrication – ces « obtenus » comme dirait Bruno Latour – est bien une caractéristique de la datafication, pas un bug qu’on pourrait facilement corriger. Ce que nous fabriquons avec les données est inévitablement politique.

Dans son livre, Hong renvoie dos à dos la surveillance de masse et la surveillance individualiste du quantified self : les deux poursuivent une même vision de l’homme, celle d’un sujet humain soumis aux machines, surveillé en continu. Ces deux aspects de la surveillance suivent les individus d’une manière inaccessible à la cognition et à l’expérience des humains (en mesurant des phénomènes qui dépassent les capacités sensibles ou cognitives des humains), bouleversant ce que signifie se connaître soi-même, puisque cette connaissance ne dépend plus de nous. Nous sommes encouragés à nous comporter de la manière la plus compatible possible aux machines et aux institutions qui les pilotent : nous sommes convoqués comme décideurs rationnels qui doivent privilégier la sensibilité « machinique » par rapport à notre expérience humaine. La promesse d’une meilleure connaissance de l’homme repose sur une objectivité technoscientifique qui permettrait d’épurer la complexité et l’incertitude. La surveillance et l’autosurveillance deviennent notre horizon inévitable, quelles que soient les imperfections de celles-ci, quelles que soient les couches de médiation opaques à l’examen humain, au détriment de notre libre arbitre. Au final, la fabrication des données, d’une forme de vérité, interroge les questions de pouvoir et de justice et ce d’autant plus que la technoscience s’appuie sur une forme inédite de dépolitisation. L’idée de rechercher une vérité objective dans les données et les traitements automatisés nous poussent vers une société « dans laquelle la vie humaine individuelle, l’expérience sensorielle et l’exercice de la raison (et de l’intuition pourrait-on ajouter, NDT) sont de plus en plus considérés comme peu fiables ».

Comment produire une meilleure connaissance ?

Pour Hong, une meilleure transparence sur les technologies ne restaurera pas notre condition humaine. Nous devrions plutôt interroger la promesse d’une meilleure connaissance. « Quelles autres conditions, au-delà des mesures trop étroitement définies par la précision et l’efficacité, sont nécessaires pour garantir que la connaissance permette l’exercice de la raison humaine ? Comment ces conditions peuvent-elles être protégées alors que le processus de connaissance est de plus en plus opaque ? Notre avenir est-il de rechercher une connaissance plus abondante et meilleure ? À quoi doit ressembler notre savoir pour qu’il puisse faire le bien ? »

Dans sa conclusion, Hong explique que la datafication n’apporte aucune certitude. Le problème n’est pas tant que la datafication soit imparfaite, mais qu’elle ouvre « un fossé entre la promesse futuriste d’une meilleure connaissance et la pratique sociale de sa fabrication ». La mise en base de données ne garantit pas un traitement juste et équitable. « Le progrès est le nom sacré par lequel d’autres moyens de savoir sont éliminés en faveur des métriques choisies ».

Le choix technologique par défaut est « censé conduire l’humanité vers son avenir le plus optimal, en innovant et en se perfectionnant dans un grand voyage d’amélioration de la civilisation – à condition que la société accepte une façon de voir dans laquelle tout existe comme une ressource pour l’extraction, le calcul et l’instrumentalisation ». Nous avons tendance à penser que la technologie nous conduit inévitablement à un monde meilleur, à chaque nouvelle invention : l’incomplétude du projet technique nous invite à continuer à rêver ! Même si technologie est faillible, nous demeurons optimistes. L’efficacité, l’optimisation, l’innovation et le progrès sont un style de raisonnement qui protège systématiquement la technologie contre tout jugement par d’autres normes, écartant toute réflexion morale. Ce défaut intrinsèque rend néanmoins la question morale plus nécessaire que jamais. Comme nous invitait le spécialiste de l’intelligence artificielle Joseph Weizenbaum tout ce qui peut être fait avec la technologie ne doit pas être fait. Reste que l’image d’une technologie universelle et progressive empêche toute critique constructive. « A qui profite cette promesse d’une meilleure connaissance ? », interroge Hong. Soyons clairs, explique-t-il. L’enjeu n’est pas de demander un retour à l’ignorance, mais de nous demander où et quand nous devrions résister à la tentation des données. Quand devons-nous accepter qu’une grande partie de ce que nous savons demeure incertain ?

Pour Hong, nous avons besoin de nouveaux idéaux de représentation et de visibilité. Nos modalités éthiques et morales visent surtout, elles aussi, à gérer l’incertitude, comme le calcul des risques ou les principes de précaution. Or, nous avons besoin de valeurs morales externes à la rationalité technologique, nous avons besoin de refuser systématiquement l’idée que les décisions morales puissent être codifiées et dépersonnalisées… c’est-à-dire à trouver les moyens de sortir de la « cage morale » que façonne la pensée technologique, comme de valoriser ce qui n’est pas quantifiable. La dépolitisation de la technologie sert un conservatisme politique et social : « tout peut et doit rester pareil, juste plus vite, moins cher et plus facile. N’apporter aucune surprise, seulement des mises à jour ».

Les données, cet or noir, ont été décrites comme la prochaine frontière de la plus-value, éludant les conditions toxiques de leur extraction et de leur traitement. L’avènement du big data et de l’IA met en évidence l’étrangeté de la rationalité technologique. Dans la surveillance de soi, nous faisons l’expérience d’un mécanisme étranger et autonome qui nous contraint à nous adapter, à coopérer avec lui, à nous réorganiser… Reste à savoir si les connaissances que ces mécanismes produisent sont pour nous.

Comme l’individu, la société est réorganisée en fonction des priorités technologiques, à l’image de la vie privée qui est constamment bafouée par ces systèmes techniques. Demander aux gouvernements et entreprises privées de respecter la vie privée revient à exiger que la technologie sabote sa propre efficacité. L’un des buts de la datafication, conclut Hong, est d’éliminer la vie privée. La vie privée n’est plus une question de distance entre ce qui est privé et ce qui ne l’est pas, qu’une question de distance entre nous et les technologies. Et c’est visiblement cette distance qui devrait nous préoccuper.

Hubert Guillaud

#TousAntiCovid est déjà un succès!
Databricks Unveils SQL Analytics for BI on Data La...
 

Commentaires

Pas encore de commentaire
Already Registered? Login Here
Guest
dimanche 29 novembre 2020

Image Captcha

Copyright © 2020 SLA
167 Chemin des Combes 74110 Essert-Romand - tel : 04.50.83.06.79 - Mobile : 06.75.23.84.11

Mentions légales    -    Politique de confidentialité    -    Plan du site

IMPORTANT

copyright

 Notre blog est un blog de Curation, aussi les articles publiés proviennent-ils de différents flux RSS et nous ne prétendons, en aucune manière, nous en attribuer la paternité. Si vous souhaitez lire l'article original sur le site d'origine, il vous suffit de cliquer sur "Lien d'origine " qu se trouve à la fin de l'article.

Traduire

frendeitptrues

Rechercher

Témoignages

Ils ont assisté à nos séminaires et ils donnent leurs avis.

Ce que les participants en pensent

Programme 2020

Fiche pédagogique

Aller au haut