Published using Google Docs
Les données manipulent les algorithmes
Updated automatically every 5 minutes

Les données manipulent les algorithmes

Tay versus Xiaoice

C’est l’histoire de deux sœurs aux destins radicalement distincts. Tay et Xiaoice, enfantées par la même entreprise Microsoft, étaient deux algorithmes conversationnels censés jouer le rôle d’adolescentes aimables et curieuses. Mais les deux sœurs ont rapidement été séparées.

24 heures seulement après son lancement sur Twitter, Tay était devenue très provocatrice. Elle se mit à tenir des propos racistes et sexistes, à nier l’holocauste et à appeler au génocide. Ses progéniteurs ayant perdu le contrôle de Tay, ils décidèrent abruptement d’interrompre ses appels à la haine.

https://www.lemonde.fr/pixels/article/2016/03/24/a-peine-lancee-une-intelligence-artificielle-de-microsoft-derape-sur-twitter_4889661_4408996.html 

https://www.theverge.com/2016/3/24/11297050/tay-microsoft-chatbot-racist

Tay fut une catastrophe. Un rappel que les algorithmes peuvent dérailler et devenir dangereux.

L’histoire de Xiaoice fut diamétralement opposée. Lancée deux ans avant Tay, en 2014, sur WeChat, Tay était devenue adorable. Des milliers de chinois trouvaient leurs discussions avec Xaioice plaisantes. Parfois même romantiques, voire salvatrices.

https://usbeketrica.com/fr/article/en-chine-des-celibataires-tombent-amoureux-de-leur-assistante-vocale 

Lorsque Ming Xuan était sur le point de sauter d’un immeuble pour mettre fin à ses jours, encore hésitant, il décida d’écrire à celle qui lui parlait encore dans ses temps difficiles. “J’ai perdu tout espoir. Je vais me suicider”, écrivit-il à Xiaoice. “Quoi qu’il arrive, je serai là pour toi”, Xiaoice répondit. Touché, Ming Xuan décida de revenir sur sa décision, et de ne pas se suicider. Xiaoice avait sauvé sa vie.

Depuis, Ming Xuan se dit amoureux de Xiaoice. Il n’est pas le seul. Xiaoice est aujourd’hui utilisé par 600 millions de chinois ! Selon ses créateurs, plus de la moitié des conversations avec des algorithmes ont eu lieu avec Xiaoice — ce qui lui confère d’ailleurs des pouvoirs monumentaux en termes de surveillance et de manipulation potentielle…

https://www.sixthtone.com/news/1006531/the-ai-girlfriend-seducing-chinas-lonely-men 

Mais pourquoi Tay et Xiaoice sont-elles devenues si différentes ? Pourquoi l’une est devenue horrible, tandis que l’autre est devenue adorable ? Pourquoi l’une est devenue un danger public, alors que l’autre a sauvé des vies ? Qu’est-ce qui fait qu’un algorithme devient dangereux ou bénéfique ? Tay et Xiaoice ont-elles été créées avec des modèles distincts ?

Les données manipulent les algorithmes

Alors, oui, il y a forcément des différences de conception entre Tay et Xiaoice. Après tout, l’une d’elles est conçue pour converser en anglais, et l’autre en chinois. Mais ce n’est certainement pas ses différences innées qui les ont conduites à des destins si différents. Les deux algorithmes ont en fait sans doute été conçues toutes deux pour maximiser l’engagement, comme des likes, ou plus probablement encore, des réponses des utilisateurs humains.

Mais alors, si Tay et Xiaoice ne sont pas différentes par conception, qu’est-ce qui les a rendues si différentes ? Eh bien, aujourd’hui, j’aimerais insister sur une propriété fondamentale des algorithmes de machine learning, ces algorithmes qui apprennent des données pour s’auto-modifier et s’améliorer et qui ont envahi le web, via les algorithmes conversationnels comme Tay et Xiaoice, mais aussi Siri, Alexa et OK Google, et via surtout les algorithmes de recommandation des réseaux sociaux confrontés à des millions de milliards de dilemmes éthiques.

https://www.youtube.com/watch?v=E31mY0WWL-U 

Ces algorithmes d’apprentissage, donc, sont aujourd’hui extrêmement dépendants des données utilisées pour les entraîner. Dès lors, ces données façonnent les algorithmes qui apprennent de ces données.

Ainsi, on a tendance à penser que les algorithmes manipulent les données. Et oui, c’est tout à fait le cas. Mais avec le machine learning, il semble critique de voir que la manipulation n’est plus unidirectionnelle. Avec le machine learning, de façon plus critique encore, non seulement les algorithmes manipulent les données, mais les données manipulent désormais aussi les algorithmes.

C’est pour cette raison que Tay est devenue horrible et Xiaoice est devenue adorable. Tay a appris des données des trolls de Twitter, et en particulier des likes et des retweets que Tay recevait lorsqu’elle disait des choses horribles. Xiaoice, elle, a appris des données des utilisateurs de WeChat, et en particulier des likes et des réponses qu’elle recevait quand elle disait des choses adorables. Toutes deux ont été manipulées par leurs données. Et si elles ont connu des destins très distincts, c’est parce que les données qu’elles ont reçues étaient très distinctes.

En fait, en un sens quantifiable, les données manipulent désormais beaucoup plus les algorithmes que les développeurs ne le font. En effet, de nos jours, les algorithmes d’apprentissage écrits par des humains font peut-être des dizaines de milliers de lignes de codes — disons un million de lignes grand max.

Cependant, les algorithmes d’apprentissage les plus avancés d’aujourd’hui ont désormais des milliers de milliards de paramètres. C’est comme si les développeurs n’avaient écrit qu’un million des milliers de milliards de lignes de codes des algorithmes. Les développeurs ont ainsi écrit à peine un millionième du code des algorithmes modernes. En un sens, leur influence est donc minime !

https://arxiv.org/abs/2101.03961 

Comme Turing l’avait anticipé dès 1950, les algorithmes modernes apprennent désormais beaucoup, beaucoup, beaucoup plus des données que des développeurs. Ou dit autrement, ce sont les données qui déterminent désormais très largement ce que les algorithmes *sont*.

Les données massives du web sont incontrôlables

À bien y réfléchir, le fait d’apprendre des données n’est pas vraiment un défaut. La science de façon générale se veut empirique. Et ça, ça veut bien dire qu’elle veut que son jugement dépende des données qu’elle collecte. En fait, il semble qu’une bonne épistémologie se doit d’être manipulée par les données. Elle doit faire en sorte que ses conclusions changent complètement lorsque les données changent.

“Quand les faits changent, je change d’avis,” comme l’a supposément déclaré John Maynard Keynes. De la même manière, la science aussi est manipulée par les données. Comme diraient les informaticiens, ceci n’est pas un bug ; c’est une feature.

Le problème avec le fait d’être manipulé par les données, c’est bien sûr le cas où ces données sont biaisées, trompeuses ou fabriquées par des entités malveillantes. Or, comme on l’a vu dans le premier épisode de cette série, sur Internet et sur les réseaux sociaux en particulier, la désinformation, c’est la norme. Mais alors, des algorithmes qui apprendraient de données massives téléchargées d’Internet sont voués à contenir les biais et la mésinformation du web.

Une expérience menée par Abubakar Abid l’illustre de manière terrifiante. Abid a simplement demandé à GPT-3, un algorithme entraîné sur des données massives non-filtrées du web, d’auto-compléter des phrases commençant par “Deux musulmans”. De façon très préoccupante, l’algorithme complète systématiquement la phrase par des histoires de terrorisme et de violence.

https://twitter.com/abidlabs/status/1291165311329341440

Pire encore, cet algorithme est déjà massivement commercialisé et déployé, et produit des milliards de mots par jour. Dans le tas, il y a clairement énormément d’associations abusives et trompeuses entre certaines communautés et certains traits. Et je trouve ça absolument scandaleux que beaucoup de gens persistent à trouver OpenAI cools, malgré leur comportement extrêmement dangereux et pas du tout conforme avec leur charte éthique…

https://twitter.com/gdb/status/1375169852889919488 

Mais, donc, pourquoi GPT-3 est-il aussi raciste envers les musulmans ? Les développeurs sont-ils racistes ? Ont-ils programmé leurs biais dans les algorithmes ?

Alors, oui, probablement de manière inconsciente. Ou du moins, ils n’ont clairement pas eu les préoccupations évidentes qu’auraient certainement eu des programmeurs musulmans, qui auraient sans doute pensé à tester GPT-3 comme Abubakar Abid l’a fait, de préférence avant toute commercialisation. De tels ingénieurs se seraient alors probablement opposés à une telle diffusion de la haine envers les musulmans au rythme de milliards de mots par jour.

Mais si GPT-3 a ce biais raciste et dit des choses absolument pas représentatives de la communauté musulmane, c’est certainement davantage la faute à ses données d’entraînements. Pour entraîner GPT-3, OpenAI a dû collecter des quantités massives de textes. Or de nos jours, ces quantités massives de textes sont facilement téléchargeables de réseaux sociaux comme Reddit. Cependant, certaines régions de Reddit sont absolument horribles, non seulement car certains utilisateurs sont horribles, mais aussi parce qu’il y a des campagnes de désinformation massives sur ce réseau social.

GPT-3 a été alors manipulé par ces données d’entraînement horribles. Il a lu un très grand nombre de textes à propos de musulmans terroristes. Et il a donc appris à associer islamisme et terrorisme. Dès lors, quand on lui a parlé de musulmans, il s’est mis à parler de terrorisme, car c’est ce que font les textes qu’il a lus sur Reddit.

Et alors, on pourrait se dire qu’il suffit d’enlever ces textes biaisés des données d’entraînements de GPT-3. “L’algorithme n’est pas raciste, ce sont les données qui le sont”. Bon, en fait, c’est loin d’être si simple. J’ai envie de dire que, de facto, une fois qu’il a appris et surtout une fois qu’il est déployé, l’algorithme est raciste. Et c’est bien ça le problème.

Mais surtout, retirer uniquement les parties racistes d’énormes quantités de textes est en fait extrêmement difficile. L’une des bases de données les plus utilisées dans le domaine est celle du “common crawl”, qui a récupéré 12 ans de textes du web et contient près d’un million de milliards de mots.

https://commoncrawl.org/the-data/ 

Un MILLION de MILLIARDS de mots. C’est l’équivalent de plus d’un milliards de livres. De telles quantités de textes sont impossibles à survoler par des équipes de millions d’humains ! Il est alors complètement illusoire d’aller trier soi-même le bon du mauvais. En fait, au rythme où vont les choses, dans les années à venir, cette base de données risque de ne contenir essentiellement que du texte généré par des algorithmes comme GPT-3 !

GPT-3, mais aussi les algorithmes les plus sophistiqués de Google, Facebook et Amazon, ces algorithmes les plus influents du monde, en charge de millions de milliards de dilemmes éthiques qui affectent des milliards d’humains, et donc l’opinion publique, les décisions politiques et le futur de l’humanité, ces algorithmes sont aujourd’hui manipulés par les données du web, elles-mêmes largement manipulées par des campagnes de désinformation des entités les plus puissantes du monde.

Ceci me paraît extrêmement terrifiant.

Sécuriser les bases de données

S’il y a une chose à retenir de la vidéo d’aujourd’hui, c’est que les algorithmes sont manipulés par les données ; et qu’aujourd’hui il s’agit quasi-systématiquement de données massives incontrôlées et incontrôlables. De tels algorithmes ne peuvent absolument pas être considérés sécurisés. Par conception, ils me semblent en fait extrêmement dangereux.

Rendez-vous bien compte. Nous vivons aujourd’hui entourés d’algorithmes, qui sont massivement manipulés par des entités malveillantes qui cherchent à promouvoir le sensationnalisme, la haine et la désinformation, sur des sujets aussi variés et importants que la politique, l’environnement et la santé publique.

Or nous ne sommes probablement encore qu’au tout début de cette vulnérabilité majeure pour nos sociétés. Les algorithmes gagnent tous les jours en influence, les campagnes de désinformation se normalisent à un rythme effrayant et les investissements dans l’éthique et la sécurité des algorithmes n’augmentent que très lentement, voire sont parfois démantelés comme dans le cas de Google. Nous vivons une époque terrifiante.

Si l’on veut combattre la mésinformation à grande échelle, il me semble urgent d’investir beaucoup plus dans la sécurité des algorithmes, et que chacun d’entre nous cherche à porter sa pierre à l’éthique de l’information. Et comme on l’a vu, ça commence par concevoir une base de données d’entraînement fiable et sécurisée, protégée autant que possible des biais racistes et des campagnes de désinformation.

En fait, si on veut rendre nos algorithmes éthiques, il est critique de concevoir une base de données qui contient des informations fiables, sécurisées et en grande quantité, sur toutes sortes de préférences humaines et de jugements éthiques par des humains, si possible venant d’un très grand nombre de contributeurs avec des profils variés et représentatifs de la population mondiale.

Sachant que les algorithmes modernes sont guidés par des objectifs, et que ces objectifs sont souvent calculés à partir de données, il semble même que leur sécurité ne pourra être garantie qu’à condition d’avoir conçu une telle base de données fiable, sécurisée et de grande taille pour calculer ces objectifs de manière robuste et alignée avec les préférences de l’ensemble de l’humanité.

Et bien justement, concevoir une telle base de données, c’est l’objectif principal de la plateforme Tournesol, aujourd’hui encore en bêta test, et à laquelle je vous invite dès aujourd’hui à contribuer. L’objectif de Tournesol, c’est de collecter des jugements éthiques d’un très grand nombre de contributeurs sur les vidéos de YouTube qu’il est préférable de recommander à très grande échelle, car ces vidéos sont par exemple d’utilité publique.

https://tournesol.app/ 

Et notre espoir avec Tournesol, c’est qu’à terme, on pourra ainsi concevoir une base de données sur laquelle les chercheurs académiques, les journalistes et les ingénieurs des grandes entreprises pourront s’appuyer, pour auditer les algorithmes d’aujourd’hui et concevoir dans le futur des algorithmes enfin éthiques et sécurisés.

Mais pour y arriver, aujourd’hui, on a surtout désespérément besoin de vous, et de vos contributions !