Malgré les allégations de leurs producteurs, les assistants virtuels qui équipent les enceintes connectées trônant dans nos salles à manger ou qui se nichent jusque dans nos poches, installés sur nos smartphones, ne naissent pas intelligents. Ils doivent apprendre à interpréter les requêtes et les habitudes de leurs utilisateurs.
Cet apprentissage est aidé par des êtres humains, qui vérifient la pertinence des réponses des assistants virtuels aux questions de leurs propriétaires. Mais plus souvent encore, ces êtres humains « entraînent » les dispositifs, en leurs fournissant des données déjà préparées, des requêtes avec des réponses toutes faites (ex. « Quelle est la météo aujourd'hui ? » : « Il fait 23 degrés » ou « Il pleut »), des phrases auxquelles ils fournissent des interprétations (ex. savoir dans quel contexte « la flotte » signifie « un ensemble de navires » ou « la pluie »).
Ces dresseurs d'intelligences artificielles sont parfois des télétravailleurs payés à l'heure par des entreprises spécialisées. Dans d'autres cas, ils sont des « travailleurs à la pièce » recrutés sur des services web que l'on appelle des plateformes de micro-travail.
Celle de Microsoft s'appelle UHRS et propose des rémunérations de 3, 2, voire même 1 centime de dollar par micro-tâche (retranscrire un mot, labelliser une image…). Parfois les personnes qui trient vos requêtes, regardent vos photos, écoutent vos propos sont situés dans votre pays, voire dans votre ville (peut-être vos voisins d'en bas ?). D'autres fois, ils sont des travailleurs précaires de pays francophones, comme la Tunisie, le Maroc ou Madagascar (qui s'est dernièrement imposé comme « leader français de l'intelligence artificielle »
[…]
J'ai travaillé comme transcripteuse ('transcriber') pour améliorer la qualité de la version française de Cortana, "votre assistante personnelle virtuelle" proposée par Microsoft. Je travaillais en télétravail pour une entreprise chinoise qui avait Microsoft pour client. J'ai commencé en Avril 2017 et arrêté en Décembre 2017.
Microsoft, voulant améliorer les capacités de compréhension de Cortana, collectait les données des utilisateurs 'consentants'. Donc, quand ces utilisateurs s'adressaient à Cortana, celle-ci collectait, enregistrait ce qu'ils disaient. Ensuite, Microsoft récupérait tout ça, envoyait une partie des enregistrements à la compagnie pour laquelle je travaillais, et celle-ci mettait le tout sur notre plate-forme de télétravail.
Les transcripteurs se connectaient, et écoutaient un par un les enregistrements. Les pistes étaient généralement très courtes, entre 3 et 15 secondes en moyenne (mais pouvaient parfois durer plusieurs minutes). En fonction des projets sur lesquels on travaillait, on devait réaliser entre 120 et 170 transcriptions/heure. Plusieurs milliers de pistes étaient déposées quotidiennement sur notre plate-forme.
Les données qu'on écoutait allaient d'Utilisateur A qui dit simplement "Hey Cortana, quelle sera la météo demain?" à Utilisateur B qui demande en chuchotant à Cortana de lui trouver des vidéos porno de telle ou telle catégorie...
Il y avait leurs recherches internet, leurs interactions directes avec Cortana ("Hey Cortana, raconte-moi une blague", "imite la poule", "est-ce que tu m'aimes?", "est-ce que tu ressens la douleur?"…). Les utilisateurs peuvent aussi dicter du texte : messages, documents texte (résumés de cours, comptes-rendus professionnels...), adresses GPS, courriers administratifs (avec par exemple leur numéro de sécurité sociale), etc. ; nous avions accès à tout ça.
Elle peut être connectée à des consoles Xbox, on avait donc aussi des enregistrements provenant de ce service-là. Il y avait notamment des morceaux de communication en ligne (principalement d'ados et d'enfants) qui discutent sur les jeux en réseaux.
On avait également de nombreux extraits de conversations en ligne, sûrement sur Skype, provenant de personnes qui utilisaient un service de traduction instantanée (Microsoft Translator mais peut-être aussi Skype Translator, je ne suis pas certaine).
Nous n'avions jamais l'intégralité des conversations évidemment, elles étaient découpées en petites pistes ; cependant on pouvait tomber sur plusieurs morceaux d'une même conversation dans une même série de transcriptions (c'était suffisant pour dresser un profil basique de l'utilisateur ou de son humeur du moment par exemple).
On avait des conversations diverses, vraiment toutes sortes de choses, notamment souvent les séances sexcams de certains utilisateurs qui avaient besoin d'un service de traduction pour se faire comprendre, et dans ces cas-là les transcriptions étaient très explicites (parfois amusantes, parfois glauques). Je me demandais à chaque fois si ces gens avaient conscience qu'une personne extérieure allaient entendre leurs petits délires sexuels. Cortana ne fait pas le tri...
Enfin, il y avait beaucoup d'enregistrements involontaires, où des personnes discutent entre elles (dans leur voiture, à la maison, avec leurs enfants sur le chemin de l'école...) tandis que Cortana est dans les parages (tablette, téléphone portable, ordinateur, etc.) et s'est déclenchée de manière non-sollicitée et a tout enregistré.
(D'ailleurs, on avait aussi beaucoup d'utilisateurs qui insultaient tout simplement Cortana, car elle s'était déclenchée de façon non-sollicitée, ou avait mal compris une requête... Vous n'imaginez pas le nombre de fois où j'ai entendu "Sale pute Cortana !" )
[…]
En théorie, les données étaient anonymes pour les transcripteurs, c'est-à-dire que nous n'avions jamais les identifiants des utilisateurs que nous écoutions, et les pistes étaient généralement distribuées de façon aléatoire et désordonnée, en plus d'être parfois découpées. Cependant, inévitablement il arrivait que les utilisateurs révèlent un numéro de téléphone, une adresse, des coordonnées, date de naissance, numéros importants, événements auxquels ils allaient se rendre, etc.
Certaines voix se reconnaissent facilement, et bien que les pistes étaient aléatoires et dans le désordre, mises bout à bout elles auraient dans quelques cas pu suffire à un transcripteur déterminé pour identifier un utilisateur. De plus, on travaillait tous depuis nos propres ordinateurs, il était donc facile de récupérer les enregistrements qu'on traitait si on le voulait.
SUUUUUURPRIIIIIIIIIIIIIIIIISE.