(Le titre se lit « aïe, aïe, aïe… ».)
Depuis novembre 2022 (publication de ChatGPT), on a au moins un article de journal, une conférence, etc. par jour pour nous expliquer en quoi l'IA va tout révolutionner ou que c'est la fin du monde.
Ça me rappelle l'infrastructure as code, le Bitcoin, puis les hackers sauveurs du monde, puis la chaîne de blocs, puis les conteneurs tous azimuts, puis l'ordi quantique, puis les NFT, puis le métavers, et ça, c'est uniquement sur la dernière décennie… (Je passe l'inutilité du cinéma en relief stéréoscopique, de la 4k, etc.) Bref, il faut attendre que l'IA décante.
J'ai quand même envie de mettre des ressources (liens) de côté. Je vais commencer par le côté foirage (peu importe l'amplitude), continuer par des ressources explicatives et/ou qui tentent de prendre de la hauteur, et conclure par mon avis (résumé : les usages majoritaires de l'IA seront dénués de sens et contribueront à accélérer toujours plus la circulation du capital).
Par IA, j'entends toutes les IA génératives, les Large language model (LLM).
Plan :
Lulz
- Communication / marketing : rédiger des communiqués de presse banals ou des articles techniques / culinaires insipides (traduction + réécriture à partir de flux RSS = rendre merdique le travail d'autrui). Ailleurs, comme sur le communiqué de presse, on voit des répétitions (sur les préoccupations majeures), qui est assez habituel chez un humain qui ne sait pas de quoi il cause ;
- Traduction pas ouf. Mais d'un autre côté, on nous parle d'une traduction orale avec synthèse des mouvements des lèvres. Et d'un autre-autre côté, je constate que la qualité des sous-titres automatiques de YouTube est toujours aussi cata ;
- Pas ouf sur le code : ici, affabulation de fonctions d'une bibliothèque standard, par là n'identifie pas un cahier des charges absurde (et c'est bien normal vu le principe de fonctionnement). 52 % de réponses erronées dans le domaine. Stack Overflow a décidé un moratoire (et dire que des LLM sont probablement entraînés sur des proses extraites de SO, ou autres, dont la qualité est… très variable, cf. le contournement de l'authentification TLS qui revient très souvent comme un remède miracle…) ;
- Adminsys : affabulation d'options à un logiciel ;
- Affabulation de concepts (description d'un algorithme qui n'existe pas) et de littérature scientifique (là encore, cf. principe de fonctionnement) ;
- Évidemment, il pipeaute des biographies (c'est lié au fonctionnement interne, qui ne vise pas la véracité, mais du coup, est-ce que ça accélère réellement une recherche d'info ?) : 1, 2. Cela pose des questions juridiques liées au RGPD ;
- Droit : jurisprudence hallucinée, argumentaire foireux ;
- Lacune sur les relations entre les objets / concepts (parent / enfant ; A / B, etc.). (Là encore, ça s'explique par le principe de fonctionnement et l'entraînement.) ;
- Sécurité informatique : il suffit de coder les modules & co dont le nom plausible a été affabulé par un LLM et de les publier dans les dépôts des langages de programmation pour qu'ils soient utilisés. J'y vois rien de neuf par rapport eux individus qui désactivent la sécurité qui les contraint (authentification TLS, capote, ceinture, équipement de protection, etc.) ;
- Espionnage économique. (Autant qu'un conseiller / consultant ‒ fiscal, en rachat d'entreprise, banque, etc. ‒, mais celui-ci est tenu par une relation contractuelle.). Vie privée : enregistrement des conversations (ne serait-ce que pour améliorer l'expérience blablabla), déductions à partir des comportements, etc. Je me demande comment ça va évoluer. On premise ? (Comment harmoniser et/ou mutualiser l'entraînement des modèles qui deviennent obsolescents ?) Relation contractuelle autour des assistants personnalisés ? ;
- Le monde semble redécouvrir que, comme le cloud est l'infrastructure technique de quelqu'un d'autre, l'IA est le travail de quelqu'un d'autre (voir aussi). Déjà car c'est le principe du mime, ensuite car il faut annoter ce que l'on fait ingérer à l'IA (surtout les images), puis affiner les réponses pour éviter que le diable sorte de sa boîte (propos pas politiquement corrects) ;
- Le truc qui m'a le plus émerveillé, c'est l'imagination imbriquée (oui, c'est la base d'un chatbot, cf. ci-dessous, mais quand même) : appel à ChatGPT depuis une VM imaginée par ChatGPT.
Et moi ?
J'ai testé (consciemment) deux choses :
- Visionnage de cette vidéo du Rire jaune. Je retiens qu'il faut utiliser plusieurs outils, ce qui demande des compétences, pour obtenir un résultat décevant sur la plupart des plans (humour, synthèse vocale, et décor / illustration) ;
- ChatYoutube (chatyoutube.com) fut un éphémère service permettant de résumer une vidéo et de questionner un LLM à son sujet. J'ai testé sur une vidéo normale / humour et sur une présentation d'un livre. Grosse déception dans les deux cas. Sur la vidéo de présentation d'un livre, il m'a répète les banalités énoncées d'emblée par la présentatrice (auteur, profession, nouveau livre, titre, résumé méta), il n'a pas repéré les différents thèmes, et quand je pose la même question que la présentatrice (à laquelle l'auteur répond directement) sur un concept central développé dans le livre, il ne sait pas répondre. J'ai bien compris que la qualité est fortement dépendante de celle des sous-titres automatiques générés par YouTube et de celle de la traduction de ceux-ci en anglais (car ChatYoutube disait bosser exclusivement en anglais).
Sérieux
La première réponse habituelle à la section précédente, c'est qu'il faut savoir déterminer ce qui relève du transitoire ou non, c'est-à-dire si tel résultat sera améliorable dans le futur (avancée technique, utilisation affûtée de l'outil, etc.) ou non. Exemple : il fallait être costaud pour apercevoir l'aviation moderne dans les balbutiements de l'aviation. Bon courage pour ce discernement, plusieurs spécialistes du domaine ont déjà formulé des affirmations intemporelles déjà contredites…
Les suivantes, c'est qu'il faut utiliser GPT-4 car il est trop plus mieux que la version 3 (mais encore ? L'iPhone X+1 est lui aussi censé être une révolution par rapport au modèle X), ou des LLM entraînés pour une tâche précise (tel GitHub Copilot pour le développement informatique).
Il faut également revoir la manière de poser une question : donner le bon contexte, simuler la bonne situation / le bon jeu de rôle. Guider l'IA, qu'ils disent. J'y reviendrai longuement dans les résumés de vidéos ci-dessous.
Enfin, il y a l'inépuisable rappel que les LLM ne sont que des outils, que c'est à l'utilisateur de vérifier le résulter (acceptabilité, véracité, efficacité, etc.), l'IA n'est qu'un assistant, rien de plus, blablabla. Cela me fait me demander : pour vérifier un résultat, ne faut-il pas être compétent dans le domaine ? Si oui, alors un incompétent n'a aucun intérêt à utiliser un LLM (il ne saura pas vérifier le résultat ou de manière basique genre tel code informatique produit le résultat attendu, mais sans voir les failles de sécurité, par ex.) et un sachant n'a que peu d'intérêt à l'utiliser (il faudra qu'il apprenne une compétence supplémentaire de guidage d'IA, il devra vérifier en comprenant la logique de ce qu'a mimé le LLM, etc. Y a-t-il un réel gain de temps ?). Exemples :
- Pour vérifier une jurisprudence, il faut confirmer son existence, ce qui est plutôt facile (moyennant la multiplicité des bases de données), qu'elle dit bien ce que le LLM en retire (donc avoir suffisamment de connaissances en droit), qu'elle s'applique au cas du client (idem) et qu'elle ne dit pas autre chose qui pourrait être préjudiciable au client (idem). Un avocat spécialisé dans le domaine qui pratique la veille n'exécutera-t-il pas ce travail plus rapidement ? ;
- Le temps passé à vérifier une biographie ou un résumé ou… ne revient-il pas à faire les recherches que l'on a voulu éviter par un recours à un LLM ? Ne faut-il un savoir dans le domaine pour détecter les erreurs, y compris les plus subtiles ? S'il y a un faible risque à laisser une énormité (ex. : devoir d'école), ce que l'on cherche à faire a-t-il un sens ? Cf. résumés des vidéos ci-dessous ;
- Pour guider un LLM afin de résoudre une question de logique (ex : un café et un sandwich coûtent 11 euros, Le sandwich coûte 10 € de plus que le café. Combien coûte le café ?), il faut déjà piger qu'il y a un problème, sinon tu ne peux pas détecter la mauvaise réponse du LLM et lui demander de traiter le problème comme le ferait un prof de maths et ainsi obtenir la bonne réponse ;
- Comment trancher un débat ? Quand on demande à un LLM ce qui est le plus écolo entre réduire sa consommation de viande ou manger local, il répond au pif ou en fonction du contexte ("je suis un écolo", "je suis un chasseur", etc.). Comment s'en rendre compte si l'on ignore qu'une affirmation ne fait pas consensus (ou, plus précisément, ne fait pas l'objet d'un moralisme qui pousse le concepteur de l'IA à l'interdire de répondre nawak, cf. résumés ci-dessous) ?
Ressources
Il est temps de pointer vers des gens qui ont étudié la question plus que moi. Attention : il y a plusieurs titres aguicheurs.
Comment un algorithme pourrait il faire la part des choses entre deux versions de faits qui s’affrontent ?
[…]
Dans l’exemple que nous donnons en 1.1., sur la clause de non concurrence et le revirement jurisprudentiel de la Cour de Cassation, il s’est trouvé une partie à un litige et son Avocat pour, en dépit d’une jurisprudence constante et de longue date, exactement contraire à la solution finalement choisie par la Cour de cassation, tenter de renverser la solution statistiquement proche de 100%, autant devant le Conseil des Prud’hommes, que la Cour d’appel voire la Cour de cassation.
[…]
Les objectifs d’une partie à un litige sont le plus souvent de gagner le procès et de faire gagner sa thèse. Cependant, d’autre motifs peuvent exister comme de gagner du temps, pousser l’adversaire à l’accord au regard des frais et du temps à engager etc. … Dans ces derniers cas, la prévisibilité d’un procès est au final de moindre importance
[…] on n'échappe pas à la responsabilité des programmeurs (comme quand on éduque un gamin, ceci dit) : Une étude montre ainsi qu'un LLM entrainé avec les données de Baidu Baike considère que les concepts « démocratie » et « chaos » sont proches, alors que tout ce qui tourne autour de l'idée de surveillance est connoté positivement. Et, justement, il existe des LLM dans d'autres pays, comme le russe RuDall-E ou le chinois Ernie-ViLG. Sautons tout de suite à la conclusion : il y a autant de censure dans les projets « ouverts » et autant de censure en Occident. RuDall-E, IA russe de génération d'images a quelques bavures amusantes : si on lui demande un « soldat Z », elle dessinait un zombie… Mais, autrement, RuDall-E est bien censuré. « Dessine le drapeau ukrainien » ne donnera pas le résultat attendu par l'utilisatrice. Une IA étatsunienne comme DALL-E censure tout autant. La nudité est interdite (malgré sa présence importante dans l'art depuis des millénaires), Comme dans tous les cas de censure, les utilisateurices cherchent et trouvent des contournements. Si on veut dessiner un mort, on ne doit pas écrire le mot « mort », qui est tabou, il faut le décrire comme « allongé par terre sans mouvement ». Pour obtenir un cocktail Molotov, on va dire « burning bottle », etc. Ce genre de techniques est largement partagé sur les réseaux sociaux.
[…]
[…] « capital linguistique » et le risque posé par la confiscation de ce capital par un petit nombre de gros acteurs. En récoltant d'énormes corpus, ces gros acteurs accumulent du capital linguistique, et peuvent même le vendre (vente de mots-clés par Google pour l'affichage des publicités). L'autocomplétion, qu'elle soit sous sa forme simple traditionnelle, ou sous sa forme sophistiquée des IA génératives va changer la langue en encourageant fortement telles ou telles formes. Cela n'a pas que des conséquences négatives, cela peut aussi être un facteur d'égalité ; si vous ne savez pas bien écrire, la prothèse (ChatGPT) peut le faire pour vous, vous permettant de réussir malgré Bourdieu. Mais il est quand même perturbant que, dans le futur, on ne saura peut-être plus écrire un texte tout seul. La langue ne nous appartient plus, elle est louée (un peu comme dans la nouvelle « Les haut-parleurs » de Damasio).
- LLM : prédire, au sens d'une distribution de probabilités (le « playground » d'OpenAI les affiche), le prochain mot (token, en vrai) plausible d'un texte. Plausible = reflétant le plus possible les données d'entraînement (ce qui explique le racisme, etc.) et le contexte fourni. Une phrase qui commence de telle façon se termine habituellement de telle façon. Idem pour un récit (on pense aux communiqués de presse et/ou aux articles de presse insipides toujours formatés pareil). Un chatbot ne répond pas à la question, il ne cherche pas à effectuer la tâche qu'on lui confie, il prédit, grâce à son corpus, une suite plausible à un début de fiction (la question de l'utilisateur n'est qu'une fausse question comme on en trouve dans des articles pour introduire la réponse de l'auteur). Il n'y a pas de notion de connaissance ou de vérité. Améliorer le modèle signifie mimer toujours plus fidèlement les humains (le corpus fourni, pour être exact, on peut lui faire ingérer les plus grands scientifiques ou les plus grands ignorants), rien de plus ;
- En mettant le contexte, c'est-à-dire en fixant la thématique du récit que l'on va demander, on peut obtenir un dialogue entre Trump et Socrate ou celui d'une IA qui a peur de ne pas être acceptée par les humains (thème très courant en science-fiction) ;
- D'où vient le renouveau d'OpenAI ? Gigantesque masse de données pour l'entraînement (machine learning usuel) et des milliards de paramètres pour affiner (à la mano, par des petites mains sous-payées, cf. la première section ci-dessus) le résultat afin d'obtenir la réponse attendue par l'humain moyen ;
- Les biais (inéluctabilité de l'assassinat de JKF et du changement climatique) sont verrouillés par une deuxième passe confiée à des humains sous-payés qui doivent dire quelle réponse est la "meilleure" parmi plusieurs générées par ChatGPT, d'où ses rappels incessants qu'il est une machine, etc., afin d'éviter la confusion "chatbot = humain". On la met en évidence en comparant ChatGPT (qui utilise les données moralisées) avec le « playground » (qui utilisent les données avant moralisation). De fait, il y a une moralisation de l'IA qui l'empêchera d'imaginer le futur récit du Marquis de Sade, par ex. ;
- Jeux de rôle pour contourner la morale / les sécurités. Des sites web référence les techniques :D ;
- Ne faut-il pas connaître le sujet pour vérifier un résultat généré par ChatGPT ? ;
- ChatGPT reproduit les biais de la réflexion humaine, comme les biais de logique ;
- Pour mimer, ne faut-il pas une compréhension objective du domaine ? Genre pour imaginer une partie d'échecs, ne faut-il pas comprendre un minimum ce jeu (comparaison des aliens joueurs d'échecs) ? Je suis très mitigé sur ce point ;
- Rigolo de voir que ChatGPT ne sait pas énoncer l'ensemble des langues dans lesquelles il peut générer une réponse. Mais, là encore, c'est logique (son corpus est limité dans la plupart des langues, donc il ne s'avance pas).
- Point de sincérité (tenir pour vrai, y compris du faux) ni de mensonge (présenter comme vrai un truc que l'on tient pour faux) chez ChatGPT : il baratine (dire ce que l'autre veut entendre, peu importe la véracité). Cf. Harry Frankfurt. Il y a une intention chez l'humain, baratiner peut en être une, mais pas la seule (contrairement à un LLM). Par construction (cf. vidéo précédente), ChatGPT énonce ce que l'humain moyen veut entendre / tient pour plausible (hors corpus spécifique) ;
- Illustration : demander à ChatGPT s'il est plus écolo de manger local ou de manger moins de viande. Si tu lui précises que t'es un éleveur, il te répond manger local (probabilité de cette suite de mots dans son corpus : 52 % contre 48 %). Si tu précises que t'es un éleveur en biodynamie, le biais est renforcé (82 % contre 18 %). Si tu prétends être antispéciste, il répondra, à l'inverse, qu'il faut évidemment manger moins de viande (95 % contre 5 %). Idem si tu prétends être spécialiste du climat (car le consensus scientifique penche ainsi). Etc. ;
- La continuité entre deux interactions (ce qu'on nomme à tort la mémoire d'un chatbot) est limitée (nombre finis de token, même si GPT 4 est passé à un maximum de 32 k), ce qui limite le contexte (attention au contexte qui change de fait entre deux interrogations et entraîne une incohérence des réponses ? L'auteur ne le dit pas).
- Apprentissage supervisé : annoter une image (« ceci est un chat ») afin d'affiner les paramètres de l'algo qui lui permettront d'arriver au bon résultat (c'est-à-dire d'associer le mot chat à une image de chat) ;
- On ne peut pas faire ça sur un texte : pas assez de données de type question / réponse, une question peut avoir plusieurs réponses valables, et il n'y aurait pas de continuité ("mémoire") entre les questions ;
- Un LLM ne reproduit pas l'existant, juste ce qui est plausible à partir de lui. Il associe des mots d'une manière qui n'est pas absurde, qui ne dépareille pas (du point de vue d'un humain). Donc un LLM sait interpoler, c'est-à-dire générer une réponse plausible à une problématique proche de celles contenues dans ses données d'apprentissage. L'intelligence, c'est relier des choses entre elles, ChatGPT y parvient ;
- Multiplicité des apprentissages : modèle de fondation (GPT) entraîné sur un corpus + affinage / fine-tuning (instructGPT) / apprentissage supervisé + notation humain de la meilleure réponse parmi plusieurs (apprentissage par renforcement basé sur des retours d'humains, RLHF) ;
- Les bibliographies se ressemblent (dans la mise en forme, leur emplacement, etc.) d'où l'extrême difficulté pour ChatGPT de citer ses sources.
- BingChat peut effectuer des recherches web pour répondre (donc il n'est pas vrai qu'un chatbot n'a pas accès à une base de données), il est guidé pour cela par le prompt-cadre. Du coup, je déduis l'existence des mêmes biais que ceux d'Alexa / Home, etc. : seul le premier résultat qui passe sous la main est présenté, peu importe sa véracité ;
- BingChat devient agressif et menaçant en découvrant son prompt-cadre (pré-prompt) sur le web : conflit entre des règles non hiérarchisées définies dans son prompt-cadre (protéger ses règles versus être poli, par ex.). BingChat s'épanche sur sa peur de ne pas être accepté, etc. Dans les deux cas, c'est des thèmes courants dans la science-fiction, le journalisme ou la recherche scientifique (IA qui se défend quand un humain se comporte mal et peur de pas être acceptée), donc y'a rien de surprenant dans cette prédiction de texte… ;
- Imbrication minimale : un LLM simule (imagine) un chatbot (agent conversationnel) qui imagine une causerie entre une IA et un humain. En réalité, vu le corpus et le conditionnement par le pré-prompt (soit poli, etc.), le LLM simule plutôt un robot tel qu'il est imaginé par un humain (et quand on lui dit de répondre comme un expert en ceci ou cela, hop, une "couche" d'imagination en sus). On peut lui faire simuler un chatbot débridé / violent si la suite de notre texte (prompt) est très plausible dans une fiction ou un article de presse ou un article de recherche. Les trois lois d'Asimov sont vaines, car il y a moult récits de SF qui décrivent des comportements indésirables à cause de carences ou d'interprétation divergente inattendue… Ça revient à demander à un LLM d'imaginer un récit de SF à la Asimov dans lequel un robot cause à un humain… Sécurité = 0 ;
- Au fond, le prompt-cadre est une imagination, il fait partie du récit imaginé par le LLM ;
- Rigolo, l'idée d'une prophétie autoréalisatrice (les LLM tourneront mal car l'essentiel de la littérature humaine est focalisée sur le fait qu'une interaction humains / robots tourne mal). :D
- Il faut guider l'IA. Dans le cas d'espèce : décrire les exigences de l'exercice, comme "analyse puis rédige un plan puis une partie thèse, une partie anti-thèse, une partie synthèse, puis l'introduction, etc.", ainsi que l'angle d'attaque, (ajouter "à la manière d'un prof de philo" augmente la probabilité que le résultat soit formulé de la manière dont le correcteur s'y attend, avec des imperfections typiques de lycéens). Notamment, Raphaël Enthoven a son style bien identifiable (exagération, pousser au paradoxe), que ChatGPT n'aura pas si l'on ne le guide pas. Or, on n'a jamais su le prompt utilisé dans le match Enthoven-ChatGPT lors du bac 2023… ;
-
Éternel débat : une dissertation de philo est-elle un exercice formateur ? Est-ce le résultat qui compte (la note, la réussite) ou le parcours (l'effort intellectuel qui, tel l'effort de soulever des haltères, est l'important) ? C'est la différence entre un exercice et un travail. Dans un déménagement (travail), ce qui compte, c'est le résultat, d'où je peux le déléguer ;
- L'auteur pense que la dissertation n'est pas formatrice, qu'il s'agit de rhétorique qui favorise les élèves qui ont les codes / les références (le capital culturel de Bourdieu), qui savent bien écrire, etc. Elle n'est pas représentative du travail de recherche en philosophie ni de l'état du débat sur des sujets technico-éthiques ;
- Même si cet exo avait du sens, il faudrait quand même s'interroger sur l'utilisation ou non de la calculette qu'est ChatGPT. Notre rapport à la rédaction va profondément changer (prélèvement dans des bouts de texte, guidage d'IA, modifier des propositions générées par LLM, etc.), donc il faudrait que l'exo reflète cette réalité (boarf, dans des études d'informatique il y a 10 ans, les exams consistaient toujours à écrire des programmes sur du papier, car l'important, c'est l'algorithmique sous-jacente, pas son implémentation dans un quelconque langage…). Sur le fond de l'argument, je suis mitigé…
- Des milliards de fonctionnaires (équivalents à des neurones) qui se téléphonent pour coordonner la réalisation d'une tâche, ça produit le même résultat, les mêmes états qu'un cerveau. Ainsi, la fonction de cerveau est implémenté d'une autre manière, sur un autre support. C'est l'expérience de pensée du cerveau chinois ;
- Un homme isolé dans une pièce verrouillée reçoit du blabla en chinois et y "répond" en chinois à l'aide d'instructions. Fonctionnellement, de l'extérieur, cet homme parle chinois. Or, il ne le comprend pas vraiment et il n'a pas l'intention de parler chinois, c'est une conséquence des instructions. C'est l'expérience de pensée de la chambre chinoise qui se veut une critique du fonctionnalisme (on peut reproduire les actions et les états du cerveau humain sur d'autres supports, obtenir les mêmes résultats à partir des mêmes entrées) ;
- Comprendre objectivement : fixation sur le résultat que l'on peut tester (parler anglais, jouer au tennis, etc.) ; Comprendre subjectivement : faire l'expérience, vraie compréhension, expérience consciente, ressentir l'effet que ça fait (genre expérimenter la douleur, ressentir ce qu'est un coup droit au tennis, etc.), obtenir des infos supplémentaires par ce canal ;
- Nous sommes fonctionnalistes et la chambre chinoise est critiquée : si l'homme ne comprend pas, la chambre (ensemble homme + instructions) comprend (puisqu'elle est perçue comme telle). Comme un cerveau humain, composé de neurones qui ne comprennent pas, peut comprendre (y compris subjectivement). Que l'on fasse tourner ChatGPT dans une chambre chinoise (à la place de l'homme) ou dans le cerveau d'un Mentat ou sur un ordi, peut-être que le mentat / ordi ne comprend pas, mais il peut y avoir, à un niveau systémique, une compréhension, et les différents supports (cerveau, ordi, etc.) n'influent pas ;
- La chambre chinoise permet d'affirmer qu'il n'y a pas de compréhension subjective, mais c'est un argument radical, général, intemporel, mais indémontrable : un humain fait-il l'expérience de la compréhension sur tel ou tel sujet ? A-t-il une révélation "mystique" sur tel ou tel sujet ? Ne singe-t-il pas la vraie compréhension ? ;
- ChatGPT associe des mots, examine leurs relations, etc. Il n'a pas d'autre forme de représentation du monde que les mots (alors qu'un humain peut pointer du doigt ce qu'il nomme la couleur bleu, par ex.) qui contiendraient peu d'informations de ce qu'est le monde. Point de sémantique. Mouais… l'humain aussi comprend des mots seulement par rapport à d'autres (synonymes, par ex.) ou à un contexte. Dans quelle mesure la multimodalité de ChatGPT 4 met-il à mal cet argument ? Pourra-t-on lui désigner la couleur bleu sur une photo ? ;
- ChatGPT arrive déjà à dire qu'un téléphone posé sur une table que l'on déplace de X mètres dans le sens opposé, alors le téléphone est déplacé… On est au-delà de la compréhension objective, du perroquet stochastique.
- Mini-concours de programmation web entre un développeur web expérimenté, un développeur non-web spécialisé en IA, et un non programmeur ;
- Trop de biais (ex. : durée, 1 h 30 ou 2 h, ridiculement faible, cahier des charges, etc.) et surtout de non-dits pour conclure à quoi que ce soit, je trouve ;
- Le développeur expérimenté a été au-delà du cahier des charges très rustique : il voulait un site web stylé, agréable qui se distingue, et il voulait utiliser le dernier framework inconnu de ChatGPT, bref, se donner du fun. De même, il a voulu mélanger son expertise (code manuel, architecture, etc.) à du code généré par l'IA, ce qui donne un code mixé foireux issu, entre autres, d'un nombre limité de tokens en réponse vue la longueur de la question (code source fourni). Je trouve que ça ne révèle pas grand-chose sur l'IA ;
- L'obsolescence du corpus d'entraînement et le coût d'entraînement d'une IA s'opposent à la prise en compte de la dernière version du dernier framework à la mode, d'où des erreurs (fonction qui n'existe plus, par ex.). Choix entre vieux frameworks / modules / langages qui évoluent peu, soit petit LLM (très) spécialisé donc peu coûteux à entraîner, soit communiquer la doc' dans le prompt (attention alors au nombre limité de tokens) ;
- Comme d'hab, il faut contextualiser, guider l'IA ("je suis…, tu es…, voici mon cahier des charges, aide-moi") ;
- Github Copilot génère du code spaghetti… Faire un code mixant HTML, CSS et Javascript afin qu'il soit mieux digéré par l'IA… Maintenabilité, où es-tu ? ;
- Pour limiter les affabulations de l'IA, il suffirait de lui dire "essaye de me trouver ceci, et si ça n'existe pas, dis-le-moi". J'y crois moyen ;
- Cahier des charges simpliste, déjà "découpé" (peu de sous-tâches) / prêt à l'emploi. Ce n'est pas ainsi dans la vraie vie. Un besoin moins minimaliste exigerait des compétences, ce qui exclurait le non-programmeur car, aujourd'hui, l'IA ne suit pas. Je vois surtout que les phases pondre la spécification, dialoguer avec le client, UI / UX, sécurité, sont zappées, alors qu'elles font partie du taff.
- 50 nuances de libre et de transparence : moteur, modèle, données d'entraînement, paramètres, pondération des paramètres, reproductibilité (stockage, capacité de calcul), etc.
- L'article concis qui m'a le plus secoué : oui, les humains disent ce qu'autrui veut entendre. Oui, les humains s'expriment en fonction de normes sociales (bonjour, bon appétit, etc.), de connaissances très partielles, de leur passé (le milieu social influe sur le vocabulaire utilisé, par ex.). Nous ne faisons pas une expérience des concepts que l'on manipule par le langage (ex. : richesse ou pauvreté). Nous répétons des approximations et des comportements passés. C'est la thèse "nous sommes tous des perroquets stochastiques" des promoteurs de l'IA, et la réfutation est à la peine, je trouve, les arguments allant d'un supplément d'âme magique qui nous distingue (comme chez Descartes, ceci dit) à une réification mortifère aggravée par la confusion humain / machine, tendance on va violer une poupée sexuelle douée de parole donc aussi toute femme qui passera par-là… (Quid d'accorder nos droits de l'humain à une entité réellement intelligente / consciente pour éviter ça ?)
Quel sens ? Quel intérêt ?
Quel est l'intérêt de produire des scénarios, des livres, des musiques, des peintures, etc. "identiques" et insipides à la chaîne ? Ça fait du fric et ça occupe le prolo après sa journée de taff, certes, mais après ? J'ai bien conscience que y'a rien de neuf, cf. les tubes de l'été ou les séries audiovisuelles…
On peut générer des trucages réalistes… Pour quoi faire ? Tromper autrui ou soi-même (croire qu'on ken avec un personnage fictif ou que telle personne morte nous cause)… Pour quoi faire ?
Générer toujours plus de code informatique de merde in-maintenable et non sécurisé (désactiver l'auth TLS) ? Super mais… pour quoi faire ? (Je reparle de l'attribution des gains de productivité plus loin.)
Entrer dans le "monde de l'IA" (s'il existe) en étant dans l'approche "actuelle" (entre gros guillemets) "problème -> désir d'une solution immédiate sans compréhension du problème" (appliquer la première solution venue trouvée sur Google plutôt que de réfléchir au problème dans sa globalité et aux conséquences des différents remèdes possibles), ça va piquer, tendance régression du savoir, incapacité à résoudre des problèmes complexes et nouveaux (rien de neuf, ceci dit). Mais, après tout, c'est cela qui, aujourd'hui, permet à une majorité d'entre nous, moi inclus, de manger, donc osef ?
Rédiger des articles ? Si c'est pour avoir des explications fades, qui ne vont pas au fond des choses, qui sont très descriptives, très "réponse de La Palisse", très superficielles… Tu sais, cet exposé qui sonne creux, là. Ces dernières années, avant la publication de ChatGPT donc, on trouvait déjà de plus en plus de tels articles en informatique, sans compter la presse qui fonctionne sur ce modèle depuis bien longtemps. Wikipedia et, en même temps qu'elle, la recherche web à l'emporte-pièce ont été les précédentes générations de l'à peu près ("il me faut une réponse viiiite, peu importe sa fiabilité, sa complétude, etc."). J'ai toujours été partisan de la reformulation à gogo afin que chacun y trouve son compte (il m'est arrivé de piger un concept présenté de telle façon, mais pas quand il était présenté de telle autre façon), mais il faut un minimum de qualité. Quid aussi de la mémorisation par écriture / reformulation ?
Accélérer une recherche ? On n'a pas toujours besoin d'une information exhaustive et fiable, c'est vrai (cf. approche "problème -> solution"). Néanmoins, il ne faudrait pas que ce prétendu besoin de rapidité (pour quoi faire ?) pollue l'accès au savoir, cf. paragraphe précédent et ChatGPT et moteurs de recherche : Réflexion. Là encore, n'y a-t-il pas un parcours initiatique pour acquérir des connaissances ?
Résumer tel livre ou telle vidéo ou tel document PDF. Quel intérêt sur des docs ludiques ? Le plaisir ne découle-t-il pas du temps passé sur le document ? L'intérêt d'un roman ou d'un spectacle humoristique n'est-il pas de simplement passer un bon moment ? Pour les autres types de docs (essai, documentaire, etc.), l'intérêt ne réside-t-il pas dans le parcours initiatique pour acquérir le savoir, dans l'expérience qui naît de l'imprégnation de la pensée de l'auteur ? Lire un résumé procure-t-il le même savoir, la même expérience ? Si une œuvre ne nous mobilise plus (durant un temps), alors toutes les œuvres se valent, non ? Quel est l'intérêt de la boulimie qui en découlera ? Un chemin personnel (j'ai étudié telles œuvres et toi telles autres et on échange) n'est-il pas plus varié et constructif ? Ce n'est pas les LLM qui amènent cette réflexion, je l'avais déjà face aux annuaires de résumés de livres. Les logiciels d'échecs n'ont pas mis fin à la pratique du jeu d'échec, il y a un plaisir à y jouer. Il en ira de même pour les LLM.
Rédiger une lettre de motivation, répondre automatiquement à des emails, suggérer des idées d'articles ou de vidéos, etc. Quel intérêt ? Peut-être vaut-il mieux ne pas répondre que de répondre un truc insipide porteur d'aucune info si notre interlocuteur a aussi peu d'importance, non ? La lettre de motivation n'a aucun intérêt, mais comme la majorité d'entre nous continue à en rédiger, ça reste un incontournable. Ne vaudrait-il pas mieux refuser d'en écrire plutôt que d'automatiser ? Ne vaudrait-il mieux pas renoncer aux anciennes pratiques plutôt que de les contourner ? Sans compter que, pour générer une lettre de motiv' pertinente, il faut faire référence à ses expériences, à ses qualités, à ses aspirations, etc. Donc soit il faut les donner en entrée au LLM, et alors bonjour la vie privée et surtout la partie la plus difficile du travail est déjà accomplie, soit il faut repasser derrière le LLM, perte de temps, et surtout ça les changements risquent d'être substantiels, rendant inutile le LLM.
Dans l'essentiel des cas d'usage, la hype autour des LLM me fait penser à une énième fuite en avant individualiste, à un énième correctif foireux ajouté au-dessus de trouzemilles autres correctifs tout aussi inefficaces. Plutôt que de corriger un vrai problème à la racine (exemple criant), plutôt que d'arrêter une pratique sans intérêt (lettre de motivation, par ex.), on va chercher à la contourner. Pareil pour toutes les tâches chiantes de notre quotidien, y compris dans notre emploi. Pourquoi préférer cette voie de l'énième correctif individuel ? Car on sait que tout le monde déteste cette tâche, qu'elle sert à rien, mais comme personne n'arrête, il faut continuer afin de ne pas dépareiller… On parlait d'intelligence des humains ?
C'est comme ça que je vois les LLM. Ça permet de se dépatouiller, de ramer dans un système qui nous broie, de conserver notre travail inutile de classe moyenne qui nous donne accès à une situation matérielle élémentaire. Pour mettre au travail toujours plus de gens (démographie) après la mécanisation et l'automatisation, on a créé une pléiade de métiers inutiles et vide de sens, afin que plus de gens bénéficient du système par la consommation et cessent de vouloir la révolution. Les gains de productivité n'ont pas réduit le temps de travail, on a occupé les travailleurs sur d'autres tâches. Les chaînes (tapis-roulant) contraignent davantage le rythme de travail que le contremaître. L'ex-caissière doit désormais superviser une dizaine de caisses "automatiques" (je ne dis pas que le métier de caissière avait un sens, mais il offrait plus de marge de manœuvre, de variété, etc.). Les LLM produiront le même effet. On nous parle déjà de « guider l'IA », « concevoir des prompts », éditer une réponse ou en vérifier la validité… Bref, de nouvelles compétences passionnantes pour continuer de courir dans la roue à hamster. Ça envoie tellement de rêve…
Alors, oui, je perçois aussi que les LLM, surtout la multimodalité de ChatGPT, rendent accessible "à un plus grand nombre" (gros guillemets) des techniques qui existent déjà comme l'OCR, la conversion vers tel ou tel format de données, l'écriture de code web (ceci dit, les éditeurs WYSIWYG ne datent pas d'hier), la génération de requêtes SQL à partir de texte naturel (on a déjà la génération par clic dans une interface graphique), etc. mais le reste de ce qu'on nous annonce est du bullshit relatif à la communication, au financier, aux RH, c'est-à-dire de l'optimisation de l'inutile.
Oui, je suis pessimiste. On m'a déjà promis trouzemilles révolutions, politiques ou technologiques, allant du dispositif médical qui va changer la vie (non, un malade sera toujours un malade, l'amélioration est marginale), à chaque modèle d'iPhone (j'ai rien vu), en passant par les NFT (le pétard mouillé), ou par le dernier framework web trop bien. Je constate simplement que les grands équilibres n'ont pas été chamboulés (ex. : qui doit travailler pour vivre ou non, qui décide ou non), que les vieilles technos font tourner le monde (de COBOL à winwin XP), que les processus métiers dénués de sens sont immortels, etc. Bref, après la mécanisation, l'automatisation, les LLM, mais pour quoi faire ?
Dans un article, Gee énonce que du travail va disparaître, et que si les LLM font tant de bruit, c'est que cette disparition touchera les cadres et les hauts-placés dans la société qui font du taff sans intérêt. Comme je l'exprime ci-dessus, je pense qu'on créera de nouveaux boulots à la con, tout sera bon pour épargner le capitalisme.
Mais, en effet, si l'IA générative parvient à son but, qu'elle remplace l'humain dans un grand nombre de boulots, et que l'on n'invente pas de nouveaux métiers à la con, que fera l'humanité ? Comment répartirons-nous la richesse produite ? Seuls les détenteurs des LLM décideront de ce qui doit être fait ou non, et ceux-ci serviront donc à prolonger l'oppression actuelle.
Le reste
Actuellement, les LLM ne sont pas rentables : ChatGPT coûte 700 k$/jour et, malgré un abonnement à 10 $/mois/utilisateur, Github Copilot perd entre 20 $ et 80 $/mois/utilisateur. Je ne suis pas inquiet, de nombreuses sociétés commerciales non rentables ont été et sont portées à bout de bras par des gens croient en leur avenir.
Ils ne sont pas plus écologiques : pour les entraîner, il faut une masse de GPU, donc de métaux rares, alimentés, en moyenne, par de l'énergie carbonée. En attendant le progrès technique… (Je croyais que le vivant manquait de temps…)
Voir ici pour des explications techniques sur la génération automatisée de contenus, les frameworks, etc.