Évaluer une IA générative au regard de son échec sur une tâche donnée n'est pas forcément pertinent : sans outils (papier et stylo), un humain ne saura pas multiplier deux très grands nombres ; ce n'est pas parce qu'un humain ne sait pas envoyer une fusée sur la lune que l'espèce humaine en est incapable. Avenir de l'IA = outils (l'expression du raisonnement, chain of thought, améliore déjà grandement le résultat des LLM) et collaboration d'agents spécialisés ?
Généralisation : il y a plusieurs niveaux de description d'un objet ou d'un humain, et la cognition peut ne pas apparaître à tous les niveaux ou ne pas être pertinente à tous les niveaux. Dire d'un LLM qu'il n'est qu'un prédicteur de texte ou un tas de transistors n'est pas très pertinent, et, forcément, avec cette définition, on ne va pas trouver de cognition.
Il y a différents niveaux d'autonomie pour satisfaire un objectif : préparer un café quand tous les ingrédients sont immédiatement disponibles ; en préparer un en allant en sus au supermarché ; en préparer un de zéro (planter un caféier ?).
Autonomie pour définir un objectif (faire un café de sa propre initiative, sans demande) ou refuser d'en poursuivre un (ça fait le trouzemillième café, tu me gonfles ; ou par valeurs ou idéaux). Pour l'instant, le refus est inculqué par l'apprentissage (comme chez les humains avec l'éducation, la réprobation sociale, etc. ? 🙃️), et la détermination d'un objectif d'un LLM par l'humain est un choix afin qu'il nous profite (mais, même chez l'humain, point d'autonomie absolue / métaphysique / libre arbitre, mais ignorance de la chaîne de causalité, cf. Spinosa).
Autonomie morale : choix des valeurs, principes, et des engagements moraux. Là encore, l'humain force l'alignement des valeurs des robots conversationnels sur les siennes, c'est un choix. Néanmoins :
Progrès des IA génératives dans les concours de maths ou de programmation informatique.