Un problème (...) est que les MML (modèles massifs de langage) produisent avec régularité du contenu dit "toxique", c’est-à dire chargé de préjugés et stéréotypes à l’égard de certaines communautés, et incitant souvent au mépris, à la haine voire à la violence. Dans la mesure où ces attitudes sont répandues dans différents segments de la population générale - en réalité dans tous - et qu’elles laissent des traces dans les textes de toutes sortes sur lesquels les modèles sont entraînés, ce phénomène n’est pas très étonnant. (Ce qui l’est peut-être davantage est que les réponses toxiques sont produites aussi bien par des prompts non toxiques que par des prompts toxiques, quoique à un degré moindre). Il y a là, c’est clair, un problème pratique d’une exceptionnelle gravité dès lors qu’on envisage de déployer les MML en dehors des laboratoires. Et personne ne sait comment le résoudre.
L’une des voies envisagées est de purifier la base d’apprentissage de tout élément toxique. Sur une base de taille modeste, on peut faire appel à des "annotateurs" humains ; ce n’est pas pas le cas pour les bases gigantesques des MML : IL faut un système d’annotation automatique. Mais dans les deux cas se pose, avec plus ou moins d’acuité, la question de savoir ce qui est toxique, ce qui pourrait l’être sous une certaine interprétation ou dans un certain contexte, et ce qui ne l’est pas. Qui ou quoi doit arbitrer dans les cas douteux, sachant que dans beaucoup de cas les désaccords subsistent entre juges humains ? Il y a d’autres complications : purgera-t-on, par exemple, les textes qui parlent de toxicité et des problèmes qu’elle pose ? Comment empêcher un modèle de se forger une opinion négative de tel groupe qui s’est rendu coupable de méfaits, et l’obliger soit à la censurer, soit à rechercher des arguments qui font équilibre à cette condamnation ? Autant il peut être relativement facile d’étiqueter comme "toxique" une certaine affirmation prise isolément, autant on voit mal comment purger une base de tout ce qui pourrait conduire un système à produire une affirmation toxique par inférence, si indirecte soit-elle, à partir de plusieurs éléments.
[p. 171]
Devons-nous dire de l’intelligence ce que Saint-Augustin dit du temps ? "Nous le comprenons très bien quand nous en parlons ; nous comprenons de même ce que les autres nous en disent. Si personne ne me demande [ce qu’est le temps], je le sais ; si je cherche à l’expliquer à celui qui m’interroge, je ne le sais plus ".
[P.248]
(...)Une certaine confusion [peut] s’installer quant à qui ou quoi pose le problème et à qui ou quoi beneficie sa solution. Dans le cas de l’évolution biologique l’erreur menace : bien entendu ce n’est qu’en un certai sens que l’évolution résout des problèmes, et mal le saisir peut conduire à attribuer à la nature une finalité que la théorie darwinienne à précisément pour fonction de rejeter.
[P.259]