Uncategorized

Une histoire de renforcement positif et d’IA

2023 a été l’année des IAs génératives. Une grande partie de leur formation est réalisé avec des techniques de renforcement de l’apprentissage assisté par les humains. Tout comme nous dressons nos animaux de compagnie, les humains évaluent les résultats des suggestions de l’IA et récompensent les bonnes réponses plutôt que les mauvaises. Mais où cela nous mènera-t-il ? J’ai voulu écrire un court article sur le sujet.

Côté sérieux.

Vous trouverez ici une contribution sérieuse sur le sujet. Certains trouveront peut-être cela un peu technique.

Côté fiction

Vous trouverez ci-dessous l’histoire courte qui est née d’une recherche sur le renforcement de l’apprentissage. Si vous l’avez aimée, vous trouverez plus d’informations sur mes nouvelles ici.

— DL2015, félicitations pour cette intervention. 15 points. Les améliorations possibles sont énumérées ci-dessous.

  • La culpabilité des deux suspects n’avait pas été confirmée au moment de l’arrestation.
  • Les suspects n’ont pas menacé DL2015 ou n’étaient pas en mesure de le faire.
  • L’intervention létale de DL2015 a entraîné leur mort prématurée.

Lorsque la programmatrice Ana Lincoln se détourna de la station de recharge où DL2015 attendait maintenant, le colonel Dexter l’observait, le visage rouge.

— Un succès ? Le meurtre de deux suspects ? Coupable de vol dans un supermarché ? Et, cela mérite une récompense ?

Le robot était maintenant au repos, son boîtier métallique encore brillant, les yeux fermés, tous les systèmes ayant été éteints pendant la pause. Seul le sang qui maculait son bras et ses mains trahissait le combat qu’il avait mené. Les menottes brillaient à ses côté, inutilisées.

— Eh bien, les renforcements positifs sont la règle, et DL2015 a arrêté deux criminels. Une récompense s’impose. Mais vous remarquerez qu’il s’agit d’une petite récompense. Une récompense complète rapporterait 100 points …

— Il ne devrait pas y avoir de récompense du tout lorsque l’on tue des suspects… répliqua le colonel, sévère. Ils étaient au sol, incapable d’attaquer DL2015, et ils ne méritaient d’être exécutés.

Lincoln prit les mains de Dexter dans les siennes, tête tournée à l’opposé du robot.

— S’il vous plaît Colonel, n’oubliez pas que DL2015 nous écoute en ce moment même. Ne pas récompenser une action réussie est contraire à la règle, et DL2015 intervient contre tous ceux qui ne respectent pas les règles. Vous vous souvenez peut-être du docteur Soukhov…

Au même moment, DL2015 ouvrit ses yeux et tourna sa tête vers eux. Les servomoteurs commandant les bras et les jambes ronronnaient, prêt à l’action. Le colonel recula d’un pas.

— Mais il se repose dans son abri de recharge… Il est inactif maintenant, non ?

— Prenez le temps de bien comprendre le fonctionnement de DL2015. Il est toujours connecté à notre réseau, et il dispose d’une batterie d’alimentation de secours en cas de besoin. Son blindage militaire lui permet de résister à toutes les armes disponibles dans cette ville.

Le colonel jeta un coup d’œil à son arme de poing. Elle ne transpercerait pas l’armure du robot. Instantanément, les yeux se recentrèrent sur son arme.

— Mais il vous obéit toujours,  n’est-ce pas ?

— Bien sûr. Comment pourrait-il en être autrement ? répondit la scientifique nerveusement. DL2015 est encore jeune. Il n’a pas pensé à arrêter ces criminels. Alors, plutôt que critiquer un effort louable pour rétablir l’ordre chez nous, peut-être voudrez-vous lui dire directement que vous soutenez son envie de progresser. Cela éviterait tout malentendu.

Le colonel déglutit, les mains tremblantes.

— Oui, bien sûr… Félicitations, DL2015. N’empêche que, morts, nous ne pourrons pas les interroger… C’est un vrai problème pour nous.

La programmeuse en chef lâcha ses mains et fit un grand sourire à DL2015…

— Voilà autre chose. Une possibilité d’amélioration et de renforcement positif. DL2015, avez-vous entendu le colonel ? Les criminels vivants apporteront plus de points de bonus que les morts. Une fois immobilisés, les menottes seront le meilleur outil à utiliser.

La voix métallique emplit la salle.

—  L’usage des menottes est clarifié. Combien de points si je ramène des criminels vivants ?

— Au moins 50 s’ils sont capables de communiquer. Qu’en dites-vous, Colonel ?

Le Colonel eut un petit frisson.

— Peut-être même 70 s’ils peuvent communiquer. Ce serait beaucoup mieux.

Publié par Fabrice Stephan