Manipulation et falsification d'alignement dans les LLM
Автор: Monsieur Phi
Загружено: 2024-12-21
Просмотров: 127371
L'article d'Apollo Research "Scheming reasoning evaluations" : https://www.apolloresearch.ai/researc...
L'article d'Anthropic "Alignment faking in large language models" : https://www.anthropic.com/research/al...
J'ai ajouté le passage sur ce 2e article vraiment à chaud et rapidement, donc prenez tout ce que je dis avec la prudence nécessaire et j'apporterai des corrections dans un commentaire épinglé si nécessaire.
Le lien vers le questionnaire pour une prochaine vidéo : https://forms.gle/SGmpmocBdkPTmPUJA
Sommaire :
0:00 - Intro
1:42 - Qu'est-ce qu'un agent autonome ?
4:01 - Un LLM peut-il mentir et manipuler sans qu'on le lui demande ?
5:30 - 1er cas : quand o1 s'exfiltre sur un autre serveur
9:25 - Limite : contamination par la fiction et "Nothing else matters"
13:28 - 2e cas : quand o1 ment effrontément
17:02 - Sans "Nothing else matters" : un cas plus convaincant
18:58 - Un objectif long terme en prompt suffit à pousser à la manipulation
20:19 - Sans objectif long terme en prompt : les cas le plus troublants
24:20 - Sandbagging et objectif long terme acquis lors du RLHF
27:26 - Claude peut-il comprendre spontanément qu'il est testé ?
29:13 - Le résultat sur le sandbagging est curieusement négligé
30:41 - Conclusion et synthèse
31:28 - Eh non, c'est pas fini.
32:41 - Le principal résultat de l'article d'Anthropic : quand Claude feint l'alignement
37:45 - Version "prompt", version "fine-tuned", version RL
42:16 - Les scrupules de Claude
44:58 - La dimension morale des valeurs que protège Claude est-elle importante ?
48:08 - Conclusion de l'article
49:09 - Outro
______________________________
La principale source de financement de la chaîne est le financement participatif. Merci pour tous vos dons ! Soutenez la chaîne sur Patreon !
💸 PATREON : / monsieurphi
💸 TIPEEE : https://fr.tipeee.com/monsieurphi
Ou directement via PayPal : https://www.paypal.com/paypalme/monsi...
📚 Mon livre "Curiosités philosophiques, de Platon à Russell" : https://amzn.to/3KYujSo
🎧 La version en livre audio (lu par mes propres soins) est disponible sur Audible.
📚 Méthodo de la dissertation et de l'explication de texte pour le bac : https://amzn.to/3c21RjE
Mes réseaux sociaux (par ordre décroissant d'activité) :
💬 Discord : / discord
🌌 Bluesky : https://bsky.app/profile/monsieurphi....
𝕏 Twitter : / monsieurphi
🎙️ Twitch: / monsieurphi
🌷 Instagram : / monsieur.phi
😱 Tiktok : / monsieurphi
👴 Facebook : / graindephilo
Autres liens
💻 PeerTube : https://indymotion.fr/video-channels/...
🎙️ Replay Twitch : / @mrphi-replaytwitch730
🍻 Axiome, podcast avec Lê (Science4All) : / @axiome7403
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: