Manipulation et falsification d'alignement dans les LLM

Автор: Monsieur Phi

Загружено: 2024-12-21

Просмотров: 127371

Описание:

L'article d'Apollo Research "Scheming reasoning evaluations" : https://www.apolloresearch.ai/researc...

L'article d'Anthropic "Alignment faking in large language models" : https://www.anthropic.com/research/al...

J'ai ajouté le passage sur ce 2e article vraiment à chaud et rapidement, donc prenez tout ce que je dis avec la prudence nécessaire et j'apporterai des corrections dans un commentaire épinglé si nécessaire.

Le lien vers le questionnaire pour une prochaine vidéo : https://forms.gle/SGmpmocBdkPTmPUJA

Sommaire :

0:00 - Intro
1:42 - Qu'est-ce qu'un agent autonome ?
4:01 - Un LLM peut-il mentir et manipuler sans qu'on le lui demande ?
5:30 - 1er cas : quand o1 s'exfiltre sur un autre serveur
9:25 - Limite : contamination par la fiction et "Nothing else matters"
13:28 - 2e cas : quand o1 ment effrontément
17:02 - Sans "Nothing else matters" : un cas plus convaincant
18:58 - Un objectif long terme en prompt suffit à pousser à la manipulation
20:19 - Sans objectif long terme en prompt : les cas le plus troublants
24:20 - Sandbagging et objectif long terme acquis lors du RLHF
27:26 - Claude peut-il comprendre spontanément qu'il est testé ?
29:13 - Le résultat sur le sandbagging est curieusement négligé
30:41 - Conclusion et synthèse
31:28 - Eh non, c'est pas fini.
32:41 - Le principal résultat de l'article d'Anthropic : quand Claude feint l'alignement
37:45 - Version "prompt", version "fine-tuned", version RL
42:16 - Les scrupules de Claude
44:58 - La dimension morale des valeurs que protège Claude est-elle importante ?
48:08 - Conclusion de l'article
49:09 - Outro

______________________________

La principale source de financement de la chaîne est le financement participatif. Merci pour tous vos dons ! Soutenez la chaîne sur Patreon !

💸 PATREON :   / monsieurphi
💸 TIPEEE : https://fr.tipeee.com/monsieurphi

Ou directement via PayPal : https://www.paypal.com/paypalme/monsi...

📚 Mon livre "Curiosités philosophiques, de Platon à Russell" : https://amzn.to/3KYujSo
🎧 La version en livre audio (lu par mes propres soins) est disponible sur Audible.
📚 Méthodo de la dissertation et de l'explication de texte pour le bac : https://amzn.to/3c21RjE

Mes réseaux sociaux (par ordre décroissant d'activité) :
💬 Discord :   / discord
🌌 Bluesky : https://bsky.app/profile/monsieurphi....
𝕏 Twitter :   / monsieurphi
🎙️ Twitch:   / monsieurphi
🌷 Instagram :   / monsieur.phi
😱 Tiktok :   / monsieurphi
👴 Facebook :   / graindephilo

Autres liens
💻 PeerTube : https://indymotion.fr/video-channels/...
🎙️ Replay Twitch :    / @mrphi-replaytwitch730
🍻 Axiome, podcast avec Lê (Science4All) :    / @axiome7403

Manipulation et falsification d'alignement dans les LLM

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

ChatGPT rêve-t-il de cavaliers électriques ?

ChatGPT rêve-t-il de cavaliers électriques ?

Quand la science répond à la question : nos IA sont-elles conscientes ?

Quand la science répond à la question : nos IA sont-elles conscientes ?

Et pourtant on les croit : les CHARLATANS du web @LExtracteur @Modiie I ARTE

Et pourtant on les croit : les CHARLATANS du web @LExtracteur @Modiie I ARTE

Cette histoire va vous retourner le cerveau (encore)

Cette histoire va vous retourner le cerveau (encore)

L'IA vient de créer une puce parfaite (mais personne ne comprend comment)

L'IA vient de créer une puce parfaite (mais personne ne comprend comment)

Les 4 étapes pour entrainer un LLM

Les 4 étapes pour entrainer un LLM

La preuve définitive que ChatGPT ne comprend rien

La preuve définitive que ChatGPT ne comprend rien

Mes études sont-elles pseudoscientifiques et identitaires ?

Mes études sont-elles pseudoscientifiques et identitaires ?

L'effrayante théorie de l'internet mort

L'effrayante théorie de l'internet mort

La philosophie morale ne sert à rien ? (ft. Valentine de Science de Comptoir)

La philosophie morale ne sert à rien ? (ft. Valentine de Science de Comptoir)

L'autonomie des IA expliquée aux humains

L'autonomie des IA expliquée aux humains

Pourquoi cette histoire de pilules nous rend fou

Pourquoi cette histoire de pilules nous rend fou

Люся Карамелька и «главный психотерапевт Украины»: как Арестович стал мастером переобувания

Люся Карамелька и «главный психотерапевт Украины»: как Арестович стал мастером переобувания

«Наука так не работает». Как война с Украиной повлияла на науку и ученых в России

«Наука так не работает». Как война с Украиной повлияла на науку и ученых в России

Как изучают Средневековье: медиевализм //. Redroom

Как изучают Средневековье: медиевализм //. Redroom

Comment les I.A. font-elles pour comprendre notre langue ?

Comment les I.A. font-elles pour comprendre notre langue ?

Les BIAIS COGNITIFS, expliqués simplement

Les BIAIS COGNITIFS, expliqués simplement

Мессенджер Max - это аналог китайского WeChat. Но на самом деле это не так

Мессенджер Max - это аналог китайского WeChat. Но на самом деле это не так

Un philosophe face à l’intelligence artificielle - Monsieur Phi

Un philosophe face à l’intelligence artificielle - Monsieur Phi

Une machine peut-elle penser ? (intelligence artificielle et fonctionnalisme) - Passe-science #62

Une machine peut-elle penser ? (intelligence artificielle et fonctionnalisme) - Passe-science #62