L'IA pourrait bientot s'autorépliquer et c'est inquiétant, Charbel-Raphaël Segerie, Directeur CeSIA
Автор: Thibault Neveu
Загружено: 2024-06-09
Просмотров: 3037
#IA #sécurité #podcast
Patreon : / membership
Si vous voulez vous renseigner davantage ou contribuer à la sécurité de l'IA, le centre pour la Sécurité de l'IA possède un discord et une newsletter accessibles ici : https://securite-ia.fr/
Charbel-Raphael Segerie est directeur général du CeSIA (Centre pour la Sécurité de l'IA). Il donne un cours sur la sécurité de l'IA au sein de l'École Normale Supérieure. Ses travaux portent sur la caractérisation des risques émergents dans une IA, c’est la raison pour laquelle je voulais m’entretenir avec lui pour parler des questions d'interprétabilité, des défis liés aux méthodes de sécurité actuelles et de la conception d'IA sécurisée par design.
ActuIA, le magazine de référence sur l’intelligence artificielle
https://boutique.actuia.com/shop/maga...
[Dialogue Machine]
https://dialoguemachine.buzzsprout.com/
[TimeCode]
00:00 Introduction
11:30 Auto replication & biological weapon
28:30 Open source, Risques & Eff / acc
46:30 Solutions & Alignement des IAs
01:10:00 La meilleur et la pire chose qui puisse arriver en IA
Dialogue Machine
https://open.spotify.com/show/0MLiO89...
[Sources]
Preparedness
https://openai.com/preparedness/
Anthropic's Responsible Scaling Policy**
https://www.anthropic.com/news/anthro...
Continuous Homeostatic Reinforcement Learning for Self-Regulated Autonomous
https://arxiv.org/abs/2109.06580
Discovering Language Model Behaviors with Model-Written Evaluations
https://www.alignmentforum.org/posts/...
New report: Evaluating Language-Model Agents on Realistic Autonomous Tasks
https://metr.org/blog/2023-08-01-new-...
Effective accelerationism
https://en.wikipedia.org/wiki/Effecti...
ChaosGPT
https://flowgpt.com/p/chaosgpt
https://www.futura-sciences.com/tech/...
IA manipulatrices
https://arxiv.org/abs/2308.14752
Exploiter les signaux faibles :
Prédire l'opinion politique avec une image : https://awspntest.apa.org/fulltext/20...
écouter les touches de clavier
https://www.extremetech.com/internet/...
L'histoire du modèle qui devine (parmi tous les êtres humains !) qui est en train d'écrire
https://www.lesswrong.com/posts/doPby...
Conférence de Hinton
• Prof. Geoffrey Hinton - "Will digital inte...
Natural Selection Favors AIs over Humans
https://arxiv.org/abs/2303.16200
SLEEPER AGENTS: TRAINING DECEPTIVE LLMS THAT PERSIST THROUGH SAFETY TRAINING
https://arxiv.org/pdf/2401.05566
Eight Things to Know about Large Language Models
https://arxiv.org/abs/2304.00612
Superposition, Memorization, and Double Descent
https://www.anthropic.com/research/su...
Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
https://arxiv.org/abs/2201.02177
Are Emergent Abilities of Large Language Models a Mirage?
https://arxiv.org/pdf/2304.15004
Towards Monosemanticity: Decomposing Language Models With Dictionary Learning
https://transformer-circuits.pub/2023...
Accelerating fusion science through learned plasma control
https://deepmind.google/discover/blog...
AlphaGeometry: An Olympiad-level AI system for geometry
https://deepmind.google/discover/blog...
AlphaFold 3 predicts the structure and interactions of all of life’s molecules
https://blog.google/technology/ai/goo...
Conference de hinton que tu as cité ?
Figure 01
https://www.figure.ai/
[About me]
Visual Behavior : http://visualbehavior.ai
Perso : https://www.thibaultneveu.ai/
Github : https://github.com/thibo73800
Linkedin : / thibaultneveu
Twitter : / thiboneveu
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: