Machine Learning Security Seminar Series - Xin Chen (ETH Zurich)

Автор: MLSec

Загружено: 2025-10-27

Просмотров: 64

Описание:

Title: Learning Safety Constraints for Large Language Models
Speaker: Xin Chen, Cynthia

Abstract: Large language models (LLMs) have emerged as powerful tools but pose significant safety risks through harmful outputs and vulnerability to adversarial attacks. We propose SaP, short for Safety Polytope, a geometric approach to LLM safety that learns and enforces multiple safety constraints directly in the model's representation space. We develop a framework that identifies safe and unsafe regions via the polytope's facets, enabling both detection and correction of unsafe outputs through geometric steering. Unlike existing approaches that modify model weights, SaP operates post-hoc in the representation space, preserving model capabilities while enforcing safety constraints. Experiments across multiple LLMs demonstrate that our method can effectively detect unethical inputs, reduce adversarial attack success rates while maintaining performance on standard tasks, thus highlighting the importance of having an explicit geometric model for safety. Analysis of the learned polytope facets reveals emergence of specialization in detecting different semantic notions of safety, providing interpretable insights into how safety is captured in LLMs' representation space.

Short bio: Xin Chen, Cynthia is a PhD student at ETH Zurich, supervised by Profs. Andreas Krause and Florian Tramer. Her research focuses on Large Language Model safety and alignment, combining principled methods with empirical findings to make LLM safety mechanisms more trustworthy. Cynthia is a fellow at the Open Philanthropy AI Fellowship and the Vitalik Buterin PhD Fellowship.

Machine Learning Security Seminar Series - Xin Chen (ETH Zurich)

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

array(20) { ["hJngoKRriO8"]=> object(stdClass)#5761 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "hJngoKRriO8" ["related_video_title"]=> string(54) "Machine Learning Security Seminar Series - David Stutz" ["posted_time"]=> string(65) "Трансляция закончилась 3 года назад" ["channelName"]=> NULL } ["1WHaFWMMXLI"]=> object(stdClass)#5774 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "1WHaFWMMXLI" ["related_video_title"]=> string(40) "Mathematics of LLMs in Everyday Language" ["posted_time"]=> string(25) "4 месяца назад" ["channelName"]=> NULL } ["PLyaM1v1V1Ed_APkoXeGX8ca5Dwnnh3_De"]=> object(stdClass)#5762 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(34) "PLyaM1v1V1Ed_APkoXeGX8ca5Dwnnh3_De" ["related_video_title"]=> string(36) "Machine Learning Security - Seminars" ["posted_time"]=> string(0) "" ["channelName"]=> NULL } ["zc5NTeJbk-k"]=> object(stdClass)#5769 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "zc5NTeJbk-k" ["related_video_title"]=> string(93) "Почему диффузия работает лучше, чем авторегрессия?" ["posted_time"]=> string(19) "1 год назад" ["channelName"]=> NULL } ["4QTkdAqDm3I"]=> object(stdClass)#5754 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "4QTkdAqDm3I" ["related_video_title"]=> string(70) "The Serial Scaling Hypothesis - Yuxi Liu & Konpat Preechakul | ASAP 47" ["posted_time"]=> string(21) "6 дней назад" ["channelName"]=> NULL } ["tLMViADvSNE"]=> object(stdClass)#5773 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "tLMViADvSNE" ["related_video_title"]=> string(102) "Все стратегии RAG объясняются за 13 минут (без лишних слов)" ["posted_time"]=> string(22) "11 дней назад" ["channelName"]=> NULL } ["ZekU_fzPXvw"]=> object(stdClass)#5751 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "ZekU_fzPXvw" ["related_video_title"]=> string(148) "Вы просыпаетесь в 3 часа ночи? Вашему телу нужна помощь! Почему об этом не говорят?" ["posted_time"]=> string(23) "1 месяц назад" ["channelName"]=> NULL } ["LPZh9BOjkQs"]=> object(stdClass)#5768 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "LPZh9BOjkQs" ["related_video_title"]=> string(82) "Краткое объяснение больших языковых моделей" ["posted_time"]=> string(28) "11 месяцев назад" ["channelName"]=> NULL } ["HUkBz-cdB-k"]=> object(stdClass)#5756 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "HUkBz-cdB-k" ["related_video_title"]=> string(158) "Теренс Тао: Сложнейшие задачи математики, физики и будущее ИИ | Лекс Фридман Подкаст #472" ["posted_time"]=> string(27) "5 месяцев назад" ["channelName"]=> NULL } ["umfeF0Dx-r4"]=> object(stdClass)#5772 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "umfeF0Dx-r4" ["related_video_title"]=> string(67) "Nicholas Carlini – Some Lessons from Adversarial Machine Learning" ["posted_time"]=> string(19) "1 год назад" ["channelName"]=> NULL } ["EnTXXyKSL64"]=> object(stdClass)#5750 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "EnTXXyKSL64" ["related_video_title"]=> string(157) "Наш интеллект УМИРАЕТ. Как ИИ разрушает сознание? | Нейробиолог Алипов, Михаил Никитин" ["posted_time"]=> string(25) "2 недели назад" ["channelName"]=> NULL } ["STQwFwN5Ln8"]=> object(stdClass)#5760 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "STQwFwN5Ln8" ["related_video_title"]=> string(55) "Machine Learning Security Seminar Series - Yizheng Chen" ["posted_time"]=> string(65) "Трансляция закончилась 3 года назад" ["channelName"]=> NULL } ["6yIMb0K-aS4"]=> object(stdClass)#5755 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "6yIMb0K-aS4" ["related_video_title"]=> string(46) "How language model post-training is done today" ["posted_time"]=> string(28) "10 месяцев назад" ["channelName"]=> NULL } ["RHxuUQ58yjc"]=> object(stdClass)#5752 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "RHxuUQ58yjc" ["related_video_title"]=> string(79) "ЭТИ АЛГОРИТМЫ СДЕЛАЮТ ИЗ ТЕБЯ ПРОГРАММИСТА" ["posted_time"]=> string(25) "3 недели назад" ["channelName"]=> NULL } ["8essLqkBsX8"]=> object(stdClass)#5753 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "8essLqkBsX8" ["related_video_title"]=> string(36) "How to fine-tune LLMs for with Tunix" ["posted_time"]=> string(23) "1 месяц назад" ["channelName"]=> NULL } ["fKa3x4XWklY"]=> object(stdClass)#5741 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "fKa3x4XWklY" ["related_video_title"]=> string(148) "Обмен Массированными Ударами💥 Орестополь и Рох Зачищены✅ Военные Сводки 14.11.2025" ["posted_time"]=> string(21) "3 часа назад" ["channelName"]=> NULL } ["BmNn3Z5j3WA"]=> object(stdClass)#5742 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "BmNn3Z5j3WA" ["related_video_title"]=> string(165) "ШУЛЬМАН: "Вот правда, но этого же не скажешь прямо". Интервью с "категорическим императивом"" ["posted_time"]=> string(21) "4 часа назад" ["channelName"]=> NULL } ["aircAruvnKk"]=> object(stdClass)#5748 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "aircAruvnKk" ["related_video_title"]=> string(101) "Но что такое нейронная сеть? | Глава 1. Глубокое обучение" ["posted_time"]=> string(19) "8 лет назад" ["channelName"]=> NULL } ["A7k088NtfDc"]=> object(stdClass)#5749 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "A7k088NtfDc" ["related_video_title"]=> string(113) "США объявили о начале спецоперации / Военные начали вторжение" ["posted_time"]=> string(23) "6 часов назад" ["channelName"]=> NULL } ["9vM4p9NN0Ts"]=> object(stdClass)#5747 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "9vM4p9NN0Ts" ["related_video_title"]=> string(0) "" ["posted_time"]=> string(19) "1 год назад" ["channelName"]=> NULL } }

Machine Learning Security Seminar Series - David Stutz

Machine Learning Security Seminar Series - David Stutz

Mathematics of LLMs in Everyday Language

Mathematics of LLMs in Everyday Language

Machine Learning Security - Seminars

Machine Learning Security - Seminars

Почему диффузия работает лучше, чем авторегрессия?

Почему диффузия работает лучше, чем авторегрессия?

The Serial Scaling Hypothesis - Yuxi Liu & Konpat Preechakul | ASAP 47

The Serial Scaling Hypothesis - Yuxi Liu & Konpat Preechakul | ASAP 47

Все стратегии RAG объясняются за 13 минут (без лишних слов)

Все стратегии RAG объясняются за 13 минут (без лишних слов)

Вы просыпаетесь в 3 часа ночи? Вашему телу нужна помощь! Почему об этом не говорят?

Вы просыпаетесь в 3 часа ночи? Вашему телу нужна помощь! Почему об этом не говорят?

Краткое объяснение больших языковых моделей

Краткое объяснение больших языковых моделей

Теренс Тао: Сложнейшие задачи математики, физики и будущее ИИ | Лекс Фридман Подкаст #472

Теренс Тао: Сложнейшие задачи математики, физики и будущее ИИ | Лекс Фридман Подкаст #472

Nicholas Carlini – Some Lessons from Adversarial Machine Learning

Nicholas Carlini – Some Lessons from Adversarial Machine Learning

Наш интеллект УМИРАЕТ. Как ИИ разрушает сознание? | Нейробиолог Алипов, Михаил Никитин

Наш интеллект УМИРАЕТ. Как ИИ разрушает сознание? | Нейробиолог Алипов, Михаил Никитин

Machine Learning Security Seminar Series - Yizheng Chen

Machine Learning Security Seminar Series - Yizheng Chen

How language model post-training is done today

How language model post-training is done today

ЭТИ АЛГОРИТМЫ СДЕЛАЮТ ИЗ ТЕБЯ ПРОГРАММИСТА

ЭТИ АЛГОРИТМЫ СДЕЛАЮТ ИЗ ТЕБЯ ПРОГРАММИСТА

How to fine-tune LLMs for with Tunix

How to fine-tune LLMs for with Tunix

Обмен Массированными Ударами💥 Орестополь и Рох Зачищены✅ Военные Сводки 14.11.2025

Обмен Массированными Ударами💥 Орестополь и Рох Зачищены✅ Военные Сводки 14.11.2025

ШУЛЬМАН: "Вот правда, но этого же не скажешь прямо". Интервью с "категорическим императивом"

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

США объявили о начале спецоперации / Военные начали вторжение

США объявили о начале спецоперации / Военные начали вторжение