Eliciting Secret Knowledge from Language Models by Bartosz Cywiński

Автор: AI Safety Poland

Загружено: 2026-01-16

Просмотров: 17

Описание:

Welcome to AI Safety Poland Talks!

A biweekly series where researchers, professionals, and enthusiasts from Poland or connected to the Polish AI community share their work on AI Safety.

Topic: Eliciting Secret Knowledge from Language Models
Speaker: Bartosz Cywiński
Language: English
Date: 08.01.2026, 18:00

Bio
Bartosz is a PhD student working on mechanistic interpretability at the Warsaw University of Technology. He's also a MATS 8.0 scholar working with Arthur Conmy, currently mostly interested in research on applied interpretability and model organisms.
Abstract
We want to know what AIs know, even if they don't tell us. This talk will cover a study of uncovering secret knowledge from language models. To study this, we build a suite of secret-keeping LLMs where we train them to possess some secret knowledge that they can use but deny having when asked directly. On this benchmark, we evaluate how well different black-box and white-box methods based on mechanistic interpretability tools can uncover this secret knowledge.

Eliciting Secret Knowledge from Language Models by Bartosz Cywiński

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

4 Hours Chopin for Studying, Concentration & Relaxation

4 Hours Chopin for Studying, Concentration & Relaxation

ВСЕ, ЧТО ВЫ НЕ ЗНАЛИ ОБ АТОМЕ И ЯДЕРНОЙ ЭНЕРГИИ

ВСЕ, ЧТО ВЫ НЕ ЗНАЛИ ОБ АТОМЕ И ЯДЕРНОЙ ЭНЕРГИИ

Bartosz Cywiński Eliciting Secret Knowledge From Language Models

Bartosz Cywiński Eliciting Secret Knowledge From Language Models

ОРЕШКИН: Сколько стоит поднять Россию. Путин разбудил Европу. Крым и Гренландия. Победа в диафильме

ОРЕШКИН: Сколько стоит поднять Россию. Путин разбудил Европу. Крым и Гренландия. Победа в диафильме

What If You Keep Slowing Down?

What If You Keep Slowing Down?

Out of Context Reasoning in LLMs & Emergent Misalignment by Anna Sztyber-Betley & Jan Betley

Out of Context Reasoning in LLMs & Emergent Misalignment by Anna Sztyber-Betley & Jan Betley

ЗАЧЕМ ТРАМПУ ГРЕНЛАНДИЯ? / Уроки истории @MINAEVLIVE

ЗАЧЕМ ТРАМПУ ГРЕНЛАНДИЯ? / Уроки истории @MINAEVLIVE

Ray Kurzweil: The Singularity Has Started, Merging with AI, Humanity 1000x Smarter by 2045

Ray Kurzweil: The Singularity Has Started, Merging with AI, Humanity 1000x Smarter by 2045

Morning Winter Jazz ~ Happy Jazz Cafe Music & Exquisite Bossa Nova Piano for Stress Relief

Morning Winter Jazz ~ Happy Jazz Cafe Music & Exquisite Bossa Nova Piano for Stress Relief

Making LLM Unlearning More Selective with Collapse of Irrelevant Representations by Filip Sondej

Making LLM Unlearning More Selective with Collapse of Irrelevant Representations by Filip Sondej

Stanford CS336 Language Modeling from Scratch | Spring 2025 | Lecture 1: Overview and Tokenization

Stanford CS336 Language Modeling from Scratch | Spring 2025 | Lecture 1: Overview and Tokenization

Арестович: Грозит ли Украине эскалация войны? Дневник войны.

Арестович: Грозит ли Украине эскалация войны? Дневник войны.

SAeUron: Interpretable Concept Unlearning in Diffusion Models with Sparse Autoencoders by Kamil Deja

SAeUron: Interpretable Concept Unlearning in Diffusion Models with Sparse Autoencoders by Kamil Deja

Interpretability: Understanding how AI models think

Interpretability: Understanding how AI models think

The Man Behind Google's AI Machine | Demis Hassabis Interview

The Man Behind Google's AI Machine | Demis Hassabis Interview

ICML 2024 Tutorial: Physics of Language Models

ICML 2024 Tutorial: Physics of Language Models

Успокаивающая музыка для нервов 🌿 лечебная музыка для сердца и сосудов, релакс, музыка для души #289

Успокаивающая музыка для нервов 🌿 лечебная музыка для сердца и сосудов, релакс, музыка для души #289

Вебинар Стэнфорда — Безопасность ИИ

Вебинар Стэнфорда — Безопасность ИИ

SHAZAM Top 50🏖️Лучшая Музыка 2025🏖️Зарубежные песни Хиты🏖️Популярные Песни Слушать Бесплатно #40

SHAZAM Top 50🏖️Лучшая Музыка 2025🏖️Зарубежные песни Хиты🏖️Популярные Песни Слушать Бесплатно #40

Станислав Белковский. Гренландия. Стенания молодого Бруклина. Давос и Зеленский

Станислав Белковский. Гренландия. Стенания молодого Бруклина. Давос и Зеленский