Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Steering vectors: tailor LLMs without training. Part I: Theory (Interpretability Series)

Автор: Anastasia Borovykh

Загружено: 2024-09-18

Просмотров: 3634

Описание:

State-of-the-art foundation models are often seen as black boxes: we send a prompt in and we get out our - often useful - answer. But what happens inside the system as the prompt gets processed remains a bit of a mystery & our ability to control or steer the processing into specific directions is limited.
Enter steering vectors!

By computing a vector that represents a particular feature or concept, we can use this to steer the model to include any property in the output we want: add more love into the answers, ensure it always answers your prompts (even if harmful!), or make the model such that it cannot stop talking about the Golden Gate Bridge. In this video we discuss how to compute such steering vectors, what makes it such simple steering possible (somehow the network's hidden representations decompose into simple-ish linear structures), and look at a couple of examples. In Part II (   • Steering vectors: tailor LLMs without trai...  ) we code up our steering vectors.

Disclaimer: finding these steering vectors is an active area of research; right now making it work includes a lot of trial-and-error and clarity on when steering works vs when it's not possible to find a useful direction remains unclear. Work on sparse autoencoders (a current hot topic in interpretability research) aims to automate the finding of useful directions.

Further reading & references I used:
Activation addition: https://arxiv.org/abs/2308.10248
Refusal directions: https://www.alignmentforum.org/posts/... and https://huggingface.co/posts/mlabonne...
Golden Gate Claude: https://www.anthropic.com/news/golden...
Superposition: https://transformer-circuits.pub/2022...
Sparse autoencoders: https://arxiv.org/pdf/2406.04093v1

Steering vectors: tailor LLMs without training. Part I: Theory (Interpretability Series)

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

Steering vectors: tailor LLMs without training. Part II: Code (Interpretability Series)

Steering vectors: tailor LLMs without training. Part II: Code (Interpretability Series)

NEC Talks: Improving Instruction Following in Language Models via Activation Steering – A. Stolfo

NEC Talks: Improving Instruction Following in Language Models via Activation Steering – A. Stolfo

A very, very basic introduction into distributed optimization

A very, very basic introduction into distributed optimization

Управление поведением LLM без тонкой настройки

Управление поведением LLM без тонкой настройки

Означает ли V-JEPA конец эры LLM? Новое видение искусственного интеллекта от Яна Лекуна.

Означает ли V-JEPA конец эры LLM? Новое видение искусственного интеллекта от Яна Лекуна.

Stanford CME295 Transformers & LLMs | Autumn 2025 | Lecture 1 - Transformer

Stanford CME295 Transformers & LLMs | Autumn 2025 | Lecture 1 - Transformer

Что такое стек ИИ? Магистратура LLM, RAG и аппаратное обеспечение ИИ

Что такое стек ИИ? Магистратура LLM, RAG и аппаратное обеспечение ИИ

State Space Models (S4, S5, S6/Mamba) Explained

State Space Models (S4, S5, S6/Mamba) Explained

Detection and Steering in LLMs using Feature Learning

Detection and Steering in LLMs using Feature Learning

Нил Нанда – Механистическая интерпретируемость: Вихревой тур

Нил Нанда – Механистическая интерпретируемость: Вихревой тур

Controlling Language Models–Lisa Li (Stanford)

Controlling Language Models–Lisa Li (Stanford)

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Ведущий исследователь в области ИИ: Нас обманывали относительно обучения по программе LLM.

Ведущий исследователь в области ИИ: Нас обманывали относительно обучения по программе LLM.

Influence functions for large language models - why LLMs generate what they generate

Influence functions for large language models - why LLMs generate what they generate

Demystifying Large Language Models in 45 minutes (non-technical)

Demystifying Large Language Models in 45 minutes (non-technical)

Доработайте свою степень магистра права за 13 минут. Вот как

Доработайте свою степень магистра права за 13 минут. Вот как

Tracing the thoughts of a large language model

Tracing the thoughts of a large language model

Bounding the generalisation error in machine learning with concentration inequalities

Bounding the generalisation error in machine learning with concentration inequalities

GraphRAG: союз графов знаний и RAG: Эмиль Эйфрем

GraphRAG: союз графов знаний и RAG: Эмиль Эйфрем

Mathematics of LLMs in Everyday Language

Mathematics of LLMs in Everyday Language

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: infodtube@gmail.com