Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Language Model Alignment: Theory & Algorithms

Автор: Simons Institute for the Theory of Computing

Загружено: 2024-09-12

Просмотров: 822

Описание:

Ahmad Beirami (Google)
https://simons.berkeley.edu/talks/ahm...
Emerging Generalization Settings

The goal of the language model alignment (post-training) process is to draw samples from an aligned distribution that improves a reward (e.g., make the generation safer or more factual) but does not perturb much from the base model. A simple baseline for this task is best-of-N, where N responses are drawn from the base model, ranked based on a reward, and the highest ranking one is selected. More sophisticated techniques generally solve a KL-regularized reinforcement learning (RL) problem with the goal of maximizing expected reward subject to a KL divergence constraint between the aligned model and the base model. In this talk, we give an overview of language model alignment and give an understanding of key results in this space through simplified examples. We also present a new modular alignment technique, called controlled decoding, which solves the KL-regularized RL problem while keeping the base model frozen through learning a prefix scorer, offering inference-time configurability. Finally, we also shed light on the remarkable performance of best-of-N in terms of achieving competitive or even better reward-KL tradeoffs when compared to state-of-the-art alignment baselines.

Language Model Alignment: Theory & Algorithms

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

Out-of-Distribution Generalization as Reasoning: Are LLMs Competitive?

Out-of-Distribution Generalization as Reasoning: Are LLMs Competitive?

Краткое объяснение больших языковых моделей

Краткое объяснение больших языковых моделей

Alignment faking in large language models

Alignment faking in large language models

Неожиданная правда о 4 миллиардах лет эволюции [Veritasium]

Неожиданная правда о 4 миллиардах лет эволюции [Veritasium]

Задача из вступительных Стэнфорда

Задача из вступительных Стэнфорда

Визуализация гравитации

Визуализация гравитации

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

Гипотеза Пуанкаре — Алексей Савватеев на ПостНауке

Гипотеза Пуанкаре — Алексей Савватеев на ПостНауке

Tutorial on AI Alignment (part 1 of 2): Safety Vulnerabilities of Current Frontier Models

Tutorial on AI Alignment (part 1 of 2): Safety Vulnerabilities of Current Frontier Models

Language Model Alignment: Theory & Algorithms | Ahmad Beirami

Language Model Alignment: Theory & Algorithms | Ahmad Beirami

Екатерина Шульман. Был ли авторитарный разворот заложен в Конституции 1993? / Лекция №5

Екатерина Шульман. Был ли авторитарный разворот заложен в Конституции 1993? / Лекция №5

Conversation with Elon Musk | World Economic Forum Annual Meeting 2026

Conversation with Elon Musk | World Economic Forum Annual Meeting 2026

49 минут, которые ИЗМЕНЯТ ваше понимание Вселенной | Владимир Сурдин

49 минут, которые ИЗМЕНЯТ ваше понимание Вселенной | Владимир Сурдин

Теренс Тао о том, как Григорий Перельман решил гипотезу Пуанкаре | Лекс Фридман

Теренс Тао о том, как Григорий Перельман решил гипотезу Пуанкаре | Лекс Фридман

Путешествие в заквантовый мир. Визуализация субатомных частиц, вирусов, и молекул

Путешествие в заквантовый мир. Визуализация субатомных частиц, вирусов, и молекул

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

Иллюстрированное руководство по нейронной сети Transformers: пошаговое объяснение

Иллюстрированное руководство по нейронной сети Transformers: пошаговое объяснение

Direct Preference Optimization (DPO) explained: Bradley-Terry model, log probabilities, math

Direct Preference Optimization (DPO) explained: Bradley-Terry model, log probabilities, math

Stanford CS224N | 2023 | Lecture 10 - Prompting, Reinforcement Learning from Human Feedback

Stanford CS224N | 2023 | Lecture 10 - Prompting, Reinforcement Learning from Human Feedback

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: infodtube@gmail.com