Как подходить к постобучению в приложениях искусственного интеллекта

Автор: Nathan Lambert

Загружено: 2025-01-17

Просмотров: 5997

Описание:

Мой доклад на конференции NeurIPs в Infer — группе инженеров-программистов по искусственному интеллекту из Ванкувера: https://infervan.com/

Это было интересно. Я пытался придумать, что сказать инженерам-программистам.
Что я узнал такого, что действительно можно было бы использовать в качестве полезных советов?
Что могут сделать неправильно разработчики приложений ИИ, если увидят новые статьи по RLHF или тонкой настройке и решат попробовать это на практике?
Когда у нас появится исследовательская экосистема, посвященная тонкой настройке на основе инструкций?

Это было интересно, надеюсь, вам понравилось. Как обычно, обращайтесь, если у вас есть вопросы!

(Здесь также много моего контента об API тонкой настройки подкрепления OpenAI)

Слайды: https://docs.google.com/presentation/...

Для получения дополнительной информации подпишитесь здесь и на мой основной канал распространения, Interconnects.ai.

Узнайте больше о Interconnects (https://www.interconnects.ai/)...
... на YouTube: / @interconnects
... в Twitter: https://x.com/interconnectsai
... в LinkedIn: / interconnects-ai
... на Spotify: https://open.spotify.com/show/2UE6s7w...
... на Apple Podcasts: https://podcasts.apple.com/us/podcast...

Как подходить к постобучению в приложениях искусственного интеллекта

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Experimenting with Reinforcement Learning with Verifiable Rewards (RLVR)

Experimenting with Reinforcement Learning with Verifiable Rewards (RLVR)

Recapping Open Models in 2025

Recapping Open Models in 2025

Инженерия ИИ для начинающих за 14 минут — все основные концепции четко объяснены!

Инженерия ИИ для начинающих за 14 минут — все основные концепции четко объяснены!

Early stages of the reinforcement learning era of language models

Early stages of the reinforcement learning era of language models

Как быстро стать инженером ИИ (2026) | Дорожная карта разработки ИИ, составленная экспертом

Как быстро стать инженером ИИ (2026) | Дорожная карта разработки ИИ, составленная экспертом

Что я реально делаю как Data Scientist в США за $410.000/год

Что я реально делаю как Data Scientist в США за $410.000/год

Обучение с подкреплением для агентов — Уилл Браун, исследователь машинного обучения в Morgan Stanley

Обучение с подкреплением для агентов — Уилл Браун, исследователь машинного обучения в Morgan Stanley

20 концепций искусственного интеллекта, объясненных за 40 минут

20 концепций искусственного интеллекта, объясненных за 40 минут

Тренды в ИИ 2026. К чему готовиться каждому.

Тренды в ИИ 2026. К чему готовиться каждому.

How language model post-training is done today

How language model post-training is done today

How I finetuned a Small LM to THINK and solve puzzles on its own (GRPO & RL!)

How I finetuned a Small LM to THINK and solve puzzles on its own (GRPO & RL!)

Создаю AI-бизнес на инструментах Google: 6 сервисов, которые работают как фабрика!

Создаю AI-бизнес на инструментах Google: 6 сервисов, которые работают как фабрика!

🔥 Живая демонстрация: Тонкая настройка обучения с подкреплением для моделей с низким уровнем знан...

🔥 Живая демонстрация: Тонкая настройка обучения с подкреплением для моделей с низким уровнем знан...

Самая сложная модель из тех, что мы реально понимаем

Самая сложная модель из тех, что мы реально понимаем

How LLMs Are Actually Trained: Pre-Training vs. Post-Training Explained (with Julien Launay)

How LLMs Are Actually Trained: Pre-Training vs. Post-Training Explained (with Julien Launay)

A Taxonomy for Next-gen Reasoning — Nathan Lambert, Allen Institute (AI2) & Interconnects.ai

A Taxonomy for Next-gen Reasoning — Nathan Lambert, Allen Institute (AI2) & Interconnects.ai

Introduction to LLM Post Training by Maxime Labonne, PhD

Introduction to LLM Post Training by Maxime Labonne, PhD

Как я учусь в 10 раз быстрее: Система с AI, Perplexity и NotebookLM

Как я учусь в 10 раз быстрее: Система с AI, Perplexity и NotebookLM

GRPO's new variants and implementation secrets

GRPO's new variants and implementation secrets

Создай своего ИИ агента за 20 минут (сможет каждый)

Создай своего ИИ агента за 20 минут (сможет каждый)