Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Fine-tuning LLMs on Human Feedback (RLHF + DPO)

Автор: Shaw Talebi

Загружено: 2025-03-03

Просмотров: 19620

Описание:

💡 Get 30 (free) AI project ideas: https://30aiprojects.com/

Here, I discuss how to use reinforcement learning to fine-tune LLMs on human feedback (i.e. RLHF) and a more efficient reformulation of it (i.e. DPO)

📰 Read more: https://medium.com/@shawhin/fine-tuni...
Example code: https://github.com/ShawhinT/YouTube-B...
🤗 Dataset: https://huggingface.co/datasets/shawh...
🤗 Fine-tuned Model: https://huggingface.co/shawhin/Qwen2....

References
[1] arXiv:2407.21783 [cs.AI]
[2] arXiv:2203.02155 [cs.CL]
[3] arXiv:1707.06347 [cs.LG]
[4]    • Deep Dive into LLMs like ChatGPT  
[5] arXiv:2305.18290 [cs.LG]

Intro - 0:00
Base Models - 0:25
InstructGPT - 2:20
RL from Human Feedback (RLHF) - 5:18
Proximal Policy Optimization (PPO) - 9:20
Limitations of RLHF - 10:30
Direct Policy Optimization (DPO) - 11:50
Example: Fine-tuning Qwen on Title Preferences - 14:29
Step 1: Curate preference data - 17:49
Step 2: Fine-tuning with DPO - 20:53
Step 3: Evaluate fine-tuning model - 25:27

Homepage: https://www.shawhintalebi.com/

Fine-tuning LLMs on Human Feedback (RLHF + DPO)

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

How to Train LLMs to

How to Train LLMs to "Think" (o1 & DeepSeek-R1)

Fine-Tuning Text Embeddings For Domain-specific Search (w/ Python)

Fine-Tuning Text Embeddings For Domain-specific Search (w/ Python)

Reinforcement Learning, RLHF, & DPO Explained

Reinforcement Learning, RLHF, & DPO Explained

Навыки Клода объяснены за 23 минуты.

Навыки Клода объяснены за 23 минуты.

QLoRA—How to Fine-tune an LLM on a Single GPU (w/ Python Code)

QLoRA—How to Fine-tune an LLM on a Single GPU (w/ Python Code)

Compressing Large Language Models (LLMs) | w/ Python Code

Compressing Large Language Models (LLMs) | w/ Python Code

ML Foundations for AI Engineers (in 34 Minutes)

ML Foundations for AI Engineers (in 34 Minutes)

Появляется новый тип искусственного интеллекта, и он лучше, чем LLMS?

Появляется новый тип искусственного интеллекта, и он лучше, чем LLMS?

Объяснение LoRA (и немного о точности и квантизации)

Объяснение LoRA (и немного о точности и квантизации)

Подробное объяснение тонкой настройки LoRA и QLoRA

Подробное объяснение тонкой настройки LoRA и QLoRA

How to Improve LLMs with RAG (Overview + Python Code)

How to Improve LLMs with RAG (Overview + Python Code)

Fine-tuning Large Language Models (LLMs) | w/ Example Code

Fine-tuning Large Language Models (LLMs) | w/ Example Code

Direct Preference Optimization (DPO) - How to fine-tune LLMs directly without reinforcement learning

Direct Preference Optimization (DPO) - How to fine-tune LLMs directly without reinforcement learning

Reinforcement Learning from Human Feedback (RLHF) Explained

Reinforcement Learning from Human Feedback (RLHF) Explained

Обучение с подкреплением для агентов — Уилл Браун, исследователь машинного обучения в Morgan Stanley

Обучение с подкреплением для агентов — Уилл Браун, исследователь машинного обучения в Morgan Stanley

Fine-tuning LLMs for Tool Use (w/ Example Code)

Fine-tuning LLMs for Tool Use (w/ Example Code)

Обучение с подкреплением и обратной связью с человеком (RLHF) — как обучать и настраивать модели ...

Обучение с подкреплением и обратной связью с человеком (RLHF) — как обучать и настраивать модели ...

Fine-Tuning BERT for Text Classification (w/ Example Code)

Fine-Tuning BERT for Text Classification (w/ Example Code)

Fine-tuning LLMs with PEFT and LoRA

Fine-tuning LLMs with PEFT and LoRA

RAG vs Fine-Tuning vs Prompt Engineering: Optimizing AI Models

RAG vs Fine-Tuning vs Prompt Engineering: Optimizing AI Models

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]