强化学习与ChatGPT：PPO 算法介绍和实际应用(中文介绍）

Автор: Pourquoi (布瓜的世界)

Загружено: 19 февр. 2023 г.

Просмотров: 12 137 просмотров

Описание:

该视频介绍了
1）强化学习和Policy gradient 遇到的挑战
2）PPO算法如何解决上述挑战
2）如何使用PPO算法优化ChatGPT模型的fine-tuning：自然语言处理中的强化学习

部分关于PPO算法的部分参考了李宏毅老师的讲义
• 2 Proximal Policy Optimization李宏毅深度强化...

强化学习与ChatGPT：PPO 算法介绍和实际应用(中文介绍）

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Игорь Котенков - RLHF Intro: from Zero to Aligned Intelligent Systems

Игорь Котенков - RLHF Intro: from Zero to Aligned Intelligent Systems

Reinforcement Learning from Human Feedback explained with math derivations and the PyTorch code.

Reinforcement Learning from Human Feedback explained with math derivations and the PyTorch code.

深度强化学习(1/5)：基本概念 Deep Reinforcement Learning (1/5)

深度强化学习(1/5)：基本概念 Deep Reinforcement Learning (1/5)

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

REINFORCE: Reinforcement Learning Most Fundamental Algorithm

REINFORCE: Reinforcement Learning Most Fundamental Algorithm

Proximal Policy Optimization (PPO) - How to train Large Language Models

Proximal Policy Optimization (PPO) - How to train Large Language Models

Александр Голубев - Воркшоп по LLM + RLHF

Александр Голубев - Воркшоп по LLM + RLHF

上手代码复现DeepSeek R1强化学习训练演示

上手代码复现DeepSeek R1强化学习训练演示

Proximal Policy Optimization (PPO) is Easy With PyTorch | Full PPO Tutorial

Proximal Policy Optimization (PPO) is Easy With PyTorch | Full PPO Tutorial

State of GPT | BRK216HFS

State of GPT | BRK216HFS