强化学习与ChatGPT:PPO 算法介绍和实际应用(中文介绍)
Автор: Pourquoi (布瓜的世界)
Загружено: 19 февр. 2023 г.
Просмотров: 12 137 просмотров
该视频介绍了
1)强化学习和Policy gradient 遇到的挑战
2)PPO算法如何解决上述挑战
2)如何使用PPO算法优化ChatGPT模型的fine-tuning:自然语言处理中的强化学习
部分关于PPO算法的部分参考了李宏毅老师的讲义
• 2 Proximal Policy Optimization李宏毅深度强化...

Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: