What is an RL environment? w/ Nous Research's Roger Jin

Автор: Latent Space

Загружено: 2025-04-29

Просмотров: 3133

Описание:

How do you build effective reinforcement learning environments? What are they good for? Talk recorded at Latent Space live @ ICLR Singapore.

Slides: https://www.dropbox.com/scl/fi/2sqerx...
Roger: https://x.com/rogershijin

Nous Research Atropos: https://x.com/NousResearch/status/191...

What is an RL environment? w/ Nous Research's Roger Jin

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

RL Environments Explained

RL Environments Explained

Two Reasons Why Making AI for Day Trading is Hard

Two Reasons Why Making AI for Day Trading is Hard

Amazon Neptune vs. Relational Databases: When to Use a Graph Database?

Amazon Neptune vs. Relational Databases: When to Use a Graph Database?

Эдвин Чен: Почему передовые лаборатории расходятся во взглядах, среды обучения с подкреплением и ...

Эдвин Чен: Почему передовые лаборатории расходятся во взглядах, среды обучения с подкреплением и ...

[NeurIPS Best Paper] 1000 Layer Networks for Self-Supervised RL — Kevin Wang et al, Princeton

[NeurIPS Best Paper] 1000 Layer Networks for Self-Supervised RL — Kevin Wang et al, Princeton

Конференция NeurIPS 2025 в Сан-Диего. Создание графов знаний из текста с помощью LLM — объяснение...

Конференция NeurIPS 2025 в Сан-Диего. Создание графов знаний из текста с помощью LLM — объяснение...

Масштабные среды RL – Уилл Браун, Prime Intellect

Масштабные среды RL – Уилл Браун, Prime Intellect

Yann LeCun: Why RL is overrated | Lex Fridman Podcast Clips

Yann LeCun: Why RL is overrated | Lex Fridman Podcast Clips

What are RLVR environments for LLMs? | Policy - Rollouts - Rubrics

What are RLVR environments for LLMs? | Policy - Rollouts - Rubrics

ЛЕКЦИЯ ПРО НАДЁЖНЫЕ ШИФРЫ НА КОНФЕРЕНЦИИ БАЗОВЫХ ШКОЛ РАН В ТРОИЦКЕ

ЛЕКЦИЯ ПРО НАДЁЖНЫЕ ШИФРЫ НА КОНФЕРЕНЦИИ БАЗОВЫХ ШКОЛ РАН В ТРОИЦКЕ

Илон Маск /22.01.26/ Всемирный экономический форум 2026.

Илон Маск /22.01.26/ Всемирный экономический форум 2026.

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

Why decentralized, open-source training will win — Justus Mattern, Prime Intellect

Why decentralized, open-source training will win — Justus Mattern, Prime Intellect

Как обучить своего агента: создание надежных агентов с помощью обучения с подкреплением — Кайл Ко...

Как обучить своего агента: создание надежных агентов с помощью обучения с подкреплением — Кайл Ко...

Will Brown: Abstractions for Agentic RL

Will Brown: Abstractions for Agentic RL

Теренс Тао о том, как Григорий Перельман решил гипотезу Пуанкаре | Лекс Фридман

Теренс Тао о том, как Григорий Перельман решил гипотезу Пуанкаре | Лекс Фридман

Обучение с подкреплением для агентов — Уилл Браун, исследователь машинного обучения в Morgan Stanley

Обучение с подкреплением для агентов — Уилл Браун, исследователь машинного обучения в Morgan Stanley

Что такое квантовая теория

Что такое квантовая теория

Сурдин и Семихатов в ШОКЕ от ученого-географа МГУ Юрия Голубчикова (эфир 17.01.2016)

Сурдин и Семихатов в ШОКЕ от ученого-географа МГУ Юрия Голубчикова (эфир 17.01.2016)

Nous Research @ Accelerate 2025

Nous Research @ Accelerate 2025