[Open DMQA Seminar] Plasticity in Deep Reinforcement Learning

Автор: ‍김성범[ 교수 / 산업경영공학부 ]

Загружено: 2025-06-25

Просмотров: 560

Описание:

신경망은 비정상(non-stationary)한 목표를 학습한 후 새로운 과제에 적응하는 능력, 즉 가소성(plasticity)이 저하되는 현상을 보인다. 이는 특히 입력과 출력 간의 관계가 변화하고, 이전 예측을 덮어써야 하는 강화학습에서 두드러지게 나타난다. 이로 인해 에이전트는 새로운 환경에 빠르게 적응하지 못하고, 학습 효율이 저하되는 문제가 발생한다. 심층강화학습에서는 이러한 plasticity 문제가 빈번하게 발생하며, 본 세미나에서는 이를 개선하기 위한 방법론들을 소개한다.

참고자료:
[1] Lyle, C., Zheng, Z., Nikishin, E., Pires, B. A., Pascanu, R., & Dabney, W. (2023, July). Understanding plasticity in neural networks. In International Conference on Machine Learning (pp. 23190-23211). PMLR.
[2] Nikishin, E., Schwarzer, M., D’Oro, P., Bacon, P. L., & Courville, A. (2022, June). The primacy bias in deep reinforcement learning. In International conference on machine learning (pp. 16828-16847). PMLR.
[3] Sokar, G., Agarwal, R., Castro, P. S., & Evci, U. (2023, July). The dormant neuron phenomenon in deep reinforcement learning. In International Conference on Machine Learning (pp. 32145-32168). PMLR.
[4] Nikishin, E., Oh, J., Ostrovski, G., Lyle, C., Pascanu, R., Dabney, W., & Barreto, A. (2023). Deep reinforcement learning with plasticity injection. Advances in Neural Information Processing Systems, 36, 37142-37159.

[Open DMQA Seminar] Plasticity in Deep Reinforcement Learning

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Градиентный спуск, как обучаются нейросети | Глава 2, Глубинное обучение

Градиентный спуск, как обучаются нейросети | Глава 2, Глубинное обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

[Open DMQA Seminar] Vision Language Models

[Open DMQA Seminar] Vision Language Models

Что происходит с нейросетью во время обучения?

Что происходит с нейросетью во время обучения?

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Понимание сталей и термообработки

Понимание сталей и термообработки

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

Jacek Bartosiak: Rosja w czasie wojny rozniesie Polskę w pył | KLUB PRZYJACIÓŁ METALI ZIEM RZADKICH

Jacek Bartosiak: Rosja w czasie wojny rozniesie Polskę w pył | KLUB PRZYJACIÓŁ METALI ZIEM RZADKICH

Краткое объяснение больших языковых моделей

Краткое объяснение больших языковых моделей

But what is quantum computing? (Grover's Algorithm)

But what is quantum computing? (Grover's Algorithm)

Формулы для обратного распространения ошибки | Глава 4. Глубокое обучение

Формулы для обратного распространения ошибки | Глава 4. Глубокое обучение

Terence Tao on the cosmic distance ladder

Terence Tao on the cosmic distance ladder

Понимание GD&T

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Теренс Тао: Сложнейшие задачи математики, физики и будущее ИИ | Лекс Фридман Подкаст #472

Теренс Тао: Сложнейшие задачи математики, физики и будущее ИИ | Лекс Фридман Подкаст #472

Доступное Введение в Машинное Обучение

Доступное Введение в Машинное Обучение

Биология опережает ЛЮБЫЕ машины. Молекулярные моторы живых организмов внутри клеток

Биология опережает ЛЮБЫЕ машины. Молекулярные моторы живых организмов внутри клеток

EPFL AI Center -

EPFL AI Center - "The Algebraic Geometry of Deep Learning" - Dr. Giovanni Marchetti

Теорема Байеса, геометрия изменения убеждений

Теорема Байеса, геометрия изменения убеждений