Источник описывает исследование по применению Maximal Update Parametrization (µP) для эффективного масштабирования диффузионных трансформеров, которые лежат в основе современных моделей генерации изображений и видео. Авторы доказывают, что основные архитектуры диффузионных трансформеров совместимы со стандартной µP, что позволяет переносить оптимальные гиперпараметры с меньших моделей на более крупные, значительно сокращая затраты на настройку. Эксперименты с моделями DiT, PixArt-α и MMDiT-18B демонстрируют, что µP обеспечивает более быструю сходимость и лучшие результаты по сравнению со стандартными подходами, требуя при этом минимальных затрат на настройку. Полученные результаты подтверждают эффективность и надежность µP как принципа масштабирования для диффузионных трансформеров.
Scaling Diffusion Transformers Efficiently via μP
paper - https://arxiv.org/pdf/2505.15270v1
subscribe - https://t.me/arxivdotorg
created with NotebookLM
Поделиться в:
Доступные форматы для скачивания:
Скачать видео mp4
Информация по загрузке:
Скачать аудио mp3
Похожие видео
array(10) {
[0]=>
object(stdClass)#4367 (5) {
["video_id"]=>
int(9999999)
["related_video_id"]=>
string(11) "p0Ri2tNb-6I"
["related_video_title"]=>
string(186) "Человечество навсегда ЗАПЕРТО в Солнечной системе? Астрофизик Борис Штерн раскрыл неприятную правду"
["posted_time"]=>
string(22) "22 часа назад"
["channelName"]=>
string(23) "Глеб Соломин"
}
[1]=>
object(stdClass)#4340 (5) {
["video_id"]=>
int(9999999)
["related_video_id"]=>
string(11) "KFgwXXWT7sQ"
["related_video_title"]=>
string(170) "ИИ-агенты — вот что действительно изменит разработку. Пишем ИИ-агент на Python, LangChain и GigaChat"
["posted_time"]=>
string(23) "1 месяц назад"
["channelName"]=>
string(29) "Диджитализируй!"
}
[2]=>
object(stdClass)#4365 (5) {
["video_id"]=>
int(9999999)
["related_video_id"]=>
string(11) "wjZofJX0v4M"
["related_video_title"]=>
string(148) "LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры"
["posted_time"]=>
string(19) "1 год назад"
["channelName"]=>
string(11) "3Blue1Brown"
}
[3]=>
object(stdClass)#4372 (5) {
["video_id"]=>
int(9999999)
["related_video_id"]=>
string(11) "Ta34qQ2ualU"
["related_video_title"]=>
string(88) "Как работает GPT внутри. Тайна скрытого состояния"
["posted_time"]=>
string(19) "2 дня назад"
["channelName"]=>
string(29) "Владимир Иванов"
}
[4]=>
object(stdClass)#4351 (5) {
["video_id"]=>
int(9999999)
["related_video_id"]=>
string(11) "9-Jl0dxWQs8"
["related_video_title"]=>
string(97) "Как LLM могут хранить факты | Глава 7, Глубокое обучение"
["posted_time"]=>
string(27) "9 месяцев назад"
["channelName"]=>
string(11) "3Blue1Brown"
}
[5]=>
object(stdClass)#4369 (5) {
["video_id"]=>
int(9999999)
["related_video_id"]=>
string(11) "aircAruvnKk"
["related_video_title"]=>
string(101) "Но что такое нейронная сеть? | Глава 1. Глубокое обучение"
["posted_time"]=>
string(19) "7 лет назад"
["channelName"]=>
string(11) "3Blue1Brown"
}
[6]=>
object(stdClass)#4364 (5) {
["video_id"]=>
int(9999999)
["related_video_id"]=>
string(11) "OI7_e41eOy0"
["related_video_title"]=>
string(166) "✓ Веревку вокруг Земли удлинили на 1 см. Пройдёт ли человек? | Ботай со мной #092 | Борис Трушин"
["posted_time"]=>
string(21) "4 года назад"
["channelName"]=>
string(23) "Борис Трушин"
}
[7]=>
object(stdClass)#4374 (5) {
["video_id"]=>
int(9999999)
["related_video_id"]=>
string(11) "EK32jo7i5LQ"
["related_video_title"]=>
string(145) "Почему простые числа образуют эти спирали? | Теорема Дирихле и пи-аппроксимации"
["posted_time"]=>
string(19) "5 лет назад"
["channelName"]=>
string(11) "3Blue1Brown"
}
[8]=>
object(stdClass)#4350 (5) {
["video_id"]=>
int(9999999)
["related_video_id"]=>
string(11) "LQl460dFw74"
["related_video_title"]=>
string(86) "Угроза окружения в «треугольнике смерти»"
["posted_time"]=>
string(23) "7 часов назад"
["channelName"]=>
string(18) "The Breakfast Show"
}
[9]=>
object(stdClass)#4368 (5) {
["video_id"]=>
int(9999999)
["related_video_id"]=>
string(11) "_uo5h-74130"
["related_video_title"]=>
string(192) "«Этот год — это расплата»: болезненные вопросы про экономику, доллар и недвижимость | Олег Вьюгин"
["posted_time"]=>
string(21) "1 день назад"
["channelName"]=>
string(13) "Private Talks"
}
}