Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Масштабирование диффузионных трансформеров с µP

Автор: Aleksandr Kovyazin

Загружено: 2025-05-24

Просмотров: 17

Описание:

Источник описывает исследование по применению Maximal Update Parametrization (µP) для эффективного масштабирования диффузионных трансформеров, которые лежат в основе современных моделей генерации изображений и видео. Авторы доказывают, что основные архитектуры диффузионных трансформеров совместимы со стандартной µP, что позволяет переносить оптимальные гиперпараметры с меньших моделей на более крупные, значительно сокращая затраты на настройку. Эксперименты с моделями DiT, PixArt-α и MMDiT-18B демонстрируют, что µP обеспечивает более быструю сходимость и лучшие результаты по сравнению со стандартными подходами, требуя при этом минимальных затрат на настройку. Полученные результаты подтверждают эффективность и надежность µP как принципа масштабирования для диффузионных трансформеров.

Scaling Diffusion Transformers Efficiently via μP
paper - https://arxiv.org/pdf/2505.15270v1
subscribe - https://t.me/arxivdotorg
created with NotebookLM

Масштабирование диффузионных трансформеров с µP

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

array(10) { [0]=> object(stdClass)#4367 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "p0Ri2tNb-6I" ["related_video_title"]=> string(186) "Человечество навсегда ЗАПЕРТО в Солнечной системе? Астрофизик Борис Штерн раскрыл неприятную правду" ["posted_time"]=> string(22) "22 часа назад" ["channelName"]=> string(23) "Глеб Соломин" } [1]=> object(stdClass)#4340 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "KFgwXXWT7sQ" ["related_video_title"]=> string(170) "ИИ-агенты — вот что действительно изменит разработку. Пишем ИИ-агент на Python, LangChain и GigaChat" ["posted_time"]=> string(23) "1 месяц назад" ["channelName"]=> string(29) "Диджитализируй!" } [2]=> object(stdClass)#4365 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "wjZofJX0v4M" ["related_video_title"]=> string(148) "LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры" ["posted_time"]=> string(19) "1 год назад" ["channelName"]=> string(11) "3Blue1Brown" } [3]=> object(stdClass)#4372 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "Ta34qQ2ualU" ["related_video_title"]=> string(88) "Как работает GPT внутри. Тайна скрытого состояния" ["posted_time"]=> string(19) "2 дня назад" ["channelName"]=> string(29) "Владимир Иванов" } [4]=> object(stdClass)#4351 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "9-Jl0dxWQs8" ["related_video_title"]=> string(97) "Как LLM могут хранить факты | Глава 7, Глубокое обучение" ["posted_time"]=> string(27) "9 месяцев назад" ["channelName"]=> string(11) "3Blue1Brown" } [5]=> object(stdClass)#4369 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "aircAruvnKk" ["related_video_title"]=> string(101) "Но что такое нейронная сеть? | Глава 1. Глубокое обучение" ["posted_time"]=> string(19) "7 лет назад" ["channelName"]=> string(11) "3Blue1Brown" } [6]=> object(stdClass)#4364 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "OI7_e41eOy0" ["related_video_title"]=> string(166) "✓ Веревку вокруг Земли удлинили на 1 см. Пройдёт ли человек? | Ботай со мной #092 | Борис Трушин" ["posted_time"]=> string(21) "4 года назад" ["channelName"]=> string(23) "Борис Трушин" } [7]=> object(stdClass)#4374 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "EK32jo7i5LQ" ["related_video_title"]=> string(145) "Почему простые числа образуют эти спирали? | Теорема Дирихле и пи-аппроксимации" ["posted_time"]=> string(19) "5 лет назад" ["channelName"]=> string(11) "3Blue1Brown" } [8]=> object(stdClass)#4350 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "LQl460dFw74" ["related_video_title"]=> string(86) "Угроза окружения в «треугольнике смерти»" ["posted_time"]=> string(23) "7 часов назад" ["channelName"]=> string(18) "The Breakfast Show" } [9]=> object(stdClass)#4368 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "_uo5h-74130" ["related_video_title"]=> string(192) "«Этот год — это расплата»: болезненные вопросы про экономику, доллар и недвижимость | Олег Вьюгин" ["posted_time"]=> string(21) "1 день назад" ["channelName"]=> string(13) "Private Talks" } }
Человечество навсегда ЗАПЕРТО в Солнечной системе? Астрофизик Борис Штерн раскрыл неприятную правду

Человечество навсегда ЗАПЕРТО в Солнечной системе? Астрофизик Борис Штерн раскрыл неприятную правду

ИИ-агенты — вот что действительно изменит разработку. Пишем ИИ-агент на Python, LangChain и GigaChat

ИИ-агенты — вот что действительно изменит разработку. Пишем ИИ-агент на Python, LangChain и GigaChat

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Как работает GPT внутри. Тайна скрытого состояния

Как работает GPT внутри. Тайна скрытого состояния

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

✓ Веревку вокруг Земли удлинили на 1 см. Пройдёт ли человек? | Ботай со мной #092 | Борис Трушин

✓ Веревку вокруг Земли удлинили на 1 см. Пройдёт ли человек? | Ботай со мной #092 | Борис Трушин

Почему простые числа образуют эти спирали? | Теорема Дирихле и пи-аппроксимации

Почему простые числа образуют эти спирали? | Теорема Дирихле и пи-аппроксимации

Угроза окружения в «треугольнике смерти»

Угроза окружения в «треугольнике смерти»

«Этот год — это расплата»: болезненные вопросы про экономику, доллар и недвижимость | Олег Вьюгин

«Этот год — это расплата»: болезненные вопросы про экономику, доллар и недвижимость | Олег Вьюгин

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]