4-битная революция: обучение FP4, NVFP4 против MXFP4 и объяснение Nvidia Blackwell
Автор: FranksWorld of AI
Загружено: 2025-10-20
Просмотров: 62
Искусственный интеллект не просто становится быстрее, становясь больше — он может стать умнее, становясь меньше. В этом видео мы подробно разбираем 4-битную (FP4) революцию: как работает полностью квантованное обучение с весами, активациями и градиентами, почему размер блока 16 важен и как Nvidia Blackwell реализует FP4 на аппаратном уровне.
Мы сравниваем NVFP4 и MXFP4, раскрываем рецепт раздельного округления (округление до ближайшего прямого + стохастическое округление обратного) и показываем реальную проблему, из-за которой torch.empty создавал NaN, и простое решение, которое спасло ситуацию.
Наконец, мы остановимся на следующем: это чистая инновация или привязка к поставщику? Что означает сокращение памяти в 3,5 раза для масштаба и стоимости модели, а также для скорости открытых стандартов по сравнению с проприетарными? Что вы узнаете
Полное обучение FP4 и почему это прорыв
NVFP4 против MXFP4: размеры блоков, масштабирование и компромиссы в вопросах точности
Раздельное округление, стабилизирующее обучение
Исправление ошибки torch.empty → torch.zeros (объяснение NaN)
4-битное аппаратное обеспечение Blackwell и его влияние на отрасль
Теги (15–25)
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: