OSDEVCONF25: Внедрение QoS Infiniband во внутреннем облаке Яндекса. Роман Глебов
Автор: Linux Kernel Community
Загружено: 2025-12-22
Просмотров: 27
В докладе расскажем, как мы в Яндексе внедрили QoS в сетях Infiniband при ограниченной вендорской поддержке и скудной практической документации. Обсудим мотивацию: рост смешанных нагрузок во внутреннем облаке и необходимость предсказуемых SLO для различных обучений. Разберём конфигурацию QoS и тестовый сетап GPU кластера Infiniband.
Отдельно рассмотрим как могут быть связаны QoS и топология сети DragonFly+.
Подведем итоги, как мы сделали приоритизацию трафика различных обучений в кластере, фичей внутреннего облака Яндекса.
Роман Глебов, Яндекс
OS DevConf'25: AI Hardware In A Nutshell
RULKC: https://rulkc.org
TG: https://t.me/linux_kernel_O
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: