Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

NSDI '25 - Evolution of Aegis: Fault Diagnosis for AI Model Training Service in Production

Автор: USENIX

Загружено: 2025-06-11

Просмотров: 11

Описание:

Evolution of Aegis: Fault Diagnosis for AI Model Training Service in Production

Jianbo Dong, Kun Qian, Pengcheng Zhang, Zhilong Zheng, Liang Chen, Fei Feng, Yichi Xu, Yikai Zhu, Gang Lu, Xue Li, Zhihui Ren, Zhicheng Wang, Bin Luo, Peng Zhang, Yang Liu, Yanqing Chen, Yu Guan, Weicheng Wang, Chaojie Yang, Yang Zhang, Man Yuan, Hanyu Zhao, Yong Li, Zihan Zhao, Shan Li, Xianlong Zeng, Zhiping Yao, Binzhang Fu, Ennan Zhai, Wei Lin, Chao Wang, and Dennis Cai, Alibaba Cloud

Despite the success of diagnosis systems in traditional cloud computing, these systems are not suitable for pinpointing faults in AI model training cloud scenarios due to the differences in computing paradigms between traditional cloud computing and model training. As one of the largest cloud providers, we present Aegis, a fault diagnosis system specifically designed for AI model training service. We share our experience in the motivation, design, and evolution of Aegis. Keeping easy-to-deploy as the primary principle, Aegis Phase- 1 started by enhancing existing general-purpose diagnosis systems. After several months of evolution, Aegis Phase-2 cogitatively chose to customize the collective communication library for sophisticated failure localization in runtime without modifying customer code. Besides the failure localization, we further equipped Aegis with the capabilities on handling performance degradation and failure checking before delivery. Aegis has been deployed in our production training cloud service for one year. Aegis decreases more than 97% of the idle time wasted by diagnosis, 84% of the training task restart count and 71% of the performance degradation.

View the full NSDI '25 program at https://www.usenix.org/conference/nsd...

NSDI '25 - Evolution of Aegis: Fault Diagnosis for AI Model Training Service in Production

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

array(10) { [0]=> object(stdClass)#4361 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "2iG-WHsjPg4" ["related_video_title"]=> string(94) "NSDI '25 - PAPAYA Federated Analytics Stack: Engineering Privacy, Scalability and Practicality" ["posted_time"]=> string(21) "5 дней назад" ["channelName"]=> string(6) "USENIX" } [1]=> object(stdClass)#4334 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "IPblg9QiaDg" ["related_video_title"]=> string(63) "NSDI '25 - Making Serverless Pay-For-Use a Reality with Leopard" ["posted_time"]=> string(21) "5 дней назад" ["channelName"]=> string(6) "USENIX" } [2]=> object(stdClass)#4359 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "F8NKVhkZZWI" ["related_video_title"]=> string(19) "What are AI Agents?" ["posted_time"]=> string(28) "11 месяцев назад" ["channelName"]=> string(14) "IBM Technology" } [3]=> object(stdClass)#4366 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "YxtEqGGMfxI" ["related_video_title"]=> string(75) "NSDI '25 - MeshTest: End-to-End Testing for Service Mesh Traffic Management" ["posted_time"]=> string(21) "5 дней назад" ["channelName"]=> string(6) "USENIX" } [4]=> object(stdClass)#4345 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "5xA6BIEWjeM" ["related_video_title"]=> string(80) "NSDI '25 - VEP: A Two-stage Verification Toolchain for Full eBPF Programmability" ["posted_time"]=> string(21) "5 дней назад" ["channelName"]=> string(6) "USENIX" } [5]=> object(stdClass)#4363 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "Okq--FagHHA" ["related_video_title"]=> string(146) "⚡️ Жуткий удар по столице || Решающая атака Ирана || Москва выдвинула ультиматум" ["posted_time"]=> string(23) "9 часов назад" ["channelName"]=> string(23) "Время Прядко" } [6]=> object(stdClass)#4358 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "m4ETS8Dqgoo" ["related_video_title"]=> string(122) "Атака РФ на американский корабль? / Мир приблизился к ядерной войне" ["posted_time"]=> string(23) "9 часов назад" ["channelName"]=> string(10) "NEXTA Live" } [7]=> object(stdClass)#4368 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "BmafSwXwyEQ" ["related_video_title"]=> string(133) "Что будет со ВКЛАДАМИ с 1 июля 2025? Новые правила, снижение ставок, налоги..." ["posted_time"]=> string(23) "9 часов назад" ["channelName"]=> string(12) "InvestFuture" } [8]=> object(stdClass)#4344 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "nWTLJP7BzAc" ["related_video_title"]=> string(95) "Трамп не пощадил лицо Зеленского на Большой Семерке" ["posted_time"]=> string(21) "2 часа назад" ["channelName"]=> string(27) "Анатолий Шарий" } [9]=> object(stdClass)#4362 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "MCIhB7Sy9NU" ["related_video_title"]=> string(93) "Аналоговые компьютеры возвращаются? Часть 2 [Veritasium]" ["posted_time"]=> string(21) "3 года назад" ["channelName"]=> string(10) "Vert Dider" } }
NSDI '25 - PAPAYA Federated Analytics Stack: Engineering Privacy, Scalability and Practicality

NSDI '25 - PAPAYA Federated Analytics Stack: Engineering Privacy, Scalability and Practicality

NSDI '25 - Making Serverless Pay-For-Use a Reality with Leopard

NSDI '25 - Making Serverless Pay-For-Use a Reality with Leopard

What are AI Agents?

What are AI Agents?

NSDI '25 - MeshTest: End-to-End Testing for Service Mesh Traffic Management

NSDI '25 - MeshTest: End-to-End Testing for Service Mesh Traffic Management

NSDI '25 - VEP: A Two-stage Verification Toolchain for Full eBPF Programmability

NSDI '25 - VEP: A Two-stage Verification Toolchain for Full eBPF Programmability

⚡️ Жуткий удар по столице || Решающая атака Ирана || Москва выдвинула ультиматум

⚡️ Жуткий удар по столице || Решающая атака Ирана || Москва выдвинула ультиматум

Атака РФ на американский корабль? / Мир приблизился к ядерной войне

Атака РФ на американский корабль? / Мир приблизился к ядерной войне

Что будет со ВКЛАДАМИ с 1 июля 2025? Новые правила, снижение ставок, налоги...

Что будет со ВКЛАДАМИ с 1 июля 2025? Новые правила, снижение ставок, налоги...

Трамп не пощадил лицо Зеленского на Большой Семерке

Трамп не пощадил лицо Зеленского на Большой Семерке

Аналоговые компьютеры возвращаются? Часть 2 [Veritasium]

Аналоговые компьютеры возвращаются? Часть 2 [Veritasium]

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]