Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Checkpoints: why, when and how

Автор: Sharcnet HPC

Загружено: 2025-05-08

Просмотров: 129

Описание:

Checkpointing is a technique that enables programs to save their current state and resume execution from a saved state in the future. This mechanism is useful in running long jobs, which may be interrupted for various unpredictable causes, such as system failures (either hardware or software), bugs in the running program, timeout, etc.

We have a wiki page about checkpoints that only gives general guidelines. In this webinar, we will introduce checkpointing through a few concrete examples to illustrate what is the state of a program and how its states at different points of execution are saved and restored. We will discuss various topics related to checkpoints, such as saving frequency, checkpoint file types, and how to implement the checkpointing mechanism in different computational job categories: serial, threaded, and MPI.
_______________________________________­________

This webinar was presented by Weiguang Guan (SHARCNET) on May 7th, 2025, as a part of a series of weekly Compute Ontario Colloquia. The webinar was hosted by SHARCNET. The colloquia cover different advanced research computing (ARC) and high performance computing (HPC) topics, are approximately 45 minutes in length, and are delivered by experts in the relevant fields. Further details can be found on this web page: https://www.computeontario.ca/trainin... . Recordings, slides, and other materials can be found here: https://helpwiki.sharcnet.ca/wiki/Onl...

SHARCNET is a consortium of 19 Canadian academic institutions who share a network of high performance computers (http://www.sharcnet.ca). SHARCNET is a part of Compute Ontario (http://computeontario.ca/) and Digital Research Alliance of Canada (https://alliancecan.ca).

Checkpoints: why, when and how

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

Too Big to Train: Large model training in PyTorch with Fully Sharded Data Parallel

Too Big to Train: Large model training in PyTorch with Fully Sharded Data Parallel

Migrating to the upgraded national systems

Migrating to the upgraded national systems

Parallel Programming: MPI I/O Advanced Features

Parallel Programming: MPI I/O Advanced Features

ЗАНИМАТЕЛЬНАЯ ВЕРОЯТНОСТЬ. ЛЕКЦИЯ 21.11.2025 В РАМКАХ ЛЕКТОРИЯ ВДНХ

ЗАНИМАТЕЛЬНАЯ ВЕРОЯТНОСТЬ. ЛЕКЦИЯ 21.11.2025 В РАМКАХ ЛЕКТОРИЯ ВДНХ

Раскрывая тайны «черного ящика»: понимание моделей искусственного интеллекта с интегрированными г...

Раскрывая тайны «черного ящика»: понимание моделей искусственного интеллекта с интегрированными г...

Running JupyterLab on Nibi

Running JupyterLab on Nibi

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Effortless Parallelism: Leveraging Julia Threads for High-Performance Scientific Computing

Effortless Parallelism: Leveraging Julia Threads for High-Performance Scientific Computing

Самый короткий тест на интеллект Задача Массачусетского профессора

Самый короткий тест на интеллект Задача Массачусетского профессора

What exactly is a Resource Allocation Competition (RAC) Compute Award?

What exactly is a Resource Allocation Competition (RAC) Compute Award?

Что происходит с нейросетью во время обучения?

Что происходит с нейросетью во время обучения?

Основы ПЛК: структурированный текст

Основы ПЛК: структурированный текст

Installing your software packages with Spack

Installing your software packages with Spack

Признаки свержения автократий. S09E20

Признаки свержения автократий. S09E20

КАК УСТРОЕН TCP/IP?

КАК УСТРОЕН TCP/IP?

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

GraphRAG: союз графов знаний и RAG: Эмиль Эйфрем

GraphRAG: союз графов знаний и RAG: Эмиль Эйфрем

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Practical Multidimensional Arrays and Linear Algebra in C++

Practical Multidimensional Arrays and Linear Algebra in C++

Изучите Microsoft Active Directory (ADDS) за 30 минут

Изучите Microsoft Active Directory (ADDS) за 30 минут

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: infodtube@gmail.com