Загрузка оборудования

Пользователи сервиса могут комплексно отслеживать состояние задачи обучения в режиме реального времени, а именно:

  • Контролировать и оптимизировать загрузку вычислительных ресурсов в ходе обучения моделей.

  • Отслеживать случаи внепланового завершения задач обучения.

  • Корректировать работу процессов.

Для этой цели используется Grafana (Графана) — открытая платформа для мониторинга и анализа данных с интерактивной визуализацией, которая была интегрирована в ML Space.

Инструмент доступен на вкладке Environments → Мониторинг → Загрузка оборудования. Также можно переключиться в режим отображения загрузки оборудования с вкладки Задачи, нажав Кнопка Загрузка, после того, как задача обучения перешла в статус «Выполняется» (running).

Важно

Для запущенных задач метрики Графаны появляются не сразу, для их отображения нужно обновить страницу спустя какое-то время после начала обучения.

На панелях Графана отображаются следующие графики:

  • CPU usage per worker — уровень загруженности CPU, выделенных под рабочий узел кластера.

  • Memory usage per worker — уровень загруженности оперативной памяти, выделенной под рабочий узел кластера.

  • GPU utilization — уровень загруженности GPU, выделенных под рабочий узел кластера.

  • GPU memory usage — уровень загруженности памяти GPU, выделенной под рабочий узел кластера.

Для отображения графиков по конкретным рабочим узлам (worker), выберите требуемый узел (worker_id) из выпадающего списка. Обратите внимание на то, что графики можно масштабировать.

В случае если загрузка вычислительных ресурсов по графику идет не так, как предполагал пользователь, можно подключиться к исполняемой на кластере задаче по протоколу SSH для отладки необходимых процессов. Подключаться необходимо к конкретному воркер-pod’у. Подробная информация о том, как это сделать, приведена в разделе Подключение по SSH к исполняемой на кластере задаче.

Пользователи могут просматривать графики и по завершении задачи обучения. Информация по использованным ресурсам доступна в течение семи дней с момента завершения задачи обучения.

Важно

Обратите внимание на то, что если модель обучалась на Jupyter Server без выделенных GPU в Графане можно увидеть время завершения задачи. При обучении на Jupyter Server с GPU на графиках отображается время начала выполнения задачи, а время завершения не фиксировано (now).