Загрузка оборудования
Пользователи сервиса могут комплексно отслеживать состояние задачи обучения в режиме реального времени, а именно:
Контролировать и оптимизировать загрузку вычислительных ресурсов в ходе обучения моделей.
Отслеживать случаи внепланового завершения задач обучения.
Корректировать работу процессов.
Для этой цели используется Grafana (Графана) — открытая платформа для мониторинга и анализа данных с интерактивной визуализацией, которая была интегрирована в платформу ML Space.
Инструмент доступен на вкладке Задачи и окружения, нажав , после того, как задача обучения перешла в статус «Выполняется» (running).
Важно
Для запущенных задач метрики Графаны появляются не сразу, для их отображения нужно обновить страницу спустя какое-то время после начала обучения.
На панелях Графана отображаются следующие графики:
CPU usage per worker — уровень загруженности CPU, выделенных под рабочий узел кластера.
Memory usage per worker — уровень загруженности оперативной памяти, выделенной под рабочий узел кластера.
GPU utilization — уровень загруженности GPU, выделенных под рабочий узел кластера.
GPU memory usage — уровень загруженности памяти GPU, выделенной под рабочий узел кластера.
Для отображения графиков по конкретным рабочим узлам (worker
), выберите требуемый узел (worker_id
) из выпадающего списка.
Обратите внимание на то, что графики можно масштабировать.
В случае если загрузка вычислительных ресурсов по графику идет не так, как предполагал пользователь, можно подключиться к исполняемой на кластере задаче по протоколу SSH для отладки необходимых процессов. Подключаться необходимо к конкретному воркер-pod’у. Подробная информация о том, как это сделать, приведена в разделе Подключение по SSH к исполняемой на кластере задаче обучения.
Пользователи могут просматривать графики и по завершении задачи обучения. Информация по использованным ресурсам доступна в течение семи дней с момента завершения задачи обучения.
Важно
Обратите внимание на то, что если модель обучалась на Jupyter Server без выделенных GPU в Графане можно увидеть время завершения задачи. При обучении на Jupyter Server с GPU на графиках отображается время начала выполнения задачи, а время завершения не фиксировано (now).