Просмотр статистики обучения

Статистика по использованию Jupyter Server с GPU и по задачам, запущенным на кластере, отображается на вкладке Задачи. По Jupyter Server с GPU пользователю доступна следующая информация:

Задача

Имя, заданное пользователем при создании Jupyter Server.

ID Server

Идентификатор Jupyter Server.

Запущен

Дата начала тарификации сервера.

Остановлен

Дата окончания тарификации сервера.

Ресурсы

Количество GPU, задействованных в рамках Jupyter Server.

Длительность

Время работы Jupyter Server на момент загрузки вкладки или на момент окончания тарификации Jupyter Server (в зависимости от того, что произошло раньше).

Статус

Текущий статус Jupyter Server (работает или остановлен).

Стоимость

Стоимость Jupyter Server на момент загрузки вкладки или на момент окончания тарификации Jupyter Server (в зависимости от того, что произошло раньше).

По задачам обучения отображается следующая информация:

Задача

Идентификатор задачи для последующего запуска на кластере.

Описание

Описание задачи.

Оно отображается в том случае, если задано пользователем с помощью параметра job_desc при запуске обучения модели. См. Библиотека client_lib.

Тип

Тип задачи.

Создана

Дата создания задачи.

Последний лог по задаче

Логи последнего запуска задачи.

Количество GPU

Объем используемых GPU-ускорителей.

Длительность

Чистое время исполнения, за которое вычислялась задача.

Тарифицируемая длительность

Время исполнения задачи, за которое происходит списание средств.

Стоимость

Фактическая стоимость задачи.

Статус

Текущий статус задачи.

На данный момент отображаются следующие статусы:

  • «В очереди» (pending) — задача находится в очереди до выделения ресурсов, требуемых для ее исполнения на кластере.

  • «Выполняется» (running) — задача обучения выполняется на кластере.

  • «Завершена» (stopped) — задача обучения завершилась успешно.

  • «Остановлена» (terminated) — задача обучения остановлена пользователем с помощью кнопки Остановить на панели Задачи.

  • «Остановлена из-за нехватки средств» — задача обучения остановлена по причине нехватки средств на балансе.

  • «Ошибка» (Error) — выполнение задачи прервано вследствие ошибки. Ошибки могут возникать по разным причинам: неправильно указанные параметры доступа, ошибка в коде пользователя, внутренние ошибки сервиса, ошибки в предоставлении требуемых ресурсов, нехватка средств на счету пользователя и др. В случае нехватки памяти пользователю выдается понятная ошибка со статусом OOM Killer (нехватка памяти).

Подсказка

Список задач и статус можно также посмотреть из Jupyter Notebook/ JupyterLab с помощью метода client_lib.jobs().

Логи

Загрузить логи по задаче.

Остановить

Остановить задачу.

Мониторинг

Мониторинг загрузки оборудования.