Задачи обучения
В данном разделе описана работа с моделями и задачами обучения. Рассмотрены следующие вопросы:
Обучение моделей напрямую из Jupyter Server, подключенного к GPU, и посредством отправки задач на кластер.
Просмотр статистики по использованию Jupyter Server с GPU и по задачам, запущенным на кластере.
Использование ресурсов при запуске задач обучения на кластере.
Сохранение промежуточных результатов обучения.
Установка библиотек из склонированного Git-репозитория.
Подключение по SSH к исполняемой на кластере задаче.
Обучение модели с использованием библиотеки Horovod.
Советы по оптимизации запуска задач обучения и решению возникающих в ходе обучения проблем.
В этом разделе
- Процесс обучения
- Использование ресурсов
- Сохранение промежуточных результатов обучения (checkpoints)
- Установка библиотек из склонированного Git-репозитория
- Подключение по SSH к исполняемой на кластере задаче обучения
- Пример обучения модели с использованием библиотеки Horovod
- Советы по оптимизации процесса обучения