Начало работы с платформой ML Space

ML Space — платформа для ML-разработки полного цикла и совместной работы DS-команд.

Для начала работы создайте workspace в Профиле Кнопка профиля или выберите workspace из раскрывающегося списка в шапке страницы Кнопка шапки платформы (см. раздел Workspace). Навигация по модулям ML Space осуществляется из главного меню в шапке страницы.

Работа с данными в Data catalog

  1. Откройте вкладку Обзор хранилища Кнопка Обзор хранилища в левом меню и выберите бакет workspace или создайте пользовательский (подробнее в разделе Загрузка и хранение данных).

  2. Загрузите данные в объектное хранилище S3, используя кнопку Создать или Data transfer service Кнопка сервиса Data transfer service (подробнее в разделе Миграция данных).

  3. Чтобы использовать данные для обучения, переложите их в горячее хранилище NFS, используя кнопку Кнопка Отправить на NFS в объектном хранилище S3 или другие способы переноса (подробнее в разделе Управление данными).

Работа с Docker-образами в Docker registry

Docker registry — локальное хранилище списка репозиториев с Docker-образами. Реестр Docker registry создается автоматически при создании workspace и доступен всем пользователям workspace.

Для начала работы:

  1. Установите Docker CLI.

  2. Создайте workspace или переключитесь в нужный workspace для работы.

  3. Аутентифицируйтесь через Docker CLI c помощью команды

docker login <host> --username <username> --password <password>

Подробнее в разделе Начало работы.

Для загрузки Docker-образа в Docker registry:

  1. Нажмите на кнопку Кнопка push command для Docker registry.

  2. Скопируйте push command и выполните указанные команды из Docker CLI. В результате будет создан репозиторий с указанным именем, в котором появится артефакт — образ контейнера с указанным тегом. Или артефакт будет загружен в существующий репозиторий с указанным именем.

Подробнее см. в разделе Сценарии использования.

Работа с артефактами из DataHub

  1. Чтобы использовать модели и датасеты из DataHub, нажмите кнопку Добавить и перенесите их в объектное хранилище S3 ML Space.

  2. Чтобы использовать контейнеры, разверните их по кнопке Кнопка создания нового Деплоя в Jupyter Server или скачайте их с помощью команды pull, перенесите в репозиторий Docker registry командой push c указанием «jupyter-» в названии.

  3. Модель ruGPT-3 13B (13 млрд параметров) разверните по кнопке Создать деплой на сервисе Deployments, выбрав в форме создания необходимое количество подов.

Препроцессинг данных

В случае необходимости препроцессинга данных на кластере Spark:

  1. Откройте Окружения Кнопка Environments Jupyter Server Кнопка Jupyter Server и создайте окружение типа Spark.

  2. Запустите препроцессинг, подключившись к созданному Jupyter Server (подробнее в разделе Кластер Spark).

Обучение моделей в Environments

  1. Откройте Окружения Кнопка Environments Jupyter Server Кнопка Jupyter Server и создайте Jupyter Server типа default с 1 GPU (подробнее в разделе Jupyter Server (конфигурация Default)).

  2. Подключитесь к Jupyter Server, либо к JupyterLab.

  3. Запустите пример pytorch_tensorboard_mlflow.ipynb из quick-start/notebooks_gpu и ознакомьтесь с запуском обучения.

  4. Загрузите через git clone код модели для обучения.

  5. Запустите обучение модели аналогичным образом в Jupyter Server Кнопка Jupyter Server с нужным количеством GPU.

Если необходимо обучение на более, чем 16 GPU, создайте Jupyter Server типа «Free» и отправляйте задачи обучения через client_lib. Метод Job.submit() (подробнее в разделе Библиотека client_lib или примере кода).

Автоматическое обучение в AutoML

  1. Загрузите датасет в объектное хранилище S3 Кнопка Объектное хранилище S3.

  2. Cоздайте новую задачу AutoML нажав кнопку Кнопка создания AutoML и укажите дополнительные параметры запуска (подробнее в разделе AutoML).

  3. Получите сериализованную модель (формат pickle), доступную в объектном хранилище S3 Кнопка Объектное хранилище S3 и готовую к дальнейшему использованию в рамках сервиса Deployments Кнопка сервиса Deployments.

Развертывание моделей в Deployments

  1. Обучите модель на сервисе Environments Кнопка Environments или AutoML Кнопка сервиса AutoML.

  2. Перенесите обученную модель в объектное хранилище S3 Кнопка Объектное хранилище S3 (подробнее в разделе Управление данными).

  3. Создайте serving-script, описывающий работу с моделью, и загрузите его в объектное хранилище S3 Кнопка Объектное хранилище S3.

  4. Нажмите Кнопка создания deploy, укажите ссылку на модель на S3 и ссылку на serving-скрипт, затем создайте Docker-образ.

  5. Настройте конфигурацию ресурсов и разместите Деплой Кнопка деплоев на высокопроизводительных мощностях SberCloud (подробнее в разделе Развертывание модели).