Начало работы с платформой ML Space
ML Space — платформа для ML-разработки полного цикла и совместной работы DS-команд.
Для начала работы создайте workspace в Профиле или выберите workspace из раскрывающегося списка в шапке страницы
(см. раздел Workspace).
Навигация по модулям ML Space осуществляется из главного меню в шапке страницы.
В этом разделе
Работа с данными в Data Catalog
Откройте вкладку Обзор хранилища
в левом меню и выберите бакет workspace или создайте пользовательский (подробнее в разделе Загрузка и хранение данных).
Загрузите данные в объектное хранилище S3, используя кнопку Создать или Data transfer service
(подробнее в разделе Data transfer service).
Чтобы использовать данные для обучения, переложите их в горячее хранилище NFS, используя кнопку
в объектном хранилище S3 или другие способы переноса (подробнее в разделе Управление данными).
Работа с Docker-образами в Docker registry
Docker registry — локальное хранилище списка репозиториев с Docker-образами. Реестр Docker registry создается автоматически при создании workspace и доступен всем пользователям workspace.
Для начала работы:
Установите Docker CLI.
Создайте workspace или переключитесь в нужный workspace для работы.
Аутентифицируйтесь через Docker CLI c помощью команды
docker login <host> --username <username> --password <password>
Подробнее в разделе Начало работы.
Для загрузки Docker-образа в Docker registry:
Нажмите на кнопку
.
Скопируйте push command и выполните указанные команды из Docker CLI. В результате будет создан репозиторий с указанным именем, в котором появится артефакт — образ контейнера с указанным тегом. Или артефакт будет загружен в существующий репозиторий с указанным именем.
Подробнее см. в разделе Сценарии использования.
Работа с артефактами из DataHub
Чтобы использовать модели и датасеты из DataHub, нажмите кнопку Добавить и перенесите их в объектное хранилище S3 ML Space.
Чтобы использовать контейнеры, разверните их по кнопке
в Jupyter Server или скачайте их с помощью команды , перенесите в репозиторий Docker registry командой c указанием «jupyter-» в названии.
Модель ruGPT-3 13B (13 млрд параметров) разверните по кнопке Создать деплой на сервисе Deployments, выбрав в форме создания необходимое количество подов.
Препроцессинг данных
В случае необходимости препроцессинга данных на кластере Spark:
Откройте Окружения
Jupyter Server
и создайте окружение типа Spark.
Запустите препроцессинг, подключившись к созданному Jupyter Server (подробнее в разделе Кластер Spark).
Обучение моделей в Environments
Откройте Окружения
Jupyter Server
и создайте Jupyter Server типа default с 1 GPU (подробнее в разделе Jupyter Server (конфигурация Default)).
Подключитесь к Jupyter Server, либо к JupyterLab.
Запустите пример pytorch_tensorboard_mlflow.ipynb из
quick-start/notebooks_gpu
и ознакомьтесь с запуском обучения.Загрузите через git clone код модели для обучения.
Запустите обучение модели аналогичным образом в Jupyter Server
с нужным количеством GPU.
Если необходимо обучение на более, чем 16 GPU, создайте Jupyter Server типа «Free» и отправляйте задачи обучения через client_lib.
Метод Job.submit()
(подробнее в разделе Библиотека client_lib или примере кода).
Автоматическое обучение в AutoML
Загрузите датасет в объектное хранилище S3
.
Cоздайте новую задачу AutoML нажав кнопку
и укажите дополнительные параметры запуска (подробнее в разделе AutoML).
Получите сериализованную модель (формат pickle), доступную в объектном хранилище S3
и готовую к дальнейшему использованию в рамках сервиса Deployments
.
Развертывание моделей в Deployments
Обучите модель на сервисе Environments
или AutoML
.
Перенесите обученную модель в объектное хранилище S3
(подробнее в разделе Управление данными).
Создайте serving-script, описывающий работу с моделью, и загрузите его в объектное хранилище S3
.
Нажмите
, укажите ссылку на модель на S3 и ссылку на serving-скрипт, затем создайте Docker-образ.
Настройте конфигурацию ресурсов и разместите Деплой
на высокопроизводительных мощностях Cloud (подробнее в разделе Развертывание модели).