Обзор платформы ML Space

ML Space — платформа для ML-разработки полного цикла и совместной работы DS-команд над созданием и развертыванием моделей машинного обучения. Платформа позволяет ускорить, оптимизировать и упростить процесс обучения моделей, препроцессинга данных и развертывания моделей на высокопроизводительной инфраструктуре с целью последующего обращения к этим моделям для распознавания или прогнозирования по новым данным.

Платформа ML Space предоставляет пользователям следующие преимущества в части DS:

  • Возможность командной работы с общим хранилищем.

  • Возможность распределенного обучения на 1000+ GPU.

  • Высокопроизводительные вычисления на базе CPU: процессоры Intel® Xeon® Platinum.

  • Удобная работа с данными и артефактами машинного обучения (данные и ноутбуки сохраняются даже после удаления Jupyter Server, настройка автоматической синхронизации данных между S3 и NFS с помощью правил переноса.

  • Оптимизация и упрощение работы за счет AutoML и Deployments.

  • Встроенные инструменты мониторинга (визуализация результатов экспериментов, сравнение и визуализация результатов обучения).

Платформа включает следующие модули и сервисы:

  • Data catalog — совместная работа с артефактами ML. Включает набор сервисов для трансфера, хранения, анализа, управления доступом и жизненным циклом данных и артефактов машинного обучения (датасетов, моделей, Docker-образов и др.).

  • Environments — препроцессинг данных с помощью кластера Spark, а также обучение моделей в рамках привычных Jupyter Notebook или JupyterLab. На сервисе есть все необходимые утилиты для мониторинга загрузки ресурсов, моделей и эксперимент-менеджмента.

  • Deployments — тестирование, развертывание (деплой) и мониторинг подготовленных моделей машинного и глубокого обучения на высокопроизводительной инфраструктуре для последующего внедрения их в микросервисы, функции и бизнес-приложения.

  • AutoML — автоматическое построение и обучение моделей на пользовательских данных на базе библиотеки LightAutoML.

Базовые действия пользователя в модулях и сервисах платформы приведены в разделе Начало работы.