Работа с данными

Работа с данными в рамках платформы ML Space осуществляется в следующих направлениях:

  • Загрузка данных.

  • Хранение данных.

  • Управление данными.

  • Миграция данных.

Пользователи могут загружать данные в объектное хранилище S3 из локальных и внешних источников. Объектное хранилище S3 является основным ресурсом для хранения большого объема данных. Это могут быть:

  • Датасеты

  • Serving-скрипты

  • Код обучения моделей

  • Изображения

  • Сериализованные модели AutoML

  • Другие данные, которые используются различными сервисами платформы

Над данными в хранилище можно производить различные операции: скачивать, удалять, просматривать превью, их текущую версию и свойства.

Управление данными подразумевает использование данных различными сервисами. Так для задач обучения данные из S3 можно перенести в горячее хранилище NFS на кластере Christofari. NFS обеспечивает быстрый доступ к данным во время обучения моделей.

Миграция пользовательских данных включает:

  • Обмен данными между разными S3 бакетами в рамках одного или разных workspace.

  • Обмен данными между внутренними хранилищами платформы ML Space — S3 и NFS.

  • Перенос данных из внешних баз данных и файловых систем в Data catalog ML Space.