Работа с данными
Работа с данными в рамках платформы ML Space осуществляется в следующих направлениях:
Загрузка данных.
Хранение данных.
Управление данными.
Миграция данных.
Пользователи могут загружать данные в объектное хранилище S3 из локальных и внешних источников. Объектное хранилище S3 является основным ресурсом для хранения большого объема данных. Это могут быть:
Датасеты
Serving-скрипты
Код обучения моделей
Изображения
Сериализованные модели AutoML
Другие данные, которые используются различными сервисами платформы
Над данными в хранилище можно производить различные операции: скачивать, удалять, просматривать превью, их текущую версию и свойства.
Управление данными подразумевает использование данных различными сервисами. Так для задач обучения данные из S3 можно перенести в горячее хранилище NFS на кластере Christofari. NFS обеспечивает быстрый доступ к данным во время обучения моделей.
Миграция пользовательских данных включает:
Обмен данными между разными S3 бакетами в рамках одного или разных workspace.
Обмен данными между внутренними хранилищами платформы ML Space — S3 и NFS.
Перенос данных из внешних баз данных и файловых систем в Data catalog ML Space.