Вопросы и ответы про Data Catalog

Зачем нужен Data catalog?

Data catalog включает объектное хранилище S3 и Файловый менеджер (вкладка Обзор хранилища) на базе объектного хранилища для совместной работы с данными. Также в него входит Data transfer service, который обеспечивает обмен данных между системными хранилищами платформы (S3 и NFS) и перенос данных с заданной периодичностью из внешних источников (файловых систем на базе S3 и баз данных).

Как я могу загрузить данные в хранилище Data catalog с моего компьютера?

Данные можно загрузить через интерфейс Файлового менеджера (вкладка Обзор хранилища), см. Загрузка и хранение данных. Для загрузки данных с пользовательского компьютера можно также воспользоваться сторонними клиентскими приложениями с графическим интерфейсом, например, Cyberduck или S3 Browser.

Как я могу загрузить данные в хранилище Data catalog из внешних источников?

Посредством Data transfer service вы можете подключить коннектор к популярным базам данных (PostgreSQL, MySQL, MS SQL, Oracle DB) и файловым системам на базе S3 (Amazon S3, Google Сloud Storage), и настроить правила и периодичность переноса из этих источников для любых типов файлов, самого разного объема: от мегабайтов до петабайтов. Прогресс и результат переноса можно посмотреть на вкладке История переносов в Data transfer service.

Можно ли работать с хранилищем S3 через VPN?

При работе через VPN может наблюдаться нестабильная работа хранилища S3. Возможно возникновение проблем со скачиванием/загрузкой файлов.

Как переложить данные на S3, используя Cyberduck?

Выполните следующие действия:

  1. В окне Cyberduck выберите Новое подключение.

  2. В выпадающем списке выберите Amazon S3.

  3. В поле Cервер введите Endpoint. Обратите внимание, что Endpoint вводим без https://.

  4. В поле Access Key ID введите S3 access key ID.

  5. В поле Secret Access Key введите S3 security key.

  6. В поле Path введите имя бакета S3.

Подробнее про получение параметров S3 access key ID, S3 security key, S3 имя бакета см. в разделе Credentials S3 и копирование пути к объекту на S3

Какие форматы данных я могу хранить в хранилище Data catalog?

Вы можете загружать и хранить данные в любом формате.

Как использовать данные из хранилища Data catalog для обучения?

Для обучения моделей пользовательские данные с S3 необходимо перенести в горячее хранилище NFS ML Space. Это можно сделать через интерфейс объектного хранилища S3 (вкладка Обзор хранилища), выбрав необходимые объекты чекбоксами и нажав кнопку Отправить на NFS. Второй вариант заключается в создании Правила переноса в Data transfer service. Прогресс и результат переноса можно посмотреть в Истории переносов в Data transfer service. Данные на NFS можно просмотреть через интерфейс Jupyter Notebook/JupyterLab в модуле Environments. Также возможность переноса между S3 и NFS доступна через командную строку (Terminal) Jupyter Notebook. Для этого необходимо запустить из командной строки команды s3-save-credentials для передачи параметров доступа к бакету S3, и команду s3-copy, которая вызывает задачу копирования данных с S3 на NFS и обратно.

Какой тип дисков на NFS-сервере?

На NFS-сервере SSD диски. Подробнее смотрите в Параметры оборудования.