Вопросы и ответы про Data Catalog

Вопросы в этом разделе

Зачем нужен Data Catalog?

Data Catalog включает объектное хранилище S3 и Файловый менеджер (вкладка Обзор хранилища) на базе объектного хранилища для совместной работы с данными. Также в него входит Data transfer service, который обеспечивает обмен данных между системными хранилищами платформы (S3 и NFS) и перенос данных с заданной периодичностью из внешних источников (файловых систем на базе S3 и баз данных).

Как я могу загрузить данные в хранилище Data Catalog с моего компьютера?

Данные можно загрузить через интерфейс Файлового менеджера (вкладка Обзор хранилища), см. Загрузка и хранение данных. Для загрузки данных с пользовательского компьютера можно также воспользоваться сторонними клиентскими приложениями с графическим интерфейсом, например, Cyberduck или S3 Browser.

Как я могу загрузить данные в хранилище Data Catalog из внешних источников?

Посредством Data transfer service вы можете подключить коннектор к популярным базам данных (PostgreSQL, MySQL, MS SQL, Oracle DB) и файловым системам на базе S3 (Amazon S3, Google Сloud Storage) и настроить правила и периодичность переноса из этих источников для любых типов файлов, самого разного объема: от мегабайтов до петабайтов. Прогресс и результат переноса можно посмотреть на вкладке История переносов в Data transfer service.

Можно ли работать с хранилищем S3 через VPN?

При работе через VPN может наблюдаться нестабильная работа хранилища S3. Возможно возникновение проблем со скачиванием/загрузкой файлов.

Как переложить данные на S3, используя Cyberduck?

Выполните следующие действия:

  1. В окне программы Cyberduck выберите Новое подключение.

  2. В выпадающем списке выберите Amazon S3.

  3. В поле Cервер введите Endpoint. Обратите внимание, что Endpoint вводим без https://.

  4. В поле Access Key ID введите S3 access key ID.

  5. В поле Secret Access Key введите S3 security key.

  6. В поле Path введите имя бакета S3.

Подробнее про получение параметров S3 access key ID, S3 security key, S3 имя бакета см. в разделе Credentials S3 и копирование пути к объекту на S3.

Как выдать права для скачивания данных, загруженных другим пользователем на S3?

Для выдачи прав на скачивание данных, загруженных другим пользователем на S3, нужно выполнить команду:

aws --endpoint-url=<endpoint> s3 cp --recursive --acl authenticated-read s3://<bucket>/<folder>/ s3://<bucket>/<folder>/ --metadata-directive REPLACE

Что делать, если при скачивании из S3 возникает ошибка «access denied»?

Использовать Data transfer service для корректного переноса файлов.

При переносе через client_lib или сторонние инструменты файлы будут доступны для скачивания только пользователю, который выполнил перенос.

Для обеспечения доступности файлов при использовании сторонних инструментов (Cyberduck и S3 Browser) необходимо указывать заголовок:

x-amz-acl: authenticated-read

Какие форматы данных я могу хранить в хранилище Data Catalog?

Вы можете загружать и хранить данные в любом формате.

Как использовать данные из хранилища Data Catalog для обучения?

Для обучения моделей пользовательские данные с S3 необходимо перенести в горячее хранилище NFS ML Space. Это можно сделать через интерфейс объектного хранилища S3 (вкладка Обзор хранилища), выбрав необходимые объекты чекбоксами и нажав кнопку Отправить на NFS, выбрать целевое хранилище и нажать Подтвердить. Второй вариант заключается в создании Правила переноса в Data transfer service. Прогресс и результат переноса можно посмотреть в Истории переносов в Data transfer service. Данные на NFS можно просмотреть через интерфейс Jupyter Notebook/JupyterLab в модуле Environments. Также возможность переноса между S3 и NFS доступна через командную строку (Terminal) Jupyter Notebook. Для этого необходимо запустить из командной строки команды s3-save-credentials для передачи параметров доступа к бакету S3, и команду s3-copy, которая вызывает задачу копирования данных с S3 на NFS и обратно.

Какой тип дисков на NFS-сервере?

На NFS-сервере SSD диски. Подробнее смотрите в Параметры оборудования.

Какие хранилища используются в регионах размещения вычислительных ресурсов при работе с платформой?

Хранилище S3 едино для всех регионов размещения вычислительных ресурсов.

При работе с платформой ML Space для каждого региона размещения вычислительных ресурсов используется независимое хранилище NFS. Например:

  • При создании Jupyter Server в регионе Christofari.V100 используется хранилище NFS, которое относится к региону Christofari.V100.

  • При создании Jupyter Server в регионе Christofari.A100 используется хранилище NFS, которое относится к региону Christofari.A100.

Как перенести данные с NFS одного региона на NFS другого кластера?

Для переноса данных между кластерами, воспользуйтесь S3, как промежуточным хранилищем. Напрямую между кластерами переносы не осуществляются.

Какие сторонние инструменты можно использовать для работы с S3 ML Space?

Для работы с S3 можно использовать:

Графические клиенты

S3 Browser CyberDuck WinSCP BucketAnywhere Консольные приложения

AWS CLI

S3cmd SDK

AWS SDK для Java

AWS SDK для JavaScript AWS SDK для .NET AWS SDK для PHP SDK для Python (boto)

FUSE

s3fs goofys

Подробнее про эти инструменты можно посмотреть в документации объектного хранилища S3.