Data transfer service

Data transfer service позволяет осуществлять:

  • Обмен данными между разными S3 бакетами в рамках одного или разных workspace.

  • Обмен данными между системными хранилищами платформы ML Space — S3 и NFS.

  • Обмен данными между системными хранилищами разных кластеров платформы ML Space.

  • Перенос данных из внешних баз данных и файловых систем в Data catalog ML Space.

Миграция данных реализована в рамках сервиса Data transfer service. Она осуществляется в ручном или автоматическом режиме по заданным правилам и с определенной периодичностью. Для переноса данных достаточно подключить коннектор к источнику данных, определить место назначения, настроить правила и периодичность переноса. Коннектор доступен для всех созданных Workspace. Правила переносов и История переносов данных отображаются на соответствующих вкладках и доступны для конкретных Workspace.

Коннекторы

В рамках сервиса пользователь может подключаться к различным локальным и внешним источникам данных. Подключение предполагает указание параметров доступа к конкретному источнику данных. Набор параметров подключения варьируется в зависимости от типа источника. Подключение реализуется с помощью предварительно настроенных коннекторов (вкладка Коннекторы).

Доступны следующие типы коннекторов:

Системные

S3 ML Space (для переносов S3/S3), NFS ML Space (для переносов S3/NFS).

Внешние
К файловым системам
  • На протоколе S3: Amazon S3, Google Cloud Storage S3, Custom S3 (для бакетов SberCloud и S3-хранилищ пользователей).

  • HDFS (Hadoop Distributed File System) — файловая система, предназначенная для хранения файлов больших размеров, поблочно распределенных между узлами вычислительного кластера.

Важно

Сервис поддерживает только Hadoop RPC Protocol версии 9.

К базам данных
  • PostgreSQL

  • MySQL

  • MS SQL

  • Oracle DB

  • ClickHouse

Названия и описания подключений сохраняются в таблице Коннекторы, которая отображается в каждом workspace. При создании правила переноса источник и место назначения выбирается из списка подключений.

На вкладке Коннекторы можно создавать подключения (коннекторы) к источникам данных, а также управлять существующими подключениями (редактировать, удалять, обновлять, фильтровать, заносить в избранное).

Создание коннектора

Для создания нового подключения (коннектора) нажмите кнопку Создать подключение. Откроется диалог создания нового коннектора. Необходимо указать:

  • Название подключения: уникальное имя коннектора для последующей идентификации в Data catalog.

  • Источник: база данных или файловая система, откуда переносятся данные.

  • Параметры подключения: параметры доступа подключения (коннектора) к выбранному источнику данных (варьируются в зависимости от источника, см. ниже).

Источник

Параметры подключения

MySQL, PostgreSQL, MS SQL, Oracle DB, ClickHouse

  • IP-адрес или DNS-имя хоста

  • Порт

  • Пользователь

  • Пароль

  • База данных

  • Схема (опционально)

S3-хранилища Amazon, Google Сloud, Custom S3 (подробнее Параметры подключения к разным S3)

  • Endpoint

  • Бакет S3 (имя бакета)

  • Access key ID

  • Security key

HDFS

  • IP-адрес или DNS-имя хоста HDFS

  • Порт

  • Имя пользователя

  • Пароль

  • Namenode principal

  • Kerberos domain

После создания коннектор отображается в таблице в списке пользовательских подключений для каждого workspace.

Параметры подключения к разным S3

В разделе приведены ссылки на документацию разработчика, в которой описаны параметры, требуемые для подключения к S3.

Источник

Параметры подключения

S3-хранилища Amazon, Google Сloud, Custom S3

Операции над коннекторами

Пользователь может проверить работу коннектора, нажав на кнопку Test Кнопка Test. Если параметры подключения (коннектора) указаны верно, коннектор подключится к источнику данных (статус Success). Если параметры указаны некорректно, тестовый запуск завершится со статусом Failed.

Для остановки подключения нажмите кнопку Stop Кнопка Stop. Подключение перейдет в статус неактивного (Inactive).

При желании коннектор можно отредактировать, просмотреть логи работы, удалить.

Чтобы выполнить операции над подключением, перейдите в меню Кнопка с тремя вертикальными точками:

  • Выберите команду Редактировать подключение для внесения изменений в параметры.

  • Выберите Логи для просмотра логов. В случае ошибки в логах можно найти ее причину и устранить.

  • Выберите Удалить, если коннектор с указанным источником больше не потребуется.

Возможно отфильтровать для отображения только те записи, которые соответствуют заданным условиям. Для добавления фильтра по типу записи нажмите кнопку Кнопка Воронка. Затем — Добавить фильтр. Отфильтруйте данные в таблице правил переноса.

Записи в разделе можно добавлять в избранное. Для добавления в избранное нажмите Кнопка Избранное напротив требуемой строки.

Правила переноса данных

Для создания правила переноса перейдите на вкладку Правила переносов и нажмите кнопку Создать правило. Откроется диалог конфигурации правила переноса.

  1. В поле Задайте название укажите название переноса и его описание, которые будут отображаться в таблице правил.

  2. В поле Выберите подключение укажите коннектор для подключения к источнику данных (см. Коннекторы) и задайте путь к источнику (это может быть путь на S3, NFS или SQL-запрос).

  3. В поле Выберите место назначения выберите S3 бакет или NFS, укажите место назначения.

  4. В поле Вариант переноса выберите предпочтительный вариант:

    • Добавлять все к существующим данным.

    • Добавлять только новые записи.

    • Полная синхронизация. Укажите время и периодичность выполнения переноса. Такой вариант переноса доступен только для переносов S3 → NFS, S3 → HDFS, S3 → S3, NFS → NFS, HDFS → NFS.

  5. Нажмите Сохранить.

После сохранения правило появится в таблице переносов. При желании правило можно:

  • Запустить/остановить (если выбрана синхронизация с периодичностью).

  • Отредактировать.

  • Создать новую версию.

  • Просмотреть логи переноса.

  • Удалить.

Чтобы выполнить операции над правилом переноса, перейдите в меню Кнопка с тремя вертикальными точками:

  • Выберите команду Редактировать правило для изменения параметров переноса данных. Для правила, к которому был выбран вариант Выполнить сейчас, редактирование не приведет к повтороному выполнению.

  • Выберите команду Создать новую версию для повторения правила с минимальными правками.

  • Выберите Логи для просмотра логов переноса. В логе показаны все переносы, совершенные в рамках этого правила. Возможно просмотреть ошибки в правиле, в случае их возникновения.

  • Выберите Удалить, если переносов из указанного источника больше не потребуется.

Кликнув по правилу переноса, можно посмотреть всю историю миграции данных между источником и местом назначения в рамках данного правила.

Важно

Логи становятся доступными после завершения переноса.

Операции над правилами

Пользователь может запустить действие, нажав на кнопку Кнопка возобновления для правил переноса и истории переноса. Для остановки действия нажмите кнопку Кнопка Stop. Действие будет остановлено.

Возможно отфильтровать для отображения только те записи, которые соответствуют заданным условиям. Для добавления фильтра по типу записи нажмите кнопку Кнопка Воронка. Затем — Добавить фильтр. Отфильтруйте данные в таблице правил переноса.

Записи в разделе можно добавлять в избранное. Для добавления в избранное нажмите Кнопка Избранное напротив требуемой строки.

Пользователь может удалить правило, для этого:

  1. Выберите запись, которую необходимо удалить, отметив ее чекбоксом.

  2. Нажмите на иконку Кнопка удаления в соответствующей строке списка.

  3. В появившемся диалоговом окне подтвердите действие нажатием на кнопку Подтвердить.

История переносов данных

В Истории переносов отображаются все переносы, построенные на основе Правил переносов и Коннекторов. Переносы можно отфильтровать по выбранному Правилу переноса или Коннектору. История переносов также отражает переносы между хранилищами ML Space S3 / NFS, S3 / S3 и NFS / NFS.

После запуска правила переноса в Истории переносов появляется прогресс переноса.

../_images/s__progr-bar.ru.png

При желании можно просмотреть логи истории переносов. Для этого перейдите в меню Кнопка с тремя вертикальными точками и выберите Логи. В случае ошибки лог истории переносов позволяет отследить файл при переносе которого произошла ошибка.

Возможно отфильтровать для отображения только те записи, которые соответствуют заданным условиям. Для добавления фильтра по типу записи нажмите кнопку Кнопка Воронка. Затем — Добавить фильтр. Отфильтруйте данные в таблице правил переноса.

Пользователь может удалить запись в истории переносов, для этого:

  1. Выберите запись, которую необходимо удалить, отметив ее чекбоксом.

  2. Нажмите на иконку Кнопка удаления в соответствующей строке списка.

  3. В появившемся диалоговом окне подтвердите действие нажатием на кнопку Подтвердить.

Перенос данных между workspace через Data transfer service

Для переноса данных между workspace необходимо:

  • Выбрать бакет S3 или папку на NFS из разделов S3 ML Space или NFS ML Space в диалоге создания Правила переноса в списке подключений.

  • Указать в источнике путь на S3/NFS до объектов переноса.

  • Выбрать бакет и путь на S3 ML Space или папку и путь NFS ML Space в качестве места назначения.

Копирование путей до папок и файлов

Чтобы скопировать путь до папки на S3 ML Space нажмите Кнопка копирования пути до объекта в панели навигации хранилища. Чтобы скопировать путь до файла, нажмите Кнопка с тремя вертикальными точками, выберите Свойства и скопируйте URL, нажав Кнопка копирования пути до объекта.

Чтобы скопировать путь до папки или файла на NFS ML Space:

  • В интерфейсе JupyterLab кликните по объекту правой кнопкой мыши и нажмите Copy path. При этом будет скопирован относительный путь до папки/файла, например quick-start/README.md.

  • В Jupyter Notebook зайдите в терминал и выполните команду pwd, затем скопируйте путь. При этом будет скопирован абсолютный путь до папки/файла, например /home/jovyan/quick-start.

Перенос данных между кластерами через Data transfer service

Важно

При переносе с S3 на NFS требуется указать кластер назначения.

Для переноса данных между кластерами (регионами размещения ресурсов) необходимо:

  • Выбрать бакет S3 или папку NFS из разделов S3 ML Space или NFS ML Space в диалоге создания Правила переноса в списке подключений.

  • Указать в источнике требуемые пути на S3/NFS до объектов переноса.

  • Выбрать бакет и путь S3 ML Space или папку и путь NFS ML Space в качестве места назначения.

  • Выбрать периодичность переноса.

  • Нажать Сохранить.