DataHub

Хаб предобученных моделей, датасетов и контейнеров.

Работа с моделями и датасетами

Модели и датасеты можно перенести по кнопке Добавить на S3 хранилище ML Space. Для этого необходимо выбрать workspace и бакет, а также путь для переноса артефактов.

Работа с моделями ruGPT-3

Модель ruGPT-3 (13 миллиардов параметров) можно развернуть на сервисе Deployments. Для этого:

  1. Нажать Создать деплой на карточке модели.

  2. Задать необходимое количество подов.

  3. Нажать Создать деплой. Деплой будет создан автоматически.

Работа с датасетом Golos

Датасет Golos — это размеченный вручную набор речевых данных на русском языке, включающий 1240 часов аудиоданных, а также обученную на них модель распознавания речи, которая показывает точность, сравнимую с человеческой. Датасет доступен к добавлению на бакет S3. Для этого:

  1. Нажать кнопку Добавить.

  2. Выбрать workspace, bucket, место добавления датасета на S3.

  3. Нажать кнопку Добавить.

Работа с контейнерами

Контейнеры можно развернуть в виде пользовательского окружения (Jupyter Server) в Environments. Для этого нажмите на иконку в правом верхнем углу карточки контейнера.

Для дальнейшей работы с контейнерами в ML Space необходимо нажать на иконку Новый Деплой из DataHub в правом верхнем углу карточки контейнера и развернуть Jupyter Server на необходимой конфигурации.

Также вы можете:

  • Скачать контейнер, используя консольную утилиту Docker CLI, с помощью команды pull.

  • Добавить контейнер в репозиторий Docker registry с помощью команды push. Обратите внимание на то, что в наименовании репозитория должен быть префикс «jupyter-». Это позволит развернуть контейнер в виде пользовательского окружения (Jupyter Server) в Environments.

Работа со специальными контейнерами Nvidia NGC (NeMo, RAPIDS и др.)

В маркетплейсе доступны для работы специальные контейнеры Nvidia NGC (NeMo, RAPIDS и др.). Контейнеры адаптированы для использования в ML Space и решения задач обработки естественного языка (NLP), компьютерного зрения (CV), работы с данными (ETL), развертывания ML-моделей в облаке и многих других кейсов.

Контейнеры можно развернуть в виде пользовательского окружения (Jupyter Server) в Environments нажав на иконку Новый Деплой из DataHub в правом верхнем углу карточки контейнера и выбрав необходимую конфигурацию.

Подача заявки на размещение

Реализована возможность разместить контент (датасет, модель, контейнер) в рамках DataHub. При размещении контента ознакомьтесь с условиями лицензионного соглашения.

Для размещения контента:

  1. Перейдите в раздел Мои заявки.

  2. Выберите тип данных, загрузите данные и нажмите Продолжить.

  3. Добавьте название и подробное описание.

  4. Добавьте теги (введите текст и нажмите Enter, чтобы добавить текст).

  5. Загрузите изображение для контентной карточки.

  6. Заполните метадату.

  7. Ознакомьтесь с условиями использования и прочтите лицензионное соглашение.

  8. Отправьте заявку на модерацию. По результатам модерации будет направлено уведомление.