DataHub
Хаб предобученных моделей, датасетов и контейнеров.
В этом разделе
Работа с моделями и датасетами
Модели и датасеты можно перенести по кнопке Добавить на S3 хранилище ML Space. Для этого необходимо выбрать workspace и бакет, а также путь для переноса артефактов.
Работа с моделями ruGPT-3
Модель ruGPT-3 (13 миллиардов параметров) можно развернуть на сервисе Deployments. Для этого:
Нажать Создать деплой на карточке модели.
Задать необходимое количество pods.
Нажать Создать деплой. Деплой будет создан автоматически.
Работа с датасетом Golos
Датасет Golos — это размеченный вручную набор речевых данных на русском языке, включающий 1240 часов аудиоданных, а также обученную на них модель распознавания речи, которая показывает точность, сравнимую с человеческой. Датасет доступен к добавлению на бакет S3. Для этого:
Нажать кнопку Добавить.
Выбрать workspace, bucket, место добавления датасета на S3.
Нажать кнопку Добавить.
Работа с контейнерами
Контейнеры можно развернуть в виде пользовательского окружения (Jupyter Server) в Environments. Для этого нажмите на иконку в правом верхнем углу карточки контейнера.
Для дальнейшей работы с контейнерами в ML Space необходимо нажать на иконку в правом верхнем углу карточки контейнера и развернуть Jupyter Server на необходимой конфигурации.
Также вы можете:
Скачать контейнер, используя консольную утилиту Docker CLI, с помощью команды pull.
Добавить контейнер в репозиторий Docker registry с помощью команды push. Обратите внимание на то, что в наименовании репозитория должен быть префикс «jupyter-». Это позволит развернуть контейнер в виде пользовательского окружения (Jupyter Server) в Environments.
Работа со специальными контейнерами Nvidia NGC (NeMo, RAPIDS и др.)
В маркетплейсе доступны для работы специальные контейнеры Nvidia NGC (NeMo, RAPIDS и др.). Контейнеры адаптированы для использования в ML Space и решения задач обработки естественного языка (NLP), компьютерного зрения (CV), работы с данными (ETL), развертывания ML-моделей в облаке и многих других кейсов.
Контейнеры можно развернуть в виде пользовательского окружения (Jupyter Server) в Environments нажав на иконку в правом верхнем углу карточки контейнера и выбрав необходимую конфигурацию.
Подача заявки на размещение
Реализована возможность разместить контент (датасет, модель, контейнер) в рамках DataHub. При размещении контента ознакомьтесь с условиями лицензионного соглашения.
Для размещения контента:
Перейдите в раздел Мои заявки.
Выберите тип данных, загрузите данные и нажмите Продолжить.
Добавьте название и подробное описание.
Добавьте теги (введите текст и нажмите Enter, чтобы добавить текст).
Загрузите изображение для контентной карточки.
Заполните метадату.
Ознакомьтесь с условиями использования и прочтите лицензионное соглашение.
Отправьте заявку на модерацию. По результатам модерации будет направлено уведомление.