Термины и сокращения

API

Application Programming Interface — программный интерфейс приложений, описание способов для обмена данными между приложениями.

SSH

Secure Shell — сетевой протокол для удаленного управления операционной системой и туннелирования TCP-соединений. Шифрует весь трафик, включая передаваемые пароли.

CSV

Comma-Separated Values — текстовый формат для представления табличных данных.

HDFS

Hadoop Distributed File System — файловая система, предназначенная для хранения файлов больших размеров, поблочно распределенных между узлами вычислительного кластера.

HTTP

HyperText Transfer Protocol — протокол передачи данных по схеме «запрос-ответ».

GPU

Graphics processing unit — графический процессор, предназначенный для обработки графики и высокопроизводительных вычислений.

JSON

JavaScript Object Notation — текстовый формат обмена данными, основанный на JavaScript.

REST

Representational State Transfer — набор архитектурных принципов для построения распределенных масштабируемых веб-сервисов.

NFS

Горячее хранилище в регионах Christofari.V100, Christofari.A100, Cloud.Region.CPU (CPU) и Cloud.Region.A100 (GPU Tesla A100). Точкой монтирования NFS-хранилища по умолчанию является текущая рабочий каталог пользователя /home/jovyan.

Jupyter Server

Серверное приложение, позволяющее запускать Jupyter Notebook и Jupyter Lab — командные графические оболочки для интерактивных вычислений.

Batch prediction

Процесс инференса модели без осуществления деплоя с использованием исходных данных в виде ссылки на датасет на бакете пользователя, и отгрузки результата на бакет пользователя.

Docker registry

Хранилище репозиториев с образами, которые загружены на платформу ML Space и могут быть использованы в модулях ML Space.

Асинхронный инференс

Процесс выполнения запросов ML-моделью, при котором входящие запросы ставятся в очередь и обрабатываются асинхронно (не дожидаясь подтверждения о полном завершении задач предыдущего шага). Асинхронный инференс необходимо использовать для запросов с большим объемом вычислений, обработки больших объемов данных, длительным временем обработки и при наличии требований работы в режиме реального времени. Асинхронная обработка также позволяет оптимальным образом реализовать преимущества автомасштабирования.

Бакет

Логическая сущность, соответствующая экземпляру облачного объектного хранилища, которая служит для хранения и организации объектов.

Датасет
Dataset

Набор данных, используемых в том числе, для решения задач машинного обучения. Датасетами, как правило, являются наборы табличных данных. Также датасет может состоять из коллекции(й) файлов или документов, сопровождаемой метками или без них.

Деплой
Deploy

Процесс развертывания сервиса, осуществляющего инференс модели или выполняющего другие функции, в тестовую или промышленную эксплуатацию.

Задача обучения

Сущность, порождающая запуск одного или группы контейнеров, в которых производится распределенное обучение модели машинного обучения.

Инференс

Процесс исполнения обученных моделей машинного обучения для получения предсказаний на данных, поданных на вход модели.

Источник

Сегмент, из которого передается информация.

Место назначения

Сегмент, в который осуществляется перенос информации.

Объект

Единица хранения данных. Объектами могут быть отдельные файлы (один или несколько) и папки.

Коннектор

Совокупность драйвера и настроек подключения к инстансам, обладающим возможностью хранения файлов (например, к базам данных и файловым хранилищам).

Перенос

Процесс подключения к источнику и перемещение данных в место назначения согласно заданным правилам и с определенной периодичностью.

Правило переноса

Задача на выгрузку данных из указанного источника и трансфер этих данных в предполагаемое место назначения с возможностью настройки периодичности переноса.

Регион размещения вычислительных ресурсов

Группа ресурсов, доступная для использования в модулях платформы ML Space. Регионы различаются по доступности в модулях, типу и количеству предоставляемых ресурсов, подключенным хранилищам и тарификации. На платформе доступны следующие регионы:

  • Cloud.Region.CPU (CPU).

  • Cloud.Region.A100 (GPU Tesla A100).

  • Christofari.V100.

  • Christofari.A100.

Под

Объект Kubernetes, представляющий собой группу из одного или нескольких контейнеров Docker и совместно используемых ресурсов для этих контейнеров. Является минимальной единицей, необходимой для осуществления инференса в модуле Deployments.

Окружение
Environment

Подготовленная среда для осуществления процесса обучения моделей или запуска другого кода в интерактивном режиме. Окружения в платформе ML Space представляют собой запущенные контейнеры Docker с установленными Jupyter Server, необходимыми фреймворками машинного обучения и вспомогательными библиотеками Python.

Препроцессинг

Процесс предварительной обработки данных, включающий одну или несколько стадий: очистки, заполнения пропусков, создания или удаления признаков, слияния, трансформации данных.

Образ

Неизменяемая сущность Docker, из которой разворачивается контейнер с окружением или сервисом. Его можно рассматривать как набор файлов, необходимых для запуска и работы приложения. Алгоритм сборки образа описывается в файле dockerfile.

Базовый образ

Образ, содержащий набор фреймворков и библиотек для использования в одном из модулей ML Space, заранее созданный командой ML Space. Базовые образы могут служить в качестве основы для создания кастомных образов, или использоваться непосредственно для запуска окружений и задач.

Образ для задачи обучения

Образ, предназначенный для запуска задач обучения в модуле Environments.

Кастомный образ

Образ, собранный пользователем самостоятельно средствами платформы ML Space или загруженный на платформу ML Space, сохраняющий/наследующий/необходимый для использования в модулях ML Space набор фреймворков и библиотек.

Контейнер

Стандартная единица программного обеспечения, в которую упаковано приложение со всеми необходимыми для его работы зависимостями — кодом приложения, средой запуска, системными инструментами, библиотеками и настройками. Контейнеры разворачиваются из образов.

Машинное обучение

Процесс создания математических моделей данных, которые обладают возможностью решать задачи прогнозирования без использования непосредственных инструкций за счёт применения решений множества сходных задач.