Термины и сокращения

API

Application Programming Interface — программный интерфейс приложений, описание способов для обмена данными между приложениями.

SSH

Secure Shell — сетевой протокол для удаленного управления операционной системой и туннелирования TCP-соединений. Шифрует весь трафик, включая передаваемые пароли.

CSV

Comma-Separated Values — текстовый формат для представления табличных данных.

HDFS

Hadoop Distributed File System — файловая система, предназначенная для хранения файлов больших размеров, поблочно распределенных между узлами вычислительного кластера.

HTTP

HyperText Transfer Protocol — протокол передачи данных по схеме «запрос-ответ».

GPU

Graphics processing unit — графический процессор, предназначенный для обработки графики и высокопроизводительных вычислений.

JSON

JavaScript Object Notation — текстовый формат обмена данными, основанный на JavaScript.

REST

Representational State Transfer — набор архитектурных принципов для построения распределенных масштабируемых веб-сервисов.

NFS

Горячее хранилище на кластере Christofari. Точкой монтирования NFS и кластера по умолчанию является текущая рабочий каталог пользователя /home/jovyan.

Асинхронный инференс

Процесс выполнения запросов ML-моделью, при котором входящие запросы ставятся в очередь и обрабатываются асинхронно (не дожидаясь подтверждения о полном завершении задач предыдущего шага). Асинхронный инференс необходимо использовать для запросов с большим объемом вычислений, обработки больших объемов данных, длительным временем обработки и при наличии требований работы в режиме реального времени. Асинхронная обработка также позволяет оптимальным образом реализовать преимущества автомасштабирования.

Инференс

Процесс исполнения обученных моделей машинного обучения для получения предсказаний на данных, поданных на вход модели.

Бакет

Логическая сущность, соответствующая экземпляру облачного объектного хранилища, которая служит для хранения и организации объектов.

Источник

Сегмент, из которого передается информация.

Место назначения

Сегмент, в который осуществляется перенос информации.

Объект

Единица хранения данных. Объектами могут быть отдельные файлы (один или несколько) и папки.

Коннектор

Совокупность драйвера и настроек подключения к инстансам, обладающим возможностью хранения файлов (например, к базам данных и файловым хранилищам).

Перенос

Процесс подключения к источнику и перемещение данных в место назначения согласно заданным правилам и с определенной периодичностью.

Правило переноса

Задача на выгрузку данных из указанного источника и трансфер этих данных в предполагаемое место назначения с возможностью настройки периодичности переноса.

Регион размещения вычислительных ресурсов

Кластер, на котором будет развернуто окружение. Регионы различаются по типу и количеству предоставляемых ресурсов, подключенным хранилищам и тарификации.

Pod

Объект Kubernetes, представляющий собой группу из одного или нескольких контейнеров Docker и совместно используемых ресурсов для этих контейнеров. Является минимальной сущностью, необходимой для осуществления инференса в модуле Deployments.

Окружение
Environment

Подготовленная среда для осуществления процесса обучения моделей или запуска другого кода в интерактивном режиме. Окружении в платформе ML Space представляют собой запущенные контейнеры Docker с установленными Jupyter Server, необходимыми фреймворками машинного обучения и вспомогательными библиотеками Python.

Jupyter Server

Серверное приложение, позволяющее запускать Jupyter Notebook и Jupyter Lab — командные графические оболочки для интерактивных вычислений.

Задача обучения

Сущность, порождающая запуск одного или группы контейнеров, в которых производится распределенное обучение модели машинного обучения.

Деплой
Deploy

Процесс развертывания сервиса, осуществляющего инференс модели или выполняющего другие функции, в тестовую или промышленную эксплуатацию.

Препроцессинг

Процесс предварительной обработки данных, включающий одну или несколько стадий: очистки, заполнения пропусков, создания или удаления признаков, слияния, трансформации данных.

Образ

Неизменяемая сущность Docker, из которой разворачивается контейнер с окружением или сервисом. Его можно рассматривать как набор файлов, необходимых для запуска и работы приложения. Алгоритм сборки образа описывается в файле dockerfile.

Базовый образ

Образ, содержащий набор фреймворков и библиотек для использования в одном из модулей ML Space, заранее созданный командой ML Space. Базовые образы могут служить в качестве основы для создания кастомных образов, или использоваться непосредственно для запуска окружений и задач.

Образ для задачи обучения

Образ, предназначенный для запуска задач обучения в модуле Environments.

Кастомный образ

Образ, собранный пользователем самостоятельно средствами платформы ML Space, или загруженный на платформу ML Space, сохраняющий/наследующий необходимый для использования в модулях ML Space набор фреймворков и библиотек.

Docker registry

Хранилище репозиториев с образами, которые загружены на платформу ML Space и могут быть использованы в модулях ML Space.

Контейнер

Стандартная единица программного обеспечения, в которую упаковано приложение со всеми необходимыми для его работы зависимостями — кодом приложения, средой запуска, системными инструментами, библиотеками и настройками. Контейнеры разворачиваются из образов.

Машинное обучение

Процесс создания математических моделей данных, которые обладают возможностью решать задачи прогнозирования без использования непосредственных инструкций за счёт применения решений множества сходных задач.

Batch prediction

Процесс инференса модели без осуществления деплоя с использованием исходных данных в виде ссылки на датасет на бакете пользователя, и отгрузки результата на бакет пользователя.