Быстрый старт

Цель машинного обучения — на основе существующих данных (датасетов) и, используя необходимые алгоритмы и вычислительные среды, создать систему предсказания либо другой сервис (перевода, распознавания лиц, анализа текстов и других).

До начала работы с платформой ML Space пользователю рекомендуется ознакомиться с такими темами, как основы машинного обучения, работа с датасетами, примеры применения, используя наши обучающие материалы и ролики по началу работы с платформой.

../_images/schm__getting-started-docs.svg

Работа с моделями машинного обучения состоят из следующих этапов:

  1. Подготовка данных. Цель этапа — создание корректного набора данных для обучения модели машинного обучения.

    На этом этапе осуществляется сбор, проверка, форматирование и загрузка на платформу ML Space данных, необходимых для обучения моделей. Собранные наборы данных (именуемые датасетами) готовятся к загрузке на платформу ML Space в форме таблиц и табличных данных, наборов картинок и фотографий с присвоенными тегами, наборов звуковых файлов, корпусов текстов, словарей и сопутствующих метаданных. Точность и полнота данных для обучения модели гарантирует высокое качество предсказания моделей. Подробнее см. Начало работы с платформой ML Space.

  2. Разработка скрипта для обучения модели. Цель этапа — создание / программирование алгоритма для обучения модели и развертывание среды для его выполнения.

    Этап может включать:

    • Выбор алгоритма обучения (включая выбор AutoML).

    • Создание окружения (Environments).

    • Разработка кода в Jupyter Notebook.

    При необходимости — создание файлов скриптов для управления потоками данных и обучения моделей.

    Подробнее см. Быстрый старт по работе с Environments.

  3. Обучение модели. Платформа ML Space предоставляет возможности обучения моделей машинного обучения:

    Для получения предсказаний модель по завершении обучения необходимо запустить платформе ML Space. Используйте функцию деплои для запуска моделей. Подробнее см. Быстрый старт по работе с Deployments.

  4. Менеджмент моделей. При обучении моделей как правило требуется обучение нескольких вариантов и выбор наиболее подходящего. Каждой модели соответствует свой набор параметров, включая датасеты, метрики, алгоритмы и т.д. Используйте сервис DataCatalog и хранилище S3 для хранения и управления версиями датасетов, моделей и результатов работы. Дополнительно пользователи ML Space могут использовать Коннекторы для загрузки данных (импорт/экспорт, обновление по расписанию), которые находятся в других хранилищах. Подробнее см. Коннекторы.