Вопросы и ответы про AutoML

На что влияет указание размера тестовой выборки?

Тестовая выборка позволяет оценить качество модели на независимом наборе данных. Рекомендуется создать тестовую выборку для получения достоверной оценки. Стандартное разбиение осуществляется в пропорции 80/20. Увеличение размера тестовой выборки уменьшает размер обучающей выборки, что может привести к снижению качества модели. Если оценка на тестовой выборке не требуется (размер тестовой выборки равен 0), будет получена оценка качества модели на основе OOF-кроссвалидации.

Как остановить выполнение задачи AutoML?

Чтобы остановить задачу AutoML необходимо:

  1. Перейти на вкладку Задачи и окружения.

  2. Найти задачу которую необходимо остановить на вкладке Задачи.

  3. Из меню Кнопка с тремя вертикальными точками выбрать кнопку остановки.

Как узнать, что обучение модели завершено?

После завершения обучения статус задачи изменится на «Завершена». В случае неудачного завершения задачи обучения ее статус изменится на «Ошибка». В обоих случаях информация о ходе обучения будет доступна в логах.

На что влияет тип модели? Возможен ли выбор другого типа?

В процессе работы сервис использует различные типы моделей, определяющие последовательность операций машинного обучения. Качество полученной модели зависит от выбранного типа модели и его настроек. Полученные модели возможно фильтровать по типам. В данный момент сервис поддерживает обучение с использованием следующих типов моделей:

  • TabularAutoML. Использование типа TabularAutoML позволяет работать с табличными данными без дополнительной обработки текстовых признаков.

  • Natural Language Processing (обработка естественных языков). Использование типа NLP позволяет:

    • Классифицировать тексты (classification) — отнесение текста к одной из контентных категорий по содержанию, решаемая задача — классификация.

    • Анализировать эмоциональную окраску (sentiment analysis) — идентификация превалирующего эмоционального мнения — позитивного/негативного/нейтрального. Решаемая задача — задача многоклассовой классификации.

  • Computer Vision (компьютерное зрение). Использование типа CV позволяет:

    • Классифицировать фотографии для систем хранения.

    • Обучать все типы задач, доступные для базового TabularAutoML: регрессия, классификация (бинарная и мультиклассовая).

    Для обучения на типе CV картинки должны быть в форматах: PNG, JPEG. В файле с датасетом путь к изображению должен быть указан как "archive_name"/"path"/"to"/"image"..../"img.jpeg".

  • Computer Vision Advanced. Использование типа CV Advanced на базе алгоритма обнаружения целей позволяет:

    • Детектировать объекты.

    • Сегментировать объекты.

    • Реализовывать дополнительные задачи визуального распознавания, например Pose Estimation.

    Для обучения на типе CV картинки должны быть в форматах: PNG, JPEG.

  • Time Series (временные ряды). Фреймфорк обучения моделей для прогнозирования временных рядов. Он позволяет:

    • Автоматически выявлять признаки в датасетах.

    • Обучать модели для прогнозирования значений на задаваемой пользователем длине предсказания.