Вопросы и ответы про AutoML
Вопросы в этом разделе
На что влияет указание размера тестовой выборки?
Тестовая выборка позволяет оценить качество модели на независимом наборе данных. Рекомендуется создать тестовую выборку для получения достоверной оценки. Стандартное разбиение осуществляется в пропорции 80/20. Увеличение размера тестовой выборки уменьшает размер обучающей выборки, что может привести к снижению качества модели. Если оценка на тестовой выборке не требуется (размер тестовой выборки равен 0), будет получена оценка качества модели на основе OOF-кроссвалидации.
Как остановить выполнение задачи AutoML?
Чтобы остановить задачу AutoML необходимо:
Перейти на вкладку Задачи и окружения.
Найти задачу которую необходимо остановить на вкладке Задачи.
Из меню
выбрать кнопку остановки.
Как узнать, что обучение модели завершено?
После завершения обучения статус задачи изменится на «Завершена». В случае неудачного завершения задачи обучения ее статус изменится на «Ошибка». В обоих случаях информация о ходе обучения будет доступна в логах.
На что влияет тип модели? Возможен ли выбор другого типа?
В процессе работы сервис использует различные типы моделей, определяющие последовательность операций машинного обучения. Качество полученной модели зависит от выбранного типа модели и его настроек. Полученные модели возможно фильтровать по типам. В данный момент сервис поддерживает обучение с использованием следующих типов моделей:
TabularAutoML. Использование типа TabularAutoML позволяет работать с табличными данными без дополнительной обработки текстовых признаков.
Natural Language Processing (обработка естественных языков). Использование типа NLP позволяет:
Классифицировать тексты (classification) — отнесение текста к одной из контентных категорий по содержанию, решаемая задача — классификация.
Анализировать эмоциональную окраску (sentiment analysis) — идентификация превалирующего эмоционального мнения — позитивного/негативного/нейтрального. Решаемая задача — задача многоклассовой классификации.
Computer Vision (компьютерное зрение). Использование типа CV позволяет:
Классифицировать фотографии для систем хранения.
Обучать все типы задач, доступные для базового TabularAutoML: регрессия, классификация (бинарная и мультиклассовая).
Для обучения на типе CV картинки должны быть в форматах:
PNG
,JPEG
. В файле с датасетом путь к изображению должен быть указан как"archive_name"/"path"/"to"/"image"..../"img.jpeg"
.Computer Vision Advanced. Использование типа CV Advanced на базе алгоритма обнаружения целей позволяет:
Детектировать объекты.
Сегментировать объекты.
Реализовывать дополнительные задачи визуального распознавания, например Pose Estimation.
Для обучения на типе CV картинки должны быть в форматах:
PNG
,JPEG
.Time Series (временные ряды). Фреймфорк обучения моделей для прогнозирования временных рядов. Он позволяет:
Автоматически выявлять признаки в датасетах.
Обучать модели для прогнозирования значений на задаваемой пользователем длине предсказания.