Вопросы и ответы про Intel oneAPI

Что такое ML Space - Intel oneAPI?

ML Space & Intel® oneAPI - это набор предустановленных программных инструментов для экспертов в области машинного обучения, анализа данных и разработки ПО. Эти инструменты применяются для разработки, тестирования и запуска рабочих нагрузок на различных типах архитектур Intel®. Фреймворки oneAPI содержат в себе ряд измененных библиотек, использующих оптимизированные инструкции CPU, что позволяет ускорить выполнение различных вычислительных задач.

Какие задачи я могу решать с помощью Intel oneAPI?

С помощью ML Space & Intel® oneAPI можно решать следующие задачи:

  • Ускорить разработку AI-приложений с инструментами для глубокого машинного обучения, инференса и анализа данных.

  • Создавать и разрабатывать высокопроизводительные приложения для различных архитектур с основным набором инструментов и библиотек.

  • Разрабатывать высокопроизводительные и масштабируемые приложения на DPC++/C++, Fortran, OpenMP и MPI.

  • Использовать инструменты Intel distribution of OpenVino для высокоэффективного инференса нейронных сетей.

Для решения указанных задач необходимо создать Jupyter Server на базе соответствующих образов Intel®.

Каким образом программные продукты Intel® интегрированы в платформу?

Инструменты Intel® oneAPI доступны в рамках сервиса Environments. Пользователи могут создать Jupyter Server на базе одного из образов Intel® на выделенных ресурсах и запускать свой программный код в контейнере из интерфейса Jupyter на выделенном кластере.

Как создать Jupyter Server на базе образа Intel® oneAPI?

Для создания окружения на базе одного из образов Intel® oneAPI:

  • Перейдите на вкладку Создать окружение → Intel oneAPI в главном меню сервиса Environments.

  • Выберите тип окружения из списка (см. Образы Intel oneAPI) и нажмите кнопку Создать Jupyter Server.

  • Заполните соответствующие поля в диалоге Создание нового Jupyter Server.

  • Нажмите Создать.

Каким образом Intel® oneAPI ускоряет вычисления на платформе ML Space?

В рамках ML Space используются предустановленные программные инструменты Intel® oneAPI, которые применяют фреймворки и инструменты оптимизации. Фреймворки oneAPI содержат в себе ряд измененных библиотек, использующих оптимизированные инструкции CPU, что позволяет ускорить выполнение различных вычислительных задач.

На каких ресурсах запустится мой контейнер? Возможна ли другая конфигурация ресурсов?

Доступны следующие конфигурации ресурсов:

  • CPU — 2, 16 Гб оперативной памяти.

  • CPU — 16, 128 Гб оперативной памяти.

  • CPU — 2, 16 Гб оперативной памяти.

  • CPU — 8, GPU — 1.

Как осуществляется тарификация конфигураций Intel® oneAPI?

Для физических лиц услуга Intel® oneAPI предоставляется бесплатно.

Для юридических лиц тарификация конфигураций осуществляется в соответствии с условиями договора, по следующим SKU:

Конфигурация

Тариф

CPU — 2, 16 Гб оперативной памяти.

AI-MLSPIOACPUMEISN-TS1MS0

CPU — 16, 128 Гб оперативной памяти.

AI-MLSPIOACPUMEIMN-TS1MS0

CPU — 60, 512 Гб оперативной памяти.

AI-MLSPIOACPUMEIGN-TS1MS0

CPU — 8, GPU — 1.

AI-MLSPIOAGPUMEIUN-TS1MS0

Я могу запускать несколько Jupyter Server?

Нет, не можете. Пользователи могут создать только один экземпляр Jupyter Server на базе образов Intel® oneAPI.

Есть ли ограничения по объему данных, которые я могу загрузить на NFS?

Да, есть. Для работы с данными существует ограничение в размере 50 ГБ на ноду.

Как загрузить файл в интерфейс Jupyter для дальнейшей работы?

Для работы с пользовательскими данными из интерфейса Jupyter эти данные необходимо поместить в NFS-хранилище кластера, где будет запускаться в контейнере программный код. Размещение данных на NFS, обзор данных и управление этими данными осуществляется из интерфейса Jupyter средствами командной строки. В ней можно исполнять привычные Linux-команды, например wget, которая позволяет загружать любые файлы по протоколам http и https, а также файлы и списки каталогов по протоколу ftp.

Для каких задач используются окружения Intel oneAPI?

В рамках ML Space можно создать Jupyter Server на базе следующих образов Intel®:

  • Intel® AI Analytics Toolkit. Позволяет ускорить разработку AI-приложений с инструментами для глубокого машинного обучения, инференса и анализа данных.

  • Intel® oneAPI Base Toolkit. Позволяет создавать и разрабатывать высокопроизводительные приложения для различных архитектур с основным набором инструментов и библиотек.

  • Intel® oneAPI HPC Toolkit. Позволяет разрабатывать высокопроизводительные и масштабируемые приложения на DPC++/C++, Fortran, OpenMP и MPI.

  • Intel® Distribution of OpenVINO™ Toolkit. Позволяет использовать инструменты Intel distribution of OpenVino для высокоэффективного инференса нейронных сетей.

Обратите внимание на https://github.com/intel/hyperscan.

Насколько сложно было настроить гиперпараметры итогового алгоритма?

Несложно. Благодаря тому, что использовалась AutoML модель, требования к перебору гиперпараметров по сравнению с мощными классическими моделями сильно сократились — она сама настраивает самые главные гиперпараметры в процессе построения. Пришлось скорректировать лишь вспомогательные параметры, такие как, например, время обучения модели.

Были ли проблемы с выбором метрики качества? Вопрос связан с несбалансированной классификацией.

Мы специально обсуждали эту тему при проектировании. Разумеется, accuracy мы не брали, — она не отрабатывает в случае дисбаланса классов. Нам было важно исключить ошибочные негативные предсказания модели, поэтому мы рассматривали recall с большим весом, чем precision. В качестве итоговой метрики была выбрана F-score. Стоит отметить, что был дополнительно подобран порог для перевода вероятности в метки классов. В соответствии с этой метрикой он получился в районе 0.3.