Введение

Data Lake Insight (DLI) — это сервис обработки и анализа больших данных, работающий на базе экосистемы Apache Spark, с его помощью можно использовать стандартные приложения SQL, Spark SQL или Flink SQL для выполнения интегрированного анализа данных из разнородных источников и получения нужной информации.

С помощью DLI можно использовать SQL для извлечения и изучения данных из различных сервисов, таких как: Relational Database Service (RDS), Cloud Search Service (CSS), Object Storage Service (OBS) и Elastic Cloud Service (ECS).

Использование сервиса выглядит следующим образом.

_images/image4.jpeg

Процесс работы с сервисом DLI состоит из 4-х этапов:

  1. Создайте очередь для выполнения вычислительных заданий. Поддерживаются два типа очередей: SQL и очереди общего назначения (For general purpose). SQL-очереди поддерживают задания Spark SQL, очереди общего назначения — программы Spark, Flink SQL и задания Flink Jar.

  2. Создайте базы данных и таблицы для заданий Spark SQL. Загрузите программные пакеты для заданий Spark или Flink Jar.

  3. Настройте параметры и запустите задание: Spark SQL, Spark Program и Flink SQL или Flink Jar.

  4. Проверьте статус выполненного задания на странице Job Management.

При создании очереди запроса используется такая сущность, как CU. Compute unit (CU) — единица тарификации, которая состоит из 1 vCPU и 4 Гб памяти. Количество необходимых к использованию CU определяется при создании очереди (Create Queue). Расчет стоимости использования CU ведется в часах (CU/час).

Тариф на сервис рассчитывается в зависимости от используемого задания (SQL, Spark или Flink) и, в случае с заданиями SQL, в зависимости источника хранения данных и используемой очереди задания (Default или созданные задания).

_images/image5.jpeg