Какие виды заданий (jobs) поддерживает MapReduce Service?

Задания, предоставляемые сервисом MRS, являются платформой для выполнения программ. В настоящее время MRS поддерживает такие задания, как MapReduce, ClickHouse, Spark и Hive.

Тип задания

Описание

MapReduce

Модель программирования, предназначенная для параллельной обработки больших объемов данных (более одного ТБ) с разделением работы на множество независимых задач. Map делит одну задачу на несколько задач, а Reduce суммирует результаты обработки этих задач и выдает конечный результат анализа. После завершения разработки кода упакуйте его в JAR-файл в IDEA или Eclipse, загрузите файл в кластер MRS для выполнения

Spark

Механизм пакетной обработки данных с высокой скоростью обработки. Вычисления на основе Spark требуют большого количества памяти. Spark-задание включает в себя: - Spark: заканчивается .jar, независимый от регистра.

  • Spark Script: заканчивается на .sql, независимый от регистра.

  • Spark SQL: задает стандартные операторы Spark SQL, например, showtables.

Hive

Система управления базами данных на основe платформы Hadoop. Hive предоставляет язык запросов Hive (HiveQL), аналогичный языку структурированных запросов (SQL) для обработки структурированных данных. Hive автоматически преобразует HiveQL в скрипте Hive в задачу MapReduce для запроса и анализа данных, хранящихся в кластере Hive. Например, стандартный оператор HiveQL выглядит следующим образом:

create table page_view
(viewTime INT,userid BIGINT,page_url STRING,referrer_uel STRING,ip STRING COMMENT 'IP Address of the User')

ClickHouse

Столбцовая СУБД для обработки аналитических запросов в реальном времени.

Масштабная конференция
GoCloud 2024:
облачные грани будущего