Какие виды заданий (jobs) поддерживает MapReduce Service?

Задания, предоставляемые сервисом MRS, являются платформой для выполнения программ. В настоящее время MRS поддерживает такие задания, как MapReduce, Spark и Hive. В Таблице 1 приведены характеристики заданий.

Таблица 1. Характеристики заданий

Тип задания

Описание

MapReduce

MapReduce — это модель программирования, предназначенная для параллельной обработки больших объемов данных (более одного Тб) с разделением работы на множество независимых задач.

Map делит одну задачу на несколько задач, а Reduce суммирует результаты обработки этих задач и выдает конечный результат анализа.

После завершения разработки кода упакуйте его в JAR-файл в IDEA или Eclipse, загрузите файл в кластер MRS для выполнения

Spark

Spark — это механизм пакетной обработки данных с высокой скоростью обработки. Вычисления на основе Spark требуют большого количества памяти. Spark-задание включает в себя:

  • Spark: заканчивается .jar, независимый от регистра

  • Spark Script: заканчивается на .sql, независимый от регистра

  • Spark SQL: задает стандартные операторы Spark SQL, например, showtables;

Hive

Hive —это система управления базами данных на основe платформы Hadoop. Hive предоставляет язык запросов Hive (HiveQL), аналогичный языку структурированных запросов (SQL) для обработки структурированных данных. Hive автоматически преобразует HiveQL в скрипте Hive в задачу MapReduce для запроса и анализа массива данных, хранящихся в кластере Hive.

Например, стандартный оператор HiveQL выглядит следующим образом: create table page_view(viewTime INT,userid BIGINT,page_url STRING,referrer_uel STRING,ip STRING COMMENT 'IP Address of the User');