Какая взаимосвязь между Hive и прочими компонентами?

Взаимосвязь между Hive и HDFS

Hive — это подпроект Apache Hadoop. Hive использует HDFS в качестве системы хранения файлов. Hive обрабатывает и анализирует структурированные данные, а HDFS обеспечивает надежное хранение данных. Все файлы в базе данных Hive хранятся в HDFS и все операции с данными в Hive выполняет с помощью HDFS API.

Взаимосвязь между Hive и MapReduce

Вычисление данных Hive зависит от MapReduce. MapReduce - это также подпроект Apache Hadoop, является параллельным вычислительным фреймворком, основанным на HDFS. Во время анализа данных Hive преобразует инструкции HiveQL, загруженные пользователями, в задания (jobs) MapReduce и отправляет их на выполнение в MapReduce.

Взаимосвязь между Hive и DBService

MetaStore (сервис метаданных) Hive обрабатывает структурную и атрибутивную информацию о базах данных, таблицах и разделах Hive. Эта информация должна храниться в реляционной базе данных, а обслуживаться и обрабатываться в MetaStore. В MRS реляционная база данных поддерживается компонентом DBService.

Взаимосвязь между Hive и Spark

Вычисление данных Hive может быть реализовано также на Spark. Spark — это проект Apache. Это распределенная вычислительная структура, основанная на памяти. Во время анализа данных Hive преобразует инструкции HiveQL, загруженные пользователями, в задания (jobs) Spark и отправляет их на выполнение в Spark.