Apache Hive

julio 02, 2017

En esta entrada analizaremos la primera simulación de Base de Datos para Big Data, Apache Hive a mi punto de vista no es una Base de Datos, para mi es un conjunto de MapReduce. Y esta herramienta surge con la necesidad de tener un sistema de almacenamiento al que le podamos hacer consultas y que mejor manera que seguir utilizando el SQL para que aquellas personas no sufran el cambio de lo estructurado a la velocidad de procesamiento optimo del mundo de volúmenes masivo de datos usualmente no estructurado.

Como podemos observar en la imagen la arquitectura de Apache Hive se compone de 3 componentes descritos por su color que a continuación describiré.

Color Naranja

HDFS: HDFS es usado como almacenamiento de la información (data) que al realizar consultas al cliente nos regresará el subconjunto de datos deseados.
RDBMS: Es una Base de Datos Relacional cualquiera (Oracle, SQL Server, MySQL, Informix, MariaDB, Derby, etc) la cual nos sirve para guardar todo el metadato que existirá en todas las bases de datos y tablas que existirán en Hive.

Color Amarillo

Data: La información o esquema físico de Apache Hive que corresponde a toda la información de las tablas.
Metada: Todo el metadato o esquema lógico de Apache Hive relacionado con las tablas, bases de datos, columnas, tipos de datos, que es almacenado en una RDBMS.

Color Verde.

Hive Client: Un cliente para poder realizar consultas a toda la parte lógica y física de esta Big Table que es Apache Hive.
Metastore Server: Es el proceso encargado de almacenar todo el metadato en una RDBMS correspondiente al esquema lógico de Apache Hive.
Map Reduce: Como les comente al principio, para traer el subconjuto de datos que se quieren por la consulta realizada al cliente de hive, en las primeras versiones de Apache Hive se utilizaba la forma de procesamiento de Apache Hive, hoy en día para devolver el resultado de una consulta se utiliza TEZ una forma más óptima de procesamiento que el MapReduce.

Hoy en día para grandes volúmenes de datos existen mucho mejores opciones que Apache Hive en cuanto a almacenamiento y consulta se refiere, pero así como el MapReduce es la Base principal por la que ahora tenemos mejores formas de procesamiento como TEZ y SPARK, Apache Hive es la razón por la que hoy tengamos mejores formas de acceder a la información con formatos como los AVRO y PARQUET, que nacen con Hive y seguramente seguirán mejorando con ella.

Aunque no es mi base de datos preferida en el mundo del Big Data, es la razón de que hoy en día grandes y excelentes Bases de Datos como Cassandra o HBase tengan el funcionamiento que tienen, ya que Apache Hive ha sido la Base de la Mejora en cuanto a Base de Datos Distribuidos se refiere.

Buscar este blog

Big Data

Apache Hive

Comentarios

Publicar un comentario

Entradas más populares de este blog

Replicación y Formas de Paralelización Apache Hadoop

Manejo Apache Hive

Teorema CAP