Distribuciones de Hadoop y Componentes

Hoy en día cuando hablamos de clúster o Hadoop, lo más común es escuchar Cloudera como una palabra correlacionada a este pensamiento, en lo personal cuando alguien se refiere a mi como "tenemos Big Data", lo primero que se me viene a la mente es, que tienen una gran cantidad de información la cual necesitan procesar o almacenar, y lo segundo que se me viene a la cabeza, es que no tienen idea de lo que el concepto de Big Data se refiere, cuando se habla de Distribuciones de Software para Big Data encontramos algunas como las siguientes: Cloudera, HortonWorks, MapR, etc. Las cuales instalan casi los mismos componentes que son Básicos en un clúster (Hadoop, Spark, Yarn, Hive, HBase, Zookeeper).

              



La más común hoy en la actualidad es Cloudera, hay unas cosas por aclarar, la gente piensa que el software para Big Data lo tiene Cloudera, pero como en mi primer post mencione acerca de Big Data, este proyecto es incubado por Apache Software Fundation, y esta bajo la licencia de Apache, por lo cuál toda modificación sobre el código fuente por más ingeniosa que sea la idea, seguirá siendo libre, ya que se construyo sobre un software libre que esta bajo la licencia de Apache Fundation.

Entonces, se preguntarán, ¿Qué te cobran estas compañías al venderte software de Big Data que es libre?, Bueno, lo que estas empresas te venden, son soporte, soporte para que tú como usuario no experto, puedas levantar un clúster sin mucho trabajo, pero la empresa líder (Cloudera) aparte del soporte, te cobra licencias.

Antes de explicar que licencias te vende cloudera, me gustaría hacer un paréntesis para explicar en que área encontró oportunidad Cloudera. Hace 10 años cuando esto iniciaba, no era tan fácil como hoy levantar un clúster, necesitabas saber que archivos configurar, como configurarlos, descargar los binarios y depositarlos en su lugar correspondiente y aveces hasta compilar el código fuente era necesario, conforme paso el tiempo, Apache Fundation empezó a pensar en sus Usuarios e incubaron un nuevo proyecto, este nuevo proyecto lleva por nombre Ambari, este proyecto surge con la visión de facilitar una instalación de un clúster que había sido muy dolorsa. En esta parte, los fundadores de Cloudera encontraron una oportunidad y desarrollaron el famoso Cloudera Manager es un proyecto propio de la empresa Cloudera y tiene la misma finalidad que Apache Ambari, facilitar la instalación y arranque de un clúster, con ello otras empresas han querido llevar el mismo esquema que Cloudera y han desarrollado su propio Cluster Manager, otro caso conocido es MapR con su MapR Control System.


En lo personal yo pondría en el siguiente orden el grado de satisfación que cada Clúster Manager me deja, en cuanto a visualización y facilidad.
  1. Cloudera Manager
  2. Apache Ambari
  3. MapR Control System
A continuación mostraré algunas imágenes de cada Cluster Manager.

Cloudera Manager


Apache Ambari

MapR Control System


Aunque el primero y el tercero son Distribuciones de Licencia, en lo personal, la opción uno y dos, son indiferentes, aunque es más atractivo y comercial el cloudera manager, pero ambos han facilitado la tarea de levantar un clúster sin conocimiento alguno,  ambos cumplen el objetivo, hacerle el trabajo más fácil al usuario que desea instalar un clúster y en cuanto a la versión 3, no tengo referencia alguna, ya que no tengo experiencia en MapR, pero por lo poco que se, prefiero las otras dos opciones, sobre esta, cada quién es libre de utilizar lo que quiera para un clúster personal o empresarial, al fin y al cabo todos tienen las mismas herramientas base, con el paso del tiempo veremos como instalar un clúster de las 3 maneras posibles que conozco (binarios, CM y Apache Ambari).

Por último cabe mencionar que los binarios que cada Cluster Manager utiliza son los customizados por la empresa propietaria del mismo. Por ejemplo, Cloudera tiene sus propios binarios de las herramientas que el provee como servicios de instalación (hive, hadoop, hbase, zookeeper, impala, hue, etc) esto significa que ellos mismos han agregado algunos cambios al código fuente del binario base que es el de Apache Fundation a excepción de Hue, esta misma situación aparece del lado de MapR adecuando u optimizando ciertas partes de código que ellos crean se debe mejorar.


Comentarios

Entradas más populares de este blog

Replicación y Formas de Paralelización Apache Hadoop

Manejo Apache Hive

Asignación de un líder Zookeeper