Entradas

Mostrando las entradas de julio, 2017

Manejo Apache Sqoop

Imagen
Una vez instalado Apache Sqoop, llegamos al punto de la práctica el post de manejo de Apache Hive se ha pospuesto por que necesitamos información para empezar a navegar entre la estructura de lo que implica Apache Hive, y como primer paso, empezaremos a exportar información de una RDBMS para este caso utilizaré MySQL, pero si alguno de ustedes tiene una Base de Datos Oracle, SQL Server, Informix etc, les indicaré que paso cambiaría para que funcione con una Base Distinta a la que usaré para este ejemplo. Para empezar necesitamos tener instalado MySQL en alguna máquina y que pueda ser visible para la máquina o clúster que tenga instalado sqoop. Para esto, encontré una página que provee una Base de Datos para MySQL en el siguiente link:  http://www.mysqltutorial.org/mysql-sample-database.aspx  cargamos esta Base de Datos en nuestra MySQL. Una vez cargada en nuestro MySQL podemos ver con un cliente, en este caso Workbench nuestra Base de Datos y las tablas dentro de ell...

Instalación Apache Sqoop

Imagen
Ahora procederemos a instalar Apache Sqoop, como en la parte de teoría vimos, este es un Job que implementa solo el Mapper, entonces la Instalación de esta herramienta será muy sencillo. Para empezar necesitamos descargar los Binarios de Apache Sqoop de la siguiente página con el siguiente link:  http://sqoop.apache.org/ Como podemos observar, hay dos formas de extraer los binarios de Apache Sqoop, la del recuadro rojo y la del recuadro verde, como la documentación dice, descargaremos el del recuadro rojo, ya que la versión del recuadro verde aún no se recomienda para un ambiente productivo, por esa razón descargaremos el del recuadro rojo. Podemos descargar cualquier tar.gz de los que aparecen aquí, pero yo descargaré la versión dentro del recuadro verde. Una vez descargados el binario de Apache Sqoop, procedemos a descomprimirlo y mover la carpeta resultante a /usr/local/ con el siguiente comando: tar -xzvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz su mv...

Apache Sqoop

Imagen
Bueno, hasta este punto ya tenemos una instancia de Apache Hadoop con YARN configurado y una instancia de Apache Hive, lo siguiente será dar un poco de contexto de lo que es Apache Sqoop. Apache Sqoop es una herramienta para la transferencia de grandes volúmenes de  información entre Apache Hadoop y las RDBMS ó Mainframes. Cómo sabrán Apache Sqoop necesita de una Instancia de Apache Hadoop al menos para poder funcionar, ya que es un MapReduce. Dependiendo del número de nodos en el clúster, se crearán n pools de conexión donde n es el número de nodos en el clúster para extraer la información. El flujo general de un Job del tipo Sqoop que es un MapReduce, luciría como el siguiente. Apache Sqoop puede ser utilizado para hacer transferencia de grandes volúmenes de Datos de Bases de Datos Relacionales a HDFS ó de viceversa. Para ejemplificar de que manera trabaja un Job como Apache Sqoop lo ejemplificaré con dos de sus acciones principales, el export e import  Import:...

Instalación Apache Hive

Imagen
Después de un poco de teoría sobre el funcionamiento de Apache Hive, proseguiremos a la instalación de este componente, ya que la mayoría de la gente quiere práctica. Para poder Instalar Apache Hive de una manera óptima necesitamos Apache Hadoop instalado, ya que como vimos en la sección de teoría sobre Apache Hive necesita HDFS para el almacenamiento Físico y MapReduce ó TEZ para el procesamiento de las consultas que se le realicen al cliente dependiendo la versión. A continuación podemos descargar el binario de Apache Hive en la siguiente url:  http://www.apache.org/dyn/closer.cgi/hive/  es la versión más nueva, si gustan pueden descargar una versión anterior. Entonces trabajaremos con la versión apache-hive-1.2.2-bin.tar.gz para este tutorial, Apache Hive se monta sobre un clúster de Hadoop así que no es necesario distribuir los paquetes a menos que quieras tener un cliente en cada nodo del clúster de hadoop. Procederemos a descomprimir el binario ...