Big Data

Entradas

Mostrando las entradas de mayo, 2017

Apache Hadoop

mayo 29, 2017

Después de un poco de conocimiento general empezaremos con lo divertido, y que mejor que empezar con el hijo prodigo de Apache Software Fundation, Hadoop. Empecemos por explicar como funciona Apache Hadoop como elemento principal de un clúster . Apache Hadoop se compone de tres principales componentes NameNodes, DataNodes, y SecondaryNameNode a nivel administración y almacenamiento. NameNode : El namenode es el componente principal para la coordinación de las máquinas, el se encarga de monitorear el estado de las demás máquinas y de si misma, es el encargado de la distribución y calibración de la infornación del clúster de la manera más optima posible. El NameNode se compone de un Componente Principal: NameSpace : El namespace consiste de Directorios, archivos y bloques, como también todas las operaciones asociadas al sistema de archivos de Apache Hadoop. Block Management : Es el conjunto de operaciones para monitoreo de los datanodes efectuada por el namenode. DataNodes ...

Instalación Apache Hadoop (Pseudo Distribuido)

mayo 28, 2017

Después de algo de teoría sigue la práctica. Como primer componente instalaremos al hijo pródigo de Apache Fundation en cuanto a distribución se refiere, el componente más importante y la base de toda esta tecnología. Pre-requisitos: Apache Hadoop. Máquina Física o Virtual con cualquier distribución de linux (RedHat ó Debian). Conocimientos de Linux. JDK SSH Primero procederemos a descargar el binario de este componente en el siguiente link: http://hadoop.apache.org/releases.html , para esta práctica utilizaré la versión 2.8.0 de Hadoop la más nueva hasta el momento liberada por la Fundación Apache. Para esta instalación cuento con una máquina virtual con CentOS 7 instalado. No es necesario tener la GUI instalada en nuestra distribución, pero para fines prácticos la instalé. Así que los pasos a continuación serán para un kernel RedHat y repositorios yum, esto puede hacer en una plataforma Debian y repositorios apt-get. Comencemos: Deberemos tener en nu...

Distribuciones de Hadoop y Componentes

mayo 26, 2017

Hoy en día cuando hablamos de clúster o Hadoop, lo más común es escuchar Cloudera como una palabra correlacionada a este pensamiento, en lo personal cuando alguien se refiere a mi como "tenemos Big Data", lo primero que se me viene a la mente es, que tienen una gran cantidad de información la cual necesitan procesar o almacenar, y lo segundo que se me viene a la cabeza, es que no tienen idea de lo que el concepto de Big Data se refiere, cuando se habla de Distribuciones de Software para Big Data encontramos algunas como las siguientes: Cloudera, HortonWorks, MapR, etc. Las cuales instalan casi los mismos componentes que son Básicos en un clúster (Hadoop, Spark, Yarn, Hive, HBase, Zookeeper). La más común hoy en la actualidad es Cloudera, hay unas cosas por aclarar, la gente piensa que el software para Big Data lo tiene Cloudera, pero como en mi primer post mencione acerca de Big Data, este proyecto es incubado por Apache ...

Todos hablan de Big Data.

mayo 25, 2017

Ya han pasado varios años desde que escribí algo en este blog y que mejor tema para reabrirlo que uno de los 3 temas más importantes de la actualidad a mi consideración (Big Data, Cloud, Internet de las Cosas). Hoy en día las empresas hablan del Big Data, pero en realidad ¿Qué es el Big Data? Hay varias definiciones, desde las 5 V, hasta definiciones por grandes empresas como IBM, Microsoft, Amazon, etc. Yo no daré una definición formal de Big Data, simplemente expresaré que es para mi este concepto. El Big Data surge con Google y el problema de responder rápido a las peticiones de búsqueda de sus usuarios, para eso tenían que idearse algoritmos más rápidos y sofisticados, pero que mejor que empezar a usar más matemáticas y software en conjunto. El Big Data surge al tener la necesidad de buscar en un mundo de información resultados concretos en poco tiempo. Después de que Google diera la solución a las peticiones y búsquedas rápidas en un mar de información, La Fundación Apache em...

Componentes Apache Software Fundation

mayo 24, 2017

Después de la breve introducción al mundo de Big Data este post se tratará de una breve introducción a los componentes que la Fundación Apache Ofrece, como mencione anteriormente Apache Hadoop fue la primera Herramienta que ofreció al mundo en procesamiento distribuido. Pero la revolución apenas empezaba hace 10 años con esta herramienta, hoy en día cuenta con muchas herramientas especializadas para ciertas cosas, entre los cuales podemos encontrar (Hadoop, Spark, HBase, Hive, Zookeeper, Mahout, Ambari, Falcon, Oozie, etc) más referencias sobre las herramientas que tiene Apache para Big Data en el siguiente link pueden encontrarse https://projects.apache.org/projects.html?category#big-data Para empezar debemos dar algunas definiciones. Clúster: Es un conjunto de computadoras conectados mutuamente entre cada uno. Servidor: Un ordenador que manda respuestas a un cliente, se la pasa escuchando todo el tiempo. Cliente: Un ordenador que manda peticiones a un clie...