Replicación y Formas de Paralelización Apache Hadoop

Hasta este post debemos tener idea de como funciona Hadoop, YARN, Sqoop, Hive y Zookeeper, ahora intentaré caracterizar que es un clúster y como es que se lleva a cambio un procesamiento en paralelo, esto nos permitirá realizar otros dos programas antes de dar por terminada la parte básica de Big Data y movernos a algo más complejo y avanzado, como hemos visto el MapReduce es la forma de paralelización que surge con esta tecnología y así mismo es la primera forma de realizar un procesamiento en paralelo, pero al final un solo se mejora su efectividad en el procesamiento de los datos. Ahora trataré de formalizar todo a lo que llamamos clúster, junto con su manera de procesar la información para poder realizar los siguientes programas. Empezaré definiendo el concepto de rack y de clúster. Un ejemplo gráfico de lo anterior podría ser la siguiente imagen: Con lo anterior definido, tenemos que empezar a caracterizar algunas otras propiedades de un clúster, y continuaré...