WordCount usando RecordReader

Cómo vimos en la anterior entrada por fin probamos un código del tipo MapReduce en nuestro ambiente construido a lo largo de este post. Probamos el Famoso código de WordCount, pero como se menciono en el apartado de Teoría de MapReduce, podemos utilizar pasos intermedios que un proceso MapReduce contiene, en esta nueva entrada programaremos de nuevo el WordCount, pero esta vez las palabras no vendrán de un archivo de texto que nosotros podemos copiar y poner en el, esta vez utilizaremos archivos no estructurados como archivos docx , pptx , pdf , xlsx , xls , ppt , doc las palabras las extraeremos de estos archivos no estructurados. El código al igual que el anterior lo podrán encontrar en el siguiente link: https://github.com/NeoChoosenOne/BigDataBlogCodeWordCountRecordReader . Este código implementa el RecordReader para definir nuestra forma personalizada de leer la información de HDFS y poderla procesar a nuestra manera, definiendo nosotros nuestros pares (key,value) person...