Diseño e implementación de una arquitectura MapReduce para aplicaciones Big Data mediante síntesis de alto nivel


Estudiante: Julian Spahr
Tutores: Pedro Pérez Carballo (DIEA), Antonio Núñez Ordóñez (DIEA)
Fecha lectura: 25/07/2017
Lugar: Sala de Teleenseñanza, Pab. A, Edificio de Electrónica y Telecomunicación
Resumen castellano:
El presente proyecto abarca el diseño e implementación de una plataforma hardware que integra algoritmos críticos de procesamiento en aplicaciones para Big Data sobre un SoC de la serie Xilinx Zynq, mejorando de forma significativa su eficiencia con respecto a implementaciones software del mismo tipo. De forma específica, se ha diseñado una plataforma MapReduce aplicada al algoritmo WordCount, cuya arquitectura permite el reemplazo de bloques IP para modificar la aplicación de una plataforma a otra, siempre y cuando cumpla un esquema del tipo MapReduce.
Este trabajo comienza haciendo referencia a los aspectos claves del concepto de Big Data y técnicas para el análisis de datos masivos en sistemas modernos. Con ello se abarca el modelo de programación MapReduce, para procesar y generar grandes cantidades de datos por medio de técnicas de paralelismo sobre clusters. Seguidamente se abarca la serie Xilinx Zynq y la metodología de diseño empleada para la creación de plataformas flexibles y configurables para desembocar en las herramientas empleadas en el presente proyecto, entre las cuales se destaca el entorno de desarrollo de sistemas basados en IP, Xilinx Vivado Design Suite.
Finalmente, el proyecto se ha sometido a una fase de validación con objeto de estimar los parámetros del sistema final, entre los cuales se subrayan parámetros de latencia, throughput y nivel de utilización del sistema MapReduce. En base a estos resultados, se concluye que la plataforma diseñada representa una buena solución en lo que respecta al análisis de datos masivos para aplicaciones Big Data debido a su alta velocidad de cómputo, bajo consumo de potencia y nivel de utilización y en última instancia debido a su flexibilidad a ser adaptado a otras aplicaciones del tipo MapReduce de características similares.
Resumen inglés:
This Master’s thesis comprises the design and implementation of a hardware platform that integrates critical algorithms of Big Data application processing on a Xilinx Zynq series SoC, improving significantly it’s efficiency in comparison to software implementations. Specifically, a MapReduce platform has been designed using the classic WordCount application to establish a generic architecture that allows for easy IP block substitution to modify the application into another, if it complies with the MapReduce outline.
This work starts presenting key aspects of the Big Data concept and techniques for massive data analysis in modern systems. Through this, we cover the MapReduce programming model, for large data processing and generation through parallelization on clusters. Following up, the used Xilinx Zynq Design Methodology is explained, that allows for the design of flexible and configurable platforms, leading finally into the tools used in this thesis, among which we emphasize the Xilinx Vivado Design Suite for SoC FPGA.
Lastly, the designed prototype is put through a validation phase to estimate the performance parameters of the system, i.e. latency,  throughput and utilization of the MapReduce system. Based on these results, we conclude that the designed platform is a good solution with respect to massive data analysis for Big Data applications, due to its high computing speed, low power consumption and utilization and  ultimately due to its flexibility to be adapted for other MapReduce applications of similar characteristics.
Tribunal:
  • Presidente: José Francisco López Feliciano
  • Secretario: Javier Agustín García García
  • Vocal: José María Quinteiro González
Calificación: Sobresaliente 10 (MH)
Documentos: Resumen Póster Memoria