Yerson Ferney Porras García, Roger Calderón-Moreno, Á. Cruz-Roa
{"title":"Análisis de Desempeño Computacional del Procesamiento Distribuido de una Implementación de Bolsa de Palabras en Apache SparkTM","authors":"Yerson Ferney Porras García, Roger Calderón-Moreno, Á. Cruz-Roa","doi":"10.1109/COLCOMCON.2018.8466725","DOIUrl":null,"url":null,"abstract":"Este trabajo presenta un análisis comparativo dela implementación de una representación de Bolsa de Palabras (Bag of Words- $BoW$) para el procesamiento distribuido de una colección de documentos de texto en la plataforma de proce-samiento distribuido Apache $\\mathrm {S}\\mathrm {p}\\mathrm {a}\\mathrm {r}\\mathrm {k}^{\\mathrm {T}\\mathrm {M}}$ La implementación $\\mathrm {B}\\mathrm {o}\\mathrm {W}$, integró tecnologías para el almacenamiento y proce-samiento distribuido como Apache $\\mathrm {H}\\mathrm {a}\\mathrm {d}\\mathrm {o}\\mathrm {o}\\mathrm {p}^{\\mathrm {T}\\mathrm {M}}$, exactamente Hadoop Distributed File System (HDFS); y Apache $\\mathrm {S}\\mathrm {p}\\mathrm {a}\\mathrm {r}\\mathrm {k}^{\\mathrm {T}\\mathrm {M}}$, respectivamente. El clúster de computación se configuró con 17 equipos conectados entre sí, en los cuales se almacenó un conjunto de datos de 500 archivos de texto plano. Las eta-pas del algoritmo $\\mathrm {B}\\mathrm {o}\\mathrm {W}$ fueron implementadas modularmente en Apache $\\mathrm {S}\\mathrm {p}\\mathrm {a}\\mathrm {r}\\mathrm {k}^{\\mathrm {T}\\mathrm {M}}$ Los resultados obtenidos demostraron comportamientos positivos en términos de SpeedUp llegando a tener hasta un aumento proporcional de 4x al usar los 16 nodos del clúster, siendo la cantidad límite de nodos esclavos en los diferentes escenarios de experimentación permitiendo comparar un comportamiento con el SpeedUp teórico señalando un grado de paralelización máximo del 80% en dicho punto sugeriendo la ventaja de la computación distribuida para el procesamiento masivo de datos (Big Data). Igualmente, la experimentación permitió identificar puntos a mejorar para profundizar en posibles causas, mejoras y trabajo futuro para su aplicación en análisis de datos (Data Analytics) como apoyo a la investigación, formación y la industria.","PeriodicalId":151973,"journal":{"name":"2018 IEEE Colombian Conference on Communications and Computing (COLCOM)","volume":"92 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2018-05-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"2018 IEEE Colombian Conference on Communications and Computing (COLCOM)","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.1109/COLCOMCON.2018.8466725","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
Abstract
Este trabajo presenta un análisis comparativo dela implementación de una representación de Bolsa de Palabras (Bag of Words- $BoW$) para el procesamiento distribuido de una colección de documentos de texto en la plataforma de proce-samiento distribuido Apache $\mathrm {S}\mathrm {p}\mathrm {a}\mathrm {r}\mathrm {k}^{\mathrm {T}\mathrm {M}}$ La implementación $\mathrm {B}\mathrm {o}\mathrm {W}$, integró tecnologías para el almacenamiento y proce-samiento distribuido como Apache $\mathrm {H}\mathrm {a}\mathrm {d}\mathrm {o}\mathrm {o}\mathrm {p}^{\mathrm {T}\mathrm {M}}$, exactamente Hadoop Distributed File System (HDFS); y Apache $\mathrm {S}\mathrm {p}\mathrm {a}\mathrm {r}\mathrm {k}^{\mathrm {T}\mathrm {M}}$, respectivamente. El clúster de computación se configuró con 17 equipos conectados entre sí, en los cuales se almacenó un conjunto de datos de 500 archivos de texto plano. Las eta-pas del algoritmo $\mathrm {B}\mathrm {o}\mathrm {W}$ fueron implementadas modularmente en Apache $\mathrm {S}\mathrm {p}\mathrm {a}\mathrm {r}\mathrm {k}^{\mathrm {T}\mathrm {M}}$ Los resultados obtenidos demostraron comportamientos positivos en términos de SpeedUp llegando a tener hasta un aumento proporcional de 4x al usar los 16 nodos del clúster, siendo la cantidad límite de nodos esclavos en los diferentes escenarios de experimentación permitiendo comparar un comportamiento con el SpeedUp teórico señalando un grado de paralelización máximo del 80% en dicho punto sugeriendo la ventaja de la computación distribuida para el procesamiento masivo de datos (Big Data). Igualmente, la experimentación permitió identificar puntos a mejorar para profundizar en posibles causas, mejoras y trabajo futuro para su aplicación en análisis de datos (Data Analytics) como apoyo a la investigación, formación y la industria.