HView: Multi-dimension view of massive data in Hadoop

Proceedings of 2013 3rd International Conference on Computer Science and Network Technology Pub Date : 2013-10-01 DOI:10.1109/ICCSNT.2013.6967146

Fuhui Wu, Q. Wu, Yusong Tan

引用次数: 0

Abstract

Hadoop has become an attractive platform to store large-scale data in HDFS and perform analytics using MapReduce framework. However, dataset of multi-field in HDFS is usually stored in just one-dimension. Analytics in Hadoop usually need to process the whole dataset in a brute way. In this paper, we introduce HView, an extension of data layout in HDFS, to store data according to multiple fields. HView provides people with different dimension views of the same dataset in HDFS. HView does not need to modify Hadoop, increase DataNode storage occupy or bring Namenode pressure. We exploit a use case of Map-side join for HView. Experiment result shows that HView can improve the efficiency of Map-side join and solve the problem of size limit in Map-side join.

查看原文本刊更多论文

HView: Hadoop海量数据的多维视图

Hadoop已经成为在HDFS中存储大规模数据并使用MapReduce框架执行分析的一个有吸引力的平台。然而，HDFS中多字段的数据集通常是一维存储的。Hadoop中的分析通常需要以野蛮的方式处理整个数据集。在本文中，我们介绍了HView，它是HDFS中数据布局的扩展，可以根据多个字段存储数据。HView为人们提供HDFS中相同数据集的不同维度视图。HView不需要修改Hadoop，不需要增加DataNode的存储占用，不需要给Namenode带来压力。我们利用了HView的map端连接用例。实验结果表明，HView可以提高Map-side join的效率，解决Map-side join的大小限制问题。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文求助全文

来源期刊

Proceedings of 2013 3rd International Conference on Computer Science and Network Technology

自引率

0.00%

发文量