Shark: fast data analysis using coarse-grained distributed memory

Proceedings of the 2012 ACM SIGMOD International Conference on Management of Data Pub Date : 2012-05-20 DOI:10.1145/2213836.2213934

C. Engle, Antonio Lupher, Reynold Xin, M. Zaharia, M. Franklin, S. Shenker, I. Stoica

引用次数: 147

Abstract

Shark is a research data analysis system built on a novel coarse-grained distributed shared-memory abstraction. Shark marries query processing with deep data analysis, providing a unified system for easy data manipulation using SQL and pushing sophisticated analysis closer to data. It scales to thousands of nodes in a fault-tolerant manner. Shark can answer queries 40X faster than Apache Hive and run machine learning programs 25X faster than MapReduce programs in Apache Hadoop on large datasets.

查看原文本刊更多论文

Shark:使用粗粒度分布式内存的快速数据分析

Shark是一个基于新型粗粒度分布式共享内存抽象的研究数据分析系统。Shark将查询处理与深度数据分析结合在一起，提供了一个统一的系统，可以使用SQL轻松操作数据，并将复杂的分析更接近数据。它以容错的方式扩展到数千个节点。在大型数据集上，Shark回答查询的速度比Apache Hive快40倍，运行机器学习程序的速度比Apache Hadoop中的MapReduce程序快25倍。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文求助全文

来源期刊

Proceedings of the 2012 ACM SIGMOD International Conference on Management of Data

自引率

0.00%

发文量