Rumo à Otimização de Operadores sobre UDF no Spark

Anais do Brazilian e-Science Workshop (BreSci) Pub Date : 2018-07-06 DOI:10.5753/BRESCI.2018.3280

J. A. Ferreira, Fábio Porto, Rafaelli Coutinho, Eduardo S. Ogasawara

引用次数: 0

Abstract

A análise de dados em larga escala tem ganhado muita importância na comunidade científica devido ao fenômeno do Big Data. Neste contexto, funções definidas pelo usuário (UDF) são, comumente, implementadas em frameworks como Apache Spark para viabilizar a análise de dados em larga escala. No entanto, o uso de UDF traz desafios no processo de otimização de execução pois são opacas. Este trabalho propõe um método de otimização de workflows de análise de dados apoiadas em UDF sobre o Apache Spark. Tal método é baseado na API Catalyst do SparkSQL e em macros da linguagem Scala.

查看原文本刊更多论文

在Spark中优化UDF上的操作符

由于大数据现象，大规模数据分析在科学界变得非常重要。在这种情况下，用户定义函数(UDF)通常在Apache Spark等框架中实现，以实现大规模的数据分析。然而，UDF的使用给执行优化过程带来了挑战，因为它们是不透明的。本文提出了一种基于Apache Spark的UDF支持的数据分析工作流优化方法。这种方法基于SparkSQL的Catalyst API和Scala语言的宏。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文求助全文

来源期刊

Anais do Brazilian e-Science Workshop (BreSci)

自引率

0.00%

发文量