THE FIRST STAGE OF THE EXPERIMENT TO EVALUATE THE PERFORMANCE OF MULTI-PARADIGM DATA LAKES

Естественные и технические науки Pub Date : 2023-08-02 DOI:10.25633/etn.2023.07.08

А.А. Сухобоков, Р.А. Афанасьев, А.Г. Балабас, А.А. Ветошкин, А.С. Зенгер, С.А. Коноваликова, М.А. Кучеренко, А.П. Ларионова, А. Миронова, С.В. Очеретная, А.Д. Рыбина

{"title":"THE FIRST STAGE OF THE EXPERIMENT TO EVALUATE THE PERFORMANCE OF MULTI-PARADIGM DATA LAKES","authors":"А.А. Сухобоков, Р.А. Афанасьев, А.Г. Балабас, А.А. Ветошкин, А.С. Зенгер, С.А. Коноваликова, М.А. Кучеренко, А.П. Ларионова, А. Миронова, С.В. Очеретная, А.Д. Рыбина","doi":"10.25633/etn.2023.07.08","DOIUrl":null,"url":null,"abstract":"В статье описывается выполненная первая стадия эксперимента по тестированию производительности мультипарадигмальных озёр данных. Мультипарадигмальным называется озеро данных, содержащее данные, представленные в разных моделях. В проводимом эксперименте участвуют данные, организованные в соответствии с реляционной, графовой и многомерной моделями. Цель эксперимента состоит в оценке целесообразности использования единой интегрированной платформы для построения мультипарадигмального озера данных. Одни и те же данные представлены в трёх моделях и были размещены на интегрированной платформе Apache Spark и на трёх специализированных СУБД: PostgreSQL, Neo4j и Pentaho BI. В каждом случае выполнялись попарно эквивалентные запросы трёх уровней сложности и замерялось время их выполнения с целью сопоставления производительности озера, организованного на единой платформе и на комплексе специализированных СУБД.\n The article describes the completed first stage of the experiment on testing the performance of multi-paradigm data lakes. A multi-paradigm data lake is a data lake that contains data presented in different models. The experiment involves data organized in accordance with relational, graph and multidimensional models. The purpose of the experiment is to evaluate the worthwhileness of using a single integrated platform for building a multi-paradigm data lake. The same data is presented in three models and was placed on the integrated Apache Spark platform and on three specialized DBMS: PostgreSQL, Neo4j and Pentaho BI. In each case, pairwise equivalent requests of three levels of complexity were executed and their execution time was measured to compare the performance of a lake organized on a single platform and on a complex of specialized DBMS.","PeriodicalId":425015,"journal":{"name":"Естественные и технические науки","volume":"57 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2023-08-02","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Естественные и технические науки","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.25633/etn.2023.07.08","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}

引用次数: 0

Abstract

В статье описывается выполненная первая стадия эксперимента по тестированию производительности мультипарадигмальных озёр данных. Мультипарадигмальным называется озеро данных, содержащее данные, представленные в разных моделях. В проводимом эксперименте участвуют данные, организованные в соответствии с реляционной, графовой и многомерной моделями. Цель эксперимента состоит в оценке целесообразности использования единой интегрированной платформы для построения мультипарадигмального озера данных. Одни и те же данные представлены в трёх моделях и были размещены на интегрированной платформе Apache Spark и на трёх специализированных СУБД: PostgreSQL, Neo4j и Pentaho BI. В каждом случае выполнялись попарно эквивалентные запросы трёх уровней сложности и замерялось время их выполнения с целью сопоставления производительности озера, организованного на единой платформе и на комплексе специализированных СУБД. The article describes the completed first stage of the experiment on testing the performance of multi-paradigm data lakes. A multi-paradigm data lake is a data lake that contains data presented in different models. The experiment involves data organized in accordance with relational, graph and multidimensional models. The purpose of the experiment is to evaluate the worthwhileness of using a single integrated platform for building a multi-paradigm data lake. The same data is presented in three models and was placed on the integrated Apache Spark platform and on three specialized DBMS: PostgreSQL, Neo4j and Pentaho BI. In each case, pairwise equivalent requests of three levels of complexity were executed and their execution time was measured to compare the performance of a lake organized on a single platform and on a complex of specialized DBMS.

查看原文本刊更多论文

实验第一阶段对多范式数据湖的性能进行评价

本文描述了数据湖多元范例性能测试实验的第一阶段。多元范例称为数据池，包含不同模型中的数据。该实验涉及根据关系、图形和多维模型组织的数据。这个实验的目的是评估使用一个统一的集成平台来构建多元数据湖的可行性。同样的数据出现在三个模型中，并被放置在Apache Spark集成平台和三个专有的亚体上:PostgreSQL、Neo4j和Pentaho BI。在每一种情况下，都分别执行了相当于三层复杂性的要求，并测量了它们的运行时间，以比较单一平台和综合专用次级次级湖泊的性能。在多帕拉迪姆数据湖的测试中，第一个完整的测试阶段。多元帕拉迪姆湖是在different模型中呈现的数据湖。与相关性、图形和多功能模型一起建立的experimves数据。这首歌是为了纪念多提帕拉迪湖的建设而设计的。在三个模型中，same数据是最受欢迎的，并且在三个特殊的DBMS上支持:PostgreSQL, Neo4j和Pentaho BI。在each case, 3个精益求精者的要求是一个湖在一个单独的平台和一个特殊的DBMS上组织的表演。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文求助全文

来源期刊

Естественные и технические науки

自引率

0.00%

发文量