THE FIRST STAGE OF THE EXPERIMENT TO EVALUATE THE PERFORMANCE OF MULTI-PARADIGM DATA LAKES

А.А. Сухобоков, Р.А. Афанасьев, А.Г. Балабас, А.А. Ветошкин, А.С. Зенгер, С.А. Коноваликова, М.А. Кучеренко, А.П. Ларионова, А. Миронова, С.В. Очеретная, А.Д. Рыбина
{"title":"THE FIRST STAGE OF THE EXPERIMENT TO EVALUATE THE PERFORMANCE OF MULTI-PARADIGM DATA LAKES","authors":"А.А. Сухобоков, Р.А. Афанасьев, А.Г. Балабас, А.А. Ветошкин, А.С. Зенгер, С.А. Коноваликова, М.А. Кучеренко, А.П. Ларионова, А. Миронова, С.В. Очеретная, А.Д. Рыбина","doi":"10.25633/etn.2023.07.08","DOIUrl":null,"url":null,"abstract":"В статье описывается выполненная первая стадия эксперимента по тестированию производительности мультипарадигмальных озёр данных. Мультипарадигмальным называется озеро данных, содержащее данные, представленные в разных моделях. В проводимом эксперименте участвуют данные, организованные в соответствии с реляционной, графовой и многомерной моделями. Цель эксперимента состоит в оценке целесообразности использования единой интегрированной платформы для построения мультипарадигмального озера данных. Одни и те же данные представлены в трёх моделях и были размещены на интегрированной платформе Apache Spark и на трёх специализированных СУБД: PostgreSQL, Neo4j и Pentaho BI. В каждом случае выполнялись попарно эквивалентные запросы трёх уровней сложности и замерялось время их выполнения с целью сопоставления производительности озера, организованного на единой платформе и на комплексе специализированных СУБД.\n The article describes the completed first stage of the experiment on testing the performance of multi-paradigm data lakes. A multi-paradigm data lake is a data lake that contains data presented in different models. The experiment involves data organized in accordance with relational, graph and multidimensional models. The purpose of the experiment is to evaluate the worthwhileness of using a single integrated platform for building a multi-paradigm data lake. The same data is presented in three models and was placed on the integrated Apache Spark platform and on three specialized DBMS: PostgreSQL, Neo4j and Pentaho BI. In each case, pairwise equivalent requests of three levels of complexity were executed and their execution time was measured to compare the performance of a lake organized on a single platform and on a complex of specialized DBMS.","PeriodicalId":425015,"journal":{"name":"Естественные и технические науки","volume":"57 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2023-08-02","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Естественные и технические науки","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.25633/etn.2023.07.08","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

Abstract

В статье описывается выполненная первая стадия эксперимента по тестированию производительности мультипарадигмальных озёр данных. Мультипарадигмальным называется озеро данных, содержащее данные, представленные в разных моделях. В проводимом эксперименте участвуют данные, организованные в соответствии с реляционной, графовой и многомерной моделями. Цель эксперимента состоит в оценке целесообразности использования единой интегрированной платформы для построения мультипарадигмального озера данных. Одни и те же данные представлены в трёх моделях и были размещены на интегрированной платформе Apache Spark и на трёх специализированных СУБД: PostgreSQL, Neo4j и Pentaho BI. В каждом случае выполнялись попарно эквивалентные запросы трёх уровней сложности и замерялось время их выполнения с целью сопоставления производительности озера, организованного на единой платформе и на комплексе специализированных СУБД. The article describes the completed first stage of the experiment on testing the performance of multi-paradigm data lakes. A multi-paradigm data lake is a data lake that contains data presented in different models. The experiment involves data organized in accordance with relational, graph and multidimensional models. The purpose of the experiment is to evaluate the worthwhileness of using a single integrated platform for building a multi-paradigm data lake. The same data is presented in three models and was placed on the integrated Apache Spark platform and on three specialized DBMS: PostgreSQL, Neo4j and Pentaho BI. In each case, pairwise equivalent requests of three levels of complexity were executed and their execution time was measured to compare the performance of a lake organized on a single platform and on a complex of specialized DBMS.
实验第一阶段对多范式数据湖的性能进行评价
本文描述了数据湖多元范例性能测试实验的第一阶段。多元范例称为数据池,包含不同模型中的数据。该实验涉及根据关系、图形和多维模型组织的数据。这个实验的目的是评估使用一个统一的集成平台来构建多元数据湖的可行性。同样的数据出现在三个模型中,并被放置在Apache Spark集成平台和三个专有的亚体上:PostgreSQL、Neo4j和Pentaho BI。在每一种情况下,都分别执行了相当于三层复杂性的要求,并测量了它们的运行时间,以比较单一平台和综合专用次级次级湖泊的性能。在多帕拉迪姆数据湖的测试中,第一个完整的测试阶段。多元帕拉迪姆湖是在different模型中呈现的数据湖。与相关性、图形和多功能模型一起建立的experimves数据。这首歌是为了纪念多提帕拉迪湖的建设而设计的。在三个模型中,same数据是最受欢迎的,并且在三个特殊的DBMS上支持:PostgreSQL, Neo4j和Pentaho BI。在each case, 3个精益求精者的要求是一个湖在一个单独的平台和一个特殊的DBMS上组织的表演。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信