一个框架,以促进从各种来源提取和处理信息的应用程序的开发

Otávio Calaça Xavier, Sandrerley Ramos Pires, Thyago Carvalho Marques, E. A. S. Garcia, Felipe Pires Saraiva, Anderson Soares da Silva
{"title":"一个框架,以促进从各种来源提取和处理信息的应用程序的开发","authors":"Otávio Calaça Xavier, Sandrerley Ramos Pires, Thyago Carvalho Marques, E. A. S. Garcia, Felipe Pires Saraiva, Anderson Soares da Silva","doi":"10.5753/latinoware.2020.18613","DOIUrl":null,"url":null,"abstract":"O processo de extração de informações de diversas fontes com o objetivo de gerar um ambiente de Big Data é uma tarefa complexa. As variáveis envolvidas, como o volume de informações, a velocidade com que novas informações aparecem e a variedade de suas origens caracterizam esse ambiente complexo. Essa situação leva os desenvolvedores a lidar com um conjunto de detalhes que a tecnologia disponível requer para seu uso eficiente. O resultado é um processo de extração de dados pouco produtivo. Além disso, as ferramentas disponíveis atualmente são projetadas para cobrir cenários específicos e são difíceis de serem adaptadas. Este trabalho propõe um framework para apoiar o desenvolvedor a lidar com esta tarefa de forma produtiva. O objetivo da estrutura é fornecer uma maneira fácil de desenvolver um pipeline de tarefas resilientes e distribuídas. Ele abstrai detalhes da manipulação do banco de dados e da manipulação do enfileiramento de mensagens. Usando um sistema de enfileiramento de mensagens, ele pode distribuir a carga entre vários nós. O Framework dá ao desenvolvedor a possibilidade de criar módulos coesos e bem acoplados através das filas, permitindo a escalabilidade da estrutura de extração de dados. Assim, o desenvolvedor pode se concentrar em entender as estruturas de dados de origem que pretende extrair. Ele não precisa se preocupar com questões como gerenciamento de filas, balanceamento de carga em um ambiente distribuído, controle de conexões de banco de dados e até mesmo a escrita de enfadonhos comandos SQL, reduzindo a complexidade ao desenvolvimento. Em comparação com as ferramentas disponíveis atualmente, a estrutura proposta é leve, mais fácil de usar e projetada para desenvolvedores. Ela foi concebida para ser usada de forma programática em vez de usar a abordagem arrastar e soltar, resultando em ganhos de produtividade significativos.","PeriodicalId":119415,"journal":{"name":"Anais do XVII Congresso Latino-Americano de Software Livre e Tecnologias Abertas (Latinoware 2020)","volume":"37 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2020-12-02","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"Um Framework para facilitar o desenvolvimento de aplicativos para extração e processamento de informações de várias fontes\",\"authors\":\"Otávio Calaça Xavier, Sandrerley Ramos Pires, Thyago Carvalho Marques, E. A. S. Garcia, Felipe Pires Saraiva, Anderson Soares da Silva\",\"doi\":\"10.5753/latinoware.2020.18613\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"O processo de extração de informações de diversas fontes com o objetivo de gerar um ambiente de Big Data é uma tarefa complexa. As variáveis envolvidas, como o volume de informações, a velocidade com que novas informações aparecem e a variedade de suas origens caracterizam esse ambiente complexo. Essa situação leva os desenvolvedores a lidar com um conjunto de detalhes que a tecnologia disponível requer para seu uso eficiente. O resultado é um processo de extração de dados pouco produtivo. Além disso, as ferramentas disponíveis atualmente são projetadas para cobrir cenários específicos e são difíceis de serem adaptadas. Este trabalho propõe um framework para apoiar o desenvolvedor a lidar com esta tarefa de forma produtiva. O objetivo da estrutura é fornecer uma maneira fácil de desenvolver um pipeline de tarefas resilientes e distribuídas. Ele abstrai detalhes da manipulação do banco de dados e da manipulação do enfileiramento de mensagens. Usando um sistema de enfileiramento de mensagens, ele pode distribuir a carga entre vários nós. O Framework dá ao desenvolvedor a possibilidade de criar módulos coesos e bem acoplados através das filas, permitindo a escalabilidade da estrutura de extração de dados. Assim, o desenvolvedor pode se concentrar em entender as estruturas de dados de origem que pretende extrair. Ele não precisa se preocupar com questões como gerenciamento de filas, balanceamento de carga em um ambiente distribuído, controle de conexões de banco de dados e até mesmo a escrita de enfadonhos comandos SQL, reduzindo a complexidade ao desenvolvimento. Em comparação com as ferramentas disponíveis atualmente, a estrutura proposta é leve, mais fácil de usar e projetada para desenvolvedores. Ela foi concebida para ser usada de forma programática em vez de usar a abordagem arrastar e soltar, resultando em ganhos de produtividade significativos.\",\"PeriodicalId\":119415,\"journal\":{\"name\":\"Anais do XVII Congresso Latino-Americano de Software Livre e Tecnologias Abertas (Latinoware 2020)\",\"volume\":\"37 1\",\"pages\":\"0\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2020-12-02\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Anais do XVII Congresso Latino-Americano de Software Livre e Tecnologias Abertas (Latinoware 2020)\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.5753/latinoware.2020.18613\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Anais do XVII Congresso Latino-Americano de Software Livre e Tecnologias Abertas (Latinoware 2020)","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.5753/latinoware.2020.18613","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

摘要

从多个来源提取信息以生成大数据环境的过程是一项复杂的任务。所涉及的变量,如信息量、新信息出现的速度和来源的多样性,都是这个复杂环境的特征。这种情况导致开发人员处理可用技术有效使用所需的一组细节。结果是一个低效的数据提取过程。此外,目前可用的工具是为覆盖特定场景而设计的,很难适应。这项工作提出了一个框架,以支持开发人员有效地处理这一任务。该框架的目标是提供一种简单的方法来开发弹性和分布式任务的管道。它抽象了数据库操作和消息队列操作的细节。使用消息队列系统,它可以在多个节点之间分配负载。该框架为开发人员提供了跨队列创建内聚且耦合良好的模块的可能性,允许数据提取结构的可伸缩性。因此,开发人员可以专注于理解他们想要提取的源数据结构。它不需要担心队列管理、分布式环境中的负载平衡、控制数据库连接,甚至编写枯燥的SQL命令等问题,从而降低了开发的复杂性。与目前可用的工具相比,拟议的框架更轻,更容易使用,并为开发人员设计。它被设计成以编程方式使用,而不是使用拖放方法,从而显著提高生产率。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
Um Framework para facilitar o desenvolvimento de aplicativos para extração e processamento de informações de várias fontes
O processo de extração de informações de diversas fontes com o objetivo de gerar um ambiente de Big Data é uma tarefa complexa. As variáveis envolvidas, como o volume de informações, a velocidade com que novas informações aparecem e a variedade de suas origens caracterizam esse ambiente complexo. Essa situação leva os desenvolvedores a lidar com um conjunto de detalhes que a tecnologia disponível requer para seu uso eficiente. O resultado é um processo de extração de dados pouco produtivo. Além disso, as ferramentas disponíveis atualmente são projetadas para cobrir cenários específicos e são difíceis de serem adaptadas. Este trabalho propõe um framework para apoiar o desenvolvedor a lidar com esta tarefa de forma produtiva. O objetivo da estrutura é fornecer uma maneira fácil de desenvolver um pipeline de tarefas resilientes e distribuídas. Ele abstrai detalhes da manipulação do banco de dados e da manipulação do enfileiramento de mensagens. Usando um sistema de enfileiramento de mensagens, ele pode distribuir a carga entre vários nós. O Framework dá ao desenvolvedor a possibilidade de criar módulos coesos e bem acoplados através das filas, permitindo a escalabilidade da estrutura de extração de dados. Assim, o desenvolvedor pode se concentrar em entender as estruturas de dados de origem que pretende extrair. Ele não precisa se preocupar com questões como gerenciamento de filas, balanceamento de carga em um ambiente distribuído, controle de conexões de banco de dados e até mesmo a escrita de enfadonhos comandos SQL, reduzindo a complexidade ao desenvolvimento. Em comparação com as ferramentas disponíveis atualmente, a estrutura proposta é leve, mais fácil de usar e projetada para desenvolvedores. Ela foi concebida para ser usada de forma programática em vez de usar a abordagem arrastar e soltar, resultando em ganhos de produtividade significativos.
求助全文
通过发布文献求助,成功后即可免费获取论文全文。 去求助
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信