Italo Lourenço Trindade, Leandro C. Resendo, J. O. Andrade, K. Komati
{"title":"Análise das Letras das Músicas Brasileiras mais Tocadas nas Rádios das Últimas Seis Décadas","authors":"Italo Lourenço Trindade, Leandro C. Resendo, J. O. Andrade, K. Komati","doi":"10.5753/sbbd_estendido.2021.18155","DOIUrl":"https://doi.org/10.5753/sbbd_estendido.2021.18155","url":null,"abstract":"Este trabalho realizou uma análise das músicas mais tocadas nas rádios brasileiras em 6 décadas, de 1960 à 2019. O objetivo foi avaliar se houve diferença nas características das letras das músicas ao longo das décadas em relação ao nível de repetições de palavras e quantidades de palavras. Foram desenvolvidos componentes capazes de coletar as letras das músicas mais tocadas para o período determinado, realizar a tarefa de limpeza e processamento dos dados. Os resultados obtidos indicam uma grande variação nos estilos musicais ao longo das décadas, bem como um aumento significativo no número de palavras e no número médio de palavras repetidas nas letras. Foi possível perceber que as músicas brasileiras ficaram mais repetitivas nas últimas duas décadas, e que eram bem mais curtas na década de 60.","PeriodicalId":232860,"journal":{"name":"Anais Estendidos do XXXVI Simpósio Brasileiro de Banco de Dados (SBBD Estendido 2021)","volume":"14 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-10-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"132544533","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Ana Paula Sodré, Luis Eduardo Mochenski Floriano, Dimmy Magalhães, C. D. Aguiar, Aurora Pozo, Carmem S. Hara
{"title":"Comparing Alternative Storage Models for Words Extracted from Legal Texts","authors":"Ana Paula Sodré, Luis Eduardo Mochenski Floriano, Dimmy Magalhães, C. D. Aguiar, Aurora Pozo, Carmem S. Hara","doi":"10.5753/sbbd_estendido.2021.18160","DOIUrl":"https://doi.org/10.5753/sbbd_estendido.2021.18160","url":null,"abstract":"The COVID-19 pandemic created new demands for services in the judicial system, requiring the use of a data warehouse (DW). Although there exist approaches that use DW in the judicial domain, few target the pandemic or publicly provide the information extracted from the texts. Following the needs of a legal expert, we have developed the COVID-19 Portal. It extracts documents from the Supreme Federal Court in Brazil to obtain quantitative information on words used in the texts. In this paper, we present the design of a DW, and show the query performance improvement achieved with its implementation. The DW has been developed on Postgres, and its performance is compared with the original implementation on MongoDB Cloud and a local MongoDB database.","PeriodicalId":232860,"journal":{"name":"Anais Estendidos do XXXVI Simpósio Brasileiro de Banco de Dados (SBBD Estendido 2021)","volume":"184 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-10-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"130239591","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Rebecca Salles, Eduardo S. Ogasawara, Pedro González
{"title":"Benchmarking Nonstationary Time Series Prediction","authors":"Rebecca Salles, Eduardo S. Ogasawara, Pedro González","doi":"10.5753/sbbd_estendido.2021.18182","DOIUrl":"https://doi.org/10.5753/sbbd_estendido.2021.18182","url":null,"abstract":"The prediction of time series has gained increasingly more attention among researchers since it is a crucial aspect of decision-making activities. Unfortunately, most time series prediction methods assume the property of stationarity, i.e., statistical properties do not change over time. In practice, it is the exception and not the rule in most real datasets. Several transformation methods were designed to treat nonstationarity in time series. In this context, nonstationary time series prediction is challenging since it demands knowledge of both data transformation and prediction methods. Since there are no silver bullets, it leads to exploring a large number of data transformation and prediction method combinations for building prediction setups. However, selecting a prediction setup that is appropriate to a particular time series and application is not a simple task. Benchmarking of different candidate combinations helps this selection. This work contributes by providing a review and experimental analysis of transformation methods and a systematic framework (TSPred) for benchmarking and selecting prediction setups for nonstationary time series. Suitable nonstationary time series transformation methods provided improvements of more than 30% in prediction accuracy for half of the evaluated time series. They improved the prediction by more than 95% for 10% of the time series. The features provided by TSPred are also shown to be competitive regarding prediction accuracy. Furthermore, the adoption of a validation phase during model training enables the selection of suitable transformation methods.","PeriodicalId":232860,"journal":{"name":"Anais Estendidos do XXXVI Simpósio Brasileiro de Banco de Dados (SBBD Estendido 2021)","volume":"19 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-10-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"134173559","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
{"title":"Dsadvisor: A Tool to Support Predictive Tasks in Data Science","authors":"José Augusto Câmara Filho, José Maria S. Monteiro","doi":"10.5753/sbbd_estendido.2021.18167","DOIUrl":"https://doi.org/10.5753/sbbd_estendido.2021.18167","url":null,"abstract":"Currently, professionals from the most diverse areas of knowledge need to explore their data repositories in order to extract knowledge and create new products or services. Several tools have been proposed in order to facilitate the tasks involved in the Data Science lifecycle. However, such tools require their users to have specific (and deep) knowledge in different areas of Computing and Statistics, making their use practically unfeasible for non-specialist professionals in data science. In this paper, we propose a tool, which aims to encourage non-expert users to build machine learning models to solve predictive tasks, extracting knowledge from their own data repositories. More specifically, DSAdvisor these professionals in predictive tasks involving regression and classification","PeriodicalId":232860,"journal":{"name":"Anais Estendidos do XXXVI Simpósio Brasileiro de Banco de Dados (SBBD Estendido 2021)","volume":"46 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-10-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"130002500","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Alexandre Heine, Bruno Coutinho, Mariana Barreto, Nicholas Xavier, M. V. Villas, Arthur Ituassu, Sérgio Lifschitz
{"title":"Análise de Dados para Comunicação Política a partir de um Sistema de Coleta de Tweets","authors":"Alexandre Heine, Bruno Coutinho, Mariana Barreto, Nicholas Xavier, M. V. Villas, Arthur Ituassu, Sérgio Lifschitz","doi":"10.5753/sbbd_estendido.2021.18162","DOIUrl":"https://doi.org/10.5753/sbbd_estendido.2021.18162","url":null,"abstract":"Este artigo apresenta o projeto, a pesquisa e o desenvolvimento de uma ferramenta de coleta e análise de dados do Twitter, que tem por objetivo avaliar os dados publicados nesta rede social, em particular voltados para a área de comunicação política. Além de explicar brevemente a arquitetura do sistema, descrevemos algumas funcionalidades importantes, a saber: a coleta de dados por streaming; as análises relativas aos links compartilhados; a identificação de usuários que realizaram retweets; e o estudo de polaridade dos sentimentos expressos no corpo dos tweets. Dentre os desafios encontrados destacamos o pré-processamento dos dados coletados, as limitações no uso da API do Twitter e a obtenção e preparação da bases de dados para a análise de sentimentos.","PeriodicalId":232860,"journal":{"name":"Anais Estendidos do XXXVI Simpósio Brasileiro de Banco de Dados (SBBD Estendido 2021)","volume":"67 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-10-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"126286921","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
{"title":"Experion: A framework for contextualizing evidence in expert finding","authors":"Rodrigo Gonçalves, C. Dorneles","doi":"10.5753/sbbd_estendido.2021.18172","DOIUrl":"https://doi.org/10.5753/sbbd_estendido.2021.18172","url":null,"abstract":"Expert finding is traditionally related to a subject of research in information retrieval and, often, is taken to mean \"expertise retrieval within a specific organization\". The task involves finding an expert in an expertise topic. Even though there are interesting proposals in the literature, they do not consider the context in which a given expertise is bound. This Ph.D. thesis introduces the concept of a framework that chronologically contextualizes search results in expert finding. Our motivation is to provide more accurate results of search processes related to finding experts in a given topic, contextualizing the expertise on professional/academic activities, an open research topic. In this paper, we present the main concepts of the framework we are developing and a general overview of its operation. At the moment, we are using the Lattes platform as a data source, for which we developed a process to extract expertise evidence, supported by the Crossref database.","PeriodicalId":232860,"journal":{"name":"Anais Estendidos do XXXVI Simpósio Brasileiro de Banco de Dados (SBBD Estendido 2021)","volume":"22 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-10-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"116969641","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
{"title":"Analisador de Estruturas de Bases de Dados para o Agronegócio com Dimensões de Qualidade de Dados","authors":"Clovis S. Junior, C. Dorneles","doi":"10.5753/sbbd_estendido.2021.18164","DOIUrl":"https://doi.org/10.5753/sbbd_estendido.2021.18164","url":null,"abstract":"Este artigo apresenta uma ferramenta para análise da qualidade de dados de bases de dados, cujo objetivo é fornecer uma interface para auxiliar na verificação e análise dos dados. A solução foi desenvolvida combinando recursos de dicionário de dados e dos dados armazenados possibilitando a investigação e análise de aspectos relevantes para análise baseada em critérios de dimensões de qualidade de dados. Com isso, pretende-se fornecer resultados qualitativos referentes à estrutura na qual os dados estão armazenados indicando características inadequadas como integridade, objetividade e validade entre outras dimensões","PeriodicalId":232860,"journal":{"name":"Anais Estendidos do XXXVI Simpósio Brasileiro de Banco de Dados (SBBD Estendido 2021)","volume":"23 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-10-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"123850202","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Alexandre Heine, E. P. Santos, M. Lima, Sérgio Lifschitz
{"title":"Aplicação Web de Processamento, Clustering e Visualização de Grafos de Genes de Workflows Científicos","authors":"Alexandre Heine, E. P. Santos, M. Lima, Sérgio Lifschitz","doi":"10.5753/sbbd_estendido.2021.18163","DOIUrl":"https://doi.org/10.5753/sbbd_estendido.2021.18163","url":null,"abstract":"Este trabalho propõe uma aplicação web de apoio a dados provenientes de workflows científicos de genes diferencialmente expressos (DEGs) que envolvem análises de sequenciamento de RNA. Assim, procura-se contribuir com formas de manuseio desses dados, permitindo a formação de um grafo de genes, por meio de dados de interação de genes, assim como a criação de subgrafos e clusters representativos, utilizando-se de informações obtidas de dados armazenados em arquivos de string. Esses arquivos são processados conforme são realizados novos pedidos na aplicação e, então, armazenados em um banco de dados relacional, possibilitando a pesquisadores visualizarem e manusearem grafos de genes para seus estudos.","PeriodicalId":232860,"journal":{"name":"Anais Estendidos do XXXVI Simpósio Brasileiro de Banco de Dados (SBBD Estendido 2021)","volume":"1 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-10-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"116840758","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
{"title":"Preservação de Privacidade entre Indivíduos com Semelhança Genômica","authors":"Manuel Edvar B. Filho, Javam C. Machado","doi":"10.5753/sbbd_estendido.2021.18176","DOIUrl":"https://doi.org/10.5753/sbbd_estendido.2021.18176","url":null,"abstract":"O crescimento na produção de tecnologias que auxiliam no sequenciamento genético tem sido acompanhado do aumento na produção de dados genômicos das pessoas. Ao analisar esses dados é possível identificar informações pessoais e familiares acerca dos indivíduos, muitas delas informações sensíveis. Coloca-se assim a necessidade de se preservar a privacidade dos indivíduos quando da análise desse tipo de dado. É comum nas instituições de saúde executar o processo de comparar o dado genômico de um indivíduo com um conjunto de dados de outros pacientes, buscando encontrar semelhanças entre eles a fim de realizar análises e tratamentos similares. Este trabalho estuda a preservação de privacidade dos indivíduos neste processo. Investigamos perturbar o dado genômico por meio da privacidade diferencial com o objetivo de permitir análises úteis e ao mesmo tempo dificultar a reidentificação do titular do genoma.","PeriodicalId":232860,"journal":{"name":"Anais Estendidos do XXXVI Simpósio Brasileiro de Banco de Dados (SBBD Estendido 2021)","volume":"39 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-10-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"121691673","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
{"title":"Utilização de dados espaciais para determinar a influência de poluentes na ocorrência de espécies na Amazônia","authors":"Renato O. Miyaji, P. P. S. Corrêa, L. V. Rizzo","doi":"10.5753/sbbd_estendido.2021.18157","DOIUrl":"https://doi.org/10.5753/sbbd_estendido.2021.18157","url":null,"abstract":"Por conta da influência da ação antrópica, os ciclos hidrológicos e energéticos na região da Bacia Amazônica sofreram alterações nas últimas décadas. No entanto, os efeitos dessas mudanças na fauna local ainda não foram profundamente analisados. Neste contexto, neste trabalho buscou-se desenvolver um experimento de Modelagem de Distribuição de Espécies de aves, a partir dos dados meteorológicos e de aerossóis coletados na região de interesse durante o projeto GoAmazon 2014/15, através da aplicação do Modelo de Máxima Entropia, de modo a determinar a influência de poluentes na ocorrência de espécies.","PeriodicalId":232860,"journal":{"name":"Anais Estendidos do XXXVI Simpósio Brasileiro de Banco de Dados (SBBD Estendido 2021)","volume":"44 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-10-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"124401522","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}