{"title":"EERCASE: Uma Ferramenta Robusta para Projeto Conceitual de Banco de Dados","authors":"E. Silva, R. Fidalgo","doi":"10.5753/sbbd_estendido.2021.18168","DOIUrl":"https://doi.org/10.5753/sbbd_estendido.2021.18168","url":null,"abstract":"Considerando a pluralidade de notações Enhanced Entity-Relationship (EER) e a carência de ferramentas robustas, este artigo apresenta a ferramenta EERCASE. Construída com base nas melhores práticas do paradigma Model Driven Development (MDD), EERCASE é capaz de impedir construções sintaticamente inválidas, indicar e explicar os erros de semântica estática e gerar código de definição de dados impondo restrições não triviais. EERCASE tem sido usada para apoiar o ensino e a prática de projeto EER e oferece recursos não disponibilizados por outras ferramentas.","PeriodicalId":232860,"journal":{"name":"Anais Estendidos do XXXVI Simpósio Brasileiro de Banco de Dados (SBBD Estendido 2021)","volume":"14 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-10-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"122247592","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Thierry S. Barros, C. S. S. Pires, Dimas C. N. Filho
{"title":"Sumarizacão Automática de Notícias Crime no Contexto da Polícia Federal","authors":"Thierry S. Barros, C. S. S. Pires, Dimas C. N. Filho","doi":"10.5753/sbbd_estendido.2021.18174","DOIUrl":"https://doi.org/10.5753/sbbd_estendido.2021.18174","url":null,"abstract":"Redes neurais profundas foram aplicadas com sucesso a muitas tarefas diferentes de processamento de linguagem natural. Um modelo de rede neural que alavancou os resultados em uma ampla gama de tarefas de PNL foi o modelo BERT - uma sigla para Bidirectional Encoder Representations from Transformers. Nesta pesquisa, apresentamos como o modelo BERT pode ser utilizado para resumir documentos textuais da Polícia Federal Brasileira. Os documentos visam relatar um resumo das atividades investigativas. Devido ao tamanho e à complexidade dos documentos, é um trabalho exaustivo ler e compreender todo o seu conteúdo. Assim, objetivamos analisar a viabilidade da utilização do modelo BERT para extrair e sintetizar as informações mais importantes de documentos da Polícia Federal.","PeriodicalId":232860,"journal":{"name":"Anais Estendidos do XXXVI Simpósio Brasileiro de Banco de Dados (SBBD Estendido 2021)","volume":"28 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-10-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"115263002","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
F. Silva, Débora B. Pina, Liliane N. O. Kunstmann, M. Mattoso
{"title":"Painel de Proveniência: análise durante o treinamento de Redes Neurais Profundas","authors":"F. Silva, Débora B. Pina, Liliane N. O. Kunstmann, M. Mattoso","doi":"10.5753/sbbd_estendido.2021.18158","DOIUrl":"https://doi.org/10.5753/sbbd_estendido.2021.18158","url":null,"abstract":"O treinamento de redes neurais profundas requer o ajuste de hiperparâmetros. Este processo é custoso e ainda que existam ferramentas para escolha automática da melhor configuração de hiperparâmetros, o usuário é responsável pela decisão final. Para isso, é necessário analisar o impacto de diferentes hiperparâmetros sobre métricas como acurácia e perda. A proveniência é uma forma de representar as relações de derivação de dados, que fornecem um suporte importante nesta análise de dados. Observando as dificuldades para análises de proveniência e aprendizado profundo, propusemos anteriormente uma ferramenta que coleta proveniência diretamente do Keras e permite análises em tempo de execução, chamada Keras-Prov. Para aperfeiçoar suas capacidades analíticas, apresentamos neste artigo uma integração dessa ferramenta com o Elasticsearch e o Kibana, criando um Painel de Proveniência para análise durante o treinamento. Apresentamos uma avaliação experimental dessa integração usando a CNN AlexNet.","PeriodicalId":232860,"journal":{"name":"Anais Estendidos do XXXVI Simpósio Brasileiro de Banco de Dados (SBBD Estendido 2021)","volume":"28 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-10-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"114370173","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
{"title":"Classificação diferencialmente privada e não discriminatória utilizando árvore de decisão","authors":"M. Silva, Javam C. Machado","doi":"10.5753/sbbd_estendido.2021.18177","DOIUrl":"https://doi.org/10.5753/sbbd_estendido.2021.18177","url":null,"abstract":"Devido ao crescimento do uso de tecnologias para classificações de indivíduos e ao surgimento de leis de proteção aos dados, a preservação da privacidade e a preocupação quanto à discriminação propagada por algoritmos de classificação se tornaram temas relevantes para sociedade. Enquanto o processo de classificação pode associar indivíduos às suas características sensíveis, tais indivíduos podem ser discriminados uma vez associados a essas características. Para mitigar o problema de classificações discriminatórias e preservação da privacidade de indivíduos, propomos um algoritmo de árvore de decisão, onde aplicamos mecanismos de privacidade diferencial e propriedades de fairness para assegurar, ao mesmo tempo, a privacidade e a não-discriminação de indivíduos com dados pessoais envolvidos no processo. Nossa proposta introduz, portanto, equidade ou fairness em um algoritmo de classificação baseado em árvores de decisão.","PeriodicalId":232860,"journal":{"name":"Anais Estendidos do XXXVI Simpósio Brasileiro de Banco de Dados (SBBD Estendido 2021)","volume":"133 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-10-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"124140055","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Maria Salgueiro, Veronica Gomes Dos Santos, A. Rêgo, D. Guimarães, E. Haeusler, Jefferson De B. Santos, M. V. Villas, Sérgio Lifschitz
{"title":"Sistemas de Recuperação de Informações Aplicados à Produções Acadêmicas","authors":"Maria Salgueiro, Veronica Gomes Dos Santos, A. Rêgo, D. Guimarães, E. Haeusler, Jefferson De B. Santos, M. V. Villas, Sérgio Lifschitz","doi":"10.5753/sbbd_estendido.2021.18161","DOIUrl":"https://doi.org/10.5753/sbbd_estendido.2021.18161","url":null,"abstract":"Este trabalho apresenta o projeto e a construção de Sistemas de Recuperação de Informações que permitem a identificação de projetos de pesquisa e/ou desenvolvimento, e as competências existentes em laboratórios e departamentos, coordenados por integrantes do quadro de professores-pesquisadores da PUC-Rio, a partir da busca por uma ou uma lista de palavras-chave. As fontes de informação que compõem o banco de dados do projeto são convertidas para o formato RDF usando ontologias de domínio, e são armazenadas em uma base NoSQL que suporta indexação de texto livre nativamente. Os resultados da busca incluem nomes, produções científicas diversas, atividades de ensino e links para contato. Ilustramos nossa solução com dois sistemas em desenvolvimento: Busc@NIMA e Quem@PUC.","PeriodicalId":232860,"journal":{"name":"Anais Estendidos do XXXVI Simpósio Brasileiro de Banco de Dados (SBBD Estendido 2021)","volume":"282 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-10-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"114442973","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
{"title":"Proximity Graphs for Similarity Searches: Experimental Survey and the New Connected-Partition Approach HGraph","authors":"L. C. Shimomura, D. S. Kaster","doi":"10.5753/sbbd_estendido.2021.18181","DOIUrl":"https://doi.org/10.5753/sbbd_estendido.2021.18181","url":null,"abstract":"Similarity searching is a widely used approach to retrieve complex data (images, videos, time series, etc.). Similarity searches aim at retrieving similar data according to the intrinsic characteristics of the data. Recently, graph-based methods have emerged as a very efficient alternative for similarity retrieval, with reports indicating they have outperformed methods of other categories in several situations. This work presents two main contributions to graph-based methods for similarity searches. The first contribution is a survey on the main graph types currently employed for similarity searches and an experimental evaluation of the most representative graphs in a common platform for exact and approximate search algorithms. The second contribution is a new graph-based method called HGraph, which is a connected-partition approach to build a proximity graph and answer similarity searches. Both of our contributions and results were published and received awards in international conferences.","PeriodicalId":232860,"journal":{"name":"Anais Estendidos do XXXVI Simpósio Brasileiro de Banco de Dados (SBBD Estendido 2021)","volume":"178 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-10-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"122454556","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
{"title":"A Thorough Exploitation of Distance-Based Meta-Features for Automated Text Classification","authors":"Sérgio D. Canuto, Marcos André Gonçalves, T. Rosa","doi":"10.5753/sbbd_estendido.2021.18184","DOIUrl":"https://doi.org/10.5753/sbbd_estendido.2021.18184","url":null,"abstract":"The definition of a set of informative features capable of representing and discriminating documents is paramount for the task of automatically classifying documents. In this doctoral dissertation, we present the most comprehensive study so far on the role of meta-features (high-level features built from lower-level ones) as an alternative for representing documents. We start by proposing new sets of (meta-)features that exploit distance measures in the original (bag-of-words) feature space to summarize potentially complex relationships between documents. We then (i) analyze the discriminative power of such meta-features with novel multi-objective feature selection strategies; (ii) provide new GPU implementations to reduce computational time; (iii) enrich distance relationships with labeled or context-specific information; (iv) adapt the proposed meta-features for tasks as hard as sentiment analysis. Our experimental results show that our meta-features can achieve remarkable classification results by distance exploitation, being the state-of-the-art in many situations and scenarios.","PeriodicalId":232860,"journal":{"name":"Anais Estendidos do XXXVI Simpósio Brasileiro de Banco de Dados (SBBD Estendido 2021)","volume":"58 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-10-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"131370439","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
T. Nóbrega, Carlos Eduardo S. Pires, D. Nascimento
{"title":"Towards Auditable and Intelligent Privacy-Preserving Record Linkage","authors":"T. Nóbrega, Carlos Eduardo S. Pires, D. Nascimento","doi":"10.5753/sbbd_estendido.2021.18170","DOIUrl":"https://doi.org/10.5753/sbbd_estendido.2021.18170","url":null,"abstract":"Privacy-Preserving Record Linkage (PPRL) intends to integrate private/sensitive data from several data sources held by different parties. It aims to identify records (e.g., persons or objects) representing the same real-world entity over private data sources held by different custodians. Due to recent laws and regulations (e.g., General Data Protection Regulation), PPRL approaches are increasingly demanded in real-world application areas such as health care, credit analysis, public policy evaluation, and national security. As a result, the PPRL process needs to deal with efficacy (linkage quality), and privacy problems. For instance, the PPRL process needs to be executed over data sources (e.g., a database containing personal information of governmental income distribution and assistance programs), with an accurate linkage of the entities, and, at the same time, protect the privacy of the information. Thus, this work intends to simplify the PPRL process by facilitating real-world applications (such as medical, epidemiologic, and populational studies) to reduce legal and bureaucratic efforts to access and process the data, making these applications' execution more straightforward for companies and governments. In this context, this work presents two major contributions to PPRL: i) an improvement to the linkage quality and simplify the process by employing Machine Learning techniques to decide whether two records represent the same entity, or not; and ii) we enable the auditability the computations performed during PPRL.","PeriodicalId":232860,"journal":{"name":"Anais Estendidos do XXXVI Simpósio Brasileiro de Banco de Dados (SBBD Estendido 2021)","volume":"71 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-10-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"114143394","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Claudio D. T. Barros, Daniel N. R. da Silva, Fábio Porto
{"title":"Machine Learning on Graph-Structured Data","authors":"Claudio D. T. Barros, Daniel N. R. da Silva, Fábio Porto","doi":"10.5753/sbbd_estendido.2021.18179","DOIUrl":"https://doi.org/10.5753/sbbd_estendido.2021.18179","url":null,"abstract":"Several real-world complex systems have graph-structured data, including social networks, biological networks, and knowledge graphs. A continuous increase in the quantity and quality of these graphs demands learning models to unlock the potential of this data and execute tasks, including node classification, graph classification, and link prediction. This tutorial presents machine learning on graphs, focusing on how representation learning - from traditional approaches (e.g., matrix factorization and random walks) to deep neural architectures - fosters carrying out those tasks. We also introduce representation learning over dynamic and knowledge graphs. Lastly, we discuss open problems, such as scalability and distributed network embedding systems.","PeriodicalId":232860,"journal":{"name":"Anais Estendidos do XXXVI Simpósio Brasileiro de Banco de Dados (SBBD Estendido 2021)","volume":"523 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-10-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"123207310","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
{"title":"A semantic search approach for hyper relational knowledge graphs","authors":"Verônica dos Santos, Sérgio Lifschitz","doi":"10.5753/sbbd_estendido.2021.18171","DOIUrl":"https://doi.org/10.5753/sbbd_estendido.2021.18171","url":null,"abstract":"Information Retrieval Systems usually employ syntactic search techniques to match a set of keywords with the indexed content to retrieve results. But pure keyword-based matching lacks on capturing user's search intention and context and suffers of natural language ambiguity and vocabulary mismatch. Considering this scenario, the hypothesis raised is that the use of embeddings in a semantic search approach will make search results more meaningfully. Embeddings allow to minimize problems arising from terminology and context mismatch. This work proposes a semantic similarity function to support semantic search based on hyper relational knowledge graphs. This function uses embeddings in order to find the most similar nodes that satisfy a user query.","PeriodicalId":232860,"journal":{"name":"Anais Estendidos do XXXVI Simpósio Brasileiro de Banco de Dados (SBBD Estendido 2021)","volume":"12 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-10-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"125930886","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}