Matheus Ferraroni Sanches, Jáder M. C. de Sá, Henrique T. S. Foerste, R. R. Souza, J. C. dos Reis, L. Villas
{"title":"Textual Datasets For Portuguese-Brazilian Language Models","authors":"Matheus Ferraroni Sanches, Jáder M. C. de Sá, Henrique T. S. Foerste, R. R. Souza, J. C. dos Reis, L. Villas","doi":"10.5753/dsw.2022.224294","DOIUrl":"https://doi.org/10.5753/dsw.2022.224294","url":null,"abstract":"Advances in Natural Language Processing have generated new models that push forward the state of the art. This reached new heights in complex tasks in handling unstructured texts. Most of the new architectures and models focus on the English language. There is a lack of available datasets that can be used during the training of new models. This investigation presents four new textual datasets for language modeling in Brazilian Portuguese. Our datasets were generated from several specific methodologies that aimed to obtain data of different natures. Two of our sets were originally built from data in online web forums. We also distribute a translated version of MultiWOZ, and a clean version of BrWaC. The original datasets are made available in a structured way to facilitate their use during the training of NLP models, with questions, answers and conversations already identified.","PeriodicalId":308946,"journal":{"name":"Anais do IV Dataset Showcase Workshop (DSW 2022)","volume":"47 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2022-09-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"125777414","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
{"title":"Proposta de um Dataset para a Agricultura Utilizando Dicionário de Termos Agrovoc como Fonte de Dados","authors":"Clovis S. Junior, C. Dorneles","doi":"10.5753/dsw.2022.226243","DOIUrl":"https://doi.org/10.5753/dsw.2022.226243","url":null,"abstract":"A produção científica depende em grande parte de termos técnicos específicos para cada área do conhecimento. Esses termos usualmente não seguem um vocabulário convencional ou tradução livre principalmente no compartilhamento de dados e informações entre idiomas. No domínio agrícola a Organização das Nações Unidas para Alimentação e Agricultura (FAO) contribui com uma importante ferramenta para auxiliar o intercâmbio de informações em diferentes idiomas: o dicionário Agrovoc. O Agrovoc funciona como um vocabulário de termos composto também por uma ontologia colaborativa contando com termos em até 40 idiomas. A disponibilização desse vocabulário juntamente com a estrutura de uma ontologia pode dificultar a integração com sistemas de terceiros, como por exemplo Enterprise Resource Planning ou ERP. A contribuição desse trabalho está na apresentação de uma alternativa para criação de um dataset tabular a partir do dicionário Agrovoc para uso dos termos em bases de dados relacionais permitindo facilmente a integração com aplicações destinadas à agricultura.","PeriodicalId":308946,"journal":{"name":"Anais do IV Dataset Showcase Workshop (DSW 2022)","volume":"2 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2022-09-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"123519569","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Mariana O. Silva, Amanda F. Paula, Gabriel P. Oliveira, Iago A. D. Vaz, Henrique Hott, Larissa D. Gomide, A. G. D. Reis, B. E. M. Mendes, Clara A. Bacha, Lucas L. Costa, M. Brandão, A. Lacerda, Gisele L. Pappa
{"title":"LiPSet: Um conjunto de Dados com Documentos Rotulados de Licitações Públicas","authors":"Mariana O. Silva, Amanda F. Paula, Gabriel P. Oliveira, Iago A. D. Vaz, Henrique Hott, Larissa D. Gomide, A. G. D. Reis, B. E. M. Mendes, Clara A. Bacha, Lucas L. Costa, M. Brandão, A. Lacerda, Gisele L. Pappa","doi":"10.5753/dsw.2022.224925","DOIUrl":"https://doi.org/10.5753/dsw.2022.224925","url":null,"abstract":"Neste trabalho, é apresentado o LiPSet, um conjunto de dados com documentos rotulados de licitações públicas de Minas Gerais. Após uma visão geral do processo de coleta e rotulação manual, uma breve análise exploratória de dados é apresentada para resumir as principais características e contribuições do conjunto de dados proposto. Além disso, são discutidas potenciais aplicações e principais desafios que envolvem o uso do LiPSet.","PeriodicalId":308946,"journal":{"name":"Anais do IV Dataset Showcase Workshop (DSW 2022)","volume":"160 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2022-09-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"114735468","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
{"title":"Um Dataset Enriquecido com Dados Extraídos da Web para Aplicações de Georreferenciamento","authors":"Clovis S. Junior, C. Dorneles","doi":"10.5753/dsw.2022.226242","DOIUrl":"https://doi.org/10.5753/dsw.2022.226242","url":null,"abstract":"Aplicações agrícolas e ambientais dependem de dados georreferenciados. A obtenção desse tipo de dado exige recursos elevados relacionados a hardware e recursos humanos especializados. A extração de dados da Web pode ser uma alternativa viável para criação de datasets para essa demanda. É possível encontrar repositórios públicos em ambiente Web para criar ou complementar datasets no domínio agrícola e ambiental, seja para delimitação de áreas agrícolas ou identificação e monitoramento de áreas ambientais. O presente artigo apresenta uma proposta para extração de dados da Web com o objetivo de criar um dataset para uso agrícola e ambiental por meio da extração de geo-coordenadas em repositórios públicos.","PeriodicalId":308946,"journal":{"name":"Anais do IV Dataset Showcase Workshop (DSW 2022)","volume":"11 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2022-09-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"127915003","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
{"title":"Indicadores e Dados Municipais: Um banco de dados para avaliar a eficiência das despesas públicas","authors":"Paula Guelman Davis","doi":"10.5753/dsw.2022.226251","DOIUrl":"https://doi.org/10.5753/dsw.2022.226251","url":null,"abstract":"Este artigo descreve a construção de um banco de dados com dados financeiros e operacionais dos municípios do Brasil. Foram coletados dados públicos referentes a despesas por função (educação, saúde, segurança, entre outros), indicadores e outros dados que refletem a realidade municipal nas áreas de educação, saúde, segurança pública, desenvolvimento, saneamento e situação fiscal. Foram integrados e transformados dados de várias fontes que permitiram estudos sobre a correlação entre a performance dos municípios nos indicadores socioeconômicos e as despesas públicas correspondentes, de forma a acompanhar e avaliar os efeitos das políticas públicas.","PeriodicalId":308946,"journal":{"name":"Anais do IV Dataset Showcase Workshop (DSW 2022)","volume":"26 3","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2022-09-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"120907525","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Daniel de Souza Silva Junior, Daniel de Oliveira, A. Paes
{"title":"Criação de Conjuntos de Dados Textuais Jurídicos em Português a partir de Processo de Extração e Heurística","authors":"Daniel de Souza Silva Junior, Daniel de Oliveira, A. Paes","doi":"10.5753/dsw.2022.226253","DOIUrl":"https://doi.org/10.5753/dsw.2022.226253","url":null,"abstract":"O judiciário brasileiro possui uma grande carga de trabalho, o que acaba acarretando um longo tempo para conclusão dos processos judiciais. Diversas iniciativas de digitalização têm surgido, abrindo a possibilidade do uso de recursos computacionais no auxílio das tarefas cotidianas do domínio jurídico. O domínio jurídico lida, em sua maioria, com dados textuais e a Inteligência Artificial tem técnicas que podem ajudar a apoiar as tarefas cotidianas, dando maior celeridade ao processo. No entanto, conjuntos de dados do domínio jurídico necessários para algumas técnicas atuais de Inteligência Artificial são escassos e de difícil obtenção, uma vez que requerem anotações por parte de especialistas. Este artigo apresenta quatro conjuntos de dados do domínio jurídico, dois com corpus de documentos e alguns metadados mas sem rótulo, e outros dois anotados com uma heurística visando seu uso na tarefa de similaridade semântica textual.","PeriodicalId":308946,"journal":{"name":"Anais do IV Dataset Showcase Workshop (DSW 2022)","volume":"64 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2022-09-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"123650699","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Ana Luiza Sanches, Sinval de Deus Vieira Júnior, D. H. Dalip, Bárbara Gabrielle C. O. Lopes
{"title":"Wiki Evolution dataset: English Wikipedia revision articles represented by quality attributes","authors":"Ana Luiza Sanches, Sinval de Deus Vieira Júnior, D. H. Dalip, Bárbara Gabrielle C. O. Lopes","doi":"10.5753/dsw.2022.225573","DOIUrl":"https://doi.org/10.5753/dsw.2022.225573","url":null,"abstract":"Este artigo descreve a criação e disponibilização da base de dados de evolução de artigos da Wikipédia. A base é caracterizada por atributos de qualidades e a classe de qualidade dos artigos em determinada data, sendo cada instância entendida como revisão. Esta base pode ser utilizada para estudos relacionados com classificação automática de qualidade que considerem o histórico de revisão do artigo e entendimento de como o conteúdo e qualidade dos artigos evoluem ao longo do tempo nessa plataforma colaborativa.","PeriodicalId":308946,"journal":{"name":"Anais do IV Dataset Showcase Workshop (DSW 2022)","volume":"53 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2022-09-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"129993762","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Aldéryck Félix de Albuquerque, Abílio Nogueira Barros, A. Alencar, A. Nascimento, I. Bittencourt, R. F. Mello
{"title":"Dataset de Estimativas populacionais desagregada por município e idade 2014-2020","authors":"Aldéryck Félix de Albuquerque, Abílio Nogueira Barros, A. Alencar, A. Nascimento, I. Bittencourt, R. F. Mello","doi":"10.5753/dsw.2022.225525","DOIUrl":"https://doi.org/10.5753/dsw.2022.225525","url":null,"abstract":"Neste estudo busca-se solucionar a falta de dados de estimativas populacionais segmentadas por município e idade, no período de 2014 a 2020 para todos os municípios do Brasil, através da criação de um Dataset que fornece estes dados de forma estruturada e enriquecida com características para facilitar seu reuso, partindo de dados oficiais como do IBGE e do Ministério da Saúde e processados por uma metodologia já aprovada por um órgão de Estado. Além da implantação da metodologia para geração do Dataset, também são discutidas oportunidades de melhoria no método de processamento, direcionando assim futuros estudos de desagregação populacional considerando as particularidades dos conjuntos de dados dos órgãos de Estado no Brasil.","PeriodicalId":308946,"journal":{"name":"Anais do IV Dataset Showcase Workshop (DSW 2022)","volume":"82 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2022-09-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"124130565","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Abílio Nogueira Barros, A. Alencar, A. Nascimento, Aldéryck Félix de Albuquerque, R. F. Mello
{"title":"Elaboração do conjunto de dados agregados do censo da educação básica","authors":"Abílio Nogueira Barros, A. Alencar, A. Nascimento, Aldéryck Félix de Albuquerque, R. F. Mello","doi":"10.5753/dsw.2022.225533","DOIUrl":"https://doi.org/10.5753/dsw.2022.225533","url":null,"abstract":"O Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (INEP) disponibiliza o Censo da Educação Básica, o maior levantamento anual de dados sobre a educação brasileira. Os dados são disponibilizados anualmente e com cerca de 370 colunas e pouco mais de 230 mil registros por ano. Este trabalho apresenta o processo que foi utilizado para criar um conjunto de dados que unificasse os anos de 2010-2021 e o disponibilizasse de forma a garantir boas práticas de disponibilização de dados na web. Foi gerado um conjunto de dados abrangendo todos os anos mencionados, posteriormente dividido em subconjuntos dada a natureza dos dados apresentados.","PeriodicalId":308946,"journal":{"name":"Anais do IV Dataset Showcase Workshop (DSW 2022)","volume":"99 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2022-09-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"133421670","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}