Yohan Bonescki Gumiel, Isabela Lee, Tayane A. Soares, Thiago Castro Ferreira, A. Pagano
{"title":"Sentiment Analysis in Portuguese Texts from Online Health Community Forums: Data, Model and Evaluation","authors":"Yohan Bonescki Gumiel, Isabela Lee, Tayane A. Soares, Thiago Castro Ferreira, A. Pagano","doi":"10.5753/stil.2021.17785","DOIUrl":"https://doi.org/10.5753/stil.2021.17785","url":null,"abstract":"This study introduces novel data and models for the task of Sentiment Analysis in Portuguese texts about Diabetes Mellitus. The corpus contains 1290 posts retrieved from online health community forums in Portuguese and annotated by two annotators according to 3 sentiment categories (e.g. Positive, Neutral and Negative). Evaluation of traditional (Support Vector Machine, Decision Tree, Random Forest and Logistic Regression classifiers) and state-ofthe-art (BERT-based models) machine learning classifiers for the task showed the advantage in performance of the latter models as expected. Data and models are available to the community upon request.","PeriodicalId":194867,"journal":{"name":"Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL 2021)","volume":"69 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-11-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"126437667","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Raquel Meister Ko. Freitag, Julian Tejada, René Alain Santana de Almeida, Paloma Batista Cardoso, V. Souza, Vanesca Carvalho Leal
{"title":"Respostas emocionais da variação linguística: Análise exploratória de rastreio ocular","authors":"Raquel Meister Ko. Freitag, Julian Tejada, René Alain Santana de Almeida, Paloma Batista Cardoso, V. Souza, Vanesca Carvalho Leal","doi":"10.5753/stil.2021.17820","DOIUrl":"https://doi.org/10.5753/stil.2021.17820","url":null,"abstract":"Um estudo exploratório de exposição de participantes às variantes de uma variável linguística saliente do ponto de vista social, a palatalização progressiva, foi realizado com o uso de rastreamento ocular, para examinar o processamento da variação linguística. Os resultados mostram que exposição à variante estigmatizada captou a atenção e aumentou a dilatação da pupila dos participantes, o que pode ser interpretado como evidência de uma resposta emocional.","PeriodicalId":194867,"journal":{"name":"Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL 2021)","volume":"39 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-11-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"129865795","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
{"title":"Avaliação de parsers na detecção de relações essenciais do modelo Universal Dependencies para o português","authors":"Luana Balador Belisário, T. Pardo","doi":"10.5753/stil.2021.17826","DOIUrl":"https://doi.org/10.5753/stil.2021.17826","url":null,"abstract":"Este artigo descreve o estudo do desempenho de dois parsers conhecidos para o português com base nas diretrizes do modelo internacional \"Universal Dependencies\". Visando mapear o estado da arte na área, os parsers foram avaliados com relação à detecção de algumas relações essenciais do modelo que indicam os argumentos principais dos verbos. Mostramos que o parser UDPipe se destaca entre os parsers avaliados, mas que ainda há muito a avançar na área.","PeriodicalId":194867,"journal":{"name":"Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL 2021)","volume":"02 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-11-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"128799577","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Alan da Silva Romualdo, Livy Real, Helena de Medeiros Caseli
{"title":"Classificação multimodal para detecção de produtos proibidos em uma plataforma marketplace","authors":"Alan da Silva Romualdo, Livy Real, Helena de Medeiros Caseli","doi":"10.5753/stil.2021.17790","DOIUrl":"https://doi.org/10.5753/stil.2021.17790","url":null,"abstract":"O aprendizado multimodal visa explorar as características das diversas modalidades (texto, imagem, áudio) para gerar modelos computacionais. No comércio eletrônico, devido à grande variedade das características dos produtos e à ausência ou inconsistência de informações, a combinação de informações de modos diferentes vem a ser bastante adequada. Neste trabalho são apresentados alguns experimentos para a classificação multimodal (texto e imagem) de produtos (produtos adultos) que não podem ser vendidos no marketplace da empresa parceira. Nesses experimentos, redes neurais foram usadas para treinar classificadores uni e multimodal. O classificador multimodal atingiu 99% de F1 contra 98% do modelo textual e 94% do visual.","PeriodicalId":194867,"journal":{"name":"Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL 2021)","volume":"1 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-11-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"129387541","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
{"title":"Descrição de uma metodologia desenvolvida para revisão de um léxico de palavras de emoção","authors":"Barbara C. Ramos","doi":"10.5753/stil.2021.17819","DOIUrl":"https://doi.org/10.5753/stil.2021.17819","url":null,"abstract":"Este artigo tem por objetivo descrever a metodologia desenvolvida para revisar o Emocionário, léxico de palavras de emoção do projeto AC/DC, da Linguateca. Esta primeira parcela da revisão foi realizada em sete dos 24 grupos do Emocionário, sendo eles “Desespero”, “Esperança”, “Humildade”, “Pena”, “Satisfação”, “Saudade” e “Surpresa”. A metodologia é descrita de forma detalhada, fazendo uso de exemplos retirados do próprio corpus para ilustrar cada passo. Ao final, algumas das principais mudanças realizadas são documentadas e discutidas.","PeriodicalId":194867,"journal":{"name":"Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL 2021)","volume":"284 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-11-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"115903637","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
T. Pardo, M. Duran, Lucelene Lopes, Ariani Di Felippo, N. T. Roman, M. G. V. Nunes
{"title":"Porttinari - a Large Multi-genre Treebank for Brazilian Portuguese","authors":"T. Pardo, M. Duran, Lucelene Lopes, Ariani Di Felippo, N. T. Roman, M. G. V. Nunes","doi":"10.5753/stil.2021.17778","DOIUrl":"https://doi.org/10.5753/stil.2021.17778","url":null,"abstract":"This paper presents the project of a large multi-genre treebank for Brazilian Portuguese, called Porttinari. We address relevant research questions in its construction and annotation, reporting the work already done. The treebank is affiliated with the “Universal Dependencies” international model, widely adopted in the area, and must be the basis for the development of state of the art tagging and parsing systems for Portuguese, as well as for conducting linguistic studies on morphosyntax and syntax for this language.","PeriodicalId":194867,"journal":{"name":"Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL 2021)","volume":"39 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-11-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"134220010","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
{"title":"Ferramenta linguístico-computacional como facilitadora para o ensino de gramática na escola","authors":"Lívia Vicente Dutra, Natália Sathler Sigiliano","doi":"10.5753/stil.2021.17824","DOIUrl":"https://doi.org/10.5753/stil.2021.17824","url":null,"abstract":"A pesquisa “Gêneros, tipologias textuais e análise linguística: constituição de recursos didáticos para o trabalho contextualizado dos conhecimentos linguísticos em uma abordagem orientada pelos gêneros textuais” objetiva desenvolver uma ferramenta linguístico-computacional de auxílio ao professor para a abordagem de conteúdos de gramática pautados em gêneros textuais, já que a relação entre gêneros textuais e sua construção linguístico-discursiva ainda se constitui em um desafio para o ensino de língua. Esta ferramenta é construída com base em anotações da FrameNet Brasil. Por meio dela, espera-se tornar possível ao usuário a busca por gêneros textuais mais propícios para o ensino de determinados tópicos gramaticais, tendo em vista sua proeminência nesses gêneros.","PeriodicalId":194867,"journal":{"name":"Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL 2021)","volume":"49 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-11-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"132397108","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Robson T. Paula, Décio G. Aguiar Neto, David Romero, Paulo T. Guerra
{"title":"Evaluation of Synthetic Datasets Generation for Intent Classification Tasks in Portuguese","authors":"Robson T. Paula, Décio G. Aguiar Neto, David Romero, Paulo T. Guerra","doi":"10.5753/stil.2021.17806","DOIUrl":"https://doi.org/10.5753/stil.2021.17806","url":null,"abstract":"A chatbot is an artificial intelligence based system aimed at chatting with users, commonly used as a virtual assistant to help people or answer questions. Intent classification is an essential task for chatbots where it aims to identify what the user wants in a certain dialogue. However, for many domains, little data are available to properly train those systems. In this work, we evaluate the performance of two methods to generate synthetic data for chatbots, one based on template questions and another based on neural text generation. We build four datasets that are used training chatbot components in the intent classification task. We intend to simulate the task of migrating a search-based portal to an interactive dialogue-based information service by using artificial datasets for initial model training. Our results show that template-based datasets are slightly superior to those neural-based generated in our application domain, however, neural-generated present good results and they are a viable option when one has limited access to domain experts to hand-code text templates.","PeriodicalId":194867,"journal":{"name":"Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL 2021)","volume":"38 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-11-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"134556559","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
João Gabriel Melo Barbirato, Livy Real, Helena de Medeiros Caseli
{"title":"Relation extraction in structured and unstructured data: a comparative investigation on smartphone titles in the e-commerce domain","authors":"João Gabriel Melo Barbirato, Livy Real, Helena de Medeiros Caseli","doi":"10.5753/stil.2021.17789","DOIUrl":"https://doi.org/10.5753/stil.2021.17789","url":null,"abstract":"As large amounts of unstructured data are generated on a regular basis, expressing or storing knowledge in a way that is useful remains a challenge. In this context, Relation Extraction (RE) is the task of automatically identifying relationships in unstructured textual data. Thus, we investigated the relation extraction on unstructured e-commerce data from the smartphone domain, using a BERT model fine-tuned for this task. We conducted two experiments to acknowledge how much relational information it is possible to extract from product sheets (structured data) and product titles (unstructured data), and a third experiment to compare both. Analysis shows that extracting relations within a title can retrieve correct relations that are not evident on the related sheet.","PeriodicalId":194867,"journal":{"name":"Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL 2021)","volume":"52 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-11-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"117151957","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Isaac Souza de Miranda Junior, Marcela Monteiro Lemos Couto, Francimeire Leme Coelho, Roana Rodrigues, Oto Vale
{"title":"A propósito do verbo falar no português brasileiro: uma análise em corpus e em bases de dados verbais","authors":"Isaac Souza de Miranda Junior, Marcela Monteiro Lemos Couto, Francimeire Leme Coelho, Roana Rodrigues, Oto Vale","doi":"10.5753/stil.2021.17811","DOIUrl":"https://doi.org/10.5753/stil.2021.17811","url":null,"abstract":"Neste trabalho, investiga-se o comportamento sintático-semântico do verbo \"falar\" no português brasileiro (PB) em um corpus jornalístico e em três bases de dados verbais do PB (VerbNet.Br, VerboWeb e Verbo-Brasil). Os dados demonstram a polivalência e complexidade de \"falar\". Além disso, no que se refere à análise das bases de dados, foi possível constatar a necessidade de revisões manuais, realizadas por linguistas, e/ou ampliações das descrições linguísticas, principalmente ao considerar a relevância de construções com o verbo \"falar\" para diferentes aplicações na área de Processamento de Língua Natural.","PeriodicalId":194867,"journal":{"name":"Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL 2021)","volume":"84 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-11-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"124225639","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}