Augusto R. Mendes, Rafael V. P. Passador, Helena de Medeiros Caseli
{"title":"Identificando sintomas de depressão em postagens do Twitter em português do Brasil","authors":"Augusto R. Mendes, Rafael V. P. Passador, Helena de Medeiros Caseli","doi":"10.5753/stil.2021.17795","DOIUrl":"https://doi.org/10.5753/stil.2021.17795","url":null,"abstract":"A depressão é uma das questões de saúde mental mais preocupantes da atualidade. No Brasil, em 2019, 10,2% da população adulta relatou ter sido diagnosticada com depressão segundo dados da Pesquisa Nacional de Saúde. Identificar pessoas com perfil possivelmente depressivo permite um acompanhamento adequado por parte dos profissionais de saúde mental. Nesse sentido, as redes sociais online, como o Twitter, podem ser importantes aliadas. Este artigo apresenta experimentos realizados para a classificação automática de postagens (e não usuários) do Twitter contendo conteúdo que denota algum sintoma de depressão. A classificação com regressão logística apresentou os melhores resultados (F 1 média de 57%) entre os algoritmos investigados.","PeriodicalId":194867,"journal":{"name":"Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL 2021)","volume":"305 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-11-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"115137537","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
A. Kalouli, Livy Real, Annebeth Buis, Martha Palmer, Valeria C V de Paiva
{"title":"Annotation Difficulties in Natural Language Inference","authors":"A. Kalouli, Livy Real, Annebeth Buis, Martha Palmer, Valeria C V de Paiva","doi":"10.5753/stil.2021.17804","DOIUrl":"https://doi.org/10.5753/stil.2021.17804","url":null,"abstract":"State-of-the-art models have obtained high accuracy on mainstream Natural Language Inference (NLI) datasets. However, recent research has suggested that the task is far from solved. Current models struggle to generalize and fail to consider the inherent human disagreements in tasks such as NLI. In this work, we conduct an experiment based on a small subset of the NLI corpora such as SNLI and SICK. It reveals that some inference cases are inherently harder to annotate than others, although good-quality guidelines can reduce this difficulty to some extent. We propose adding a Difficulty Score to NLI datasets, to capture the human difficulty level of agreement.","PeriodicalId":194867,"journal":{"name":"Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL 2021)","volume":"46 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-11-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"126159465","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
{"title":"Utilizando Pistas Linguística para Detectar Conteúdo Enganoso em Português","authors":"R. F. Rodrigues, Larissa A. de Freitas","doi":"10.5753/stil.2021.17827","DOIUrl":"https://doi.org/10.5753/stil.2021.17827","url":null,"abstract":"O maior acesso a celulares conectados à internet e a popularização das redes sociais levaram a um aumento significativo na geração e no compartilhamento de notícias falsas. Estudos disponíveis na literatura, baseados em pistas linguísticas, sugerem que os autores de conteúdo enganoso exibem comportamento verbal e não verbal diferente dos autores de conteúdo verdadeiro. Desta forma, neste artigo apresentamos a ferramenta LC-Tool, a qual extrai 29 pistas linguísticas de textos. Ainda, testamos a ferramenta em três corpus sobre conteúdo enganoso disponíveis na Internet. Por fim, percebemos que algumas pistas linguísticas podem ser extensíveis para o idioma português (por exemplo: média do número de verbos e média de pausalidade) e que em outras pistas linguísticas precisam ser validadas, pois são afetadas pelo contexto e domínio das mensagens.","PeriodicalId":194867,"journal":{"name":"Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL 2021)","volume":"77 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-11-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"122951894","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
{"title":"Complexidade textual em notícias satíricas: uma análise para o português do Brasil","authors":"Gabriela Wick-Pedro, R. L. S. Santos","doi":"10.5753/stil.2021.17821","DOIUrl":"https://doi.org/10.5753/stil.2021.17821","url":null,"abstract":"Neste artigo é apresentada uma análise da complexidade textual de notícias satíricas e verdadeiras para o português do Brasil. As chamadas Fake News – ou notícias falsas – têm sido um grande problema na atualidade. O conteúdo satírico é um ponto importante na detecção automática de notícias falsas, pois seu uso pode causar confusão subjacente na análise. Para realização desta pesquisa, foi aplicada a ferramenta NILC-Metrix e avaliadas 16 medidas, entre aspectos descritivos, sintáticos e semânticos, notando-se uma maior complexidade para os textos verdadeiros.","PeriodicalId":194867,"journal":{"name":"Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL 2021)","volume":"1 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-11-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"130628734","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
{"title":"Constituintes Frasais com Função de Sujeito em Sentenças Judiciais","authors":"Ester Motta, M. J. B. Finatto","doi":"10.5753/stil.2021.17822","DOIUrl":"https://doi.org/10.5753/stil.2021.17822","url":null,"abstract":"Descreve-se a organização sintática de um conjunto de Sentenças dos Juizados Especiais Cíveis, cujos documentos devem ser acessíveis ao cidadão leigo, sem auxílio de um advogado. São destacados os constituintes frasais com função de sujeito em 110 Sentenças à luz dos estudos de Terminologia, da Linguística de Corpus e de pesquisas sobre compreensão leitora. Verificou-se que a maioria desses constituintes assume formas que tendem a demandar maior sobrecarga na leitura e a exibir traços pouco coincidentes com padrões da linguagem cotidiana escrita, o que dificulta sua inteligibilidade para o público leigo.","PeriodicalId":194867,"journal":{"name":"Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL 2021)","volume":"25 2","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-11-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"114118539","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
{"title":"Learning rules for automatic identification of implicit aspects in Portuguese","authors":"M. Machado, T. Pardo, E. Ruiz, Ariani Di Felippo","doi":"10.5753/stil.2021.17787","DOIUrl":"https://doi.org/10.5753/stil.2021.17787","url":null,"abstract":"This sentiment analysis work is focused on the task of identifying aspects, emphasizing the so-called implicit aspects, i.e., those that are not explicitly mentioned in the texts. For this, we analyzed frequency-based methods, adapted rules from the English language to Portuguese, and developed a method that learns new rules through corpus analysis.","PeriodicalId":194867,"journal":{"name":"Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL 2021)","volume":"28 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-11-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"131475881","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Elvis De Souza, A. Silveira, T. Cavalcanti, Maria Clara Castro, Cláudia Freitas
{"title":"PetroGold – Corpus padrão ouro para o domínio do petróleo","authors":"Elvis De Souza, A. Silveira, T. Cavalcanti, Maria Clara Castro, Cláudia Freitas","doi":"10.5753/stil.2021.17781","DOIUrl":"https://doi.org/10.5753/stil.2021.17781","url":null,"abstract":"Este trabalho descreve a criação do PetroGold, um treebank padrão ouro para o domínio do óleo & gás. O material é composto por teses, dissertações e monografias, contém 9.127 frases (253.640 tokens) e conta com anotação morfossintática de dependências segundo a abordagem Universal Dependencies. Detalhamos alguns dos desafios linguísticos do domínio para a anotação sintática e verificamos a qualidade do material produzido por meio de uma avaliação intrínseca: utilizando um modelo criado pela ferramenta UDPipe, o corpus leva a 90,65%, 88,53% e 82,88% de acertos conforme as medidas UAS, LAS e CLAS, respectivamente.","PeriodicalId":194867,"journal":{"name":"Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL 2021)","volume":"38 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-11-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"133618479","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
{"title":"Palatalização na fala e na leitura de universitários sergipanos","authors":"L. S. Silva, Raquel Meister Ko. Freitag","doi":"10.5753/stil.2021.17810","DOIUrl":"https://doi.org/10.5753/stil.2021.17810","url":null,"abstract":"Apresentamos uma análise comparativa acerca da palatalização de /t/ e /d/ em duas amostras independentes, e com tamanho distinto, compostas por dados de fala (n = 8.850) e de leitura em voz alta (n = 831) de estudantes da Universidade Federal de Sergipe. Controlamos as variáveis sociais deslocamento e tempo no curso, e as variáveis linguísticas contexto anterior, contexto posterior, tonicidade e sonoridade, com o objetivo de identificar se os efeitos condicionantes da palatalização da fala atuam na leitura em voz alta. Os resultados sinalizam que, mesmo em amostras distintas, o comportamento dos fatores sociais e linguísticos apresentam estabilidade na mudança e propagação da palatalização na comunidade.","PeriodicalId":194867,"journal":{"name":"Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL 2021)","volume":"39 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-11-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"124351415","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
{"title":"Structural Characterization and Graph-based Detection of Fake News in Portuguese","authors":"Roney L. S. Santos, T. Pardo","doi":"10.5753/stil.2021.17799","DOIUrl":"https://doi.org/10.5753/stil.2021.17799","url":null,"abstract":"A produção de notícias falsas é um problema dos dias atuais. Com as redes sociais, as notícias falsas se espalham de forma mais fácil e barata, podendo chegar a um grande número de pessoas em um curto espaço de tempo. Neste artigo, investigamos abordagens baseadas em grafos para caracterização e detecção de notícias falsas, levando em consideração medidas amplamente utilizadas de grafos e redes complexas. Nossos resultados mostram que algumas medidas de rede são úteis para caracterizar estruturalmente notícias falsas e verdadeiras e que soluções baseadas em aprendizado de máquina sobre esse tipo de atributo produzem resultados promissores.","PeriodicalId":194867,"journal":{"name":"Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL 2021)","volume":"1 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-11-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"130864146","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
{"title":"Construções de Estrutura Argumental com Argumento Preposicionado: uma modelagem linguístico-computacional na FrameNet Brasil","authors":"Vânia Almeida, T. Torrent","doi":"10.5753/stil.2021.17815","DOIUrl":"https://doi.org/10.5753/stil.2021.17815","url":null,"abstract":"Este trabalho apresenta uma proposta para representar computacionalmente as construções Transitiva Indireta, Transitiva Oblíqua e Bitransitiva do Português Brasileiro, no âmbito do Constructicon da FrameNet Brasil. Dessa forma, demonstra de que maneira as teorias irmãs da Semântica de Frames e da Gramática das Construções podem contribuir na busca por um modelo de língua que alie forma e sentido em umaúnica representação.","PeriodicalId":194867,"journal":{"name":"Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL 2021)","volume":"113 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-11-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"127699598","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}