{"title":"Authorship attribution of comments in Portuguese extracted from Reddit","authors":"Vinicius Alves Matias, L. A. Digiampietri","doi":"10.5335/rbca.v15i2.14045","DOIUrl":null,"url":null,"abstract":"Ambientes de interação na Internet, como redes sociais, transferem dados textuais em larga escala que carregam implicitamente os estilos de escrita de cada usuário da rede. Dado o fluxo constante e intenso de informações por meio de sistemas de informação desse tipo, é necessário desenvolver técnicas que possam distinguir um texto entre dois possíveis autores peor motivos de, por exemplo, evitar o retorno de usuários banidos da plataforma. Este artigo abordou e avaliou diferentes formas de realizar a atribuição de autoria por meio de processamento de linguagem natural e aprendizado de máquina, com base em comentários em português extraídos da rede social Reddit. Este artigo tem como objetivo atualizar a literatura de atribuição de autoria utilizando o português como idioma principal, dada a escassez de trabalhos atualizados nesse idioma. Os resultados de vários métodos viáveis para a tarefa de atribuição de autoria binária foram expostos e avaliados na questão da viabilidade de acordo com sua significância estatística, obtendo-se dois modelos dentro do mesmo intervalo de confiança que atingiram 0,88 de F1-score e 0,94 de AUC com extração de texto atributos por meio de embeddings BERTimbau e por meio de TF-IDF de palavras.","PeriodicalId":41711,"journal":{"name":"Revista Brasileira de Computacao Aplicada","volume":null,"pages":null},"PeriodicalIF":0.2000,"publicationDate":"2023-07-27","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Revista Brasileira de Computacao Aplicada","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.5335/rbca.v15i2.14045","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q4","JCRName":"COMPUTER SCIENCE, INTERDISCIPLINARY APPLICATIONS","Score":null,"Total":0}
引用次数: 0
Abstract
Ambientes de interação na Internet, como redes sociais, transferem dados textuais em larga escala que carregam implicitamente os estilos de escrita de cada usuário da rede. Dado o fluxo constante e intenso de informações por meio de sistemas de informação desse tipo, é necessário desenvolver técnicas que possam distinguir um texto entre dois possíveis autores peor motivos de, por exemplo, evitar o retorno de usuários banidos da plataforma. Este artigo abordou e avaliou diferentes formas de realizar a atribuição de autoria por meio de processamento de linguagem natural e aprendizado de máquina, com base em comentários em português extraídos da rede social Reddit. Este artigo tem como objetivo atualizar a literatura de atribuição de autoria utilizando o português como idioma principal, dada a escassez de trabalhos atualizados nesse idioma. Os resultados de vários métodos viáveis para a tarefa de atribuição de autoria binária foram expostos e avaliados na questão da viabilidade de acordo com sua significância estatística, obtendo-se dois modelos dentro do mesmo intervalo de confiança que atingiram 0,88 de F1-score e 0,94 de AUC com extração de texto atributos por meio de embeddings BERTimbau e por meio de TF-IDF de palavras.