Authorship attribution of comments in Portuguese extracted from Reddit

IF 0.1 Q4 COMPUTER SCIENCE, INTERDISCIPLINARY APPLICATIONS

Revista Brasileira de Computacao Aplicada Pub Date : 2023-07-27 DOI:10.5335/rbca.v15i2.14045

Vinicius Alves Matias, L. A. Digiampietri

{"title":"Authorship attribution of comments in Portuguese extracted from Reddit","authors":"Vinicius Alves Matias, L. A. Digiampietri","doi":"10.5335/rbca.v15i2.14045","DOIUrl":null,"url":null,"abstract":"Ambientes de interação na Internet, como redes sociais, transferem dados textuais em larga escala que carregam implicitamente os estilos de escrita de cada usuário da rede. Dado o fluxo constante e intenso de informações por meio de sistemas de informação desse tipo, é necessário desenvolver técnicas que possam distinguir um texto entre dois possíveis autores peor motivos de, por exemplo, evitar o retorno de usuários banidos da plataforma. Este artigo abordou e avaliou diferentes formas de realizar a atribuição de autoria por meio de processamento de linguagem natural e aprendizado de máquina, com base em comentários em português extraídos da rede social Reddit. Este artigo tem como objetivo atualizar a literatura de atribuição de autoria utilizando o português como idioma principal, dada a escassez de trabalhos atualizados nesse idioma. Os resultados de vários métodos viáveis para a tarefa de atribuição de autoria binária foram expostos e avaliados na questão da viabilidade de acordo com sua significância estatística, obtendo-se dois modelos dentro do mesmo intervalo de confiança que atingiram 0,88 de F1-score e 0,94 de AUC com extração de texto atributos por meio de embeddings BERTimbau e por meio de TF-IDF de palavras.","PeriodicalId":41711,"journal":{"name":"Revista Brasileira de Computacao Aplicada","volume":"1 1","pages":""},"PeriodicalIF":0.1000,"publicationDate":"2023-07-27","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Revista Brasileira de Computacao Aplicada","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.5335/rbca.v15i2.14045","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q4","JCRName":"COMPUTER SCIENCE, INTERDISCIPLINARY APPLICATIONS","Score":null,"Total":0}

引用次数: 0

Abstract

Ambientes de interação na Internet, como redes sociais, transferem dados textuais em larga escala que carregam implicitamente os estilos de escrita de cada usuário da rede. Dado o fluxo constante e intenso de informações por meio de sistemas de informação desse tipo, é necessário desenvolver técnicas que possam distinguir um texto entre dois possíveis autores peor motivos de, por exemplo, evitar o retorno de usuários banidos da plataforma. Este artigo abordou e avaliou diferentes formas de realizar a atribuição de autoria por meio de processamento de linguagem natural e aprendizado de máquina, com base em comentários em português extraídos da rede social Reddit. Este artigo tem como objetivo atualizar a literatura de atribuição de autoria utilizando o português como idioma principal, dada a escassez de trabalhos atualizados nesse idioma. Os resultados de vários métodos viáveis para a tarefa de atribuição de autoria binária foram expostos e avaliados na questão da viabilidade de acordo com sua significância estatística, obtendo-se dois modelos dentro do mesmo intervalo de confiança que atingiram 0,88 de F1-score e 0,94 de AUC com extração de texto atributos por meio de embeddings BERTimbau e por meio de TF-IDF de palavras.

查看原文本刊更多论文

摘自Reddit的葡萄牙语评论的作者归属

互联网上的互动环境，如社交网络，传输大规模的文本数据，含蓄地携带每个网络用户的写作风格。考虑到通过这类信息系统不断和密集的信息流动，有必要开发技术来区分文本在两个可能的作者之间，例如，避免被禁止的用户返回平台。本文以社交网络Reddit上的葡萄牙语评论为基础，探讨并评估了通过自然语言处理和机器学习进行作者身份分配的不同方法。本文旨在更新以葡萄牙语为主要语言的作者归属文献，因为葡萄牙语的最新作品很少。结果的一些可行的方法来分配的任务自己的二分法接触和评估可行性的问题根据你的统计显著性,得到了两种模型在相同的置信区间,88分和F1, 94他和提取的文本属性通过embeddings BERTimbau通过TF -IDF字。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文求助全文

来源期刊

Revista Brasileira de Computacao Aplicada COMPUTER SCIENCE, INTERDISCIPLINARY APPLICATIONS-

自引率

50.00%

发文量