Cássio Faria da Silva, Vânia Paula de Almeida Neris, Helena de Medeiros Caseli
{"title":"Classificação da qualidade da argumentação em tweets no domínio da política brasileira","authors":"Cássio Faria da Silva, Vânia Paula de Almeida Neris, Helena de Medeiros Caseli","doi":"10.21814/lm.15.1.387","DOIUrl":null,"url":null,"abstract":"A argumentação é uma habilidade inerente à comunicação humana, tanto em situações orais quanto escritas. Argumentos bem fundamentados são importantes para amparar a tomada de decisões e aprendizado, assim como para a obtenção de conclusões amplamente aceitas. Como área de pesquisa, a argumentação é um campo multidisciplinar que estuda os processos de debate e raciocínio. Em linguística computacional, investigações têm sido realizadas para (i) identificar argumentos e suas unidades e (ii) gerar ou (iii) avaliar a qualidade dos argumentos. No entanto, a maioria dos trabalhos atuais se concentra na mineração de argumentos em textos formais em inglês. Neste artigo, foi avaliada a qualidade da argumentação em tweets de domínio político, escritos em português do Brasil, usando algoritmos tradicionais de aprendizado de máquina -- como Regressão Logística, K-Nearest Neighbors, Árvores de Decisão, Máquinas de Vetores Suporte (SVM), Floresta Aleatória e Naive Bayes -- e também um ajuste fino de dois modelos neurais (BERTimbau e RobertaTwitterBR). Além de trazer resultados práticos para a avaliação da qualidade da argumentação em um gênero textual desafiador, como o Twitter, e em um domínio controverso, como a política brasileira, este artigo também visa suprir a carência de trabalhos que avaliem automaticamente a qualidade dos argumentos em português. Dentre os algoritmos de classificação avaliados, o modelo obtido a partir do ajuste fino do BERTimbau apresentou os melhores resultados com uma precisão de 69,65\\% quando foram consideradas todas as classes e de 100,00\\% para as mensagens de alta qualidade de argumentação.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":" ","pages":""},"PeriodicalIF":0.3000,"publicationDate":"2023-07-07","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Linguamatica","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.21814/lm.15.1.387","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q4","JCRName":"LINGUISTICS","Score":null,"Total":0}
引用次数: 0
Abstract
A argumentação é uma habilidade inerente à comunicação humana, tanto em situações orais quanto escritas. Argumentos bem fundamentados são importantes para amparar a tomada de decisões e aprendizado, assim como para a obtenção de conclusões amplamente aceitas. Como área de pesquisa, a argumentação é um campo multidisciplinar que estuda os processos de debate e raciocínio. Em linguística computacional, investigações têm sido realizadas para (i) identificar argumentos e suas unidades e (ii) gerar ou (iii) avaliar a qualidade dos argumentos. No entanto, a maioria dos trabalhos atuais se concentra na mineração de argumentos em textos formais em inglês. Neste artigo, foi avaliada a qualidade da argumentação em tweets de domínio político, escritos em português do Brasil, usando algoritmos tradicionais de aprendizado de máquina -- como Regressão Logística, K-Nearest Neighbors, Árvores de Decisão, Máquinas de Vetores Suporte (SVM), Floresta Aleatória e Naive Bayes -- e também um ajuste fino de dois modelos neurais (BERTimbau e RobertaTwitterBR). Além de trazer resultados práticos para a avaliação da qualidade da argumentação em um gênero textual desafiador, como o Twitter, e em um domínio controverso, como a política brasileira, este artigo também visa suprir a carência de trabalhos que avaliem automaticamente a qualidade dos argumentos em português. Dentre os algoritmos de classificação avaliados, o modelo obtido a partir do ajuste fino do BERTimbau apresentou os melhores resultados com uma precisão de 69,65\% quando foram consideradas todas as classes e de 100,00\% para as mensagens de alta qualidade de argumentação.
辩论是人类口头和书面交流中固有的一种技能。有充分根据的论点对于支持决策和学习以及获得广泛接受的结论是很重要的。作为一个研究领域,论证是一个研究辩论和推理过程的多学科领域。在计算语言学中,已经进行了研究(i)识别论点及其单位,(ii)生成或(iii)评估论点的质量。然而,目前的大多数工作都集中在正式英语文本的论证挖掘上。本文的论证,评价质量在微博的政治领域,用巴西葡萄牙语,用传统的机器学习算法- K -逻辑回归,-Nearest邻居,决策树、支持向量机(SVM)、贝叶斯随机森林和天真——一个微调也两种神经(BERTimbau RobertaTwitterBR)模型。除了为评估具有挑战性的文本体裁(如Twitter)和有争议的领域(如巴西政治)的论证质量带来实际结果外,本文还旨在弥补自动评估葡萄牙语论证质量的研究的不足。在评估的分类算法中,由BERTimbau微调得到的模型在考虑所有类别时表现出最好的结果,准确率为69.65%,对于高质量的论证信息,准确率为1000%。