作者身份的个性化和风格的识别:借助R分析语言数据

Luis Filipe Lima e Silva, Larissa Santos Ciríaco
{"title":"作者身份的个性化和风格的识别:借助R分析语言数据","authors":"Luis Filipe Lima e Silva, Larissa Santos Ciríaco","doi":"10.5007/1984-8412.2022.e79086","DOIUrl":null,"url":null,"abstract":"Este artigo soma-se aos trabalhos disponíveis sobre Processamento de Língua Natural ao fornecer uma demonstração de como linguagens de programação como o R (R CORE TEAM, 2020) podem ser úteis na detecção de autoria e na identificação do estilo do autor em obras literárias. Foram selecionados dois autores e duas obras de cada, a saber: The Adventures of Tom Sawyer (1876) e Adventures of Huckleberry Finn (1884), do autor Mark Twain (1835-1910), e Typee: A Peep at Polynesian Life (1846) e Omoo: A Narrative of Adventures in the South Seas (1847), do autor Herman Melville (1819-1891). Posteriormente, os dados foram analisados seguindo a mesma metodologia de Eder et al. (2016), a fim de testar a eficácia do pacote stylo e aplicar os métodos de Análise de Componentes Principais, Análise de Cluster e Árvore de Consenso. Os resultados apontaram que cada um dos métodos testados conseguiu distinguir as obras dos autores, evidenciando-se, assim, a eficácia do pacote utilizado. Além disso, realiza-se uma análise estilométrica baseada nos métodos de Zeta de Craig e Rolling Delta. Para este último, utilizaram-se obras de dois autores de língua alemã, Frank Kafka e Heinrich von Kleist. Os resultados apontaram uma semelhança estilística de von Kleist, sobretudo, na primeira obra de Kafka. Adicionalmente, o método Rolling Delta foi usado para explorar uma análise feita por Juola (2013ª, 2013b) a respeito de uma obra de J. K. Rowling escrita sob o pseudônimo de Robert Galbraith.","PeriodicalId":31408,"journal":{"name":"Forum Linguistico","volume":" ","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2022-11-23","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"Individuação de autoria e identificação de estilo: análise de dados linguísticos com auxílio do R\",\"authors\":\"Luis Filipe Lima e Silva, Larissa Santos Ciríaco\",\"doi\":\"10.5007/1984-8412.2022.e79086\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Este artigo soma-se aos trabalhos disponíveis sobre Processamento de Língua Natural ao fornecer uma demonstração de como linguagens de programação como o R (R CORE TEAM, 2020) podem ser úteis na detecção de autoria e na identificação do estilo do autor em obras literárias. Foram selecionados dois autores e duas obras de cada, a saber: The Adventures of Tom Sawyer (1876) e Adventures of Huckleberry Finn (1884), do autor Mark Twain (1835-1910), e Typee: A Peep at Polynesian Life (1846) e Omoo: A Narrative of Adventures in the South Seas (1847), do autor Herman Melville (1819-1891). Posteriormente, os dados foram analisados seguindo a mesma metodologia de Eder et al. (2016), a fim de testar a eficácia do pacote stylo e aplicar os métodos de Análise de Componentes Principais, Análise de Cluster e Árvore de Consenso. Os resultados apontaram que cada um dos métodos testados conseguiu distinguir as obras dos autores, evidenciando-se, assim, a eficácia do pacote utilizado. Além disso, realiza-se uma análise estilométrica baseada nos métodos de Zeta de Craig e Rolling Delta. Para este último, utilizaram-se obras de dois autores de língua alemã, Frank Kafka e Heinrich von Kleist. Os resultados apontaram uma semelhança estilística de von Kleist, sobretudo, na primeira obra de Kafka. Adicionalmente, o método Rolling Delta foi usado para explorar uma análise feita por Juola (2013ª, 2013b) a respeito de uma obra de J. K. Rowling escrita sob o pseudônimo de Robert Galbraith.\",\"PeriodicalId\":31408,\"journal\":{\"name\":\"Forum Linguistico\",\"volume\":\" \",\"pages\":\"\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2022-11-23\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Forum Linguistico\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.5007/1984-8412.2022.e79086\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Forum Linguistico","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.5007/1984-8412.2022.e79086","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

摘要

本文通过演示R (R CORE TEAM, 2020)等编程语言如何在文学作品的作者身份检测和作者风格识别方面发挥作用,补充了自然语言处理方面的现有工作。选出两位作者和两件:汤姆·索亚历险记》(1876)和《哈克贝利·费恩历险记》(1884年)的作者马克·吐温(1835 - -1910)和Typee:波比在波利尼西亚人的生活》(1846)和Omoo:叙事的冒险在南太平洋(1847)的作者赫尔曼·梅尔维尔(1819 - -1891)。随后,采用与Eder等人(2016)相同的方法对数据进行分析,以测试笔包的有效性,并应用主成分分析、聚类分析和共识树方法。结果表明,每一种测试方法都能区分作者的作品,从而证明了所使用的包的有效性。此外,还进行了基于克雷格Zeta和滚动Delta方法的风格分析。对于后者,我们使用了两位德语作家弗兰克·卡夫卡和海因里希·冯·克莱斯特的作品。结果表明,冯·克莱斯特在风格上有相似之处,特别是在卡夫卡的第一部作品中。此外,滚动Delta方法被用来探索Juola(2013ª,2013b)对J. K.罗琳以罗伯特·加尔布雷斯的笔名写的一本书的分析。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
Individuação de autoria e identificação de estilo: análise de dados linguísticos com auxílio do R
Este artigo soma-se aos trabalhos disponíveis sobre Processamento de Língua Natural ao fornecer uma demonstração de como linguagens de programação como o R (R CORE TEAM, 2020) podem ser úteis na detecção de autoria e na identificação do estilo do autor em obras literárias. Foram selecionados dois autores e duas obras de cada, a saber: The Adventures of Tom Sawyer (1876) e Adventures of Huckleberry Finn (1884), do autor Mark Twain (1835-1910), e Typee: A Peep at Polynesian Life (1846) e Omoo: A Narrative of Adventures in the South Seas (1847), do autor Herman Melville (1819-1891). Posteriormente, os dados foram analisados seguindo a mesma metodologia de Eder et al. (2016), a fim de testar a eficácia do pacote stylo e aplicar os métodos de Análise de Componentes Principais, Análise de Cluster e Árvore de Consenso. Os resultados apontaram que cada um dos métodos testados conseguiu distinguir as obras dos autores, evidenciando-se, assim, a eficácia do pacote utilizado. Além disso, realiza-se uma análise estilométrica baseada nos métodos de Zeta de Craig e Rolling Delta. Para este último, utilizaram-se obras de dois autores de língua alemã, Frank Kafka e Heinrich von Kleist. Os resultados apontaram uma semelhança estilística de von Kleist, sobretudo, na primeira obra de Kafka. Adicionalmente, o método Rolling Delta foi usado para explorar uma análise feita por Juola (2013ª, 2013b) a respeito de uma obra de J. K. Rowling escrita sob o pseudônimo de Robert Galbraith.
求助全文
通过发布文献求助,成功后即可免费获取论文全文。 去求助
来源期刊
自引率
0.00%
发文量
53
审稿时长
3 weeks
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术官方微信