检测文本特异性的词汇计量策略

IF 0.3 Q4 LINGUISTICS

Linguamatica Pub Date : 2018-08-04 DOI:10.21814/LM.10.1.263

Álvaro Iriarte Sanromán, Pablo Gamallo, Alberto Simões

{"title":"检测文本特异性的词汇计量策略","authors":"Álvaro Iriarte Sanromán, Pablo Gamallo, Alberto Simões","doi":"10.21814/LM.10.1.263","DOIUrl":null,"url":null,"abstract":"Neste artigo propomo-nos a definir e desenvolver uma estratégia automática para procurar especificidades lexicais dentro de conjuntos de textos utilizando unidades lexicais simples e expressões com várias palavras, ou termos multipalavra (MWE, a sua sigla em inglês). \nPropomos uma metodologia para o cálculo da divergência de distribuições de lemas e de MWE que permitirá encontrar, automaticamente, diferenças e semelhanças entre textos não anotados. Esta metodologia poderá ser utilizada para posteriormente identificar grupos de textos sobre os quais se procederá a análises quantitativas e qualitativas semiautomáticas e/ou com intervenção humana. \nNum primeiro teste, utilizamos dois textos de especialidade (da área da pediatria) e um texto literário, presumindo que os textos de especialidade deveriam apresentar maiores divergências relativamente ao texto literário do que entre eles próprios. Como os testes feitos mostraram a tendência esperada, decidimos aplicar a mesma metodologia a um segundo grupo de textos (três conjuntos de entrevistas a visitantes da cidade de Santiago de Compostela).","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"10 1","pages":"19-26"},"PeriodicalIF":0.3000,"publicationDate":"2018-08-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"5","resultStr":"{\"title\":\"Estratégias Lexicométricas para Detetar Especificidades Textuais\",\"authors\":\"Álvaro Iriarte Sanromán, Pablo Gamallo, Alberto Simões\",\"doi\":\"10.21814/LM.10.1.263\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Neste artigo propomo-nos a definir e desenvolver uma estratégia automática para procurar especificidades lexicais dentro de conjuntos de textos utilizando unidades lexicais simples e expressões com várias palavras, ou termos multipalavra (MWE, a sua sigla em inglês). \\nPropomos uma metodologia para o cálculo da divergência de distribuições de lemas e de MWE que permitirá encontrar, automaticamente, diferenças e semelhanças entre textos não anotados. Esta metodologia poderá ser utilizada para posteriormente identificar grupos de textos sobre os quais se procederá a análises quantitativas e qualitativas semiautomáticas e/ou com intervenção humana. \\nNum primeiro teste, utilizamos dois textos de especialidade (da área da pediatria) e um texto literário, presumindo que os textos de especialidade deveriam apresentar maiores divergências relativamente ao texto literário do que entre eles próprios. Como os testes feitos mostraram a tendência esperada, decidimos aplicar a mesma metodologia a um segundo grupo de textos (três conjuntos de entrevistas a visitantes da cidade de Santiago de Compostela).\",\"PeriodicalId\":41819,\"journal\":{\"name\":\"Linguamatica\",\"volume\":\"10 1\",\"pages\":\"19-26\"},\"PeriodicalIF\":0.3000,\"publicationDate\":\"2018-08-04\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"5\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Linguamatica\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.21814/LM.10.1.263\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"Q4\",\"JCRName\":\"LINGUISTICS\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Linguamatica","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.21814/LM.10.1.263","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q4","JCRName":"LINGUISTICS","Score":null,"Total":0}

引用次数: 5

摘要

在本文中，我们建议定义和发展一种自动策略，使用简单的词汇单位和多词表达，或多词术语(MWE)在文本集中搜索词汇细节。我们提出了一种计算标语和MWE分布散度的方法，该方法可以自动发现未注释文本之间的异同。该方法可用于随后识别定量和定性分析半自动和/或人工干预的文本组。在第一个测试中，我们使用了两篇专业文本(儿科领域)和一篇文学文本，假设专业文本与文学文本的差异应该大于它们之间的差异。由于测试显示了预期的趋势，我们决定将同样的方法应用于第二组文本(对圣地亚哥德孔波斯特拉市游客的三组访谈)。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

查看原文本刊更多论文

Estratégias Lexicométricas para Detetar Especificidades Textuais

Neste artigo propomo-nos a definir e desenvolver uma estratégia automática para procurar especificidades lexicais dentro de conjuntos de textos utilizando unidades lexicais simples e expressões com várias palavras, ou termos multipalavra (MWE, a sua sigla em inglês). Propomos uma metodologia para o cálculo da divergência de distribuições de lemas e de MWE que permitirá encontrar, automaticamente, diferenças e semelhanças entre textos não anotados. Esta metodologia poderá ser utilizada para posteriormente identificar grupos de textos sobre os quais se procederá a análises quantitativas e qualitativas semiautomáticas e/ou com intervenção humana. Num primeiro teste, utilizamos dois textos de especialidade (da área da pediatria) e um texto literário, presumindo que os textos de especialidade deveriam apresentar maiores divergências relativamente ao texto literário do que entre eles próprios. Como os testes feitos mostraram a tendência esperada, decidimos aplicar a mesma metodologia a um segundo grupo de textos (três conjuntos de entrevistas a visitantes da cidade de Santiago de Compostela).

求助全文

通过发布文献求助，成功后即可免费获取论文全文。去求助

来源期刊

Linguamatica LINGUISTICS-

CiteScore

1.40

自引率

0.00%

发文量

审稿时长

6 weeks