遗漏主题揭示:一种定量描述方法

IF 0.2 0 LANGUAGE & LINGUISTICS
Cláudia Freitas, Elvis De Souza
{"title":"遗漏主题揭示:一种定量描述方法","authors":"Cláudia Freitas, Elvis De Souza","doi":"10.17851/2237-2083.29.2.1033-1058","DOIUrl":null,"url":null,"abstract":"Resumo: Neste trabalho, apresentamos estudos descritivos e computacionais relacionados ao sujeito oculto. Em um primeiro momento, realizamos uma descricao de cunho quantitativo, tomando por base tres corpora dos generos jornalistico, literario e enciclopedico. Especificamente, quantificamos o sujeito oculto em cada um dos corpora , e encontramos sujeitos omitidos em 24%, 41% e 46% das oracoes, respectivamente. Em um segundo momento, por meio de uma estrategia baseada em regras, reconstituimos esses sujeitos e os devolvemos aos corpora , com o objetivo de avaliar o quanto a omissao do sujeito e capaz de impactar o aprendizado automatico de dependencias sintaticas. Os resultados indicam que a reconstituicao formal do sujeito pode melhorar a aprendizagem das dependencias sintaticas em ate 2% quando consideramos a metrica CLAS, evidenciando o papel relevante da modelagem linguistica no aprendizado automatico. Palavras-chave: descricao linguistica; sujeito oculto; omissao de sujeito; dependencias sintaticas; linguistica computacional; aprendizado de maquina; linguistica de corpus . Abstract: In this paper, we present descriptive and computational studies related to omitted subjects. Firstly, we develop a quantitative descriptive study based on three corpora , which consist of journalistic, literary and encyclopedic genres. Specifically, we quantify the omitted subjects in sentences for each of these corpora; omitted subjects were found in 24%, 41% and 46% of their sentences, respectively. Secondly, applying rule-based strategies, we reconstitute those subjects and place them back to the corpora , with the goal of evaluating how much the omission of subjects can impact the automatic learning of syntactic dependencies. The results indicate that the formal subject reconstitution can enhance the learning of syntactic dependencies in up to 2% according to the CLAS metric, highlighting the relevant role of linguistic modeling in the automatic learning process. Keywords: linguistic description; omitted subject; syntactic dependencies; computational linguistics; machine learning; corpus linguistics.","PeriodicalId":42188,"journal":{"name":"Revista de Estudos da Linguagem","volume":"29 1","pages":"1033"},"PeriodicalIF":0.2000,"publicationDate":"2021-03-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"2","resultStr":"{\"title\":\"Sujeito oculto às claras: uma abordagem descritivo-computacional / Omitted subjects revealed: a quantitative-descriptive approach\",\"authors\":\"Cláudia Freitas, Elvis De Souza\",\"doi\":\"10.17851/2237-2083.29.2.1033-1058\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Resumo: Neste trabalho, apresentamos estudos descritivos e computacionais relacionados ao sujeito oculto. Em um primeiro momento, realizamos uma descricao de cunho quantitativo, tomando por base tres corpora dos generos jornalistico, literario e enciclopedico. Especificamente, quantificamos o sujeito oculto em cada um dos corpora , e encontramos sujeitos omitidos em 24%, 41% e 46% das oracoes, respectivamente. Em um segundo momento, por meio de uma estrategia baseada em regras, reconstituimos esses sujeitos e os devolvemos aos corpora , com o objetivo de avaliar o quanto a omissao do sujeito e capaz de impactar o aprendizado automatico de dependencias sintaticas. Os resultados indicam que a reconstituicao formal do sujeito pode melhorar a aprendizagem das dependencias sintaticas em ate 2% quando consideramos a metrica CLAS, evidenciando o papel relevante da modelagem linguistica no aprendizado automatico. Palavras-chave: descricao linguistica; sujeito oculto; omissao de sujeito; dependencias sintaticas; linguistica computacional; aprendizado de maquina; linguistica de corpus . Abstract: In this paper, we present descriptive and computational studies related to omitted subjects. Firstly, we develop a quantitative descriptive study based on three corpora , which consist of journalistic, literary and encyclopedic genres. Specifically, we quantify the omitted subjects in sentences for each of these corpora; omitted subjects were found in 24%, 41% and 46% of their sentences, respectively. Secondly, applying rule-based strategies, we reconstitute those subjects and place them back to the corpora , with the goal of evaluating how much the omission of subjects can impact the automatic learning of syntactic dependencies. The results indicate that the formal subject reconstitution can enhance the learning of syntactic dependencies in up to 2% according to the CLAS metric, highlighting the relevant role of linguistic modeling in the automatic learning process. Keywords: linguistic description; omitted subject; syntactic dependencies; computational linguistics; machine learning; corpus linguistics.\",\"PeriodicalId\":42188,\"journal\":{\"name\":\"Revista de Estudos da Linguagem\",\"volume\":\"29 1\",\"pages\":\"1033\"},\"PeriodicalIF\":0.2000,\"publicationDate\":\"2021-03-19\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"2\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Revista de Estudos da Linguagem\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.17851/2237-2083.29.2.1033-1058\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"0\",\"JCRName\":\"LANGUAGE & LINGUISTICS\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Revista de Estudos da Linguagem","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.17851/2237-2083.29.2.1033-1058","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"0","JCRName":"LANGUAGE & LINGUISTICS","Score":null,"Total":0}
引用次数: 2

摘要

摘要:在这项工作中,我们介绍了与隐藏主题相关的描述性和计算性研究。首先,我们基于慷慨的新闻、文学和百科全书三个语料库进行了定量描述。具体来说,我们量化了每个语料库中隐藏的主题,并分别在24%、41%和46%的祈祷中发现了省略的主题。在第二个时刻,通过基于规则的策略,我们重新构建了这些主题,并将它们返回到语料库中,以评估主题的省略在多大程度上能够影响句法依赖性的自动学习。结果表明,在考虑CLAS度量时,主体的形式重构可以将句法依赖性的学习提高2%,证明了语言建模在自动学习中的相关作用。关键词:语言描述;隐性主体;主体遗漏;句法依赖;计算语言学;机器学习;语言学语料库。摘要:在本文中,我们介绍了与省略主题相关的描述性和计算性研究。首先,我们基于三个语料库进行了定量描述性研究,这三个语料库包括新闻、文学和百科全书类型。具体来说,我们量化了每一个语料库的句子中省略的主题;省略主语的出现率分别为24%、41%和46%。其次,应用基于规则的策略,我们重构这些主题,并将它们放回语料库,目的是评估主题的省略对句法依赖的自动学习有多大影响。结果表明,根据CLAS度量,形式主语重构可以将句法依赖性的学习提高2%,突出了语言建模在自动学习过程中的相关作用。关键词:语言描述;省略主题;句法依赖;计算语言;机器学习;语料库语言学。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
Sujeito oculto às claras: uma abordagem descritivo-computacional / Omitted subjects revealed: a quantitative-descriptive approach
Resumo: Neste trabalho, apresentamos estudos descritivos e computacionais relacionados ao sujeito oculto. Em um primeiro momento, realizamos uma descricao de cunho quantitativo, tomando por base tres corpora dos generos jornalistico, literario e enciclopedico. Especificamente, quantificamos o sujeito oculto em cada um dos corpora , e encontramos sujeitos omitidos em 24%, 41% e 46% das oracoes, respectivamente. Em um segundo momento, por meio de uma estrategia baseada em regras, reconstituimos esses sujeitos e os devolvemos aos corpora , com o objetivo de avaliar o quanto a omissao do sujeito e capaz de impactar o aprendizado automatico de dependencias sintaticas. Os resultados indicam que a reconstituicao formal do sujeito pode melhorar a aprendizagem das dependencias sintaticas em ate 2% quando consideramos a metrica CLAS, evidenciando o papel relevante da modelagem linguistica no aprendizado automatico. Palavras-chave: descricao linguistica; sujeito oculto; omissao de sujeito; dependencias sintaticas; linguistica computacional; aprendizado de maquina; linguistica de corpus . Abstract: In this paper, we present descriptive and computational studies related to omitted subjects. Firstly, we develop a quantitative descriptive study based on three corpora , which consist of journalistic, literary and encyclopedic genres. Specifically, we quantify the omitted subjects in sentences for each of these corpora; omitted subjects were found in 24%, 41% and 46% of their sentences, respectively. Secondly, applying rule-based strategies, we reconstitute those subjects and place them back to the corpora , with the goal of evaluating how much the omission of subjects can impact the automatic learning of syntactic dependencies. The results indicate that the formal subject reconstitution can enhance the learning of syntactic dependencies in up to 2% according to the CLAS metric, highlighting the relevant role of linguistic modeling in the automatic learning process. Keywords: linguistic description; omitted subject; syntactic dependencies; computational linguistics; machine learning; corpus linguistics.
求助全文
通过发布文献求助,成功后即可免费获取论文全文。 去求助
来源期刊
Revista de Estudos da Linguagem
Revista de Estudos da Linguagem LANGUAGE & LINGUISTICS-
CiteScore
0.30
自引率
0.00%
发文量
55
审稿时长
52 weeks
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信