Sujeito oculto às claras: uma abordagem descritivo-computacional / Omitted subjects revealed: a quantitative-descriptive approach

IF 0.2 0 LANGUAGE & LINGUISTICS

Revista de Estudos da Linguagem Pub Date : 2021-03-19 DOI:10.17851/2237-2083.29.2.1033-1058

Cláudia Freitas, Elvis De Souza

{"title":"Sujeito oculto às claras: uma abordagem descritivo-computacional / Omitted subjects revealed: a quantitative-descriptive approach","authors":"Cláudia Freitas, Elvis De Souza","doi":"10.17851/2237-2083.29.2.1033-1058","DOIUrl":null,"url":null,"abstract":"Resumo: Neste trabalho, apresentamos estudos descritivos e computacionais relacionados ao sujeito oculto. Em um primeiro momento, realizamos uma descricao de cunho quantitativo, tomando por base tres corpora dos generos jornalistico, literario e enciclopedico. Especificamente, quantificamos o sujeito oculto em cada um dos corpora , e encontramos sujeitos omitidos em 24%, 41% e 46% das oracoes, respectivamente. Em um segundo momento, por meio de uma estrategia baseada em regras, reconstituimos esses sujeitos e os devolvemos aos corpora , com o objetivo de avaliar o quanto a omissao do sujeito e capaz de impactar o aprendizado automatico de dependencias sintaticas. Os resultados indicam que a reconstituicao formal do sujeito pode melhorar a aprendizagem das dependencias sintaticas em ate 2% quando consideramos a metrica CLAS, evidenciando o papel relevante da modelagem linguistica no aprendizado automatico. Palavras-chave: descricao linguistica; sujeito oculto; omissao de sujeito; dependencias sintaticas; linguistica computacional; aprendizado de maquina; linguistica de corpus . Abstract: In this paper, we present descriptive and computational studies related to omitted subjects. Firstly, we develop a quantitative descriptive study based on three corpora , which consist of journalistic, literary and encyclopedic genres. Specifically, we quantify the omitted subjects in sentences for each of these corpora; omitted subjects were found in 24%, 41% and 46% of their sentences, respectively. Secondly, applying rule-based strategies, we reconstitute those subjects and place them back to the corpora , with the goal of evaluating how much the omission of subjects can impact the automatic learning of syntactic dependencies. The results indicate that the formal subject reconstitution can enhance the learning of syntactic dependencies in up to 2% according to the CLAS metric, highlighting the relevant role of linguistic modeling in the automatic learning process. Keywords: linguistic description; omitted subject; syntactic dependencies; computational linguistics; machine learning; corpus linguistics.","PeriodicalId":42188,"journal":{"name":"Revista de Estudos da Linguagem","volume":"29 1","pages":"1033"},"PeriodicalIF":0.2000,"publicationDate":"2021-03-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"2","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Revista de Estudos da Linguagem","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.17851/2237-2083.29.2.1033-1058","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"0","JCRName":"LANGUAGE & LINGUISTICS","Score":null,"Total":0}

引用次数: 2

Abstract

Resumo: Neste trabalho, apresentamos estudos descritivos e computacionais relacionados ao sujeito oculto. Em um primeiro momento, realizamos uma descricao de cunho quantitativo, tomando por base tres corpora dos generos jornalistico, literario e enciclopedico. Especificamente, quantificamos o sujeito oculto em cada um dos corpora , e encontramos sujeitos omitidos em 24%, 41% e 46% das oracoes, respectivamente. Em um segundo momento, por meio de uma estrategia baseada em regras, reconstituimos esses sujeitos e os devolvemos aos corpora , com o objetivo de avaliar o quanto a omissao do sujeito e capaz de impactar o aprendizado automatico de dependencias sintaticas. Os resultados indicam que a reconstituicao formal do sujeito pode melhorar a aprendizagem das dependencias sintaticas em ate 2% quando consideramos a metrica CLAS, evidenciando o papel relevante da modelagem linguistica no aprendizado automatico. Palavras-chave: descricao linguistica; sujeito oculto; omissao de sujeito; dependencias sintaticas; linguistica computacional; aprendizado de maquina; linguistica de corpus . Abstract: In this paper, we present descriptive and computational studies related to omitted subjects. Firstly, we develop a quantitative descriptive study based on three corpora , which consist of journalistic, literary and encyclopedic genres. Specifically, we quantify the omitted subjects in sentences for each of these corpora; omitted subjects were found in 24%, 41% and 46% of their sentences, respectively. Secondly, applying rule-based strategies, we reconstitute those subjects and place them back to the corpora , with the goal of evaluating how much the omission of subjects can impact the automatic learning of syntactic dependencies. The results indicate that the formal subject reconstitution can enhance the learning of syntactic dependencies in up to 2% according to the CLAS metric, highlighting the relevant role of linguistic modeling in the automatic learning process. Keywords: linguistic description; omitted subject; syntactic dependencies; computational linguistics; machine learning; corpus linguistics.

查看原文本刊更多论文

遗漏主题揭示：一种定量描述方法

摘要：在这项工作中，我们介绍了与隐藏主题相关的描述性和计算性研究。首先，我们基于慷慨的新闻、文学和百科全书三个语料库进行了定量描述。具体来说，我们量化了每个语料库中隐藏的主题，并分别在24%、41%和46%的祈祷中发现了省略的主题。在第二个时刻，通过基于规则的策略，我们重新构建了这些主题，并将它们返回到语料库中，以评估主题的省略在多大程度上能够影响句法依赖性的自动学习。结果表明，在考虑CLAS度量时，主体的形式重构可以将句法依赖性的学习提高2%，证明了语言建模在自动学习中的相关作用。关键词：语言描述；隐性主体；主体遗漏；句法依赖；计算语言学；机器学习；语言学语料库。摘要：在本文中，我们介绍了与省略主题相关的描述性和计算性研究。首先，我们基于三个语料库进行了定量描述性研究，这三个语料库包括新闻、文学和百科全书类型。具体来说，我们量化了每一个语料库的句子中省略的主题；省略主语的出现率分别为24%、41%和46%。其次，应用基于规则的策略，我们重构这些主题，并将它们放回语料库，目的是评估主题的省略对句法依赖的自动学习有多大影响。结果表明，根据CLAS度量，形式主语重构可以将句法依赖性的学习提高2%，突出了语言建模在自动学习过程中的相关作用。关键词：语言描述；省略主题；句法依赖；计算语言；机器学习；语料库语言学。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文求助全文

来源期刊