{"title":"Sujeito oculto às claras: uma abordagem descritivo-computacional / Omitted subjects revealed: a quantitative-descriptive approach","authors":"Cláudia Freitas, Elvis De Souza","doi":"10.17851/2237-2083.29.2.1033-1058","DOIUrl":null,"url":null,"abstract":"Resumo: Neste trabalho, apresentamos estudos descritivos e computacionais relacionados ao sujeito oculto. Em um primeiro momento, realizamos uma descricao de cunho quantitativo, tomando por base tres corpora dos generos jornalistico, literario e enciclopedico. Especificamente, quantificamos o sujeito oculto em cada um dos corpora , e encontramos sujeitos omitidos em 24%, 41% e 46% das oracoes, respectivamente. Em um segundo momento, por meio de uma estrategia baseada em regras, reconstituimos esses sujeitos e os devolvemos aos corpora , com o objetivo de avaliar o quanto a omissao do sujeito e capaz de impactar o aprendizado automatico de dependencias sintaticas. Os resultados indicam que a reconstituicao formal do sujeito pode melhorar a aprendizagem das dependencias sintaticas em ate 2% quando consideramos a metrica CLAS, evidenciando o papel relevante da modelagem linguistica no aprendizado automatico. Palavras-chave: descricao linguistica; sujeito oculto; omissao de sujeito; dependencias sintaticas; linguistica computacional; aprendizado de maquina; linguistica de corpus . Abstract: In this paper, we present descriptive and computational studies related to omitted subjects. Firstly, we develop a quantitative descriptive study based on three corpora , which consist of journalistic, literary and encyclopedic genres. Specifically, we quantify the omitted subjects in sentences for each of these corpora; omitted subjects were found in 24%, 41% and 46% of their sentences, respectively. Secondly, applying rule-based strategies, we reconstitute those subjects and place them back to the corpora , with the goal of evaluating how much the omission of subjects can impact the automatic learning of syntactic dependencies. The results indicate that the formal subject reconstitution can enhance the learning of syntactic dependencies in up to 2% according to the CLAS metric, highlighting the relevant role of linguistic modeling in the automatic learning process. Keywords: linguistic description; omitted subject; syntactic dependencies; computational linguistics; machine learning; corpus linguistics.","PeriodicalId":42188,"journal":{"name":"Revista de Estudos da Linguagem","volume":"29 1","pages":"1033"},"PeriodicalIF":0.2000,"publicationDate":"2021-03-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"2","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Revista de Estudos da Linguagem","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.17851/2237-2083.29.2.1033-1058","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"0","JCRName":"LANGUAGE & LINGUISTICS","Score":null,"Total":0}
引用次数: 2
Abstract
Resumo: Neste trabalho, apresentamos estudos descritivos e computacionais relacionados ao sujeito oculto. Em um primeiro momento, realizamos uma descricao de cunho quantitativo, tomando por base tres corpora dos generos jornalistico, literario e enciclopedico. Especificamente, quantificamos o sujeito oculto em cada um dos corpora , e encontramos sujeitos omitidos em 24%, 41% e 46% das oracoes, respectivamente. Em um segundo momento, por meio de uma estrategia baseada em regras, reconstituimos esses sujeitos e os devolvemos aos corpora , com o objetivo de avaliar o quanto a omissao do sujeito e capaz de impactar o aprendizado automatico de dependencias sintaticas. Os resultados indicam que a reconstituicao formal do sujeito pode melhorar a aprendizagem das dependencias sintaticas em ate 2% quando consideramos a metrica CLAS, evidenciando o papel relevante da modelagem linguistica no aprendizado automatico. Palavras-chave: descricao linguistica; sujeito oculto; omissao de sujeito; dependencias sintaticas; linguistica computacional; aprendizado de maquina; linguistica de corpus . Abstract: In this paper, we present descriptive and computational studies related to omitted subjects. Firstly, we develop a quantitative descriptive study based on three corpora , which consist of journalistic, literary and encyclopedic genres. Specifically, we quantify the omitted subjects in sentences for each of these corpora; omitted subjects were found in 24%, 41% and 46% of their sentences, respectively. Secondly, applying rule-based strategies, we reconstitute those subjects and place them back to the corpora , with the goal of evaluating how much the omission of subjects can impact the automatic learning of syntactic dependencies. The results indicate that the formal subject reconstitution can enhance the learning of syntactic dependencies in up to 2% according to the CLAS metric, highlighting the relevant role of linguistic modeling in the automatic learning process. Keywords: linguistic description; omitted subject; syntactic dependencies; computational linguistics; machine learning; corpus linguistics.