研究语料库在多文档信息互补性描述性改进中的作用

IF 0.2 0 LANGUAGE & LINGUISTICS

Revista de Estudos da Linguagem Pub Date : 2021-03-19 DOI:10.17851/2237-2083.29.2.1059-1087

J. W. C. Souza

{"title":"研究语料库在多文档信息互补性描述性改进中的作用","authors":"J. W. C. Souza","doi":"10.17851/2237-2083.29.2.1059-1087","DOIUrl":null,"url":null,"abstract":"Resumo: Em subareas do Processamento Automatico de Linguas Naturais (PLN), como a Sumarizacao Automatica Multidocumento (SAM), e necessario compreender o comportamento linguistico de determinados fenomenos, especialmente os de natureza semântica. A Cross-document Structure Theory (CST) e bastante utilizada em estudos do PLN por proporcionar um conjunto de relacoes semânticas que organizam a informacao entre unidades de analise (comumente, pares de sentencas), agrupadas entre conteudo (a saber, redundância, complementaridade e contradicao) e apresentacao (a saber, fonte/autoria e estilo). Ate entao, a caracterizacao das relacoes CST baseava-se em atributos genericos (como a quantidade de palavras em comum entre as sentencas de um par) e especificos (como a presenca de adverbios temporais) para as relacoes de Redundância e Complementaridade. Entretanto, percebe-se que a delimitacao de tais atributos ainda e incipiente, pois nao inclui atributos semânticos e pragmaticos, niveis linguisticos que sao possiveis de recuperar manualmente entre as unidades de analise da CST. Nesse sentido, objetiva-se, neste artigo, reconstruir o percurso metodologico de Souza (2019) ao que se refere ao estudo em corpus das relacoes CST em textos jornalisticos do Portugues, ja que o conjunto de atributos disponiveis, ate o momento, ainda produzia equivocos na identificacao dos subtipos de complementaridade multidocumento, a saber temporal e atemporal. Partindo do corpus CSTNews, organizou-se um subconjunto de estudo com os 10 primeiros clusters , o que contabilizou 204 pares de sentencas. Como resultado, foram obtidas a descricao detalhada da complementaridade CST e a criacao de uma tipologia de sinalizadores das relacoes que traduzem esse fenomeno, alem da proposicao de uma metodologia especifica para o estudo de relacoes CST. Palavras-chave: Complementaridade informacional multidocumento; Processamento Automatico de Linguas Naturais; Corpus de estudo. Abstract: In sub-areas of Natural Language Processing (NLP), such as Automatic Multidocument Summarization (AMS), it is necessary to understand the linguistic behavior of certain phenomena, especially those of a semantic nature. Cross-document Structure Theory (CST) is widely used in NLP studies because it provides a set of semantic relations that organize information between units of analysis (commonly, pairs of sentences) organized between content (namely, redundancy, complementarity and contradiction) and presentation (namely, source/authorship and style). Until then, the characterization of CST relationships was based on generic attributes (such as the number of words in common between sentences of a pair) and specific attributes (such as the presence of temporal adverbs) for the relationships of Redundancy and Complementarity. However, the delimitation of such attributes is still incipient, as they do not include semantic and pragmatic attributes, linguistic levels that are possible to recover between the CST units of analysis. In this sense, the aim of this paper is to reconstruct the methodological path of Souza (2019) with regard to the study in corpus of CST relations in Portuguese journalistic texts, since the set of available attributes, until then, still produced mistakes in the identification of multi-document complementarity subtypes, namely temporal and timeless. Based on the CSTNews corpus , a subset of studies was organized with the first 10 clusters, that are represented by 204 pairs of sentences. As a result, a detailed description of CST complementarity was obtained, as well as the creation of a typology of signaling relationships that translate this phenomenon, in addition to proposing a specific methodology for the study of CST relations. Keywords: Multi-document informational Complementarity; Processing of Natural Languages; Study corpus .","PeriodicalId":42188,"journal":{"name":"Revista de Estudos da Linguagem","volume":"29 1","pages":"1059-1087"},"PeriodicalIF":0.2000,"publicationDate":"2021-03-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"O papel do corpus de estudo no aprimoramento descritivo da complementaridade informacional multidocumento / The role of the study corpus in the descriptive improvement of multi-document informational complementarity\",\"authors\":\"J. W. C. Souza\",\"doi\":\"10.17851/2237-2083.29.2.1059-1087\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Resumo: Em subareas do Processamento Automatico de Linguas Naturais (PLN), como a Sumarizacao Automatica Multidocumento (SAM), e necessario compreender o comportamento linguistico de determinados fenomenos, especialmente os de natureza semântica. A Cross-document Structure Theory (CST) e bastante utilizada em estudos do PLN por proporcionar um conjunto de relacoes semânticas que organizam a informacao entre unidades de analise (comumente, pares de sentencas), agrupadas entre conteudo (a saber, redundância, complementaridade e contradicao) e apresentacao (a saber, fonte/autoria e estilo). Ate entao, a caracterizacao das relacoes CST baseava-se em atributos genericos (como a quantidade de palavras em comum entre as sentencas de um par) e especificos (como a presenca de adverbios temporais) para as relacoes de Redundância e Complementaridade. Entretanto, percebe-se que a delimitacao de tais atributos ainda e incipiente, pois nao inclui atributos semânticos e pragmaticos, niveis linguisticos que sao possiveis de recuperar manualmente entre as unidades de analise da CST. Nesse sentido, objetiva-se, neste artigo, reconstruir o percurso metodologico de Souza (2019) ao que se refere ao estudo em corpus das relacoes CST em textos jornalisticos do Portugues, ja que o conjunto de atributos disponiveis, ate o momento, ainda produzia equivocos na identificacao dos subtipos de complementaridade multidocumento, a saber temporal e atemporal. Partindo do corpus CSTNews, organizou-se um subconjunto de estudo com os 10 primeiros clusters , o que contabilizou 204 pares de sentencas. Como resultado, foram obtidas a descricao detalhada da complementaridade CST e a criacao de uma tipologia de sinalizadores das relacoes que traduzem esse fenomeno, alem da proposicao de uma metodologia especifica para o estudo de relacoes CST. Palavras-chave: Complementaridade informacional multidocumento; Processamento Automatico de Linguas Naturais; Corpus de estudo. Abstract: In sub-areas of Natural Language Processing (NLP), such as Automatic Multidocument Summarization (AMS), it is necessary to understand the linguistic behavior of certain phenomena, especially those of a semantic nature. Cross-document Structure Theory (CST) is widely used in NLP studies because it provides a set of semantic relations that organize information between units of analysis (commonly, pairs of sentences) organized between content (namely, redundancy, complementarity and contradiction) and presentation (namely, source/authorship and style). Until then, the characterization of CST relationships was based on generic attributes (such as the number of words in common between sentences of a pair) and specific attributes (such as the presence of temporal adverbs) for the relationships of Redundancy and Complementarity. However, the delimitation of such attributes is still incipient, as they do not include semantic and pragmatic attributes, linguistic levels that are possible to recover between the CST units of analysis. In this sense, the aim of this paper is to reconstruct the methodological path of Souza (2019) with regard to the study in corpus of CST relations in Portuguese journalistic texts, since the set of available attributes, until then, still produced mistakes in the identification of multi-document complementarity subtypes, namely temporal and timeless. Based on the CSTNews corpus , a subset of studies was organized with the first 10 clusters, that are represented by 204 pairs of sentences. As a result, a detailed description of CST complementarity was obtained, as well as the creation of a typology of signaling relationships that translate this phenomenon, in addition to proposing a specific methodology for the study of CST relations. Keywords: Multi-document informational Complementarity; Processing of Natural Languages; Study corpus .\",\"PeriodicalId\":42188,\"journal\":{\"name\":\"Revista de Estudos da Linguagem\",\"volume\":\"29 1\",\"pages\":\"1059-1087\"},\"PeriodicalIF\":0.2000,\"publicationDate\":\"2021-03-19\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Revista de Estudos da Linguagem\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.17851/2237-2083.29.2.1059-1087\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"0\",\"JCRName\":\"LANGUAGE & LINGUISTICS\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Revista de Estudos da Linguagem","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.17851/2237-2083.29.2.1059-1087","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"0","JCRName":"LANGUAGE & LINGUISTICS","Score":null,"Total":0}

引用次数: 0

摘要

摘要：在自然语言自动处理（NLP）的子领域，如自动多文档摘要（SAM），有必要了解某些现象的语言行为，尤其是语义性质的现象。跨文档结构理论（CST）在PLN研究中被广泛用于提供一组语义关系，这些关系组织分析单元（通常是成对的句子）之间的信息，在内容（即冗余、互补和矛盾）和呈现（即来源/作者和风格）之间分组。在此之前，CST关系的表征是基于冗余和互补关系的一般属性（如一对句子之间的共同单词数量）和特定属性（如时间副词的存在）。然而，值得注意的是，此类属性的界定仍处于起步阶段，因为它不包括语义和语用属性，即可以在CST的分析单元之间手动检索的语言水平。从这个意义上说，本文的目的是重建Souza（2019）关于Portugues新闻文本中CST关系的语料库研究的方法论路径，因为迄今为止可用的一组属性在识别多文档互补的亚型（即时间和时间）时仍然产生了错误。基于CSTNews语料库，研究的一个子集由前10个聚类组成，共有204对句子。因此，除了提出研究CST关系的具体方法外，我们还获得了对CST互补性的详细描述，以及翻译这一现象的关系标记类型的创建。关键词：多文档信息互补性；自然语言的自动处理；学习语料库。在自然语言处理（NLP）的子领域，如自动多文档摘要（AMS），有必要了解某些现象的语言行为，尤其是那些具有语义性质的现象。跨文档结构理论（CST）在NLP研究中得到了广泛的应用，因为它提供了一组语义关系，将信息组织在内容（即冗余、互补和矛盾）和呈现（即来源/作者和风格）之间组织的分析单元（通常是成对的句子）之间。在此之前，CST关系的表征是基于冗余和互补关系的一般属性（如一对句子之间的共同单词数量）和特定属性（如时间对抗的存在）。然而，这类属性的界定仍处于起步阶段，因为它们不包括语义和语用属性，这些属性可能在CST分析单位之间恢复。从这个意义上说，本文的目的是重建Souza（2019）关于葡萄牙新闻文本中CST关系语料库研究的方法论路径，因为在此之前，一组可用的属性在识别多文档互补亚型时仍然产生混合，即时间和时间。基于CSTNews语料库，研究的子集由前10个聚类组成，由204对句子表示。因此，除了提出了研究CST关系的具体方法外，还获得了对CST互补性的详细描述，以及翻译这一现象的信号关系类型的创建。关键词：多文档信息互补性；自然语言处理；研究语料库。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

查看原文本刊更多论文

O papel do corpus de estudo no aprimoramento descritivo da complementaridade informacional multidocumento / The role of the study corpus in the descriptive improvement of multi-document informational complementarity

Resumo: Em subareas do Processamento Automatico de Linguas Naturais (PLN), como a Sumarizacao Automatica Multidocumento (SAM), e necessario compreender o comportamento linguistico de determinados fenomenos, especialmente os de natureza semântica. A Cross-document Structure Theory (CST) e bastante utilizada em estudos do PLN por proporcionar um conjunto de relacoes semânticas que organizam a informacao entre unidades de analise (comumente, pares de sentencas), agrupadas entre conteudo (a saber, redundância, complementaridade e contradicao) e apresentacao (a saber, fonte/autoria e estilo). Ate entao, a caracterizacao das relacoes CST baseava-se em atributos genericos (como a quantidade de palavras em comum entre as sentencas de um par) e especificos (como a presenca de adverbios temporais) para as relacoes de Redundância e Complementaridade. Entretanto, percebe-se que a delimitacao de tais atributos ainda e incipiente, pois nao inclui atributos semânticos e pragmaticos, niveis linguisticos que sao possiveis de recuperar manualmente entre as unidades de analise da CST. Nesse sentido, objetiva-se, neste artigo, reconstruir o percurso metodologico de Souza (2019) ao que se refere ao estudo em corpus das relacoes CST em textos jornalisticos do Portugues, ja que o conjunto de atributos disponiveis, ate o momento, ainda produzia equivocos na identificacao dos subtipos de complementaridade multidocumento, a saber temporal e atemporal. Partindo do corpus CSTNews, organizou-se um subconjunto de estudo com os 10 primeiros clusters , o que contabilizou 204 pares de sentencas. Como resultado, foram obtidas a descricao detalhada da complementaridade CST e a criacao de uma tipologia de sinalizadores das relacoes que traduzem esse fenomeno, alem da proposicao de uma metodologia especifica para o estudo de relacoes CST. Palavras-chave: Complementaridade informacional multidocumento; Processamento Automatico de Linguas Naturais; Corpus de estudo. Abstract: In sub-areas of Natural Language Processing (NLP), such as Automatic Multidocument Summarization (AMS), it is necessary to understand the linguistic behavior of certain phenomena, especially those of a semantic nature. Cross-document Structure Theory (CST) is widely used in NLP studies because it provides a set of semantic relations that organize information between units of analysis (commonly, pairs of sentences) organized between content (namely, redundancy, complementarity and contradiction) and presentation (namely, source/authorship and style). Until then, the characterization of CST relationships was based on generic attributes (such as the number of words in common between sentences of a pair) and specific attributes (such as the presence of temporal adverbs) for the relationships of Redundancy and Complementarity. However, the delimitation of such attributes is still incipient, as they do not include semantic and pragmatic attributes, linguistic levels that are possible to recover between the CST units of analysis. In this sense, the aim of this paper is to reconstruct the methodological path of Souza (2019) with regard to the study in corpus of CST relations in Portuguese journalistic texts, since the set of available attributes, until then, still produced mistakes in the identification of multi-document complementarity subtypes, namely temporal and timeless. Based on the CSTNews corpus , a subset of studies was organized with the first 10 clusters, that are represented by 204 pairs of sentences. As a result, a detailed description of CST complementarity was obtained, as well as the creation of a typology of signaling relationships that translate this phenomenon, in addition to proposing a specific methodology for the study of CST relations. Keywords: Multi-document informational Complementarity; Processing of Natural Languages; Study corpus .

求助全文

通过发布文献求助，成功后即可免费获取论文全文。去求助

来源期刊

Revista de Estudos da Linguagem LANGUAGE & LINGUISTICS-

CiteScore

0.30

自引率

0.00%

发文量

审稿时长

52 weeks