{"title":"研究语料库在多文档信息互补性描述性改进中的作用","authors":"J. W. C. Souza","doi":"10.17851/2237-2083.29.2.1059-1087","DOIUrl":null,"url":null,"abstract":"Resumo: Em subareas do Processamento Automatico de Linguas Naturais (PLN), como a Sumarizacao Automatica Multidocumento (SAM), e necessario compreender o comportamento linguistico de determinados fenomenos, especialmente os de natureza semântica. A Cross-document Structure Theory (CST) e bastante utilizada em estudos do PLN por proporcionar um conjunto de relacoes semânticas que organizam a informacao entre unidades de analise (comumente, pares de sentencas), agrupadas entre conteudo (a saber, redundância, complementaridade e contradicao) e apresentacao (a saber, fonte/autoria e estilo). Ate entao, a caracterizacao das relacoes CST baseava-se em atributos genericos (como a quantidade de palavras em comum entre as sentencas de um par) e especificos (como a presenca de adverbios temporais) para as relacoes de Redundância e Complementaridade. Entretanto, percebe-se que a delimitacao de tais atributos ainda e incipiente, pois nao inclui atributos semânticos e pragmaticos, niveis linguisticos que sao possiveis de recuperar manualmente entre as unidades de analise da CST. Nesse sentido, objetiva-se, neste artigo, reconstruir o percurso metodologico de Souza (2019) ao que se refere ao estudo em corpus das relacoes CST em textos jornalisticos do Portugues, ja que o conjunto de atributos disponiveis, ate o momento, ainda produzia equivocos na identificacao dos subtipos de complementaridade multidocumento, a saber temporal e atemporal. Partindo do corpus CSTNews, organizou-se um subconjunto de estudo com os 10 primeiros clusters , o que contabilizou 204 pares de sentencas. Como resultado, foram obtidas a descricao detalhada da complementaridade CST e a criacao de uma tipologia de sinalizadores das relacoes que traduzem esse fenomeno, alem da proposicao de uma metodologia especifica para o estudo de relacoes CST. Palavras-chave: Complementaridade informacional multidocumento; Processamento Automatico de Linguas Naturais; Corpus de estudo. Abstract: In sub-areas of Natural Language Processing (NLP), such as Automatic Multidocument Summarization (AMS), it is necessary to understand the linguistic behavior of certain phenomena, especially those of a semantic nature. Cross-document Structure Theory (CST) is widely used in NLP studies because it provides a set of semantic relations that organize information between units of analysis (commonly, pairs of sentences) organized between content (namely, redundancy, complementarity and contradiction) and presentation (namely, source/authorship and style). Until then, the characterization of CST relationships was based on generic attributes (such as the number of words in common between sentences of a pair) and specific attributes (such as the presence of temporal adverbs) for the relationships of Redundancy and Complementarity. However, the delimitation of such attributes is still incipient, as they do not include semantic and pragmatic attributes, linguistic levels that are possible to recover between the CST units of analysis. In this sense, the aim of this paper is to reconstruct the methodological path of Souza (2019) with regard to the study in corpus of CST relations in Portuguese journalistic texts, since the set of available attributes, until then, still produced mistakes in the identification of multi-document complementarity subtypes, namely temporal and timeless. Based on the CSTNews corpus , a subset of studies was organized with the first 10 clusters, that are represented by 204 pairs of sentences. As a result, a detailed description of CST complementarity was obtained, as well as the creation of a typology of signaling relationships that translate this phenomenon, in addition to proposing a specific methodology for the study of CST relations. Keywords: Multi-document informational Complementarity; Processing of Natural Languages; Study corpus .","PeriodicalId":42188,"journal":{"name":"Revista de Estudos da Linguagem","volume":"29 1","pages":"1059-1087"},"PeriodicalIF":0.2000,"publicationDate":"2021-03-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"O papel do corpus de estudo no aprimoramento descritivo da complementaridade informacional multidocumento / The role of the study corpus in the descriptive improvement of multi-document informational complementarity\",\"authors\":\"J. W. C. Souza\",\"doi\":\"10.17851/2237-2083.29.2.1059-1087\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Resumo: Em subareas do Processamento Automatico de Linguas Naturais (PLN), como a Sumarizacao Automatica Multidocumento (SAM), e necessario compreender o comportamento linguistico de determinados fenomenos, especialmente os de natureza semântica. A Cross-document Structure Theory (CST) e bastante utilizada em estudos do PLN por proporcionar um conjunto de relacoes semânticas que organizam a informacao entre unidades de analise (comumente, pares de sentencas), agrupadas entre conteudo (a saber, redundância, complementaridade e contradicao) e apresentacao (a saber, fonte/autoria e estilo). Ate entao, a caracterizacao das relacoes CST baseava-se em atributos genericos (como a quantidade de palavras em comum entre as sentencas de um par) e especificos (como a presenca de adverbios temporais) para as relacoes de Redundância e Complementaridade. Entretanto, percebe-se que a delimitacao de tais atributos ainda e incipiente, pois nao inclui atributos semânticos e pragmaticos, niveis linguisticos que sao possiveis de recuperar manualmente entre as unidades de analise da CST. Nesse sentido, objetiva-se, neste artigo, reconstruir o percurso metodologico de Souza (2019) ao que se refere ao estudo em corpus das relacoes CST em textos jornalisticos do Portugues, ja que o conjunto de atributos disponiveis, ate o momento, ainda produzia equivocos na identificacao dos subtipos de complementaridade multidocumento, a saber temporal e atemporal. Partindo do corpus CSTNews, organizou-se um subconjunto de estudo com os 10 primeiros clusters , o que contabilizou 204 pares de sentencas. Como resultado, foram obtidas a descricao detalhada da complementaridade CST e a criacao de uma tipologia de sinalizadores das relacoes que traduzem esse fenomeno, alem da proposicao de uma metodologia especifica para o estudo de relacoes CST. Palavras-chave: Complementaridade informacional multidocumento; Processamento Automatico de Linguas Naturais; Corpus de estudo. Abstract: In sub-areas of Natural Language Processing (NLP), such as Automatic Multidocument Summarization (AMS), it is necessary to understand the linguistic behavior of certain phenomena, especially those of a semantic nature. Cross-document Structure Theory (CST) is widely used in NLP studies because it provides a set of semantic relations that organize information between units of analysis (commonly, pairs of sentences) organized between content (namely, redundancy, complementarity and contradiction) and presentation (namely, source/authorship and style). Until then, the characterization of CST relationships was based on generic attributes (such as the number of words in common between sentences of a pair) and specific attributes (such as the presence of temporal adverbs) for the relationships of Redundancy and Complementarity. However, the delimitation of such attributes is still incipient, as they do not include semantic and pragmatic attributes, linguistic levels that are possible to recover between the CST units of analysis. In this sense, the aim of this paper is to reconstruct the methodological path of Souza (2019) with regard to the study in corpus of CST relations in Portuguese journalistic texts, since the set of available attributes, until then, still produced mistakes in the identification of multi-document complementarity subtypes, namely temporal and timeless. Based on the CSTNews corpus , a subset of studies was organized with the first 10 clusters, that are represented by 204 pairs of sentences. As a result, a detailed description of CST complementarity was obtained, as well as the creation of a typology of signaling relationships that translate this phenomenon, in addition to proposing a specific methodology for the study of CST relations. Keywords: Multi-document informational Complementarity; Processing of Natural Languages; Study corpus .\",\"PeriodicalId\":42188,\"journal\":{\"name\":\"Revista de Estudos da Linguagem\",\"volume\":\"29 1\",\"pages\":\"1059-1087\"},\"PeriodicalIF\":0.2000,\"publicationDate\":\"2021-03-19\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Revista de Estudos da Linguagem\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.17851/2237-2083.29.2.1059-1087\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"0\",\"JCRName\":\"LANGUAGE & LINGUISTICS\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Revista de Estudos da Linguagem","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.17851/2237-2083.29.2.1059-1087","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"0","JCRName":"LANGUAGE & LINGUISTICS","Score":null,"Total":0}
O papel do corpus de estudo no aprimoramento descritivo da complementaridade informacional multidocumento / The role of the study corpus in the descriptive improvement of multi-document informational complementarity
Resumo: Em subareas do Processamento Automatico de Linguas Naturais (PLN), como a Sumarizacao Automatica Multidocumento (SAM), e necessario compreender o comportamento linguistico de determinados fenomenos, especialmente os de natureza semântica. A Cross-document Structure Theory (CST) e bastante utilizada em estudos do PLN por proporcionar um conjunto de relacoes semânticas que organizam a informacao entre unidades de analise (comumente, pares de sentencas), agrupadas entre conteudo (a saber, redundância, complementaridade e contradicao) e apresentacao (a saber, fonte/autoria e estilo). Ate entao, a caracterizacao das relacoes CST baseava-se em atributos genericos (como a quantidade de palavras em comum entre as sentencas de um par) e especificos (como a presenca de adverbios temporais) para as relacoes de Redundância e Complementaridade. Entretanto, percebe-se que a delimitacao de tais atributos ainda e incipiente, pois nao inclui atributos semânticos e pragmaticos, niveis linguisticos que sao possiveis de recuperar manualmente entre as unidades de analise da CST. Nesse sentido, objetiva-se, neste artigo, reconstruir o percurso metodologico de Souza (2019) ao que se refere ao estudo em corpus das relacoes CST em textos jornalisticos do Portugues, ja que o conjunto de atributos disponiveis, ate o momento, ainda produzia equivocos na identificacao dos subtipos de complementaridade multidocumento, a saber temporal e atemporal. Partindo do corpus CSTNews, organizou-se um subconjunto de estudo com os 10 primeiros clusters , o que contabilizou 204 pares de sentencas. Como resultado, foram obtidas a descricao detalhada da complementaridade CST e a criacao de uma tipologia de sinalizadores das relacoes que traduzem esse fenomeno, alem da proposicao de uma metodologia especifica para o estudo de relacoes CST. Palavras-chave: Complementaridade informacional multidocumento; Processamento Automatico de Linguas Naturais; Corpus de estudo. Abstract: In sub-areas of Natural Language Processing (NLP), such as Automatic Multidocument Summarization (AMS), it is necessary to understand the linguistic behavior of certain phenomena, especially those of a semantic nature. Cross-document Structure Theory (CST) is widely used in NLP studies because it provides a set of semantic relations that organize information between units of analysis (commonly, pairs of sentences) organized between content (namely, redundancy, complementarity and contradiction) and presentation (namely, source/authorship and style). Until then, the characterization of CST relationships was based on generic attributes (such as the number of words in common between sentences of a pair) and specific attributes (such as the presence of temporal adverbs) for the relationships of Redundancy and Complementarity. However, the delimitation of such attributes is still incipient, as they do not include semantic and pragmatic attributes, linguistic levels that are possible to recover between the CST units of analysis. In this sense, the aim of this paper is to reconstruct the methodological path of Souza (2019) with regard to the study in corpus of CST relations in Portuguese journalistic texts, since the set of available attributes, until then, still produced mistakes in the identification of multi-document complementarity subtypes, namely temporal and timeless. Based on the CSTNews corpus , a subset of studies was organized with the first 10 clusters, that are represented by 204 pairs of sentences. As a result, a detailed description of CST complementarity was obtained, as well as the creation of a typology of signaling relationships that translate this phenomenon, in addition to proposing a specific methodology for the study of CST relations. Keywords: Multi-document informational Complementarity; Processing of Natural Languages; Study corpus .