{"title":"Recherche d’indices lexicosyntaxiques de segmentation et de liage par une analyse automatique de corpus","authors":"Yves Bestgen","doi":"10.4000/discours.10256","DOIUrl":null,"url":null,"abstract":"Cette etude emploie une technique automatique d’analyse de corpus pour tenter d’apporter un point de vue complementaire a celui d’etudes plus qualitatives des indices de segmentation et de liage, tels que les expressions adverbiales, les connecteurs et les anaphores. L’etude vise tout particulierement a determiner s’il est possible de distinguer automatiquement dans des textes les phrases en situation de rupture de celles en situation de continuite et d’identifier les indices qui le permettent. L’identification des phrases en situation de (dis)continuite a ete effectuee sur la base de la structuration configurationnelle des textes telle qu’elle est rendue « vi-lisible » par les sections et les paragraphes. Les indices potentiels analyses sont composes des n-grammes de lemmes et d’etiquettes morphosyntaxiques. Les analyses ont ete effectuees sur trois collections de textes de genre different : des entrees de Wikipedia, des articles de journaux et des romans. D’une maniere generale, l’apprentissage supervise s’est revele relativement efficace, obtenant une exactitude allant de 64 % a 74 % alors que le hasard seul obtiendrait 50 %. Les indices les plus utiles pour la discrimination sont pour la plupart interpretables dans le cadre des travaux linguistiques sur les marques de segmentation et de liage. Si les performances de detection des paragraphes sont equivalentes dans les trois genres, on observe des differences importantes lorsqu’on compare les indices les plus utiles dans chaque genre. Apres avoir discute quelques-unes des limites de l’etude, la conclusion envisage la possibilite de prendre en compte d’une maniere plus complete les indices lies a la coreference, qui se sont reveles particulierement utiles.","PeriodicalId":51977,"journal":{"name":"Discours-Revue de Linguistique Psycholinguistique et Informatique","volume":null,"pages":null},"PeriodicalIF":0.5000,"publicationDate":"2019-12-30","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"2","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Discours-Revue de Linguistique Psycholinguistique et Informatique","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.4000/discours.10256","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q3","JCRName":"LINGUISTICS","Score":null,"Total":0}
引用次数: 2
Abstract
Cette etude emploie une technique automatique d’analyse de corpus pour tenter d’apporter un point de vue complementaire a celui d’etudes plus qualitatives des indices de segmentation et de liage, tels que les expressions adverbiales, les connecteurs et les anaphores. L’etude vise tout particulierement a determiner s’il est possible de distinguer automatiquement dans des textes les phrases en situation de rupture de celles en situation de continuite et d’identifier les indices qui le permettent. L’identification des phrases en situation de (dis)continuite a ete effectuee sur la base de la structuration configurationnelle des textes telle qu’elle est rendue « vi-lisible » par les sections et les paragraphes. Les indices potentiels analyses sont composes des n-grammes de lemmes et d’etiquettes morphosyntaxiques. Les analyses ont ete effectuees sur trois collections de textes de genre different : des entrees de Wikipedia, des articles de journaux et des romans. D’une maniere generale, l’apprentissage supervise s’est revele relativement efficace, obtenant une exactitude allant de 64 % a 74 % alors que le hasard seul obtiendrait 50 %. Les indices les plus utiles pour la discrimination sont pour la plupart interpretables dans le cadre des travaux linguistiques sur les marques de segmentation et de liage. Si les performances de detection des paragraphes sont equivalentes dans les trois genres, on observe des differences importantes lorsqu’on compare les indices les plus utiles dans chaque genre. Apres avoir discute quelques-unes des limites de l’etude, la conclusion envisage la possibilite de prendre en compte d’une maniere plus complete les indices lies a la coreference, qui se sont reveles particulierement utiles.