窄域短测试语料库的聚类与评价

IF 1.2 Q4 COMPUTER SCIENCE, ARTIFICIAL INTELLIGENCE
Pinto Avendaño, David Eduardo
{"title":"窄域短测试语料库的聚类与评价","authors":"Pinto Avendaño, David Eduardo","doi":"10.4995/THESIS/10251/2641","DOIUrl":null,"url":null,"abstract":"En este trabajo de tesis doctoral se investiga el problema del agrupamiento de conjuntos especiales de documentos llamados textos cortos de dominios restringidos.\nPara llevar a cabo esta tarea, se han analizados diversos corpora y metodos de agrupamiento. Mas aun, se han introducido algunas medidas de evaluacion de corpus, tecnicas de seleccion de terminos y medidas para la validez de agrupamiento con la finalidad de estudiar los siguientes problemas:\n-Determinar la relativa dificultad de un corpus para ser agrupado y estudiar algunas de sus caracteristicas como longitud de los textos, amplitud del dominio, estilometria, desequilibrio de clases y estructura.\n-Contribuir en el estado del arte sobre el agrupamiento de corpora compuesto de textos cortos de dominios restringidos\nEl trabajo de investigacion que se ha llevado a cabo se encuentra parcialmente enfocado en el \"agrupamiento de textos cortos\". Este tema se considera relevante dado el modo actual y futuro en que las personas tienden a usar un \"lenguaje reducido\" constituidos por textos cortos (por ejemplo, blogs, snippets, noticias y generacion de mensajes de textos como el correo electronico y el chat).\nAdicionalmente, se estudia la amplitud del dominio de corpora. En este sentido, un corpus puede ser considerado como restringido o amplio si el grado de traslape de vocabulario es alto o bajo, respectivamente. En la tarea de categorizacion, es bastante complejo lidiar con corpora de dominio restringido tales como articulos cientificos, reportes tecnicos, patentes, etc.\nEl objetivo principal de este trabajo consiste en estudiar las posibles estrategias para tratar con los siguientes dos problemas:\na) las bajas frecuencias de los terminos del vocabulario en textos cortos, y\nb) el alto traslape de vocabulario asociado a dominios restringidos.\nSi bien, cada uno de los problemas anteriores es un reto suficientemente alto, cuando se trata con textos cortos de dominios restringidos, la complejidad del problema se incr","PeriodicalId":43929,"journal":{"name":"Procesamiento del Lenguaje Natural","volume":null,"pages":null},"PeriodicalIF":1.2000,"publicationDate":"2009-03-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"28","resultStr":"{\"title\":\"On Clustering and Evaluation of Narrow Domain Short-Test Corpora\",\"authors\":\"Pinto Avendaño, David Eduardo\",\"doi\":\"10.4995/THESIS/10251/2641\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"En este trabajo de tesis doctoral se investiga el problema del agrupamiento de conjuntos especiales de documentos llamados textos cortos de dominios restringidos.\\nPara llevar a cabo esta tarea, se han analizados diversos corpora y metodos de agrupamiento. Mas aun, se han introducido algunas medidas de evaluacion de corpus, tecnicas de seleccion de terminos y medidas para la validez de agrupamiento con la finalidad de estudiar los siguientes problemas:\\n-Determinar la relativa dificultad de un corpus para ser agrupado y estudiar algunas de sus caracteristicas como longitud de los textos, amplitud del dominio, estilometria, desequilibrio de clases y estructura.\\n-Contribuir en el estado del arte sobre el agrupamiento de corpora compuesto de textos cortos de dominios restringidos\\nEl trabajo de investigacion que se ha llevado a cabo se encuentra parcialmente enfocado en el \\\"agrupamiento de textos cortos\\\". Este tema se considera relevante dado el modo actual y futuro en que las personas tienden a usar un \\\"lenguaje reducido\\\" constituidos por textos cortos (por ejemplo, blogs, snippets, noticias y generacion de mensajes de textos como el correo electronico y el chat).\\nAdicionalmente, se estudia la amplitud del dominio de corpora. En este sentido, un corpus puede ser considerado como restringido o amplio si el grado de traslape de vocabulario es alto o bajo, respectivamente. En la tarea de categorizacion, es bastante complejo lidiar con corpora de dominio restringido tales como articulos cientificos, reportes tecnicos, patentes, etc.\\nEl objetivo principal de este trabajo consiste en estudiar las posibles estrategias para tratar con los siguientes dos problemas:\\na) las bajas frecuencias de los terminos del vocabulario en textos cortos, y\\nb) el alto traslape de vocabulario asociado a dominios restringidos.\\nSi bien, cada uno de los problemas anteriores es un reto suficientemente alto, cuando se trata con textos cortos de dominios restringidos, la complejidad del problema se incr\",\"PeriodicalId\":43929,\"journal\":{\"name\":\"Procesamiento del Lenguaje Natural\",\"volume\":null,\"pages\":null},\"PeriodicalIF\":1.2000,\"publicationDate\":\"2009-03-01\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"28\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Procesamiento del Lenguaje Natural\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.4995/THESIS/10251/2641\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"Q4\",\"JCRName\":\"COMPUTER SCIENCE, ARTIFICIAL INTELLIGENCE\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Procesamiento del Lenguaje Natural","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.4995/THESIS/10251/2641","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q4","JCRName":"COMPUTER SCIENCE, ARTIFICIAL INTELLIGENCE","Score":null,"Total":0}
引用次数: 28

摘要

在这篇论文中,我们研究了被称为有限域短文本的特殊文档集的聚类问题。为了完成这项任务,我们分析了各种语料库和聚类方法。更重要的是,我们采取了一些措施的语料库,tecnicas evaluacion seleccion术语。和措施的有效性分组以探讨下列问题:-Determinar相对困难一个语料库是动员和研究其中的一些caracteristicas统治作为文本的长度,振幅,estilometria,种类和结构失衡。-对由有限领域的短文本组成的语料库进行分组的最新贡献已经进行的研究工作部分集中在“短文本分组”上。这个话题被认为是相关的,因为现在和将来人们倾向于使用由短文本组成的“简化语言”(如博客、片段、新闻和生成文本信息,如电子邮件和聊天)。此外,还研究了语料库域的振幅。从这个意义上说,如果词汇重叠程度分别高或低,语料库可以被认为是受限的或广泛的。在categorizacion域,是相当复杂,处理的限制,如第科学家、实至名归,专利,etc.El报告这项工作的主要目标是研究备选战略,以解决以下两个问题:(a)低频率的词汇术语。文字短小精悍,yb)相关联的词汇traslape受限域较高。虽然上述每一个问题都是一个足够高的挑战,但当涉及到来自有限领域的简短文本时,问题的复杂性增加了
本文章由计算机程序翻译,如有差异,请以英文原文为准。
On Clustering and Evaluation of Narrow Domain Short-Test Corpora
En este trabajo de tesis doctoral se investiga el problema del agrupamiento de conjuntos especiales de documentos llamados textos cortos de dominios restringidos. Para llevar a cabo esta tarea, se han analizados diversos corpora y metodos de agrupamiento. Mas aun, se han introducido algunas medidas de evaluacion de corpus, tecnicas de seleccion de terminos y medidas para la validez de agrupamiento con la finalidad de estudiar los siguientes problemas: -Determinar la relativa dificultad de un corpus para ser agrupado y estudiar algunas de sus caracteristicas como longitud de los textos, amplitud del dominio, estilometria, desequilibrio de clases y estructura. -Contribuir en el estado del arte sobre el agrupamiento de corpora compuesto de textos cortos de dominios restringidos El trabajo de investigacion que se ha llevado a cabo se encuentra parcialmente enfocado en el "agrupamiento de textos cortos". Este tema se considera relevante dado el modo actual y futuro en que las personas tienden a usar un "lenguaje reducido" constituidos por textos cortos (por ejemplo, blogs, snippets, noticias y generacion de mensajes de textos como el correo electronico y el chat). Adicionalmente, se estudia la amplitud del dominio de corpora. En este sentido, un corpus puede ser considerado como restringido o amplio si el grado de traslape de vocabulario es alto o bajo, respectivamente. En la tarea de categorizacion, es bastante complejo lidiar con corpora de dominio restringido tales como articulos cientificos, reportes tecnicos, patentes, etc. El objetivo principal de este trabajo consiste en estudiar las posibles estrategias para tratar con los siguientes dos problemas: a) las bajas frecuencias de los terminos del vocabulario en textos cortos, y b) el alto traslape de vocabulario asociado a dominios restringidos. Si bien, cada uno de los problemas anteriores es un reto suficientemente alto, cuando se trata con textos cortos de dominios restringidos, la complejidad del problema se incr
求助全文
通过发布文献求助,成功后即可免费获取论文全文。 去求助
来源期刊
CiteScore
5.40
自引率
12.50%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信