{"title":"On Clustering and Evaluation of Narrow Domain Short-Test Corpora","authors":"Pinto Avendaño, David Eduardo","doi":"10.4995/THESIS/10251/2641","DOIUrl":null,"url":null,"abstract":"En este trabajo de tesis doctoral se investiga el problema del agrupamiento de conjuntos especiales de documentos llamados textos cortos de dominios restringidos.\nPara llevar a cabo esta tarea, se han analizados diversos corpora y metodos de agrupamiento. Mas aun, se han introducido algunas medidas de evaluacion de corpus, tecnicas de seleccion de terminos y medidas para la validez de agrupamiento con la finalidad de estudiar los siguientes problemas:\n-Determinar la relativa dificultad de un corpus para ser agrupado y estudiar algunas de sus caracteristicas como longitud de los textos, amplitud del dominio, estilometria, desequilibrio de clases y estructura.\n-Contribuir en el estado del arte sobre el agrupamiento de corpora compuesto de textos cortos de dominios restringidos\nEl trabajo de investigacion que se ha llevado a cabo se encuentra parcialmente enfocado en el \"agrupamiento de textos cortos\". Este tema se considera relevante dado el modo actual y futuro en que las personas tienden a usar un \"lenguaje reducido\" constituidos por textos cortos (por ejemplo, blogs, snippets, noticias y generacion de mensajes de textos como el correo electronico y el chat).\nAdicionalmente, se estudia la amplitud del dominio de corpora. En este sentido, un corpus puede ser considerado como restringido o amplio si el grado de traslape de vocabulario es alto o bajo, respectivamente. En la tarea de categorizacion, es bastante complejo lidiar con corpora de dominio restringido tales como articulos cientificos, reportes tecnicos, patentes, etc.\nEl objetivo principal de este trabajo consiste en estudiar las posibles estrategias para tratar con los siguientes dos problemas:\na) las bajas frecuencias de los terminos del vocabulario en textos cortos, y\nb) el alto traslape de vocabulario asociado a dominios restringidos.\nSi bien, cada uno de los problemas anteriores es un reto suficientemente alto, cuando se trata con textos cortos de dominios restringidos, la complejidad del problema se incr","PeriodicalId":1,"journal":{"name":"Accounts of Chemical Research","volume":null,"pages":null},"PeriodicalIF":16.4000,"publicationDate":"2009-03-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"28","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Accounts of Chemical Research","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.4995/THESIS/10251/2641","RegionNum":1,"RegionCategory":"化学","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q1","JCRName":"CHEMISTRY, MULTIDISCIPLINARY","Score":null,"Total":0}
引用次数: 28
Abstract
En este trabajo de tesis doctoral se investiga el problema del agrupamiento de conjuntos especiales de documentos llamados textos cortos de dominios restringidos.
Para llevar a cabo esta tarea, se han analizados diversos corpora y metodos de agrupamiento. Mas aun, se han introducido algunas medidas de evaluacion de corpus, tecnicas de seleccion de terminos y medidas para la validez de agrupamiento con la finalidad de estudiar los siguientes problemas:
-Determinar la relativa dificultad de un corpus para ser agrupado y estudiar algunas de sus caracteristicas como longitud de los textos, amplitud del dominio, estilometria, desequilibrio de clases y estructura.
-Contribuir en el estado del arte sobre el agrupamiento de corpora compuesto de textos cortos de dominios restringidos
El trabajo de investigacion que se ha llevado a cabo se encuentra parcialmente enfocado en el "agrupamiento de textos cortos". Este tema se considera relevante dado el modo actual y futuro en que las personas tienden a usar un "lenguaje reducido" constituidos por textos cortos (por ejemplo, blogs, snippets, noticias y generacion de mensajes de textos como el correo electronico y el chat).
Adicionalmente, se estudia la amplitud del dominio de corpora. En este sentido, un corpus puede ser considerado como restringido o amplio si el grado de traslape de vocabulario es alto o bajo, respectivamente. En la tarea de categorizacion, es bastante complejo lidiar con corpora de dominio restringido tales como articulos cientificos, reportes tecnicos, patentes, etc.
El objetivo principal de este trabajo consiste en estudiar las posibles estrategias para tratar con los siguientes dos problemas:
a) las bajas frecuencias de los terminos del vocabulario en textos cortos, y
b) el alto traslape de vocabulario asociado a dominios restringidos.
Si bien, cada uno de los problemas anteriores es un reto suficientemente alto, cuando se trata con textos cortos de dominios restringidos, la complejidad del problema se incr
期刊介绍:
Accounts of Chemical Research presents short, concise and critical articles offering easy-to-read overviews of basic research and applications in all areas of chemistry and biochemistry. These short reviews focus on research from the author’s own laboratory and are designed to teach the reader about a research project. In addition, Accounts of Chemical Research publishes commentaries that give an informed opinion on a current research problem. Special Issues online are devoted to a single topic of unusual activity and significance.
Accounts of Chemical Research replaces the traditional article abstract with an article "Conspectus." These entries synopsize the research affording the reader a closer look at the content and significance of an article. Through this provision of a more detailed description of the article contents, the Conspectus enhances the article's discoverability by search engines and the exposure for the research.