Clasificación temática automática de documentos basada en vocabularios y frecuencias de uso. El caso de artículos de divulgación científica

IF 1 4区 管理学 Q3 INFORMATION SCIENCE & LIBRARY SCIENCE
César González-Pérez, José Ignacio Vidal Liy, Ana María García García, Pablo Calleja Ibáñez
{"title":"Clasificación temática automática de documentos basada en vocabularios y frecuencias de uso. El caso de artículos de divulgación científica","authors":"César González-Pérez, José Ignacio Vidal Liy, Ana María García García, Pablo Calleja Ibáñez","doi":"10.3989/redc.2023.3.1996","DOIUrl":null,"url":null,"abstract":"A menudo es necesario clasificar documentos asignándoles un tema de entre una serie de opciones predefinidas. Esta labor suele ser realizada manualmente, mediante la lectura del documento por parte de un especialista. Este proceso manual es tedioso, requiere tiempo y recursos, y es propenso a sesgos y preferencias de cada especialista. \nComo alternativa, en este artículo presentamos un sistema de clasificación temática automática, capaz de clasificar cientos de documentos en pocos segundos, altamente parametrizable, y que no requiere de la intervención de especialistas. El sistema se basa en vocabularios temáticos predefinidos y frecuencias de uso de formas léxicas, y asigna a cada documento uno o más temas priorizados. El enfoque sugerido se ha desarrollado y probado en el contexto de artículos de divulgación científica en español. \nUtilizando este enfoque, es posible clasificar temáticamente grandes cantidades de documentos de forma sistemática, usando menos recursos que si se hiciese de forma manual, y evitando sesgos desconocidos. El enfoque ha demostrado una efectividad comparable a la de otras propuestas, pero requiriendo menos recursos computacionales.","PeriodicalId":45937,"journal":{"name":"Revista Espanola De Documentacion Cientifica","volume":null,"pages":null},"PeriodicalIF":1.0000,"publicationDate":"2023-07-06","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Revista Espanola De Documentacion Cientifica","FirstCategoryId":"91","ListUrlMain":"https://doi.org/10.3989/redc.2023.3.1996","RegionNum":4,"RegionCategory":"管理学","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q3","JCRName":"INFORMATION SCIENCE & LIBRARY SCIENCE","Score":null,"Total":0}
引用次数: 0

Abstract

A menudo es necesario clasificar documentos asignándoles un tema de entre una serie de opciones predefinidas. Esta labor suele ser realizada manualmente, mediante la lectura del documento por parte de un especialista. Este proceso manual es tedioso, requiere tiempo y recursos, y es propenso a sesgos y preferencias de cada especialista. Como alternativa, en este artículo presentamos un sistema de clasificación temática automática, capaz de clasificar cientos de documentos en pocos segundos, altamente parametrizable, y que no requiere de la intervención de especialistas. El sistema se basa en vocabularios temáticos predefinidos y frecuencias de uso de formas léxicas, y asigna a cada documento uno o más temas priorizados. El enfoque sugerido se ha desarrollado y probado en el contexto de artículos de divulgación científica en español. Utilizando este enfoque, es posible clasificar temáticamente grandes cantidades de documentos de forma sistemática, usando menos recursos que si se hiciese de forma manual, y evitando sesgos desconocidos. El enfoque ha demostrado una efectividad comparable a la de otras propuestas, pero requiriendo menos recursos computacionales.
基于词汇和使用频率的文档自动主题分类。科学传播文章案例
通常有必要通过从一系列预定义的选项中为文档分配主题来对文档进行分类。这项工作通常是通过专家阅读文件手动完成的。这一手工过程繁琐,需要时间和资源,容易受到每个专家的偏见和偏好的影响。另一种选择是,在这篇文章中,我们提出了一种自动主题分类系统,能够在几秒钟内对数百份文件进行分类,高度参数化,不需要专家的干预。该系统基于预先定义的主题词汇和词汇形式的使用频率,并为每个文档分配一个或多个优先主题。所建议的方法是在西班牙语科学传播文章的背景下开发和测试的。使用这种方法,可以系统地对大量文件进行主题分类,使用的资源比手工制作的资源少,并避免未知的偏见。该方法已被证明具有与其他提案相当的有效性,但需要较少的计算资源。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
Revista Espanola De Documentacion Cientifica
Revista Espanola De Documentacion Cientifica INFORMATION SCIENCE & LIBRARY SCIENCE-
CiteScore
2.20
自引率
8.30%
发文量
34
审稿时长
48 weeks
期刊介绍: Revista española de Documentación Científica (REDC) is a journal edited by the Instituto de Estudios Documentales sobre Ciencia y Tecnología (IEDCYT, formerly CINDOC) belonging to the Consejo Superior de Investigaciones Científicas (CSIC). It is published quarterly since 1977. The main objective of this journal is to contribute to the dissemination of knowledge amongst researchers in the field of Library and Information Science and those involved in the use of scientific, technical and strategic information for science policy and decision making. REDC includes research papers dealing with experimental and theoretical topics. The articles published in REDC include titles, abstracts and key-words in English in order to facilitate its international visibility.
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信