Indización automática de artículos científicos sobre Biblioteconomía y Documentación con SISA, KEA y MAUI

IF 1 4区 管理学 Q3 INFORMATION SCIENCE & LIBRARY SCIENCE
Isidoro Gil-Leiva, Pedro Díaz Ortuño, Renato Fernandes Corrêa
{"title":"Indización automática de artículos científicos sobre Biblioteconomía y Documentación con SISA, KEA y MAUI","authors":"Isidoro Gil-Leiva, Pedro Díaz Ortuño, Renato Fernandes Corrêa","doi":"10.3989/redc.2022.4.1917","DOIUrl":null,"url":null,"abstract":"Este artículo evalúa los sistemas de indización automática SISA (Automatic Indexing System), KEA (Keyphrase Extraction Algorithm) y MAUI (Multi-Purpose Automatic Topic Indexing) para averiguar cómo funcionan en relación con la indización realzada por especialistas. El algoritmo de SISA se basa en reglas sobre la posición de los términos en los diferentes componentes estructurales del documento, mientras que los algoritmos de KEA y MAUI se basan en el aprendizaje automático y las frecuencia estadística de los términos. Para la evaluación se utilizó una colección documental de 230 artículos científicos de la Revista Española de Documentación Científica, publicada por el Consejo Superior de Investigaciones Científicas (CSIC), de los cuales 30 se utilizaron para tareas formativas y no formaban parte del conjunto de pruebas de evaluación. Los artículos fueron escritos en español e indizados por indizadores humanos utilizando un vocabulario controlado en la base de datos InDICES, también perteneciente al CSIC. La indización humana de estos documentos constituye la referencia contra la cual se evalúa el resultado de los sistemas de indización automáticos, comparando conjuntos de términos usando métricas de evaluación de precisión, recuperación, medida F y consistencia. Los resultados muestran que el sistema SISA funciona mejor, seguido de KEA y MAUI.","PeriodicalId":45937,"journal":{"name":"Revista Espanola De Documentacion Cientifica","volume":"1 1","pages":""},"PeriodicalIF":1.0000,"publicationDate":"2022-10-18","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"1","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Revista Espanola De Documentacion Cientifica","FirstCategoryId":"91","ListUrlMain":"https://doi.org/10.3989/redc.2022.4.1917","RegionNum":4,"RegionCategory":"管理学","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q3","JCRName":"INFORMATION SCIENCE & LIBRARY SCIENCE","Score":null,"Total":0}
引用次数: 1

Abstract

Este artículo evalúa los sistemas de indización automática SISA (Automatic Indexing System), KEA (Keyphrase Extraction Algorithm) y MAUI (Multi-Purpose Automatic Topic Indexing) para averiguar cómo funcionan en relación con la indización realzada por especialistas. El algoritmo de SISA se basa en reglas sobre la posición de los términos en los diferentes componentes estructurales del documento, mientras que los algoritmos de KEA y MAUI se basan en el aprendizaje automático y las frecuencia estadística de los términos. Para la evaluación se utilizó una colección documental de 230 artículos científicos de la Revista Española de Documentación Científica, publicada por el Consejo Superior de Investigaciones Científicas (CSIC), de los cuales 30 se utilizaron para tareas formativas y no formaban parte del conjunto de pruebas de evaluación. Los artículos fueron escritos en español e indizados por indizadores humanos utilizando un vocabulario controlado en la base de datos InDICES, también perteneciente al CSIC. La indización humana de estos documentos constituye la referencia contra la cual se evalúa el resultado de los sistemas de indización automáticos, comparando conjuntos de términos usando métricas de evaluación de precisión, recuperación, medida F y consistencia. Los resultados muestran que el sistema SISA funciona mejor, seguido de KEA y MAUI.
使用SISA、KEA和MAUI自动索引图书馆科学文章和文献
本文对自动索引系统SISA(自动索引系统)、KEA(关键句提取算法)和MAUI(多用途自动主题索引)进行了评估,以了解它们与专家增强索引的关系。SISA算法基于术语在文档不同结构组件中的位置规则,而KEA和MAUI算法基于机器学习和术语的统计频率。为了进行评估,我们使用了由西班牙科学研究高级理事会(CSIC)出版的《Revista espanola de documentacion cientifica》的230篇科学文章的文献集,其中30篇用于培训任务,而不是评估测试集的一部分。这些文章是用西班牙语写的,并由人类索引器使用索引数据库中的受控词汇进行索引,索引数据库也属于CSIC。这些文档的人工索引构成了自动索引系统结果评估的基准,使用精度、检索、F度量和一致性评估指标比较术语集。结果表明,SISA系统效果最好,其次是KEA和MAUI。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
Revista Espanola De Documentacion Cientifica
Revista Espanola De Documentacion Cientifica INFORMATION SCIENCE & LIBRARY SCIENCE-
CiteScore
2.20
自引率
8.30%
发文量
34
审稿时长
48 weeks
期刊介绍: Revista española de Documentación Científica (REDC) is a journal edited by the Instituto de Estudios Documentales sobre Ciencia y Tecnología (IEDCYT, formerly CINDOC) belonging to the Consejo Superior de Investigaciones Científicas (CSIC). It is published quarterly since 1977. The main objective of this journal is to contribute to the dissemination of knowledge amongst researchers in the field of Library and Information Science and those involved in the use of scientific, technical and strategic information for science policy and decision making. REDC includes research papers dealing with experimental and theoretical topics. The articles published in REDC include titles, abstracts and key-words in English in order to facilitate its international visibility.
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信