Isidoro Gil-Leiva, Pedro Díaz Ortuño, Renato Fernandes Corrêa
{"title":"Indización automática de artículos científicos sobre Biblioteconomía y Documentación con SISA, KEA y MAUI","authors":"Isidoro Gil-Leiva, Pedro Díaz Ortuño, Renato Fernandes Corrêa","doi":"10.3989/redc.2022.4.1917","DOIUrl":null,"url":null,"abstract":"Este artículo evalúa los sistemas de indización automática SISA (Automatic Indexing System), KEA (Keyphrase Extraction Algorithm) y MAUI (Multi-Purpose Automatic Topic Indexing) para averiguar cómo funcionan en relación con la indización realzada por especialistas. El algoritmo de SISA se basa en reglas sobre la posición de los términos en los diferentes componentes estructurales del documento, mientras que los algoritmos de KEA y MAUI se basan en el aprendizaje automático y las frecuencia estadística de los términos. Para la evaluación se utilizó una colección documental de 230 artículos científicos de la Revista Española de Documentación Científica, publicada por el Consejo Superior de Investigaciones Científicas (CSIC), de los cuales 30 se utilizaron para tareas formativas y no formaban parte del conjunto de pruebas de evaluación. Los artículos fueron escritos en español e indizados por indizadores humanos utilizando un vocabulario controlado en la base de datos InDICES, también perteneciente al CSIC. La indización humana de estos documentos constituye la referencia contra la cual se evalúa el resultado de los sistemas de indización automáticos, comparando conjuntos de términos usando métricas de evaluación de precisión, recuperación, medida F y consistencia. Los resultados muestran que el sistema SISA funciona mejor, seguido de KEA y MAUI.","PeriodicalId":45937,"journal":{"name":"Revista Espanola De Documentacion Cientifica","volume":"1 1","pages":""},"PeriodicalIF":1.0000,"publicationDate":"2022-10-18","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"1","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Revista Espanola De Documentacion Cientifica","FirstCategoryId":"91","ListUrlMain":"https://doi.org/10.3989/redc.2022.4.1917","RegionNum":4,"RegionCategory":"管理学","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q3","JCRName":"INFORMATION SCIENCE & LIBRARY SCIENCE","Score":null,"Total":0}
引用次数: 1
Abstract
Este artículo evalúa los sistemas de indización automática SISA (Automatic Indexing System), KEA (Keyphrase Extraction Algorithm) y MAUI (Multi-Purpose Automatic Topic Indexing) para averiguar cómo funcionan en relación con la indización realzada por especialistas. El algoritmo de SISA se basa en reglas sobre la posición de los términos en los diferentes componentes estructurales del documento, mientras que los algoritmos de KEA y MAUI se basan en el aprendizaje automático y las frecuencia estadística de los términos. Para la evaluación se utilizó una colección documental de 230 artículos científicos de la Revista Española de Documentación Científica, publicada por el Consejo Superior de Investigaciones Científicas (CSIC), de los cuales 30 se utilizaron para tareas formativas y no formaban parte del conjunto de pruebas de evaluación. Los artículos fueron escritos en español e indizados por indizadores humanos utilizando un vocabulario controlado en la base de datos InDICES, también perteneciente al CSIC. La indización humana de estos documentos constituye la referencia contra la cual se evalúa el resultado de los sistemas de indización automáticos, comparando conjuntos de términos usando métricas de evaluación de precisión, recuperación, medida F y consistencia. Los resultados muestran que el sistema SISA funciona mejor, seguido de KEA y MAUI.
本文对自动索引系统SISA(自动索引系统)、KEA(关键句提取算法)和MAUI(多用途自动主题索引)进行了评估,以了解它们与专家增强索引的关系。SISA算法基于术语在文档不同结构组件中的位置规则,而KEA和MAUI算法基于机器学习和术语的统计频率。为了进行评估,我们使用了由西班牙科学研究高级理事会(CSIC)出版的《Revista espanola de documentacion cientifica》的230篇科学文章的文献集,其中30篇用于培训任务,而不是评估测试集的一部分。这些文章是用西班牙语写的,并由人类索引器使用索引数据库中的受控词汇进行索引,索引数据库也属于CSIC。这些文档的人工索引构成了自动索引系统结果评估的基准,使用精度、检索、F度量和一致性评估指标比较术语集。结果表明,SISA系统效果最好,其次是KEA和MAUI。
期刊介绍:
Revista española de Documentación Científica (REDC) is a journal edited by the Instituto de Estudios Documentales sobre Ciencia y Tecnología (IEDCYT, formerly CINDOC) belonging to the Consejo Superior de Investigaciones Científicas (CSIC). It is published quarterly since 1977. The main objective of this journal is to contribute to the dissemination of knowledge amongst researchers in the field of Library and Information Science and those involved in the use of scientific, technical and strategic information for science policy and decision making. REDC includes research papers dealing with experimental and theoretical topics. The articles published in REDC include titles, abstracts and key-words in English in order to facilitate its international visibility.