Классификация научных текстов на основе компрессии аннотаций публикаций

И.В. Селиванова, I. Selivanova, Денис Викторович Косяков, Denis Kosyakov, Андрей Евгеньевич Гуськов, A. Guskov
{"title":"Классификация научных текстов на основе компрессии аннотаций публикаций","authors":"И.В. Селиванова, I. Selivanova, Денис Викторович Косяков, Denis Kosyakov, Андрей Евгеньевич Гуськов, A. Guskov","doi":"10.36535/0548-0027-2019-12-4","DOIUrl":null,"url":null,"abstract":"Исследуется возможность установления смысловой близости научных текстов методом их автоматической классификации, основанным на сжатии аннотаций. Идея метода состоит в том, что алгоритмы компрессии типа PPM (prediction by partial matching) сжимают терминологически близкие тексты существенно лучше, чем далекие. Если для каждой классифицируемой тематики будет сформировано ядро публикаций (аналог обучающей выборки), то наилучшая доля сжатия будет указывать на принадлежность классифицируемого текста к соответствующей тематике. Было определено 30 тематических категорий, каждой из них в базе данных Scopus получены аннотации около 500 публикаций, из которых разными способами выбирались 100 аннотаций для ядра и 20 аннотаций для тестирования. Установлено, что построение ядра на основе высокоцитируемых публикаций выявляет до 12% ошибок против 32% при случайной выборке. На качество классификации влияет и изначальное количество категорий: чем меньше категорий участвует в классификации и чем больше терминологические различия между ними, тем выше её качество.","PeriodicalId":24076,"journal":{"name":"Научно-техническая информация. Серия 2: Информационные процессы и системы","volume":null,"pages":null},"PeriodicalIF":0.0000,"publicationDate":"2019-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"1","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Научно-техническая информация. Серия 2: Информационные процессы и системы","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.36535/0548-0027-2019-12-4","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 1

Abstract

Исследуется возможность установления смысловой близости научных текстов методом их автоматической классификации, основанным на сжатии аннотаций. Идея метода состоит в том, что алгоритмы компрессии типа PPM (prediction by partial matching) сжимают терминологически близкие тексты существенно лучше, чем далекие. Если для каждой классифицируемой тематики будет сформировано ядро публикаций (аналог обучающей выборки), то наилучшая доля сжатия будет указывать на принадлежность классифицируемого текста к соответствующей тематике. Было определено 30 тематических категорий, каждой из них в базе данных Scopus получены аннотации около 500 публикаций, из которых разными способами выбирались 100 аннотаций для ядра и 20 аннотаций для тестирования. Установлено, что построение ядра на основе высокоцитируемых публикаций выявляет до 12% ошибок против 32% при случайной выборке. На качество классификации влияет и изначальное количество категорий: чем меньше категорий участвует в классификации и чем больше терминологические различия между ними, тем выше её качество.
研究可以通过自动分类科学文献来确定科学文献的相关性,基于注释的压缩。该方法的理念是,PPM压缩算法(部分竞赛的前缀)比遥远的文本压缩得更好。如果每个专题的出版物(类似教学样本)核心都被编入,那么最好的压缩量将表明分类文本属于相关专题。已经确定了30个专题类别,每个专题数据库中大约有500篇论文被注释,其中100篇被选为核心注释,20篇被测试注释。据了解,基于高引用出版物的构建将显示出12%的错误,而随机抽样时为32%。分类的质量也受到最初数量的影响:分类涉及的类别越少,分类之间的术语差异越大,分类的质量就越高。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信