Классификация научных текстов на основе компрессии аннотаций публикаций

Научно-техническая информация. Серия 2: Информационные процессы и системы Pub Date : 2019-01-01 DOI:10.36535/0548-0027-2019-12-4

И.В. Селиванова, I. Selivanova, Денис Викторович Косяков, Denis Kosyakov, Андрей Евгеньевич Гуськов, A. Guskov

{"title":"Классификация научных текстов на основе компрессии аннотаций публикаций","authors":"И.В. Селиванова, I. Selivanova, Денис Викторович Косяков, Denis Kosyakov, Андрей Евгеньевич Гуськов, A. Guskov","doi":"10.36535/0548-0027-2019-12-4","DOIUrl":null,"url":null,"abstract":"Исследуется возможность установления смысловой близости научных текстов методом их автоматической классификации, основанным на сжатии аннотаций. Идея метода состоит в том, что алгоритмы компрессии типа PPM (prediction by partial matching) сжимают терминологически близкие тексты существенно лучше, чем далекие. Если для каждой классифицируемой тематики будет сформировано ядро публикаций (аналог обучающей выборки), то наилучшая доля сжатия будет указывать на принадлежность классифицируемого текста к соответствующей тематике. Было определено 30 тематических категорий, каждой из них в базе данных Scopus получены аннотации около 500 публикаций, из которых разными способами выбирались 100 аннотаций для ядра и 20 аннотаций для тестирования. Установлено, что построение ядра на основе высокоцитируемых публикаций выявляет до 12% ошибок против 32% при случайной выборке. На качество классификации влияет и изначальное количество категорий: чем меньше категорий участвует в классификации и чем больше терминологические различия между ними, тем выше её качество.","PeriodicalId":24076,"journal":{"name":"Научно-техническая информация. Серия 2: Информационные процессы и системы","volume":"6 1","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2019-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"1","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Научно-техническая информация. Серия 2: Информационные процессы и системы","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.36535/0548-0027-2019-12-4","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}

引用次数: 1

Abstract

Исследуется возможность установления смысловой близости научных текстов методом их автоматической классификации, основанным на сжатии аннотаций. Идея метода состоит в том, что алгоритмы компрессии типа PPM (prediction by partial matching) сжимают терминологически близкие тексты существенно лучше, чем далекие. Если для каждой классифицируемой тематики будет сформировано ядро публикаций (аналог обучающей выборки), то наилучшая доля сжатия будет указывать на принадлежность классифицируемого текста к соответствующей тематике. Было определено 30 тематических категорий, каждой из них в базе данных Scopus получены аннотации около 500 публикаций, из которых разными способами выбирались 100 аннотаций для ядра и 20 аннотаций для тестирования. Установлено, что построение ядра на основе высокоцитируемых публикаций выявляет до 12% ошибок против 32% при случайной выборке. На качество классификации влияет и изначальное количество категорий: чем меньше категорий участвует в классификации и чем больше терминологические различия между ними, тем выше её качество.

查看原文本刊更多论文

研究可以通过自动分类科学文献来确定科学文献的相关性，基于注释的压缩。该方法的理念是，PPM压缩算法(部分竞赛的前缀)比遥远的文本压缩得更好。如果每个专题的出版物(类似教学样本)核心都被编入，那么最好的压缩量将表明分类文本属于相关专题。已经确定了30个专题类别，每个专题数据库中大约有500篇论文被注释，其中100篇被选为核心注释，20篇被测试注释。据了解，基于高引用出版物的构建将显示出12%的错误，而随机抽样时为32%。分类的质量也受到最初数量的影响:分类涉及的类别越少，分类之间的术语差异越大，分类的质量就越高。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文求助全文

来源期刊

Научно-техническая информация. Серия 2: Информационные процессы и системы

自引率

0.00%

发文量