{"title":"SCIENTIFIC TEXTS CLASSIFICATION BY COMPRESSING ABSTRACTS ON THE EXAMPLE OF PUBLICATIONS INDEXED IN SCOPUS BIBLIOGRAPHIC DATABASE","authors":"Ирина Владимировна Селиванова","doi":"10.25743/ict.2019.93.10.027","DOIUrl":null,"url":null,"abstract":"В работе исследуется возможность применения метода автоматической классификации научных текстов на основе сжатия данных, успешно применявшегося к полным текстам научных статей к классификации текстов на основе аннотаций. Для классификации были использованы библиографические описания публикаций из базы данных Scopus. Сравнение результатов проводилось с использованием тематических рубрик Scopus. Выявлено, что построение обучающей выборки на основе высокоцитируемых публикаций улучшает качество классификации.\n The paper investigates the applicability of the method of automatic classification of scientific texts based on data compression, successfully applied to the full texts of scientific articles to classify texts based on annotations. For classification, bibliographic descriptions of publications from the Scopus database were used. A comparison of the results was carried out using subject areas from Scopus. It was revealed that the construction of a training set based on highly cited publications improves the quality of classification.","PeriodicalId":438052,"journal":{"name":"XVII Российская конференция “Распределенные информационно-вычислительные ресурсы: Цифровые двойники и большие данные”","volume":"66 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2019-12-25","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"XVII Российская конференция “Распределенные информационно-вычислительные ресурсы: Цифровые двойники и большие данные”","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.25743/ict.2019.93.10.027","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
Abstract
В работе исследуется возможность применения метода автоматической классификации научных текстов на основе сжатия данных, успешно применявшегося к полным текстам научных статей к классификации текстов на основе аннотаций. Для классификации были использованы библиографические описания публикаций из базы данных Scopus. Сравнение результатов проводилось с использованием тематических рубрик Scopus. Выявлено, что построение обучающей выборки на основе высокоцитируемых публикаций улучшает качество классификации.
The paper investigates the applicability of the method of automatic classification of scientific texts based on data compression, successfully applied to the full texts of scientific articles to classify texts based on annotations. For classification, bibliographic descriptions of publications from the Scopus database were used. A comparison of the results was carried out using subject areas from Scopus. It was revealed that the construction of a training set based on highly cited publications improves the quality of classification.