{"title":"Проблемы и методы автоматической классификации текстовых документов","authors":"В. А. Яцко, V. Yatsko","doi":"10.36535/0548-0027-2021-11-4","DOIUrl":null,"url":null,"abstract":"Представлен обзор основных проблем и методов автоматической классификации текстов. Рассматриваются такие темы, как: выбор исходного лингвистического материала; нейтрализация разницы в размерах текстов; применение дистантного и словарного подходов к классификации; уменьшение размерности текстов; создание словарей; адекватное взвешивание терминов; обучение и функционирование программы-классификатора. В доступной форме описываются процедуры выравнивания текстов по нижнему пределу и логарифмического выравнивания, алгоритмы вычисления косинусной меры близости, Z-коэффициента. Показаны особенности применения теоремы Байеса с целью частеречной классификации и фильтрации спама.","PeriodicalId":24076,"journal":{"name":"Научно-техническая информация. Серия 2: Информационные процессы и системы","volume":null,"pages":null},"PeriodicalIF":0.0000,"publicationDate":"2021-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Научно-техническая информация. Серия 2: Информационные процессы и системы","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.36535/0548-0027-2021-11-4","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
Abstract
Представлен обзор основных проблем и методов автоматической классификации текстов. Рассматриваются такие темы, как: выбор исходного лингвистического материала; нейтрализация разницы в размерах текстов; применение дистантного и словарного подходов к классификации; уменьшение размерности текстов; создание словарей; адекватное взвешивание терминов; обучение и функционирование программы-классификатора. В доступной форме описываются процедуры выравнивания текстов по нижнему пределу и логарифмического выравнивания, алгоритмы вычисления косинусной меры близости, Z-коэффициента. Показаны особенности применения теоремы Байеса с целью частеречной классификации и фильтрации спама.