{"title":"电报通道的数字表示","authors":"S. Shapovalova, A. Sofiienko","doi":"10.26906/sunz.2024.1.158","DOIUrl":null,"url":null,"abstract":"Предметом дослідження цієї статті є цифрові представлення текстових інформаційних ресурсів на прикладі Telegram-каналів. Мета роботи – визначити оптимальний для подальшої тематичної класифікації метод формування цифрових представлень Telegram-каналів. У статті вирішуються наступні завдання: означення підходів до формування вхідного вектору; визначення етапів обробки текстових даних для цифрового представлення Telegramканалу; створення датасету цифрових представлення Telegram-каналів; розмітка датасету для розв’язання задачі класифікації; визначення гіперпараметрів оптимальних моделей класифікації. Отримано такі результати: створений датасет цифрових представлень Telegram-каналів, сформованих на основі мережі SBERT, за трьома підходами: агрегація векторів публікацій, конкатенація ключових слів за методом TF-IDF та поєднання перших двох підходів; визначено, що підхід конкатенації ключових слів за методом TF-IDF та поєднання перших двох підходів до формування цифрових представлень Telegram-каналів на основі текстових публікацій є найбільш ефективним для подальшої класифікації за тематикою; визначено оптимальні за точністю гіперпараметри моделей тематичної класифікації: Logistic Regressio та нейромережі глибокого навчання. Перспективним напрямком подальших досліджень є оцінювання застосування запропонованих цифрових представлень до задач кластеризації та пошуку.","PeriodicalId":509548,"journal":{"name":"Системи управління, навігації та зв’язку. Збірник наукових праць","volume":"50 9","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2024-02-09","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"ЦИФРОВІ ПРЕДСТАВЛЕННЯ TELEGRAM-КАНАЛІВ\",\"authors\":\"S. Shapovalova, A. Sofiienko\",\"doi\":\"10.26906/sunz.2024.1.158\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Предметом дослідження цієї статті є цифрові представлення текстових інформаційних ресурсів на прикладі Telegram-каналів. Мета роботи – визначити оптимальний для подальшої тематичної класифікації метод формування цифрових представлень Telegram-каналів. У статті вирішуються наступні завдання: означення підходів до формування вхідного вектору; визначення етапів обробки текстових даних для цифрового представлення Telegramканалу; створення датасету цифрових представлення Telegram-каналів; розмітка датасету для розв’язання задачі класифікації; визначення гіперпараметрів оптимальних моделей класифікації. Отримано такі результати: створений датасет цифрових представлень Telegram-каналів, сформованих на основі мережі SBERT, за трьома підходами: агрегація векторів публікацій, конкатенація ключових слів за методом TF-IDF та поєднання перших двох підходів; визначено, що підхід конкатенації ключових слів за методом TF-IDF та поєднання перших двох підходів до формування цифрових представлень Telegram-каналів на основі текстових публікацій є найбільш ефективним для подальшої класифікації за тематикою; визначено оптимальні за точністю гіперпараметри моделей тематичної класифікації: Logistic Regressio та нейромережі глибокого навчання. Перспективним напрямком подальших досліджень є оцінювання застосування запропонованих цифрових представлень до задач кластеризації та пошуку.\",\"PeriodicalId\":509548,\"journal\":{\"name\":\"Системи управління, навігації та зв’язку. Збірник наукових праць\",\"volume\":\"50 9\",\"pages\":\"\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2024-02-09\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Системи управління, навігації та зв’язку. Збірник наукових праць\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.26906/sunz.2024.1.158\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Системи управління, навігації та зв’язку. Збірник наукових праць","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.26906/sunz.2024.1.158","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
Предметом дослідження цієї статті є цифрові представлення текстових інформаційних ресурсів на прикладі Telegram-каналів. Мета роботи – визначити оптимальний для подальшої тематичної класифікації метод формування цифрових представлень Telegram-каналів. У статті вирішуються наступні завдання: означення підходів до формування вхідного вектору; визначення етапів обробки текстових даних для цифрового представлення Telegramканалу; створення датасету цифрових представлення Telegram-каналів; розмітка датасету для розв’язання задачі класифікації; визначення гіперпараметрів оптимальних моделей класифікації. Отримано такі результати: створений датасет цифрових представлень Telegram-каналів, сформованих на основі мережі SBERT, за трьома підходами: агрегація векторів публікацій, конкатенація ключових слів за методом TF-IDF та поєднання перших двох підходів; визначено, що підхід конкатенації ключових слів за методом TF-IDF та поєднання перших двох підходів до формування цифрових представлень Telegram-каналів на основі текстових публікацій є найбільш ефективним для подальшої класифікації за тематикою; визначено оптимальні за точністю гіперпараметри моделей тематичної класифікації: Logistic Regressio та нейромережі глибокого навчання. Перспективним напрямком подальших досліджень є оцінювання застосування запропонованих цифрових представлень до задач кластеризації та пошуку.