{"title":"应用汇编机器学习方法检测虚假文本","authors":"Л. М. Олещенко, О. Г. Мельничук","doi":"10.35546/kntu2078-4481.2024.1.36","DOIUrl":null,"url":null,"abstract":"У статті представлено ансамблеві методи машинного навчання для підвищення точності виявлення неправдивого тексту та оцінено різні класифікатори з використанням окремих наборів даних. Для дослідження обрано наївний байєсівський класифікатор, пасивно-агресивний класифікатор, метод Support Vector Machine (SVM), логістичну регресію, метод k-найближчих сусідів та класифікатори випадкового лісу. Також протестовано ансамблі, що складаються з комбінацій обраних класифікаторів. Результати дослідження представляють результати класифікації, демонструючи ефективність використання асамблевих методів. Для дослідження використовувалися технології програмування Python (sklearn, pandas, numpy), процесор AMD Ryzen 5 4500U 6 ядер та 16 гігабайт оперативної пам’яті. Дослідження підкреслює важливість використання асамблевих методів для виявлення неправдивих текстів новин. Для TF-IDF – векторизації класифікатор SVM виділяється найвищою середньою точністю 95,74%. Згідно проведених досліджень, SVM досягає найвищої частки правильних прогнозів порівняно з іншими класифікаторами під час навчання на даних, перетворених TF-IDF. При використанні векторизації хешування класифікатор SVM зберігає свою високу продуктивність, досягнувши найвищої середньої точності 97,26%. Ансамблевий метод Voting Ensemble 3 (Ens3 – SVM + PA + LR) досягає середньої точності 96,93%. Основна ідея запропонованого методу полягає в аналізі тексту новин без сторонньої інформації (дати публікації, назви сайтів та додаткових медіа). Текст новин аналізується окремо за трьома показниками: правдивість тексту, сатира чи мова ворожнечі. Для навчання моделей за обраними метриками використано набори даних сервісу Kaggle, а для тестування в «реальних умовах» – довільно вибрані тексти новин і коментарів. Структурою наборів даних є текст та двійкова мітка в іншому стовпці, що відповідає заданому критерію. Набір досліджуваних даних містить 6335 рядків текстів новин і міток «true» або «false». Набір даних сатири – це комбінація двох окремих наборів даних, одного з новинної служби BBC, а іншого – з Onion.","PeriodicalId":518826,"journal":{"name":"Вісник Херсонського національного технічного університету","volume":null,"pages":null},"PeriodicalIF":0.0000,"publicationDate":"2024-05-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"ЗАСТОСУВАННЯ АСАМБЛЕВИХ МЕТОДІВ МАШИННОГО НАВЧАННЯ ДЛЯ ВИЯВЛЕННЯ НЕПРАВДИВОГО ТЕКСТУ\",\"authors\":\"Л. М. Олещенко, О. Г. Мельничук\",\"doi\":\"10.35546/kntu2078-4481.2024.1.36\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"У статті представлено ансамблеві методи машинного навчання для підвищення точності виявлення неправдивого тексту та оцінено різні класифікатори з використанням окремих наборів даних. Для дослідження обрано наївний байєсівський класифікатор, пасивно-агресивний класифікатор, метод Support Vector Machine (SVM), логістичну регресію, метод k-найближчих сусідів та класифікатори випадкового лісу. Також протестовано ансамблі, що складаються з комбінацій обраних класифікаторів. Результати дослідження представляють результати класифікації, демонструючи ефективність використання асамблевих методів. Для дослідження використовувалися технології програмування Python (sklearn, pandas, numpy), процесор AMD Ryzen 5 4500U 6 ядер та 16 гігабайт оперативної пам’яті. Дослідження підкреслює важливість використання асамблевих методів для виявлення неправдивих текстів новин. Для TF-IDF – векторизації класифікатор SVM виділяється найвищою середньою точністю 95,74%. Згідно проведених досліджень, SVM досягає найвищої частки правильних прогнозів порівняно з іншими класифікаторами під час навчання на даних, перетворених TF-IDF. При використанні векторизації хешування класифікатор SVM зберігає свою високу продуктивність, досягнувши найвищої середньої точності 97,26%. Ансамблевий метод Voting Ensemble 3 (Ens3 – SVM + PA + LR) досягає середньої точності 96,93%. Основна ідея запропонованого методу полягає в аналізі тексту новин без сторонньої інформації (дати публікації, назви сайтів та додаткових медіа). Текст новин аналізується окремо за трьома показниками: правдивість тексту, сатира чи мова ворожнечі. Для навчання моделей за обраними метриками використано набори даних сервісу Kaggle, а для тестування в «реальних умовах» – довільно вибрані тексти новин і коментарів. Структурою наборів даних є текст та двійкова мітка в іншому стовпці, що відповідає заданому критерію. Набір досліджуваних даних містить 6335 рядків текстів новин і міток «true» або «false». Набір даних сатири – це комбінація двох окремих наборів даних, одного з новинної служби BBC, а іншого – з Onion.\",\"PeriodicalId\":518826,\"journal\":{\"name\":\"Вісник Херсонського національного технічного університету\",\"volume\":null,\"pages\":null},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2024-05-01\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Вісник Херсонського національного технічного університету\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.35546/kntu2078-4481.2024.1.36\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Вісник Херсонського національного технічного університету","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.35546/kntu2078-4481.2024.1.36","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
ЗАСТОСУВАННЯ АСАМБЛЕВИХ МЕТОДІВ МАШИННОГО НАВЧАННЯ ДЛЯ ВИЯВЛЕННЯ НЕПРАВДИВОГО ТЕКСТУ
У статті представлено ансамблеві методи машинного навчання для підвищення точності виявлення неправдивого тексту та оцінено різні класифікатори з використанням окремих наборів даних. Для дослідження обрано наївний байєсівський класифікатор, пасивно-агресивний класифікатор, метод Support Vector Machine (SVM), логістичну регресію, метод k-найближчих сусідів та класифікатори випадкового лісу. Також протестовано ансамблі, що складаються з комбінацій обраних класифікаторів. Результати дослідження представляють результати класифікації, демонструючи ефективність використання асамблевих методів. Для дослідження використовувалися технології програмування Python (sklearn, pandas, numpy), процесор AMD Ryzen 5 4500U 6 ядер та 16 гігабайт оперативної пам’яті. Дослідження підкреслює важливість використання асамблевих методів для виявлення неправдивих текстів новин. Для TF-IDF – векторизації класифікатор SVM виділяється найвищою середньою точністю 95,74%. Згідно проведених досліджень, SVM досягає найвищої частки правильних прогнозів порівняно з іншими класифікаторами під час навчання на даних, перетворених TF-IDF. При використанні векторизації хешування класифікатор SVM зберігає свою високу продуктивність, досягнувши найвищої середньої точності 97,26%. Ансамблевий метод Voting Ensemble 3 (Ens3 – SVM + PA + LR) досягає середньої точності 96,93%. Основна ідея запропонованого методу полягає в аналізі тексту новин без сторонньої інформації (дати публікації, назви сайтів та додаткових медіа). Текст новин аналізується окремо за трьома показниками: правдивість тексту, сатира чи мова ворожнечі. Для навчання моделей за обраними метриками використано набори даних сервісу Kaggle, а для тестування в «реальних умовах» – довільно вибрані тексти новин і коментарів. Структурою наборів даних є текст та двійкова мітка в іншому стовпці, що відповідає заданому критерію. Набір досліджуваних даних містить 6335 рядків текстів новин і міток «true» або «false». Набір даних сатири – це комбінація двох окремих наборів даних, одного з новинної служби BBC, а іншого – з Onion.