应用汇编机器学习方法检测虚假文本

Вісник Херсонського національного технічного університету Pub Date : 2024-05-01 DOI:10.35546/kntu2078-4481.2024.1.36

Л. М. Олещенко, О. Г. Мельничук

{"title":"应用汇编机器学习方法检测虚假文本","authors":"Л. М. Олещенко, О. Г. Мельничук","doi":"10.35546/kntu2078-4481.2024.1.36","DOIUrl":null,"url":null,"abstract":"У статті представлено ансамблеві методи машинного навчання для підвищення точності виявлення неправдивого тексту та оцінено різні класифікатори з використанням окремих наборів даних. Для дослідження обрано наївний байєсівський класифікатор, пасивно-агресивний класифікатор, метод Support Vector Machine (SVM), логістичну регресію, метод k-найближчих сусідів та класифікатори випадкового лісу. Також протестовано ансамблі, що складаються з комбінацій обраних класифікаторів. Результати дослідження представляють результати класифікації, демонструючи ефективність використання асамблевих методів. Для дослідження використовувалися технології програмування Python (sklearn, pandas, numpy), процесор AMD Ryzen 5 4500U 6 ядер та 16 гігабайт оперативної пам’яті. Дослідження підкреслює важливість використання асамблевих методів для виявлення неправдивих текстів новин. Для TF-IDF – векторизації класифікатор SVM виділяється найвищою середньою точністю 95,74%. Згідно проведених досліджень, SVM досягає найвищої частки правильних прогнозів порівняно з іншими класифікаторами під час навчання на даних, перетворених TF-IDF. При використанні векторизації хешування класифікатор SVM зберігає свою високу продуктивність, досягнувши найвищої середньої точності 97,26%. Ансамблевий метод Voting Ensemble 3 (Ens3 – SVM + PA + LR) досягає середньої точності 96,93%. Основна ідея запропонованого методу полягає в аналізі тексту новин без сторонньої інформації (дати публікації, назви сайтів та додаткових медіа). Текст новин аналізується окремо за трьома показниками: правдивість тексту, сатира чи мова ворожнечі. Для навчання моделей за обраними метриками використано набори даних сервісу Kaggle, а для тестування в «реальних умовах» – довільно вибрані тексти новин і коментарів. Структурою наборів даних є текст та двійкова мітка в іншому стовпці, що відповідає заданому критерію. Набір досліджуваних даних містить 6335 рядків текстів новин і міток «true» або «false». Набір даних сатири – це комбінація двох окремих наборів даних, одного з новинної служби BBC, а іншого – з Onion.","PeriodicalId":518826,"journal":{"name":"Вісник Херсонського національного технічного університету","volume":"6 5","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2024-05-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"ЗАСТОСУВАННЯ АСАМБЛЕВИХ МЕТОДІВ МАШИННОГО НАВЧАННЯ ДЛЯ ВИЯВЛЕННЯ НЕПРАВДИВОГО ТЕКСТУ\",\"authors\":\"Л. М. Олещенко, О. Г. Мельничук\",\"doi\":\"10.35546/kntu2078-4481.2024.1.36\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"У статті представлено ансамблеві методи машинного навчання для підвищення точності виявлення неправдивого тексту та оцінено різні класифікатори з використанням окремих наборів даних. Для дослідження обрано наївний байєсівський класифікатор, пасивно-агресивний класифікатор, метод Support Vector Machine (SVM), логістичну регресію, метод k-найближчих сусідів та класифікатори випадкового лісу. Також протестовано ансамблі, що складаються з комбінацій обраних класифікаторів. Результати дослідження представляють результати класифікації, демонструючи ефективність використання асамблевих методів. Для дослідження використовувалися технології програмування Python (sklearn, pandas, numpy), процесор AMD Ryzen 5 4500U 6 ядер та 16 гігабайт оперативної пам’яті. Дослідження підкреслює важливість використання асамблевих методів для виявлення неправдивих текстів новин. Для TF-IDF – векторизації класифікатор SVM виділяється найвищою середньою точністю 95,74%. Згідно проведених досліджень, SVM досягає найвищої частки правильних прогнозів порівняно з іншими класифікаторами під час навчання на даних, перетворених TF-IDF. При використанні векторизації хешування класифікатор SVM зберігає свою високу продуктивність, досягнувши найвищої середньої точності 97,26%. Ансамблевий метод Voting Ensemble 3 (Ens3 – SVM + PA + LR) досягає середньої точності 96,93%. Основна ідея запропонованого методу полягає в аналізі тексту новин без сторонньої інформації (дати публікації, назви сайтів та додаткових медіа). Текст новин аналізується окремо за трьома показниками: правдивість тексту, сатира чи мова ворожнечі. Для навчання моделей за обраними метриками використано набори даних сервісу Kaggle, а для тестування в «реальних умовах» – довільно вибрані тексти новин і коментарів. Структурою наборів даних є текст та двійкова мітка в іншому стовпці, що відповідає заданому критерію. Набір досліджуваних даних містить 6335 рядків текстів новин і міток «true» або «false». Набір даних сатири – це комбінація двох окремих наборів даних, одного з новинної служби BBC, а іншого – з Onion.\",\"PeriodicalId\":518826,\"journal\":{\"name\":\"Вісник Херсонського національного технічного університету\",\"volume\":\"6 5\",\"pages\":\"\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2024-05-01\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Вісник Херсонського національного технічного університету\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.35546/kntu2078-4481.2024.1.36\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Вісник Херсонського національного технічного університету","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.35546/kntu2078-4481.2024.1.36","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}

引用次数: 0

摘要

文章介绍了提高虚假文本检测准确性的集合机器学习方法，并使用不同的数据集对不同的分类器进行了评估。研究包括天真贝叶斯分类器、被动攻击分类器、支持向量机（SVM）、逻辑回归、k-近邻和随机森林分类器。此外，还测试了由所选分类器组合而成的集合。研究结果展示了分类结果，证明了使用集合方法的有效性。研究使用了 Python 编程技术（sklearn、pandas、numpy）、6 核 AMD Ryzen 5 4500U 处理器和 16GB 内存。该研究强调了使用组装方法检测虚假新闻报道的重要性。在 TF-IDF 矢量化方面，SVM 分类器以 95.74% 的最高平均准确率脱颖而出。研究表明，与其他分类器相比，SVM 在 TF-IDF 转换数据上训练时，预测正确率最高。在使用哈希向量化时，SVM 分类器保持了较高的性能，达到了最高的平均准确率 97.26%。组合方法 Voting Ensemble 3（Ens3 - SVM + PA + LR）的平均准确率达到 96.93%。所提方法的主要思路是分析新闻文本，不包含任何无关信息（发布日期、网站名称和其他媒体）。新闻文本按三个指标分别进行分析：文本的真实性、讽刺或仇恨言论。Kaggle 数据集用于根据所选指标训练模型，而随机选取的新闻和评论文本则用于实际测试。数据集的结构是一列文本和另一列与给定标准相对应的二进制标签。所研究的数据集包含 6335 行新闻文本和 "真 "或 "假 "标签。讽刺数据集由两个独立的数据集组合而成，一个来自 BBC 新闻服务，另一个来自 Onion。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

查看原文本刊更多论文

ЗАСТОСУВАННЯ АСАМБЛЕВИХ МЕТОДІВ МАШИННОГО НАВЧАННЯ ДЛЯ ВИЯВЛЕННЯ НЕПРАВДИВОГО ТЕКСТУ

У статті представлено ансамблеві методи машинного навчання для підвищення точності виявлення неправдивого тексту та оцінено різні класифікатори з використанням окремих наборів даних. Для дослідження обрано наївний байєсівський класифікатор, пасивно-агресивний класифікатор, метод Support Vector Machine (SVM), логістичну регресію, метод k-найближчих сусідів та класифікатори випадкового лісу. Також протестовано ансамблі, що складаються з комбінацій обраних класифікаторів. Результати дослідження представляють результати класифікації, демонструючи ефективність використання асамблевих методів. Для дослідження використовувалися технології програмування Python (sklearn, pandas, numpy), процесор AMD Ryzen 5 4500U 6 ядер та 16 гігабайт оперативної пам’яті. Дослідження підкреслює важливість використання асамблевих методів для виявлення неправдивих текстів новин. Для TF-IDF – векторизації класифікатор SVM виділяється найвищою середньою точністю 95,74%. Згідно проведених досліджень, SVM досягає найвищої частки правильних прогнозів порівняно з іншими класифікаторами під час навчання на даних, перетворених TF-IDF. При використанні векторизації хешування класифікатор SVM зберігає свою високу продуктивність, досягнувши найвищої середньої точності 97,26%. Ансамблевий метод Voting Ensemble 3 (Ens3 – SVM + PA + LR) досягає середньої точності 96,93%. Основна ідея запропонованого методу полягає в аналізі тексту новин без сторонньої інформації (дати публікації, назви сайтів та додаткових медіа). Текст новин аналізується окремо за трьома показниками: правдивість тексту, сатира чи мова ворожнечі. Для навчання моделей за обраними метриками використано набори даних сервісу Kaggle, а для тестування в «реальних умовах» – довільно вибрані тексти новин і коментарів. Структурою наборів даних є текст та двійкова мітка в іншому стовпці, що відповідає заданому критерію. Набір досліджуваних даних містить 6335 рядків текстів новин і міток «true» або «false». Набір даних сатири – це комбінація двох окремих наборів даних, одного з новинної служби BBC, а іншого – з Onion.

求助全文

通过发布文献求助，成功后即可免费获取论文全文。去求助

来源期刊

Вісник Херсонського національного технічного університету

自引率

0.00%

发文量