应用汇编机器学习方法检测虚假文本

Л. М. Олещенко, О. Г. Мельничук
{"title":"应用汇编机器学习方法检测虚假文本","authors":"Л. М. Олещенко, О. Г. Мельничук","doi":"10.35546/kntu2078-4481.2024.1.36","DOIUrl":null,"url":null,"abstract":"У статті представлено ансамблеві методи машинного навчання для підвищення точності виявлення неправдивого тексту та оцінено різні класифікатори з використанням окремих наборів даних. Для дослідження обрано наївний байєсівський класифікатор, пасивно-агресивний класифікатор, метод Support Vector Machine (SVM), логістичну регресію, метод k-найближчих сусідів та класифікатори випадкового лісу. Також протестовано ансамблі, що складаються з комбінацій обраних класифікаторів. Результати дослідження представляють результати класифікації, демонструючи ефективність використання асамблевих методів. Для дослідження використовувалися технології програмування Python (sklearn, pandas, numpy), процесор AMD Ryzen 5 4500U 6 ядер та 16 гігабайт оперативної пам’яті. Дослідження підкреслює важливість використання асамблевих методів для виявлення неправдивих текстів новин. Для TF-IDF – векторизації класифікатор SVM виділяється найвищою середньою точністю 95,74%. Згідно проведених досліджень, SVM досягає найвищої частки правильних прогнозів порівняно з іншими класифікаторами під час навчання на даних, перетворених TF-IDF. При використанні векторизації хешування класифікатор SVM зберігає свою високу продуктивність, досягнувши найвищої середньої точності 97,26%. Ансамблевий метод Voting Ensemble 3 (Ens3 – SVM + PA + LR) досягає середньої точності 96,93%. Основна ідея запропонованого методу полягає в аналізі тексту новин без сторонньої інформації (дати публікації, назви сайтів та додаткових медіа). Текст новин аналізується окремо за трьома показниками: правдивість тексту, сатира чи мова ворожнечі. Для навчання моделей за обраними метриками використано набори даних сервісу Kaggle, а для тестування в «реальних умовах» – довільно вибрані тексти новин і коментарів. Структурою наборів даних є текст та двійкова мітка в іншому стовпці, що відповідає заданому критерію. Набір досліджуваних даних містить 6335 рядків текстів новин і міток «true» або «false». Набір даних сатири – це комбінація двох окремих наборів даних, одного з новинної служби BBC, а іншого – з Onion.","PeriodicalId":518826,"journal":{"name":"Вісник Херсонського національного технічного університету","volume":null,"pages":null},"PeriodicalIF":0.0000,"publicationDate":"2024-05-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"ЗАСТОСУВАННЯ АСАМБЛЕВИХ МЕТОДІВ МАШИННОГО НАВЧАННЯ ДЛЯ ВИЯВЛЕННЯ НЕПРАВДИВОГО ТЕКСТУ\",\"authors\":\"Л. М. Олещенко, О. Г. Мельничук\",\"doi\":\"10.35546/kntu2078-4481.2024.1.36\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"У статті представлено ансамблеві методи машинного навчання для підвищення точності виявлення неправдивого тексту та оцінено різні класифікатори з використанням окремих наборів даних. Для дослідження обрано наївний байєсівський класифікатор, пасивно-агресивний класифікатор, метод Support Vector Machine (SVM), логістичну регресію, метод k-найближчих сусідів та класифікатори випадкового лісу. Також протестовано ансамблі, що складаються з комбінацій обраних класифікаторів. Результати дослідження представляють результати класифікації, демонструючи ефективність використання асамблевих методів. Для дослідження використовувалися технології програмування Python (sklearn, pandas, numpy), процесор AMD Ryzen 5 4500U 6 ядер та 16 гігабайт оперативної пам’яті. Дослідження підкреслює важливість використання асамблевих методів для виявлення неправдивих текстів новин. Для TF-IDF – векторизації класифікатор SVM виділяється найвищою середньою точністю 95,74%. Згідно проведених досліджень, SVM досягає найвищої частки правильних прогнозів порівняно з іншими класифікаторами під час навчання на даних, перетворених TF-IDF. При використанні векторизації хешування класифікатор SVM зберігає свою високу продуктивність, досягнувши найвищої середньої точності 97,26%. Ансамблевий метод Voting Ensemble 3 (Ens3 – SVM + PA + LR) досягає середньої точності 96,93%. Основна ідея запропонованого методу полягає в аналізі тексту новин без сторонньої інформації (дати публікації, назви сайтів та додаткових медіа). Текст новин аналізується окремо за трьома показниками: правдивість тексту, сатира чи мова ворожнечі. Для навчання моделей за обраними метриками використано набори даних сервісу Kaggle, а для тестування в «реальних умовах» – довільно вибрані тексти новин і коментарів. Структурою наборів даних є текст та двійкова мітка в іншому стовпці, що відповідає заданому критерію. Набір досліджуваних даних містить 6335 рядків текстів новин і міток «true» або «false». Набір даних сатири – це комбінація двох окремих наборів даних, одного з новинної служби BBC, а іншого – з Onion.\",\"PeriodicalId\":518826,\"journal\":{\"name\":\"Вісник Херсонського національного технічного університету\",\"volume\":null,\"pages\":null},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2024-05-01\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Вісник Херсонського національного технічного університету\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.35546/kntu2078-4481.2024.1.36\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Вісник Херсонського національного технічного університету","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.35546/kntu2078-4481.2024.1.36","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

摘要

文章介绍了提高虚假文本检测准确性的集合机器学习方法,并使用不同的数据集对不同的分类器进行了评估。研究包括天真贝叶斯分类器、被动攻击分类器、支持向量机(SVM)、逻辑回归、k-近邻和随机森林分类器。此外,还测试了由所选分类器组合而成的集合。研究结果展示了分类结果,证明了使用集合方法的有效性。研究使用了 Python 编程技术(sklearn、pandas、numpy)、6 核 AMD Ryzen 5 4500U 处理器和 16GB 内存。该研究强调了使用组装方法检测虚假新闻报道的重要性。在 TF-IDF 矢量化方面,SVM 分类器以 95.74% 的最高平均准确率脱颖而出。研究表明,与其他分类器相比,SVM 在 TF-IDF 转换数据上训练时,预测正确率最高。在使用哈希向量化时,SVM 分类器保持了较高的性能,达到了最高的平均准确率 97.26%。组合方法 Voting Ensemble 3(Ens3 - SVM + PA + LR)的平均准确率达到 96.93%。所提方法的主要思路是分析新闻文本,不包含任何无关信息(发布日期、网站名称和其他媒体)。新闻文本按三个指标分别进行分析:文本的真实性、讽刺或仇恨言论。Kaggle 数据集用于根据所选指标训练模型,而随机选取的新闻和评论文本则用于实际测试。数据集的结构是一列文本和另一列与给定标准相对应的二进制标签。所研究的数据集包含 6335 行新闻文本和 "真 "或 "假 "标签。讽刺数据集由两个独立的数据集组合而成,一个来自 BBC 新闻服务,另一个来自 Onion。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
ЗАСТОСУВАННЯ АСАМБЛЕВИХ МЕТОДІВ МАШИННОГО НАВЧАННЯ ДЛЯ ВИЯВЛЕННЯ НЕПРАВДИВОГО ТЕКСТУ
У статті представлено ансамблеві методи машинного навчання для підвищення точності виявлення неправдивого тексту та оцінено різні класифікатори з використанням окремих наборів даних. Для дослідження обрано наївний байєсівський класифікатор, пасивно-агресивний класифікатор, метод Support Vector Machine (SVM), логістичну регресію, метод k-найближчих сусідів та класифікатори випадкового лісу. Також протестовано ансамблі, що складаються з комбінацій обраних класифікаторів. Результати дослідження представляють результати класифікації, демонструючи ефективність використання асамблевих методів. Для дослідження використовувалися технології програмування Python (sklearn, pandas, numpy), процесор AMD Ryzen 5 4500U 6 ядер та 16 гігабайт оперативної пам’яті. Дослідження підкреслює важливість використання асамблевих методів для виявлення неправдивих текстів новин. Для TF-IDF – векторизації класифікатор SVM виділяється найвищою середньою точністю 95,74%. Згідно проведених досліджень, SVM досягає найвищої частки правильних прогнозів порівняно з іншими класифікаторами під час навчання на даних, перетворених TF-IDF. При використанні векторизації хешування класифікатор SVM зберігає свою високу продуктивність, досягнувши найвищої середньої точності 97,26%. Ансамблевий метод Voting Ensemble 3 (Ens3 – SVM + PA + LR) досягає середньої точності 96,93%. Основна ідея запропонованого методу полягає в аналізі тексту новин без сторонньої інформації (дати публікації, назви сайтів та додаткових медіа). Текст новин аналізується окремо за трьома показниками: правдивість тексту, сатира чи мова ворожнечі. Для навчання моделей за обраними метриками використано набори даних сервісу Kaggle, а для тестування в «реальних умовах» – довільно вибрані тексти новин і коментарів. Структурою наборів даних є текст та двійкова мітка в іншому стовпці, що відповідає заданому критерію. Набір досліджуваних даних містить 6335 рядків текстів новин і міток «true» або «false». Набір даних сатири – це комбінація двох окремих наборів даних, одного з новинної служби BBC, а іншого – з Onion.
求助全文
通过发布文献求助,成功后即可免费获取论文全文。 去求助
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信