解决分布式拒绝服务(DDOS)攻击分类中的数据不平衡问题

Danny Acosta-Tejada, Javier E. Sanchez-Galan, Nelliud Torres-Batista
{"title":"解决分布式拒绝服务(DDOS)攻击分类中的数据不平衡问题","authors":"Danny Acosta-Tejada, Javier E. Sanchez-Galan, Nelliud Torres-Batista","doi":"10.33412/apanac.2023.3922","DOIUrl":null,"url":null,"abstract":"Los ataques de denegación de servicio distribuido (DDoS) representan una amenaza significativa para instituciones y empresas que dependen de redes interconectadas. Distinguir entre ataques maliciosos y aumentos legítimos en el tráfico web es un desafío, y los sistemas de defensa existentes luchan por identificar. Este estudio explora el impacto del desequilibrio de datos en la clasificación de ataques DDoS y propone una solución utilizando datos sintéticos. La metodología involucra: recolección de datos, preprocesamiento, generación de datos sintéticos, y análisis de rendimiento. Utilizamos CICDDoS2019 dataset, contiene 22 millones de ejemplos medidos en 88 características. Generamos datos sintéticos utilizando Redes Generativa Antagónica (GANs), centrándonos en tres características del conjunto de datos: tiempo, tipo de ataque y duración. Se trabajó con tres grupos de datos del mismo dataset: manera convencional (desequilibrada), submuestreo de la clase minoritaria y utilizando GANs para generar un total adicional de 2 millones de puntos de datos. Una comparación de rendimiento entre métodos tradicionales de clasificación (CNN, KNN y XGBoost) y el uso de GANs muestra una mejora significativa. Los métodos tradicionales alcanzan tasas de precisión del 82-86%, mientras que las GANs logran consistentemente tasas de precisión del 98-99%. Estos hallazgos resaltan el impacto del desequilibrio de datos en la eficacia de la clasificación y demuestran la efectividad de las GANs para mitigar este desafío mientras mejoran la precisión. El estudio enfatiza la importancia de considerar el desequilibrio de datos y adoptar técnicas innovadoras como las GANs en el campo de la ciberseguridad.","PeriodicalId":282618,"journal":{"name":"Congreso Nacional de Ciencia y Tecnología – APANAC","volume":"1 1","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2023-09-15","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"ABORDANDO EL DESEQUILIBRIO DE DATOS EN CLASIFICACIÓN DE ATAQUES DE DENEGACIÓN DE SERVICIO DISTRIBUIDO (DDOS)\",\"authors\":\"Danny Acosta-Tejada, Javier E. Sanchez-Galan, Nelliud Torres-Batista\",\"doi\":\"10.33412/apanac.2023.3922\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Los ataques de denegación de servicio distribuido (DDoS) representan una amenaza significativa para instituciones y empresas que dependen de redes interconectadas. Distinguir entre ataques maliciosos y aumentos legítimos en el tráfico web es un desafío, y los sistemas de defensa existentes luchan por identificar. Este estudio explora el impacto del desequilibrio de datos en la clasificación de ataques DDoS y propone una solución utilizando datos sintéticos. La metodología involucra: recolección de datos, preprocesamiento, generación de datos sintéticos, y análisis de rendimiento. Utilizamos CICDDoS2019 dataset, contiene 22 millones de ejemplos medidos en 88 características. Generamos datos sintéticos utilizando Redes Generativa Antagónica (GANs), centrándonos en tres características del conjunto de datos: tiempo, tipo de ataque y duración. Se trabajó con tres grupos de datos del mismo dataset: manera convencional (desequilibrada), submuestreo de la clase minoritaria y utilizando GANs para generar un total adicional de 2 millones de puntos de datos. Una comparación de rendimiento entre métodos tradicionales de clasificación (CNN, KNN y XGBoost) y el uso de GANs muestra una mejora significativa. Los métodos tradicionales alcanzan tasas de precisión del 82-86%, mientras que las GANs logran consistentemente tasas de precisión del 98-99%. Estos hallazgos resaltan el impacto del desequilibrio de datos en la eficacia de la clasificación y demuestran la efectividad de las GANs para mitigar este desafío mientras mejoran la precisión. El estudio enfatiza la importancia de considerar el desequilibrio de datos y adoptar técnicas innovadoras como las GANs en el campo de la ciberseguridad.\",\"PeriodicalId\":282618,\"journal\":{\"name\":\"Congreso Nacional de Ciencia y Tecnología – APANAC\",\"volume\":\"1 1\",\"pages\":\"\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2023-09-15\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Congreso Nacional de Ciencia y Tecnología – APANAC\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.33412/apanac.2023.3922\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Congreso Nacional de Ciencia y Tecnología – APANAC","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.33412/apanac.2023.3922","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

摘要

分布式拒绝服务(DDoS)攻击对依赖互连网络的机构和企业构成了重大威胁。如何区分恶意攻击和合法的网络流量激增是一项挑战,现有的防御系统很难识别它们。本研究探讨了数据不平衡对 DDoS 攻击分类的影响,并提出了一种使用合成数据的解决方案。该方法包括:数据收集、预处理、合成数据生成和性能分析。我们使用 CICDDDoS2019 数据集,其中包含根据 88 个特征测量的 2200 万个示例。我们使用生成式对抗网络(GAN)生成合成数据,重点关注数据集的三个特征:时间、攻击类型和持续时间。我们使用了来自同一数据集的三个数据集:传统(不平衡)方式、对少数类进行子采样以及使用 GANs 生成额外的 200 万个数据点。传统分类方法(CNN、KNN 和 XGBoost)与使用 GANs 的性能比较显示,GANs 的性能有了显著提高。传统方法的准确率为 82-86%,而 GANs 的准确率始终保持在 98-99%。这些发现凸显了数据不平衡对分类效率的影响,并证明了 GANs 在提高准确率的同时还能有效缓解这一挑战。这项研究强调了在网络安全领域考虑数据不平衡和采用 GAN 等创新技术的重要性。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
ABORDANDO EL DESEQUILIBRIO DE DATOS EN CLASIFICACIÓN DE ATAQUES DE DENEGACIÓN DE SERVICIO DISTRIBUIDO (DDOS)
Los ataques de denegación de servicio distribuido (DDoS) representan una amenaza significativa para instituciones y empresas que dependen de redes interconectadas. Distinguir entre ataques maliciosos y aumentos legítimos en el tráfico web es un desafío, y los sistemas de defensa existentes luchan por identificar. Este estudio explora el impacto del desequilibrio de datos en la clasificación de ataques DDoS y propone una solución utilizando datos sintéticos. La metodología involucra: recolección de datos, preprocesamiento, generación de datos sintéticos, y análisis de rendimiento. Utilizamos CICDDoS2019 dataset, contiene 22 millones de ejemplos medidos en 88 características. Generamos datos sintéticos utilizando Redes Generativa Antagónica (GANs), centrándonos en tres características del conjunto de datos: tiempo, tipo de ataque y duración. Se trabajó con tres grupos de datos del mismo dataset: manera convencional (desequilibrada), submuestreo de la clase minoritaria y utilizando GANs para generar un total adicional de 2 millones de puntos de datos. Una comparación de rendimiento entre métodos tradicionales de clasificación (CNN, KNN y XGBoost) y el uso de GANs muestra una mejora significativa. Los métodos tradicionales alcanzan tasas de precisión del 82-86%, mientras que las GANs logran consistentemente tasas de precisión del 98-99%. Estos hallazgos resaltan el impacto del desequilibrio de datos en la eficacia de la clasificación y demuestran la efectividad de las GANs para mitigar este desafío mientras mejoran la precisión. El estudio enfatiza la importancia de considerar el desequilibrio de datos y adoptar técnicas innovadoras como las GANs en el campo de la ciberseguridad.
求助全文
通过发布文献求助,成功后即可免费获取论文全文。 去求助
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术官方微信