ОБРОБКА ТА АНАЛІЗ ДАНИХ НА ПРИКЛАДІ НАБОРУ SPAMBASE З ВИКОРИСТАННЯМ БІБЛІОТЕК ДЛЯ МАШИННОГО НАВЧАННЯ

Таврійський науковий вісник. Серія: Технічні науки Pub Date : 2024-07-09 DOI:10.32782/tnv-tech.2024.2.1

А. А. Балвак, А. В. Лемешко, Артем Антоненко, Д. А. Зіняр, А. Ю. Бурачинський, А. П. Приходько

{"title":"ОБРОБКА ТА АНАЛІЗ ДАНИХ НА ПРИКЛАДІ НАБОРУ SPAMBASE З ВИКОРИСТАННЯМ БІБЛІОТЕК ДЛЯ МАШИННОГО НАВЧАННЯ","authors":"А. А. Балвак, А. В. Лемешко, Артем Антоненко, Д. А. Зіняр, А. Ю. Бурачинський, А. П. Приходько","doi":"10.32782/tnv-tech.2024.2.1","DOIUrl":null,"url":null,"abstract":"У статті проаналізовано набір даних Spambase з даними про електронні листи, які класифіковано як спам та не спам. Наведено детальний аналіз цього датафрейма з інформацією про дані в стовпчиках (властивості) та записи набору. Дані набору було завантажено в середовище для розробки програмного забезпечення Google CoLab для програмування та подальшого аналізу. Для наукових обчислень та аналізу даних в Python використано бібліотеки NumPy, Pandas, Matplotlib, Sklearn, Imblearn. Їх комбінації дозволяють розробникам та дослідникам ефективно працювати зі структурованими даними, виконувати різні операції з ними, візуалізувати результати та розв'язувати складні завдання аналізу та обробки даних. Для кращого розуміння матеріалу розглянуто деякі основні теоретичні відомості щодо прогнозування даних. Надано визначення машинного навчання, штучного інтелекту та науки про дані. Також описано категорії машинного навчання, такі як кероване, некероване навчання та навчання з підкріпленням. Розглянуті основні типи ознак, які використовуються в моделях машинного навчання: якісні, впорядковані та кількісні ознаки. Також був представлений набір даних про хвороби серця Heart Disease на якому описано та позначено важливі визначення, такі як матриця ознак X, вектор ознак, властивості, вектор цільових значень Y. Описано необхідність розбиття набору даних на навчальний, перевірочний та тестовий для коректної оцінки та перевірки моделі. Також пояснено використання функцій втрат L1 та L2 для оцінки продуктивності моделі, вказано переваги та недоліки кожного підходу. Продовжено аналіз датасету Spambase в середовищі Google Colab. Побудовано гістограми, що представляють розподіл даних за різними властивостями для двох класів: спаму та не спаму. Проаналізовано гістограми для властивостей word_freq_credit, char_freq_! та capital_run_length_total. Функцією split() з бібліотеки NumPy розділено дані на навчальний, перевірочний та тестовий набори. Для набору даних на навчання виконано перебалансування класів за допомогою методу випадкової перевибірки (RandomOverSampler). В результаті було створено нові екземпляри для менш представленого класу листів які містять спам.","PeriodicalId":242216,"journal":{"name":"Таврійський науковий вісник. Серія: Технічні науки","volume":"69 5","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2024-07-09","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Таврійський науковий вісник. Серія: Технічні науки","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.32782/tnv-tech.2024.2.1","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}

引用次数: 0

Abstract

У статті проаналізовано набір даних Spambase з даними про електронні листи, які класифіковано як спам та не спам. Наведено детальний аналіз цього датафрейма з інформацією про дані в стовпчиках (властивості) та записи набору. Дані набору було завантажено в середовище для розробки програмного забезпечення Google CoLab для програмування та подальшого аналізу. Для наукових обчислень та аналізу даних в Python використано бібліотеки NumPy, Pandas, Matplotlib, Sklearn, Imblearn. Їх комбінації дозволяють розробникам та дослідникам ефективно працювати зі структурованими даними, виконувати різні операції з ними, візуалізувати результати та розв'язувати складні завдання аналізу та обробки даних. Для кращого розуміння матеріалу розглянуто деякі основні теоретичні відомості щодо прогнозування даних. Надано визначення машинного навчання, штучного інтелекту та науки про дані. Також описано категорії машинного навчання, такі як кероване, некероване навчання та навчання з підкріпленням. Розглянуті основні типи ознак, які використовуються в моделях машинного навчання: якісні, впорядковані та кількісні ознаки. Також був представлений набір даних про хвороби серця Heart Disease на якому описано та позначено важливі визначення, такі як матриця ознак X, вектор ознак, властивості, вектор цільових значень Y. Описано необхідність розбиття набору даних на навчальний, перевірочний та тестовий для коректної оцінки та перевірки моделі. Також пояснено використання функцій втрат L1 та L2 для оцінки продуктивності моделі, вказано переваги та недоліки кожного підходу. Продовжено аналіз датасету Spambase в середовищі Google Colab. Побудовано гістограми, що представляють розподіл даних за різними властивостями для двох класів: спаму та не спаму. Проаналізовано гістограми для властивостей word_freq_credit, char_freq_! та capital_run_length_total. Функцією split() з бібліотеки NumPy розділено дані на навчальний, перевірочний та тестовий набори. Для набору даних на навчання виконано перебалансування класів за допомогою методу випадкової перевибірки (RandomOverSampler). В результаті було створено нові екземпляри для менш представленого класу листів які містять спам.

查看原文本刊更多论文

利用机器学习库对 Spambase 数据集实例进行数据处理和分析

文章对 Spambase 数据集进行了分析，该数据集包含被分类为垃圾邮件和非垃圾邮件的电子邮件数据。文章详细分析了该数据集的列数据（属性）和记录信息。该数据集已上传到 Google CoLab 软件开发环境，用于编程和进一步分析。在 Python 中进行科学计算和数据分析时，我们使用了 NumPy、Pandas、Matplotlib、Sklearn 和 Imblearn 库，它们的组合使开发人员和研究人员能够有效地处理结构化数据，对其执行各种操作，将结果可视化，并解决复杂的数据分析和处理任务。为了更好地理解教材，我们考虑了一些关于数据预测的基本理论信息。提供了机器学习、人工智能和数据科学的定义。还介绍了机器学习的分类，如监督学习、无监督学习和强化学习。还考虑了机器学习模型中使用的主要特征类型：定性特征、有序特征和定量特征。此外，还介绍了心脏病数据集，对特征矩阵 X、特征向量、属性和目标值向量 Y 等重要定义进行了描述和标注。介绍了将数据集拆分为训练、验证和测试数据集的必要性，以便正确评估和验证模型。还解释了使用 L1 和 L2 损失函数评估模型性能的方法，并指出了每种方法的优缺点。接下来将继续分析谷歌 Colab 环境中的 Spambase 数据集。我们构建了表示垃圾邮件和非垃圾邮件两类数据不同属性分布的直方图。分析了 word_freq_credit、char_freq_! 和 capital_run_length_total 属性的直方图。我们使用 NumPy 库中的 split() 函数将数据分成训练集、验证集和测试集。对于训练数据集，我们使用 RandomOverSampler 方法重新平衡了类。因此，我们为代表性较低的垃圾邮件类别创建了新的实例。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文求助全文

来源期刊

Таврійський науковий вісник. Серія: Технічні науки

自引率

0.00%

发文量