А. А. Балвак, А. В. Лемешко, Артем Антоненко, Д. А. Зіняр, А. Ю. Бурачинський, А. П. Приходько
{"title":"ОБРОБКА ТА АНАЛІЗ ДАНИХ НА ПРИКЛАДІ НАБОРУ SPAMBASE З ВИКОРИСТАННЯМ БІБЛІОТЕК ДЛЯ МАШИННОГО НАВЧАННЯ","authors":"А. А. Балвак, А. В. Лемешко, Артем Антоненко, Д. А. Зіняр, А. Ю. Бурачинський, А. П. Приходько","doi":"10.32782/tnv-tech.2024.2.1","DOIUrl":null,"url":null,"abstract":"У статті проаналізовано набір даних Spambase з даними про електронні листи, які класифіковано як спам та не спам. Наведено детальний аналіз цього датафрейма з інформацією про дані в стовпчиках (властивості) та записи набору. Дані набору було завантажено в середовище для розробки програмного забезпечення Google CoLab для програмування та подальшого аналізу. Для наукових обчислень та аналізу даних в Python використано бібліотеки NumPy, Pandas, Matplotlib, Sklearn, Imblearn. Їх комбінації дозволяють розробникам та дослідникам ефективно працювати зі структурованими даними, виконувати різні операції з ними, візуалізувати результати та розв'язувати складні завдання аналізу та обробки даних. Для кращого розуміння матеріалу розглянуто деякі основні теоретичні відомості щодо прогнозування даних. Надано визначення машинного навчання, штучного інтелекту та науки про дані. Також описано категорії машинного навчання, такі як кероване, некероване навчання та навчання з підкріпленням. Розглянуті основні типи ознак, які використовуються в моделях машинного навчання: якісні, впорядковані та кількісні ознаки. Також був представлений набір даних про хвороби серця Heart Disease на якому описано та позначено важливі визначення, такі як матриця ознак X, вектор ознак, властивості, вектор цільових значень Y. Описано необхідність розбиття набору даних на навчальний, перевірочний та тестовий для коректної оцінки та перевірки моделі. Також пояснено використання функцій втрат L1 та L2 для оцінки продуктивності моделі, вказано переваги та недоліки кожного підходу. Продовжено аналіз датасету Spambase в середовищі Google Colab. Побудовано гістограми, що представляють розподіл даних за різними властивостями для двох класів: спаму та не спаму. Проаналізовано гістограми для властивостей word_freq_credit, char_freq_! та capital_run_length_total. Функцією split() з бібліотеки NumPy розділено дані на навчальний, перевірочний та тестовий набори. Для набору даних на навчання виконано перебалансування класів за допомогою методу випадкової перевибірки (RandomOverSampler). В результаті було створено нові екземпляри для менш представленого класу листів які містять спам.","PeriodicalId":242216,"journal":{"name":"Таврійський науковий вісник. Серія: Технічні науки","volume":"69 5","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2024-07-09","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Таврійський науковий вісник. Серія: Технічні науки","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.32782/tnv-tech.2024.2.1","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
Abstract
У статті проаналізовано набір даних Spambase з даними про електронні листи, які класифіковано як спам та не спам. Наведено детальний аналіз цього датафрейма з інформацією про дані в стовпчиках (властивості) та записи набору. Дані набору було завантажено в середовище для розробки програмного забезпечення Google CoLab для програмування та подальшого аналізу. Для наукових обчислень та аналізу даних в Python використано бібліотеки NumPy, Pandas, Matplotlib, Sklearn, Imblearn. Їх комбінації дозволяють розробникам та дослідникам ефективно працювати зі структурованими даними, виконувати різні операції з ними, візуалізувати результати та розв'язувати складні завдання аналізу та обробки даних. Для кращого розуміння матеріалу розглянуто деякі основні теоретичні відомості щодо прогнозування даних. Надано визначення машинного навчання, штучного інтелекту та науки про дані. Також описано категорії машинного навчання, такі як кероване, некероване навчання та навчання з підкріпленням. Розглянуті основні типи ознак, які використовуються в моделях машинного навчання: якісні, впорядковані та кількісні ознаки. Також був представлений набір даних про хвороби серця Heart Disease на якому описано та позначено важливі визначення, такі як матриця ознак X, вектор ознак, властивості, вектор цільових значень Y. Описано необхідність розбиття набору даних на навчальний, перевірочний та тестовий для коректної оцінки та перевірки моделі. Також пояснено використання функцій втрат L1 та L2 для оцінки продуктивності моделі, вказано переваги та недоліки кожного підходу. Продовжено аналіз датасету Spambase в середовищі Google Colab. Побудовано гістограми, що представляють розподіл даних за різними властивостями для двох класів: спаму та не спаму. Проаналізовано гістограми для властивостей word_freq_credit, char_freq_! та capital_run_length_total. Функцією split() з бібліотеки NumPy розділено дані на навчальний, перевірочний та тестовий набори. Для набору даних на навчання виконано перебалансування класів за допомогою методу випадкової перевибірки (RandomOverSampler). В результаті було створено нові екземпляри для менш представленого класу листів які містять спам.