{"title":"各种数据的算法和分级方法","authors":"Н. І. Бойко, О. А. Ткачик","doi":"10.24144/2616-7700.2023.42(1).129-147","DOIUrl":null,"url":null,"abstract":"Дослідження присвячено комплексному вивченню методів кластеризації різнотипових\n даних. Досліджуються проблеми алгоритмів графічного формату, що зумовлені наявністю\n 12-ти різних ознак для кластеризації, 7 з яких були категоріальні. Представлене подання\n даних по 12-ти осях в графічному форматі. Було вирішено застосувати алгоритм PCA з\n перетворенням категоріальних ознак в числові для зменшення розмірності даних до 2-х\n компонент й подальшого ортогонального накладання кластерів на них. Наводиться\n застосування кластеризації методу к-прототипів. Показане використання PCA для зменшення\n розмірності в 6 разів приводить до значної втрати інформації. Проведені експерименти\n щодо ієрархічної кластеризації різнотипових даних, можна відзначити переваги й недоліки\n даного підходу. Наведена складність проведення кластеризації, яка полягає у\n представленні результатів аналізу великих даних. Описаний алгоритм KAMILA, який\n реалізований на моделі розподілених обчислень MapReduce і дає значну перевагу по\n швидкодії.","PeriodicalId":33567,"journal":{"name":"Naukovii visnik Uzhgorods''kogo universitetu Seriia Matematika i informatika","volume":"1 1","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2023-05-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"Алгоритми та методи кластеризації для різноманітних даних\",\"authors\":\"Н. І. Бойко, О. А. Ткачик\",\"doi\":\"10.24144/2616-7700.2023.42(1).129-147\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Дослідження присвячено комплексному вивченню методів кластеризації різнотипових\\n даних. Досліджуються проблеми алгоритмів графічного формату, що зумовлені наявністю\\n 12-ти різних ознак для кластеризації, 7 з яких були категоріальні. Представлене подання\\n даних по 12-ти осях в графічному форматі. Було вирішено застосувати алгоритм PCA з\\n перетворенням категоріальних ознак в числові для зменшення розмірності даних до 2-х\\n компонент й подальшого ортогонального накладання кластерів на них. Наводиться\\n застосування кластеризації методу к-прототипів. Показане використання PCA для зменшення\\n розмірності в 6 разів приводить до значної втрати інформації. Проведені експерименти\\n щодо ієрархічної кластеризації різнотипових даних, можна відзначити переваги й недоліки\\n даного підходу. Наведена складність проведення кластеризації, яка полягає у\\n представленні результатів аналізу великих даних. Описаний алгоритм KAMILA, який\\n реалізований на моделі розподілених обчислень MapReduce і дає значну перевагу по\\n швидкодії.\",\"PeriodicalId\":33567,\"journal\":{\"name\":\"Naukovii visnik Uzhgorods''kogo universitetu Seriia Matematika i informatika\",\"volume\":\"1 1\",\"pages\":\"\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2023-05-04\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Naukovii visnik Uzhgorods''kogo universitetu Seriia Matematika i informatika\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.24144/2616-7700.2023.42(1).129-147\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Naukovii visnik Uzhgorods''kogo universitetu Seriia Matematika i informatika","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.24144/2616-7700.2023.42(1).129-147","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
Алгоритми та методи кластеризації для різноманітних даних
Дослідження присвячено комплексному вивченню методів кластеризації різнотипових
даних. Досліджуються проблеми алгоритмів графічного формату, що зумовлені наявністю
12-ти різних ознак для кластеризації, 7 з яких були категоріальні. Представлене подання
даних по 12-ти осях в графічному форматі. Було вирішено застосувати алгоритм PCA з
перетворенням категоріальних ознак в числові для зменшення розмірності даних до 2-х
компонент й подальшого ортогонального накладання кластерів на них. Наводиться
застосування кластеризації методу к-прототипів. Показане використання PCA для зменшення
розмірності в 6 разів приводить до значної втрати інформації. Проведені експерименти
щодо ієрархічної кластеризації різнотипових даних, можна відзначити переваги й недоліки
даного підходу. Наведена складність проведення кластеризації, яка полягає у
представленні результатів аналізу великих даних. Описаний алгоритм KAMILA, який
реалізований на моделі розподілених обчислень MapReduce і дає значну перевагу по
швидкодії.