各种数据的算法和分级方法

Н. І. Бойко, О. А. Ткачик
{"title":"各种数据的算法和分级方法","authors":"Н. І. Бойко, О. А. Ткачик","doi":"10.24144/2616-7700.2023.42(1).129-147","DOIUrl":null,"url":null,"abstract":"Дослідження присвячено комплексному вивченню методів кластеризації різнотипових\n даних. Досліджуються проблеми алгоритмів графічного формату, що зумовлені наявністю\n 12-ти різних ознак для кластеризації, 7 з яких були категоріальні. Представлене подання\n даних по 12-ти осях в графічному форматі. Було вирішено застосувати алгоритм PCA з\n перетворенням категоріальних ознак в числові для зменшення розмірності даних до 2-х\n компонент й подальшого ортогонального накладання кластерів на них. Наводиться\n застосування кластеризації методу к-прототипів. Показане використання PCA для зменшення\n розмірності в 6 разів приводить до значної втрати інформації. Проведені експерименти\n щодо ієрархічної кластеризації різнотипових даних, можна відзначити переваги й недоліки\n даного підходу. Наведена складність проведення кластеризації, яка полягає у\n представленні результатів аналізу великих даних. Описаний алгоритм KAMILA, який\n реалізований на моделі розподілених обчислень MapReduce і дає значну перевагу по\n швидкодії.","PeriodicalId":33567,"journal":{"name":"Naukovii visnik Uzhgorods''kogo universitetu Seriia Matematika i informatika","volume":"1 1","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2023-05-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"Алгоритми та методи кластеризації для різноманітних даних\",\"authors\":\"Н. І. Бойко, О. А. Ткачик\",\"doi\":\"10.24144/2616-7700.2023.42(1).129-147\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Дослідження присвячено комплексному вивченню методів кластеризації різнотипових\\n даних. Досліджуються проблеми алгоритмів графічного формату, що зумовлені наявністю\\n 12-ти різних ознак для кластеризації, 7 з яких були категоріальні. Представлене подання\\n даних по 12-ти осях в графічному форматі. Було вирішено застосувати алгоритм PCA з\\n перетворенням категоріальних ознак в числові для зменшення розмірності даних до 2-х\\n компонент й подальшого ортогонального накладання кластерів на них. Наводиться\\n застосування кластеризації методу к-прототипів. Показане використання PCA для зменшення\\n розмірності в 6 разів приводить до значної втрати інформації. Проведені експерименти\\n щодо ієрархічної кластеризації різнотипових даних, можна відзначити переваги й недоліки\\n даного підходу. Наведена складність проведення кластеризації, яка полягає у\\n представленні результатів аналізу великих даних. Описаний алгоритм KAMILA, який\\n реалізований на моделі розподілених обчислень MapReduce і дає значну перевагу по\\n швидкодії.\",\"PeriodicalId\":33567,\"journal\":{\"name\":\"Naukovii visnik Uzhgorods''kogo universitetu Seriia Matematika i informatika\",\"volume\":\"1 1\",\"pages\":\"\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2023-05-04\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Naukovii visnik Uzhgorods''kogo universitetu Seriia Matematika i informatika\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.24144/2616-7700.2023.42(1).129-147\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Naukovii visnik Uzhgorods''kogo universitetu Seriia Matematika i informatika","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.24144/2616-7700.2023.42(1).129-147","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

摘要

该研究致力于对不同数据进行分类的方法进行复杂的研究。我们正在研究图形格式的算法的问题,这些算法被同意具有12个不同的梯度,其中7个是分类的。12轴数据以图形格式显示。决定使用PCA算法将分类字符转换为数字,以将数据的大小减少到2个分量,并进一步将聚类垂直连接到它们。使用k原型碰撞方法。使用PCA将大小缩小6倍会导致信息的显著损失。对不同数据进行分层分类的实验可以确定这种方法的优点和缺点。这就是对大数据分析的结果进行分类的困难。描述了KAMILA算法,该算法在MapReduce分布式计算模型中实现,具有显著的速度优势。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
Алгоритми та методи кластеризації для різноманітних даних
Дослідження присвячено комплексному вивченню методів кластеризації різнотипових даних. Досліджуються проблеми алгоритмів графічного формату, що зумовлені наявністю 12-ти різних ознак для кластеризації, 7 з яких були категоріальні. Представлене подання даних по 12-ти осях в графічному форматі. Було вирішено застосувати алгоритм PCA з перетворенням категоріальних ознак в числові для зменшення розмірності даних до 2-х компонент й подальшого ортогонального накладання кластерів на них. Наводиться застосування кластеризації методу к-прототипів. Показане використання PCA для зменшення розмірності в 6 разів приводить до значної втрати інформації. Проведені експерименти щодо ієрархічної кластеризації різнотипових даних, можна відзначити переваги й недоліки даного підходу. Наведена складність проведення кластеризації, яка полягає у представленні результатів аналізу великих даних. Описаний алгоритм KAMILA, який реалізований на моделі розподілених обчислень MapReduce і дає значну перевагу по швидкодії.
求助全文
通过发布文献求助,成功后即可免费获取论文全文。 去求助
来源期刊
自引率
0.00%
发文量
20
审稿时长
12 weeks
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信