{"title":"聚类分析中的距离度量选择有效性","authors":"P. Grabusts","doi":"10.2478/v10143-011-0045-y","DOIUrl":null,"url":null,"abstract":"Distance Metrics Selection Validity in Cluster Analysis In cluster analysis data are divided into groups according to a specific criterion called metrics. Traditionally the metrics of choice has been Euclidean distance. This article studies other distance metrics used in cluster analysis- Manhattan distance, Cosine distance and Pearson correlation measure. In k-means clustering algorithm these metrics were used to determine cluster centers and the clustering correctness was evaluated. It was found that the clustering results were very similar. The article also contemplates to evaluate clustering validity criteria. Attāluma metrikas izvēles pamatotība klasteranalīzē Klasteranalīzē ir nepieciešams kaut kādā veidā klasificēt datus vai atrast likumsakarības tajos, tāpēc jēdziens \"likumsakarība\" iegūst arvien lielāku nozīmi intelektuālās datu analīzes kontekstā. Bieži ir nepieciešams noskaidrot - kādā veidā dati ir saistīti savā starpā, kāda ir dažādu datu līdzība vai atšķirība, kāds ir šo datu salīdzināšanas mērs. Tādam nolūkam var izmantot dažādus klasterizācijas algoritmus, kas datus sadala grupās pēc noteiktiem kritērijiem - metrikas. Ar metriku šajā kontekstā tiek saprasta distance (attālums) starp klasterā ietilpstošajiem punktiem. Darbā tika pārbaudīta klasiskā klasterizācijas algoritma k-means darbības rezultāti ar dažādām metrikām: Eiklīda distanci, Manhattan distanci, Cosine distanci un Pīrsona korelācijas koeficientu. Eksperimentu gaitā k-means klasterizācijas algoritmā klasteru centru noteikšanai secīgi tika izmantotas minētās četras metrikas. Iegūtie rezultāti tika analizēti un tika pārbaudīts klasterizācijas korektums. Tradicionāli klasterizācijas algoritmos izmanto Eiklīda distanci, taču citas metrikas izvēle atsevišķos gadījumos var būt diskutējama. Tas atkarīgs no risināmā uzdevuma, datu apjoma un sarežgītības. Tika konstatēts, ka klasterizācijas rezultāti visu apskatāmo metriku izmantošanā ir ļoti līdzīgi. Nevienai no izvēlētajām metrikām nebija izšķirīga pārsvara, kas varētu garantēti pasludināt to par labāko. Darba izstrādes laikā aktualizējās jautājums par klasterizācijas kvalitātes kritērijiem, t.i., skaitliska kritērija noteikšanu, lai varētu novērtēt klasterizācijas rezultātu. Klasterizācijas kvalitātes kritēriji tika novērtēti ar Randa indeksu un Huberta indeksu. Обоснование выбора метрики расстояния в кластерном анализе В кластерном анализе необходимо каким-то образом классифицировать данные или найти в них закономерности, поэтому понятие закономерности имеет большое значение в контексте интеллектуальной обработки данных. Часто приходится выяснять каким образом данные связаны между собой, какова степень сходства или различия между ними, какова мера сравнения этих данных. Для таких целей можно использовать различные алгоритмы кластеризации, которые группируют данные по определенным критериям метрики. Под метрикой в этом контексте подразумевается расстояние (дистанция) между точками кластера. В статье проверяются результаты работы классического алгоритма кластеризации k-means с различными метриками: Эвклидовым расстоянием, Манхэттенской дистанцией, Cosine дистанцией и коэффициентом корреляции Пирсона. Во время экспериментов для определения центров кластеров последовательно применялись все четыре упомянутые метрики. Полученные результаты анализировались, и была проверена корректность кластеризации. Традиционно в алгоритмах кластеризации используется Эвклидово расстояние, но в определенных случаях выбор другой метрики может быть целесообразным. Это зависит от решаемой задачи, объема и сложности данных. Было установлено, что при использовании различных метрик результаты кластеризации были очень схожи. Ни одна из рассматриваемых метрик не имела такого перевеса, чтобы определить ее как наилучшую. Во время написания статьи стал актуальным вопрос о критериях качества кластеризации, т.е. определение численного критерия для оценки качества кластеризации. Оценки качества кластеризации были произведены с помощью индексов Rand и Hubert.","PeriodicalId":211660,"journal":{"name":"Sci. J. Riga Tech. Univ. Ser. Comput. Sci.","volume":"18 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"1900-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"6","resultStr":"{\"title\":\"Distance Metrics Selection Validity in Cluster Analysis\",\"authors\":\"P. Grabusts\",\"doi\":\"10.2478/v10143-011-0045-y\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Distance Metrics Selection Validity in Cluster Analysis In cluster analysis data are divided into groups according to a specific criterion called metrics. Traditionally the metrics of choice has been Euclidean distance. This article studies other distance metrics used in cluster analysis- Manhattan distance, Cosine distance and Pearson correlation measure. In k-means clustering algorithm these metrics were used to determine cluster centers and the clustering correctness was evaluated. It was found that the clustering results were very similar. The article also contemplates to evaluate clustering validity criteria. Attāluma metrikas izvēles pamatotība klasteranalīzē Klasteranalīzē ir nepieciešams kaut kādā veidā klasificēt datus vai atrast likumsakarības tajos, tāpēc jēdziens \\\"likumsakarība\\\" iegūst arvien lielāku nozīmi intelektuālās datu analīzes kontekstā. Bieži ir nepieciešams noskaidrot - kādā veidā dati ir saistīti savā starpā, kāda ir dažādu datu līdzība vai atšķirība, kāds ir šo datu salīdzināšanas mērs. Tādam nolūkam var izmantot dažādus klasterizācijas algoritmus, kas datus sadala grupās pēc noteiktiem kritērijiem - metrikas. Ar metriku šajā kontekstā tiek saprasta distance (attālums) starp klasterā ietilpstošajiem punktiem. Darbā tika pārbaudīta klasiskā klasterizācijas algoritma k-means darbības rezultāti ar dažādām metrikām: Eiklīda distanci, Manhattan distanci, Cosine distanci un Pīrsona korelācijas koeficientu. Eksperimentu gaitā k-means klasterizācijas algoritmā klasteru centru noteikšanai secīgi tika izmantotas minētās četras metrikas. Iegūtie rezultāti tika analizēti un tika pārbaudīts klasterizācijas korektums. Tradicionāli klasterizācijas algoritmos izmanto Eiklīda distanci, taču citas metrikas izvēle atsevišķos gadījumos var būt diskutējama. Tas atkarīgs no risināmā uzdevuma, datu apjoma un sarežgītības. Tika konstatēts, ka klasterizācijas rezultāti visu apskatāmo metriku izmantošanā ir ļoti līdzīgi. Nevienai no izvēlētajām metrikām nebija izšķirīga pārsvara, kas varētu garantēti pasludināt to par labāko. Darba izstrādes laikā aktualizējās jautājums par klasterizācijas kvalitātes kritērijiem, t.i., skaitliska kritērija noteikšanu, lai varētu novērtēt klasterizācijas rezultātu. Klasterizācijas kvalitātes kritēriji tika novērtēti ar Randa indeksu un Huberta indeksu. Обоснование выбора метрики расстояния в кластерном анализе В кластерном анализе необходимо каким-то образом классифицировать данные или найти в них закономерности, поэтому понятие закономерности имеет большое значение в контексте интеллектуальной обработки данных. Часто приходится выяснять каким образом данные связаны между собой, какова степень сходства или различия между ними, какова мера сравнения этих данных. Для таких целей можно использовать различные алгоритмы кластеризации, которые группируют данные по определенным критериям метрики. Под метрикой в этом контексте подразумевается расстояние (дистанция) между точками кластера. В статье проверяются результаты работы классического алгоритма кластеризации k-means с различными метриками: Эвклидовым расстоянием, Манхэттенской дистанцией, Cosine дистанцией и коэффициентом корреляции Пирсона. Во время экспериментов для определения центров кластеров последовательно применялись все четыре упомянутые метрики. Полученные результаты анализировались, и была проверена корректность кластеризации. Традиционно в алгоритмах кластеризации используется Эвклидово расстояние, но в определенных случаях выбор другой метрики может быть целесообразным. Это зависит от решаемой задачи, объема и сложности данных. Было установлено, что при использовании различных метрик результаты кластеризации были очень схожи. Ни одна из рассматриваемых метрик не имела такого перевеса, чтобы определить ее как наилучшую. Во время написания статьи стал актуальным вопрос о критериях качества кластеризации, т.е. определение численного критерия для оценки качества кластеризации. Оценки качества кластеризации были произведены с помощью индексов Rand и Hubert.\",\"PeriodicalId\":211660,\"journal\":{\"name\":\"Sci. J. Riga Tech. Univ. Ser. Comput. Sci.\",\"volume\":\"18 1\",\"pages\":\"0\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"1900-01-01\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"6\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Sci. J. Riga Tech. Univ. Ser. Comput. Sci.\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.2478/v10143-011-0045-y\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Sci. J. Riga Tech. Univ. Ser. Comput. Sci.","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.2478/v10143-011-0045-y","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
Distance Metrics Selection Validity in Cluster Analysis
Distance Metrics Selection Validity in Cluster Analysis In cluster analysis data are divided into groups according to a specific criterion called metrics. Traditionally the metrics of choice has been Euclidean distance. This article studies other distance metrics used in cluster analysis- Manhattan distance, Cosine distance and Pearson correlation measure. In k-means clustering algorithm these metrics were used to determine cluster centers and the clustering correctness was evaluated. It was found that the clustering results were very similar. The article also contemplates to evaluate clustering validity criteria. Attāluma metrikas izvēles pamatotība klasteranalīzē Klasteranalīzē ir nepieciešams kaut kādā veidā klasificēt datus vai atrast likumsakarības tajos, tāpēc jēdziens "likumsakarība" iegūst arvien lielāku nozīmi intelektuālās datu analīzes kontekstā. Bieži ir nepieciešams noskaidrot - kādā veidā dati ir saistīti savā starpā, kāda ir dažādu datu līdzība vai atšķirība, kāds ir šo datu salīdzināšanas mērs. Tādam nolūkam var izmantot dažādus klasterizācijas algoritmus, kas datus sadala grupās pēc noteiktiem kritērijiem - metrikas. Ar metriku šajā kontekstā tiek saprasta distance (attālums) starp klasterā ietilpstošajiem punktiem. Darbā tika pārbaudīta klasiskā klasterizācijas algoritma k-means darbības rezultāti ar dažādām metrikām: Eiklīda distanci, Manhattan distanci, Cosine distanci un Pīrsona korelācijas koeficientu. Eksperimentu gaitā k-means klasterizācijas algoritmā klasteru centru noteikšanai secīgi tika izmantotas minētās četras metrikas. Iegūtie rezultāti tika analizēti un tika pārbaudīts klasterizācijas korektums. Tradicionāli klasterizācijas algoritmos izmanto Eiklīda distanci, taču citas metrikas izvēle atsevišķos gadījumos var būt diskutējama. Tas atkarīgs no risināmā uzdevuma, datu apjoma un sarežgītības. Tika konstatēts, ka klasterizācijas rezultāti visu apskatāmo metriku izmantošanā ir ļoti līdzīgi. Nevienai no izvēlētajām metrikām nebija izšķirīga pārsvara, kas varētu garantēti pasludināt to par labāko. Darba izstrādes laikā aktualizējās jautājums par klasterizācijas kvalitātes kritērijiem, t.i., skaitliska kritērija noteikšanu, lai varētu novērtēt klasterizācijas rezultātu. Klasterizācijas kvalitātes kritēriji tika novērtēti ar Randa indeksu un Huberta indeksu. Обоснование выбора метрики расстояния в кластерном анализе В кластерном анализе необходимо каким-то образом классифицировать данные или найти в них закономерности, поэтому понятие закономерности имеет большое значение в контексте интеллектуальной обработки данных. Часто приходится выяснять каким образом данные связаны между собой, какова степень сходства или различия между ними, какова мера сравнения этих данных. Для таких целей можно использовать различные алгоритмы кластеризации, которые группируют данные по определенным критериям метрики. Под метрикой в этом контексте подразумевается расстояние (дистанция) между точками кластера. В статье проверяются результаты работы классического алгоритма кластеризации k-means с различными метриками: Эвклидовым расстоянием, Манхэттенской дистанцией, Cosine дистанцией и коэффициентом корреляции Пирсона. Во время экспериментов для определения центров кластеров последовательно применялись все четыре упомянутые метрики. Полученные результаты анализировались, и была проверена корректность кластеризации. Традиционно в алгоритмах кластеризации используется Эвклидово расстояние, но в определенных случаях выбор другой метрики может быть целесообразным. Это зависит от решаемой задачи, объема и сложности данных. Было установлено, что при использовании различных метрик результаты кластеризации были очень схожи. Ни одна из рассматриваемых метрик не имела такого перевеса, чтобы определить ее как наилучшую. Во время написания статьи стал актуальным вопрос о критериях качества кластеризации, т.е. определение численного критерия для оценки качества кластеризации. Оценки качества кластеризации были произведены с помощью индексов Rand и Hubert.