Kümeleme İçin Değiştirilmiş Dunn İndeksi İle Bir Parçacık Sürü Optimizasyon Yaklaşımı

Kümeleme analizi, gözlem gruplarını ortak özelliklerine göre kümelere bölümlemek olarak tanımlanmaktadır. Sağlık alanında hastalıkların teşhisi, mühendislikte ürün kusur tespiti ve işletmelerde müşteri segmentasyonu kümelemenin gerçek hayatta uygulama alanlarından birkaçıdır. Kümelemede ön bilgi olmadığı takdirde problem sıklıkla sezgisel algoritmalar kullanılarak çözülmektedir. Çalışmada, önerilen yeni bir uygunluk fonksiyonu ile Parçacık Sürü Optimizasyonu kümeleme probleminin çözümünde kullanılmıştır. Önerilen Değiştirilmiş Dunn İndeksi, literatürde yer alan kümeleme uygunluk fonksiyonları ile kümeleme doğruluğu açısından karşılaştırılmıştır. Öte yandan kullanılan Parçacık Sürü Optimizasyonu yöntemi, Genetik Algoritma ve Rassal Arama yöntemleri ile kümeleme analizinde kıyaslanmıştır. Kümeleme analizi alanında kullanılan beş adet veri seti üzerinde analizler gerçekleştirilmiştir. Elde edilen analiz sonuçları ve yapılan istatistiki testler, önerilen DDI uygunluk fonksiyonunun kümeleme doğruluğu açısından başarılı olduğunu göstermektedir.

A Particle Swarm Optimization Approach For Clustering With A Modified Dunn Index

: Cluster analysis is defined as the division of observation groups into clusters according to their common characteristics. Diagnosis of diseases in the field of health, product defect detection in engineering and customer segmentation in enterprises are some of the real life applications of clustering. If there is no prior knowledge in clustering, the problem is often solved by using heuristic algorithms. In this study, Particle Swarm Optimization with a proposed new fitness function is used in the solution of clustering problem. The proposed Modified Dunn Index was compared with the clustering fitness functions in the literature for clustering accuracy. On the other hand, the Particle Swarm Optimization method was compared with the Genetic Algorithm and Random Search methods in clustering analysis. Analysis was performed on five data sets used in the field of cluster analysis. The results of the analysis and the conducted statistical tests indicate that the proposed DDI fitnessfunction is successful in terms of clustering accuracy.

Kaynakça

Akgül, F. G., ve Başkır, M. B. (2013). Bankaların 2008-2012 Yılları Arasında Aktif Büyüklüklerini Etkileyen Kriterler Bakımından Hiyerarşik Kümeleme ve PAM Algoritması ile Sınıflandırılması. Bankacılık ve Sigortacılık Araştırmaları Dergisi, 1(5), 48-63.

Aladağ, C. H., Yolcu, U., Egrioğlu, E., ve Dalar, A. Z. (2012). A new time invariant fuzzy time series forecasting method based on particle swarm optimization. Applied Soft Computing, 12(10), 3291-3299.

Ali, Y. M. B. (2016). Unsupervised clustering based an adaptive particle swarm optimization algorithm. Neural Processing Letters, 44(1), 221-244.

Alswaitti, M., Albughdadi, M. ve Mat Isa, N. A. (2018). Density-Based Particle Swarm Optimization Algorithm For Data Clustering. Expert Systems With Applications, 91: 170-186.

Armano, G. ve Framani, M. R. (2016), Multiobjective Clustering Analysis Using Particle Swarm Optimization. Expert Systems With Applications, 55, 184–193.

Blake C. L. ve Merz C. J. (1998). UCI repository of machine learning databases..

Chen, C.-Y., ve Ye, F. (2004). Particle swarm optimization algorithm and its application to clustering analysis. In Proceedings of the 2004 IEEE International Conference on Networking, Sensing and Control, Taipei, Taiwan (pp. 789–794).

Cura, T. (2012). A particle swarm optimization approach to clustering. Expert Systems with Applications, 39(1), 1582- 1588.

Das, S., Abraham, A., ve Konar, A. (2008). Automatic kernel clustering with a multi-elitist particle swarm optimization algorithm. Pattern recognition letters, 29(5), 688-699.

Dunn, J. C. (1973). A fuzzy relative of the ISODATA process and its use in detecting compact well-separated clusters. Journal of Cybernetics, 3(3). 32-57.

Eberhart, R., ve Kennedy, J. (1995). A new optimizer using particle swarm theory. In MHS'95. Proceedings of the Sixth International Symposium on Micro Machine and Human Science (pp. 39-43). Ieee.

Esmin, A. A., Coelho, R. A., ve Matwin, S. (2015). A review on particle swarm optimization algorithm and its variants to clustering high-dimensional data. Artificial Intelligence Review, 44(1), 23-45.

Fidan, H. (2009). Pazarlama Bilgi Sistemi (Pbs) Ve Coğrafi Bilgi Sistemi (Cbs) Nin Pazarlamada Kullanimi. Journal of Yaşar University, 4(14), 2151-2171.

Halkidi, M., Batistakis, Y., ve Vazirgiannis, M. (2001). On clustering validation techniques. Journal of intelligent information systems, 17(2-3), 107-145.

Hamerly, G., ve Elkan, C. (2004). Learning the k in k-means. In Advances in neural information processing systems (pp. 281-288).

Hodges, J. L., ve Lehmann, E. L. (1962). Rank methods for combination of independent experiments in analysis of variance. The Annals of Mathematical Statistics, 33(2), 482-497.

Kao, Y. T., Zahara, E., ve Kao, I. W. (2008). A hybridized approach to data clustering. Expert Systems with Applications, 34(3), 1754-1762.

Maulik, U., ve Bandyopadhyay, S. (2000). Genetic algorithm-based clustering technique. Pattern recognition, 33(9), 1455-1465.

Omran, M. G., Salman, A., ve Engelbrecht, A. P. (2006). Dynamic clustering using particle swarm optimization with application in image segmentation. Pattern Analysis and Applications, 8(4), 332-344.

Ortakçı, Y. ve Göloğlu, C. (2012). Parçacık Sürü Optimizasyonu İle Küme Sayısının Belirlenmesi. Akademik Bilişim Akademik Bilişim’12 - XIV. Akademik Bilişim Konferansı Bildirileri 1 - 3 Şubat 2012 Uşak Üniversitesi, 335– 341.

Özekes, S. (2003). Veri Madenciliği Modelleri ve Uygulama Alanları. İstanbul Ticaret Üniversitesi Fen Bilimleri Dergisi, 2(3), 65-82.

Pakhira, M. K., Bandyopadhyay, S., ve Maulik, U. (2004). Validity index for crisp and fuzzy clusters. Pattern recognition, 37(3), 487-501.

Pakrashi, A., ve Chaudhuri, B. B. (2016). A Kalman filtering induced heuristic optimization based partitional data clustering. Information Sciences, 369, 704-717.

Pelleg, D., ve Moore, A. W. (2000, June). X-means: Extending k-means with efficient estimation of the number of clusters. In Icml (Vol. 1, pp. 727-734).

Rana, S., Jasola, S., ve Kumar, R. (2011). A review on particle swarm optimization algorithms and their applications to data clustering. Artificial Intelligence Review, 35(3), 211-222.

Selvi, H. Z., ve Çağlar, B. (2017). Çok Değişkenli Haritalama İçin Kümeleme Yöntemlerinin Kullanilmasi. Ömer Halisdemir Üniversitesi Mühendislik Bilimleri Dergisi, 6(2), 415-429.

Shelokar, P. S., Jayaraman, V. K., ve Kulkarni, B. D. (2004). An ant colony approach for clustering. Analytica Chimica Acta, 509, 187–195.

Shi, Y., ve Eberhart, R. C. (1999). Empirical study of particle swarm optimization. In Evolutionary Computation, 1999. CEC 99. Proceedings of the 1999 Congress on (Vol. 3, pp. 1945-1950). IEEE.

Turi, R. H. (2001). Clustering-based colour image segmentation (p. 446). PhD thesis: Monash University.

Van der Merwe, D. W., ve Engelbrecht, A. P. (2003, December). Data clustering using particle swarm optimization. In Evolutionary Computation, 2003. CEC'03. The 2003 Congress on (Vol. 1, pp. 215-220). IEEE.

Zhao, Q., Xu, M., ve Fränti, P. (2009). Sum-of-squares based cluster validity index and significance analysis. In International Conference on Adaptive and Natural Computing Algorithms (pp. 313-322). Springer, Berlin, Heidelberg

Kaynak Göster