Bulanık Kümeleme Analizinde Parametre Seçiminin Etkisi

Kümeleme, grupları keşfetmek ve veri setinin altında yatan ilginç dağılımları ve kalıpları saptamak için veri madenciliği işleminde en yararlı yöntemlerden biridir. Kümeleme analizi verilen bir veri kümesini belirlenmiş özelliklere göre gruplara parçalama çabasıdır. Böylece bir grup içindeki veri noktaları, farklı gruptaki noktalara göre birbirine daha çok benzerdir. Kümeleme, sert veya bulanık modda gerçekleştirilebilir. Bulanık kümeleme analizinde sağlıklı ve anlamlı sonuçlara ulaşabilmek için önemli durum başlangıç parametrelerin belirlenmesidir. Kümeleme analizlerinde genel olarak başlangıç küme sayısına ihtiyaç vardır ancak bir veri kümesi için uygun küme sayısının önceden tahmin edilmesi alanın uzmanı için zor bir işlemdir. Bu çalışmada bu sorunun üstesinden gelebilmek için literatürdeki geçerlilik indeksleri araştırılmış ve genetik veri seti üzerinde uygulanmıştır. Sonuçlar basitçe analiz edilmiş olup bu indekslerin de her zaman en uygun sonuç vermediği görülmüştür.

Effect of Parameter Selection on Fuzzy Clustering

Clustering is one of the most useful tasks in data mining process for discovering groups and identifying interesting distributions and patterns in the underlying data. Cluster analysis seeks to partition given data set into groups based on specified features so that the data points within a group are more similar to each other than the points in different groups. Clustering can be performed in hard or fuzzy mode. One of the important conditions in order to reach accurate results in clustering analysis is to determine the initial parameters. In many studies, researchers do not have prior information about the number of clusters. Clustering algorithms in general need the number of clusters as a prior, which is mostly hard for domain expert to estimate. In this work, in order to overcome this problem, cluster validity indices in literature were reviewed and these indices were used in genetic data set. The result was simply analyzed and according to the analysis, validity indices do not always discover the optimal number of clusters.

___

  • Bezdek J.C., Fuzzy mathematics in pattern classification, Ph.D. Dissertation, Cornell University, Ithaca, NY, 1973.
  • Bezdek J.C., “Cluster validity with fuzzy sets”, J. Cybernet., 3, 58–73, 1974.
  • Bezdek J.C., Pattern Recognition with Fuzzy Objective Function Algorithms, Plenum Press, New York, 1981.
  • Dave R.N., “Validating fuzzy partition obtained through c-shells clustering”, Pattern Recognition Lett., 17, 613–623, 1996.
  • El-Melegy, M.T., Zanaty, E.A., Abd-Elhafiez, W.M. and Farag, A., "On cluster validity indexes in fuzzy and hard clustering algorithms for image segmentation”, IEEE international conference on computer vision, vol. 6, VI 5-8, 2007.
  • Fukuyama Y. and Sugeno M., “A new method of choosing the number of clusters for the fuzzy c-means method”, in: Proc. Fifth Fuzzy Systems Symp., 1989, pp. 247–250.
  • Hartigan J.A, Clustering Algorithms, Wiley, NewYork, 1975.
  • https://archive.ics.uci.edu/ml/datasets.html.
  • Kim, D. -W., Lee, K. H. and Lee, D., “On Cluster Validity Index for Estimation of the Optimal Number of Fuzzy Clusters”, Pattern Recognition, 37, pp.2009–2025, 2004.
  • Kwon S.H., “Cluster validity index for fuzzy clustering”, Electron. Lett. 34 (22), pp. 2176–2177, 1998.
  • Pakhira, M.K., Bandyopadhyay, S. and Maulik, U., “Validity index for crisp and fuzzy clusters”, Pattern Recognition, 37, 481–501, 2004.
  • Pal N.R. and Bezdek J.C., “On cluster validity for fuzzy c-means model”, IEEE Trans. Fuzzy Systems, 3 (3), 370–379, 1995.
  • Saad, M. F. and Alimi, A. M., “Validity index and number of clusters”, IJCSI International Journal of Computer Science, Vol. 9, Issue 1, No 3, 2012.
  • Xie X.L. and Beni G., “A validity measure for fuzzy clustering”, IEEE Trans. Pattern Anal. Mach. Intell., 13, 841–847, 1991.
  • Zahid N., Limouri M. and Essaid A., “A new cluster-validity for fuzzy clustering”, Pattern Recognition, 32, pp. 1089–1097, 1999.
  • Zanaty, E. A. and Afifi, A., “A new approach for automatic fuzzy clustering applied to magnetic resonance image clustering”, American Journal of Remote Sensing, 1(2), 38-46, 2013.