K-ORTALAMALAR YÖNTEMİNİN BAŞLANGIÇ MERKEZ SEÇİM SORUNSALI ÜZERİNE BİR ÇALIŞMA

K-ortalamalar kümeleme yöntemi, belirli bir veri kümesindeki birimleri önceden belirlenmiş sayıda kümeye ayıran en basit, denetimsiz öğrenme algoritmalarından biridir. Bu yöntem diğer iteratif yöntemler gibi başlangıç olarak seçilen ve küme merkezi olarak atanan değer veya değerlere bağlı kalarak bir kümeleme gerçekleştirir. K-ortalamalar yönteminde; ilk adımı rastlantısal olarak seçilen küme merkezleri yardımıyla, veri kümesindeki tüm birimlerin bu merkez noktalara olan uzaklıkları dikkate alınarak, birimlerin ait olduğu kümeler belirlenir. Bu rastlantısal olarak seçilen küme merkezleri farklı küme yapıları oluşturabilmektedir. Bu çalışma da başlangıç küme merkezi seçim sorunsalının varlığının daha detaylı anlaşılması adına, sorunsalın gözlemlendiği bir kurgu çalışma oluşturulmuştur. Kurgu çalışmada birimlerin iki ve üç kümeye ayrışmak istendiği durum için, veriler öncelikli olarak veri setinde yer alan tüm olası başlangıç merkez verilerle k-ortalamalar kümeleme yöntemi uygulanarak ayrıştırılmış ve farklı küme yapılarının farklı sıklıklarla elde edildiği gözlemlenmiştir. Ayrıca sorunsalın varlığını daha detaylı incelemek adına, veri setine yakın ve uzak konumlarda olacak şekilde veri setinde yer almayan yeni birimler oluşturabilmek için bir yöntem geliştirilmiştir. Daha sonra yöntemle elde edilen yeni birimler, başlangıç merkez veri olarak ele alınarak, veri seti kümelere ayrılmış ve daha önce elde edilmeyen yeni küme yapıları gözlemlenmiştir. Çalışmanın son kısmında ise başka bir kurgu çalışma ile veri seti içinden veya veri seti dışından seçilen başlangıç merkez birimlerle farklı sonuçlar elde edilebileceği gösterilmiştir.

A CRITICAL OVERVIEW OF THE INITIAL CENTER SELECTION OF K-MEAN CLUSTERING ALGORITHM

The K-means clustering method is one of the simplest, unsupervised learning algorithms that divides the units of a given data set into a predetermined number of distinct clusters. This method, like other iterative methods, performs a cluster analysis based on initial center points which are randomly chosen. With the help of these initial center points, clusters belonging to similar data sets are determined and these randomly selected initial points may lead biased results. In addition, determining which of the results obtained from different initial centers is more valid is another main and important problem of K-mean cluster algorithm. To understand the existence of the initial center problem of K-mean clustering method, a fictitious study has been created. In the fictitious study, to determine and show the existence of the problem, we decided to partition the data set into two and three clusters with all possible initial centers from the data set. Since initial centers can get values from anywhere, we developed a simple algorithm to construct new initial centers, which are out of the data set. The new initial centers constructed are so near to units, which belongs to the data set, and the others are far away. In the second part of the fictitious study, we cluster the same data set with new (progressed) initial centers and examine the results from this analysis and we found different and new cluster sets which we could not construct with initial centers from the data set. In addition, we aimed to show there will be some different cluster groups, when we start the method with initial centers from the data-set and with initial centers from outside the data-set or with initial center points combining inside and outside.

___

Business and Management Studies: An International Journal-Cover
  • ISSN: 2148-2586
  • Yayın Aralığı: Yılda 4 Sayı
  • Başlangıç: 2013
  • Yayıncı: ACC Publishing