Bölümleyici kümeleme algoritmalarının farklı veri yoğunluklarında karşılaştırılması

Teknolojinin yaygın kullanılmasının neticesinde hacmi her geçen gün artan büyük veri yığınları ortaya çıkmaya başlamıştır . Bu k adar büyük boyutta verinin analizi ve içindeki herhangi bir bilgiye ulaşmak basit inceleme yöntemleriyle oldukça zor olduğundan veri madenciliği devreye girmiştir . Veri madenciliği , çok büyük veri tabanlarından , önceden bilinemeyen , geçerli ve kullanılabilir bilginin çıkarılma işlemi olarak ifade edilmektedir . Başka bir deyişle veri madenciliği , çok büyük veri tabanlarındaki ya da veri ambarlarındaki veriler arasında bulunan ilişkiler , örüntüler , değişiklikler , sa pma ve eğilimler , belirli yapılar gibi ilginç bilgilerin ortaya çıkarılması işlemidir . Veri madenciliği alanında son zamanlarda yaygın bir şekilde kullanılan yöntemlerden biri kümeleme yöntemidir. Kümeleme, veri kümesi ndeki bilgileri farklı kümelere ayırarak küme içindeki verilerin özelliklerinin benzerlik oranı minimum ve kümeler arasında benzerlik oranını maksimum yapmaktadır. Bu çalışmada bölümleyici kümeleme yöntemleri ele alınarak farklı dağılımlı veri setleri üzerinde bölümleyici kümeleme algoritmalarının karşılaştırması gerçekleştirilmiştir. Bölümleyici kümeleme algoritmaları arasından " k - ortalama " ve " çekirdek k - ortalama " algoritmaları seçilmiştir. Farklı dağılımlı veri setlerini kümeleyerek iki algoritmanın hızı, küm eleme kalitesi ve bellek kaplaması açısından bilgiler elde edilmiş ve bu bilgiler ışığında iki algoritmanın karşılaştırma sonuçları sunulmuştur.

Anahtar Kelimeler:

kümeleme algoritmaları, kümeleme analizi

Comparison of partitioning-based clustering algorithms on differently distributed data

As a result of widespread use of technology , large volumes of collected data began to emerge . It is impossible to discover and analyze any information in large data like this , so in this case data mining comes into play . Data mining is a process that discovers unpredictable and usable knowledge from databases. In other words, data mining is defined as the process of finding relation patterns, changes, deviations and trends, as well as interesting in formation specific structures from large databases. One of the widely used data mining methods is a method of clustering. Clustering divides the data set into different clusters, and it tries to make the likelihood ratio as minimum inside the cluster and a s maximum among other clusters depending on the options in the database. In this study, partitioning - based clustering methods are discussed by applying them on data sets with different distribution patterns. We used "k - means" and "kernel k - means" partition ing algorithms for clustering data sets. By applying clustering operations on differently distributed data sets, we compared the speed, clustering quality and the size of memory usage for these algorithms. The information that we gathered by this compariso n is presented and discussed in the related sections of this paper.

Keywords:

clustering algorithms, clustering analysis,

PDF

___

Keselj, V. and Liu , H., 2007. Combined mining of Web server logs and web contents for classifying user navigation patterns and predicting users future requests, ScinceDirect digital library,61(2),304-330.
Dujovne, E., Huillier, G. and Vela´squez, D., 2007. Extracting significant Website Key Objects: A Semantic Web mining approach, ScinceDirect digital library, 24(8), 1532-1541.
Internet: Istanbul Üniversitesi “Veri Tabanlarında Bilgi Keşfi http://www.istanbul.edu.tr/isletme/dergi/nisan2000/1.HT M. Madenciliği”, 13.12.2012.
Bouveyron, C. and Brunet-Saumard, C., 2012. Model- based clustering of high-dimensional data: A review, Elsevier.
Isa, N.A.M, and Noraini Sulaiman, S., 2010. Adaptive Fuzzy- Clustering Algorithm for Image Segmentation, IEEE digital library, 56(4), 2661 – 2668.
Su, X. and Wang, J., 2011. An improved k-ortalama clustering algorithm, IEEE digital library, 12229842(978- 1-61284-485-5), 44-46.
Fan, A. and Ren, S., 2011. k-ortalama Clustering Algorithm Based On Coefficient Of Variation, IEEE digital library, 12439403(978-1-4244-9304-3), 2076 – 2079.
Chen, J., Li, D. and Shen, H., 2009. A Fast k-ortalama Clustering Algorithm Based on Grid Data Reduction, IEEE digital library, 9980042(1095-323X), 1 – 6.
Eswara Reddy, B., Viswanath , P. and Hitendra Sarma, T., 2012. A hybrid approach to speed-up the k-ortalama clustering method, Springer-Verlag , 4(2), 107-117.
Chang, D. and Xian, W., 2009. A genetic algorithm with gene rearrangement for k-ortalama clustering. Pattern Recognition, IEEE digital library, 42(7), 1210-1222.
Bagirov, A.M., Ugon, J. and Webb, D., 2011. Fast modified global k-ortalama algorithm for incremental cluster SinceDirect,36(2), 451-461. Pattern Recognition,
Binti, W., Herawan, T., Maseri, W., Mohd, A.H. and K.F.Rabbi, 2011. An Improved Parameter less Data Clustering Technique based on Maximum Distance of Data and Lioyd k-ortalama Algorithm, SinceDirect, 1, 367-371.
Jana Prasanta and K.,Reddy, D., 2012. Initialization for k- ortalama clustering using Voronoi diagram, Elsevier Ltd., 4, 395–400.
Brunsch, T., Röglin, H., 2012. A bad instance for k- ortalama++, in press, Elsevier.
Mozafari, B., Thakkar, H. and Zaniolo, C., 2008. A Data Stream Mining System, IEEE digital library, 978-0-7695- 3503-6 (10453400), 987 – 990.
Kaya, H. ve Köymen, K., 2008. Veri Madenciliği Kavramı Ve Uygulama Alanları, Maltepe ünüversitesi-istanbul.
Na, S., Xumin, L., and Yong, G., 2010. Research on k- ortalama Clustering Algorithm An Improved k-ortalama Clustering Algorithm, IEEE digital library, 978-1-4244- 6730-3(11261758), 63 – 67.
Jiawei, H., 2006. Cluster Analysis, Data Mining: Concepts and Techniques, 13, Elsevier Inc., U.S.A, 383-464.
Albayrak S., and Tekbir, M., 2010. Recursive-Partitioned DBSCAN, 3(11688290), 113 – 116. library, 978-1-4244-9672
Su, X. and Wang J., 2011. An improved k-ortalama clustering algorithm, IEEE digital library, 978-1-61284-485- 5(12229842), 44 – 46.
Foresti, G.L., Piciarelli, C., Micheloni, C., 2013. Çekirdek- based clustering, IET digital library, 19(42), 113-114.
Eswara Reddy, B., Hitendra Sarma, T., Viswanath, P., 2012. Speeding-up the çekirdek k-ortalama clustering method: A prototype based hybrid approach, SinceDirect, 34(5), 564- 573.
Eswara Reddy, B., Hitendra Sarma, T., Viswanath, P., 2012. A Fast Approximate Çekirdek k-ortalama Clustering Method For Large Data sets, IEEE digital library, 978-1-4244-9477 (11), 545-550.
Hirschberg J., and Rosenberg, A., 2007. V-Measure: A conditional entropy-based external cluster evaluation Measure, citeseer,410–420.