Bölümleyici kümeleme algoritmalarının farklı veri yoğunluklarında karşılaştırılması

Teknolojinin yaygın kullanılmasının neticesinde hacmi her geçen gün artan büyük veri yığınları ortaya çıkmaya başlamıştır . Bu k adar büyük boyutta verinin analizi ve içindeki herhangi bir bilgiye ulaşmak basit inceleme yöntemleriyle oldukça zor olduğundan veri madenciliği devreye girmiştir . Veri madenciliği , çok büyük veri tabanlarından , önceden bilinemeyen , geçerli ve kullanılabilir bilginin çıkarılma işlemi olarak ifade edilmektedir . Başka bir deyişle veri madenciliği , çok büyük veri tabanlarındaki ya da veri ambarlarındaki veriler arasında bulunan ilişkiler , örüntüler , değişiklikler , sa pma ve eğilimler , belirli yapılar gibi ilginç bilgilerin ortaya çıkarılması işlemidir . Veri madenciliği alanında son zamanlarda yaygın bir şekilde kullanılan yöntemlerden biri kümeleme yöntemidir. Kümeleme, veri kümesi ndeki bilgileri farklı kümelere ayırarak küme içindeki verilerin özelliklerinin benzerlik oranı minimum ve kümeler arasında benzerlik oranını maksimum yapmaktadır. Bu çalışmada bölümleyici kümeleme yöntemleri ele alınarak farklı dağılımlı veri setleri üzerinde bölümleyici kümeleme algoritmalarının karşılaştırması gerçekleştirilmiştir. Bölümleyici kümeleme algoritmaları arasından " k - ortalama " ve " çekirdek k - ortalama " algoritmaları seçilmiştir. Farklı dağılımlı veri setlerini kümeleyerek iki algoritmanın hızı, küm eleme kalitesi ve bellek kaplaması açısından bilgiler elde edilmiş ve bu bilgiler ışığında iki algoritmanın karşılaştırma sonuçları sunulmuştur.

Comparison of partitioning-based clustering algorithms on differently distributed data

As a result of widespread use of technology , large volumes of collected data began to emerge . It is impossible to discover and analyze any information in large data like this , so in this case data mining comes into play . Data mining is a process that discovers unpredictable and usable knowledge from databases. In other words, data mining is defined as the process of finding relation patterns, changes, deviations and trends, as well as interesting in formation specific structures from large databases. One of the widely used data mining methods is a method of clustering. Clustering divides the data set into different clusters, and it tries to make the likelihood ratio as minimum inside the cluster and a s maximum among other clusters depending on the options in the database. In this study, partitioning - based clustering methods are discussed by applying them on data sets with different distribution patterns. We used "k - means" and "kernel k - means" partition ing algorithms for clustering data sets. By applying clustering operations on differently distributed data sets, we compared the speed, clustering quality and the size of memory usage for these algorithms. The information that we gathered by this compariso n is presented and discussed in the related sections of this paper.

___

  • Keselj, V. and Liu , H., 2007. Combined mining of Web server logs and web contents for classifying user navigation patterns and predicting users future requests, ScinceDirect digital library,61(2),304-330.
  • Dujovne, E., Huillier, G. and Vela´squez, D., 2007. Extracting significant Website Key Objects: A Semantic Web mining approach, ScinceDirect digital library, 24(8), 1532-1541.
  • Internet: Istanbul Üniversitesi “Veri Tabanlarında Bilgi Keşfi http://www.istanbul.edu.tr/isletme/dergi/nisan2000/1.HT M. Madenciliği”, 13.12.2012.
  • Bouveyron, C. and Brunet-Saumard, C., 2012. Model- based clustering of high-dimensional data: A review, Elsevier.
  • Isa, N.A.M, and Noraini Sulaiman, S., 2010. Adaptive Fuzzy- Clustering Algorithm for Image Segmentation, IEEE digital library, 56(4), 2661 – 2668.
  • Su, X. and Wang, J., 2011. An improved k-ortalama clustering algorithm, IEEE digital library, 12229842(978- 1-61284-485-5), 44-46.
  • Fan, A. and Ren, S., 2011. k-ortalama Clustering Algorithm Based On Coefficient Of Variation, IEEE digital library, 12439403(978-1-4244-9304-3), 2076 – 2079.
  • Chen, J., Li, D. and Shen, H., 2009. A Fast k-ortalama Clustering Algorithm Based on Grid Data Reduction, IEEE digital library, 9980042(1095-323X), 1 – 6.
  • Eswara Reddy, B., Viswanath , P. and Hitendra Sarma, T., 2012. A hybrid approach to speed-up the k-ortalama clustering method, Springer-Verlag , 4(2), 107-117.
  • Chang, D. and Xian, W., 2009. A genetic algorithm with gene rearrangement for k-ortalama clustering. Pattern Recognition, IEEE digital library, 42(7), 1210-1222.
  • Bagirov, A.M., Ugon, J. and Webb, D., 2011. Fast modified global k-ortalama algorithm for incremental cluster SinceDirect,36(2), 451-461. Pattern Recognition,
  • Binti, W., Herawan, T., Maseri, W., Mohd, A.H. and K.F.Rabbi, 2011. An Improved Parameter less Data Clustering Technique based on Maximum Distance of Data and Lioyd k-ortalama Algorithm, SinceDirect, 1, 367-371.
  • Jana Prasanta and K.,Reddy, D., 2012. Initialization for k- ortalama clustering using Voronoi diagram, Elsevier Ltd., 4, 395–400.
  • Brunsch, T., Röglin, H., 2012. A bad instance for k- ortalama++, in press, Elsevier.
  • Mozafari, B., Thakkar, H. and Zaniolo, C., 2008. A Data Stream Mining System, IEEE digital library, 978-0-7695- 3503-6 (10453400), 987 – 990.
  • Kaya, H. ve Köymen, K., 2008. Veri Madenciliği Kavramı Ve Uygulama Alanları, Maltepe ünüversitesi-istanbul.
  • Na, S., Xumin, L., and Yong, G., 2010. Research on k- ortalama Clustering Algorithm An Improved k-ortalama Clustering Algorithm, IEEE digital library, 978-1-4244- 6730-3(11261758), 63 – 67.
  • Jiawei, H., 2006. Cluster Analysis, Data Mining: Concepts and Techniques, 13, Elsevier Inc., U.S.A, 383-464.
  • Albayrak S., and Tekbir, M., 2010. Recursive-Partitioned DBSCAN, 3(11688290), 113 – 116. library, 978-1-4244-9672
  • Su, X. and Wang J., 2011. An improved k-ortalama clustering algorithm, IEEE digital library, 978-1-61284-485- 5(12229842), 44 – 46.
  • Foresti, G.L., Piciarelli, C., Micheloni, C., 2013. Çekirdek- based clustering, IET digital library, 19(42), 113-114.
  • Eswara Reddy, B., Hitendra Sarma, T., Viswanath, P., 2012. Speeding-up the çekirdek k-ortalama clustering method: A prototype based hybrid approach, SinceDirect, 34(5), 564- 573.
  • Eswara Reddy, B., Hitendra Sarma, T., Viswanath, P., 2012. A Fast Approximate Çekirdek k-ortalama Clustering Method For Large Data sets, IEEE digital library, 978-1-4244-9477 (11), 545-550.
  • Hirschberg J., and Rosenberg, A., 2007. V-Measure: A conditional entropy-based external cluster evaluation Measure, citeseer,410–420.
Erciyes Üniversitesi Fen Bilimleri Enstitüsü Fen Bilimleri Dergisi-Cover
  • ISSN: 1012-2354
  • Yayın Aralığı: Yılda 3 Sayı
  • Başlangıç: 1985
  • Yayıncı: Erciyes Üniversitesi
Sayıdaki Diğer Makaleler

Kaolin kilinin dinamik mukavemet özellikleri

Çiğdem TİPİ, Zülküf KAYA, Hacı Bekir KARA

Şekil hatırlamalı conial alaşımlarının kristalografik özelikleri

Murat ESKİL, Eyyüp SEVAL, Ahmet Çetin AKİS

Beyaz mahlep (Prunus mahaleb L.) çekirdeğinin bazı karakteristik özelliklerinin ve çekirdek yağının yağ asidi kompozisyonunun belirlenmesi

Rasim Alper ORAL

Melek balığı (Pterophyllum scalare Lictenstein, 1823) yemlerine pediococcus acidilactici ilavesinin büyüme ve yaşama oranı üzerine etkileri

Nalan Özgür YİĞİT, Seval Bahadir KOCA, Arife DULLUÇ, Behire İşıl DİDİNEN, İbrahim DİLER

Et ve et ürünlerinde baharatların doğal antioksidan ve antimikrobiyel olarak kullanımı

Lütfiye EKİCİ, İsmet ÖZTÜRK, Osman SAĞDIÇ, Hasan YETİM

Depolama koşullarının optik beyaz ve reaktif boyarmadde ile boyanmış tekstil materyallerinin performans özelliklerine etkisi

Meliha OKTAV BULUT, Kadri AKÇALI

Kızılkaya (Sevinçli / Aksaray) ignimbiritinin jeolojisi ve yapıtaşı olarak kullanılabilirliğinin araştırılması

Mustafa YILDIZ, Ahmet YILDIZ, Asuman KAHYA, Sevgi GÜRCAN

Bölümleyici kümeleme algoritmalarının farklı veri yoğunluklarında karşılaştırılması

Hüssein Ridha Ali ALZAND, Hacer KARACAN

Geogrid donatılı gevşek kum zemine oturan çok kenarlı yüzeysel temellerin deneysel analizi

Burakbey DAVARC, Murat ÖRNEK, Yakup TÜREDİ

XR4151 gerilim-frekans çevirici tümdevresinin çalışmasının bilgisayar ortamında benzetimi

Erdem ÖZÜTÜRK