Hakan AKYOL, Hale Sema KIZILDUMAN, Tansel DÖKEROĞLU

Big data reduction and visualization using the K-means algorithm

Çağımızda her gün çok büyük miktarda veri üretiliyor. Yüksek performanslı işleme yaklaşımlarına ek olarak, bu veri miktarını (Terabayt'a kadar) verimli bir şekilde görselleştirmek büyük bir zorluk olmaya devam ediyor. Bu çalışmada, sağlanan büyük verilerin görsel kalitesini mümkün olduğunca yüksek tutan bir veri azaltma stratejisi olarak iyi bilinen kümeleme yöntemi K-araçlarını kullanıyoruz. Veri kümesinin merkezleri, verilerin dağıtım özelliklerini basit bir şekilde görüntülemek için kullanılır. Verilerimiz yeni bir Kaggle büyük veri setinden (Tıklama Oranı) gelir ve orijinal grafiklere kıyasla azaltılmış veri kümelerinde Box grafikleri kullanılarak görüntülenir. K-araçlarının, dağıtım bilgisi kalitesinden ödün vermeden orijinal verileri görüntülemek için büyük veri miktarını azaltmak için etkili bir strateji olduğu keşfedildi.

Anahtar Kelimeler:

büyük veri, veri azaltma, görselleştirme

Big data reduction and visualization using the K-means algorithm

A huge amount of data is being produced every day in our era. In addition to high-performance processing approaches, efficiently visualizing this quantity of data (up to Terabytes) remains a major difficulty. In this study, we use the well-known clustering method K-means as a data reduction strategy that keeps the visual quality of the provided huge data as high as possible. The centroids of the dataset are used to display the distribution properties of data in a straightforward manner. Our data comes from a recent Kaggle big data set (Click Through Rate), and it is displayed using Box plots on reduced datasets, compared to the original plots. It is discovered that K-means is an effective strategy for reducing the amount of huge data in order to view the original data without sacrificing its distribution information quality.

Keywords:

big data data reduction, visualization, k-means,

PDF

___

[1] Friendly, M. (2008). A brief history of data visualization. In Handbook of data visualization (pp. 15-56). Springer, Berlin, Heidelberg.
[2] Keim, D., Qu, H., & Ma, K. L. (2013). Big-data visualization. IEEE Computer Graphics and Applications, 33(4), 20-21.
[3] Andrienko, G., Andrienko, N., Drucker, S., Fekete, J. D., Fisher, D., Idreos, S., ... & Sharaf, M. (2020, March). Big data visualization and analytics: Future research challenges and emerging applications. In BigVis 2020-3rd International Workshop on Big Data Visual Exploration and Analytics.
[4] Agrawal, R., Kadadi, A., Dai, X., & Andres, F. (2015). Challenges and opportunities with big data visualization. In Proceedings of the 7th International Conference on Management of computational and collective intElligence in Digital EcoSystems (pp. 169-173).
[5] Ali, S. M., Gupta, N., Nayak, G. K., & Lenka, R. K. (2016). Big data visualization: Tools and challenges. In 2016 2nd International Conference on Contemporary Computing and Informatics (IC3I) (pp. 656-660). IEEE.
[6] Likas, A., Vlassis, N., & Verbeek, J. J. (2003). The global k-means clustering algorithm. Pattern recognition, 36(2), 451-461.
[7] Dokeroglu, T., Deniz, A., & Kiziloz, H. E. (2022). A Comprehensive Survey on Recent Metaheuristics for Feature Selection. Neurocomputing.
[8] Click-Through Rate (CTR), https://www.kaggle.com/datasets/louischen7/2020-digix-advertisement-ctr- prediction, 2022.

ISSN: 2717-9494
Yayın Aralığı: Yılda 2 Sayı
Başlangıç: 2013
Yayıncı: Ankara Bilim Üniversitesi

Arşiv

Sayıdaki Diğer Makaleler

Ender SEVİNÇ

Big data reduction and visualization using the K-means algorithm

Hakan AKYOL, Hale Sema KIZILDUMAN, Tansel DÖKEROĞLU

Sıhhiye Bölgesi Hava Kalitesi İndeksinin Aşırı Öğrenme Makineleri ve Yapay Sinir Ağları ile Tahmini

Burhan BARAN

Reverberation Effect on Online Hazardous Sound Event Detection

Yüksel ARSLAN