Genetik Algoritma Kullanılarak Verilerin Karma Normal Modele Dayalı Kümelenmesi

Bu çalışmada, çok değişkenli homojen ve heterojen büyük verilerin kümelemesi için yeni bir kümeleme algoritması geliştirildi. Heterojen verideki parçalanmalar, kümelerin sayısını ve yerini belirler. Heterojen verilerdeki parçalanmaların sayısı, hem grafiksel hem de hesaplamalı yöntemlere dayalı olarak belirlenir. Grafiksel yöntemlerde her bir değişkenin olasılık grafikleri, hesaplamalı yöntemlerde ise her değişkenin tek değişkenli normal karma dağılımları kullanılır. Genetik algoritmalar, heterojen verideki parçalanmalara karşılık gelen kümelenme merkezlerinin yerini ve yapısını belirlemede kullanılır. Kümelenme merkezlerinin sayısı ve yapısına dayalı belirlenen modeller Normal karma dağılımlar kullanılarak elde edilir. Karma normal modellerdeki her bir küme merkezi, değişkenlerdeki parçalanmalara karşılık gelir.  Karma normal modeller arasından veri yapısına uyan en iyi karma model normal karma dağılımlardan elde edilen bilgi kriterleri kullanılarak elde edilir.

___

  • [1] Fraley, C. and Raftery, A. E. (2002). Model-Based Clustering, Discriminant Analysis, and Density Estimation. Journal of the American Statistical Association, 97, 611-631.
  • [2] Fraley, C. and Raftery, A. E., 1998. How Many Clusters? Which Clustering Method? Answers via Model-Based Cluster Analysis. The Computer Journal, 41, 578-588.
  • [3] McLachlan, G. J. and Chang, S. U. (2004). Mixture Modelling for Cluster Analysis. Statistical Methods in Medical Research 13, 347-361.
  • [4] Galimberti, G. and Soffritti, G. (2007). Model-based methods to identify multiple cluster structures in a data set. Computational Statistics and Data Analysis. doi 10.1016/j.csda.2007.02.019.
  • [5] Seo, B. and Kim, D. (2012). Root selection in normal mixture models. Computational Statistics and Data Analysis. 56, 2454-2470.
  • [6] Nguyen, T. T., Liew, A. W. C., Tran, M. T., & Nguyen, M. P. (2014, August). Combining multi classifiers based on a genetic algorithm–a gaussian mixture model framework. In International Conference on Intelligent Computing (pp. 56-67). Springer, Cham.
  • [7] McLachlan, G. J. and Krishnan, T. (1997). The EM Algorithm and Extensions. New York, Wiley.
  • [8] Akaike, H., 1974. A new look at the statistical model identification. IEEE Transactions on Automatic Control 19 (6): 716–723.
  • [9] Schwarz, G., 1978. Estimating the dimension of a model, Ann. Statist. 6 pp. 461–464.
  • [10] Servi, T. and Erol, H., 2007. On Total Number Of Candidate Component Cluster Centers And Total Number of Candidate Mixture Models In Model Based Clustering. Selçuk Journal of Applied Mathematics Vol.8. No.2. pp. 57 – 69.
  • [11] Erol, H. Gogebakan, M. Erol, R. (2017) Grid Structures and Orientations Of Clusters Using Discretization Of Variables In Big Data. Proceedings of International Conference on Engineering, Technology, and Applied Science ICETA 2017, ISSN 2411-9318, pp. 16-31.
  • [12] Gogebakan, M., & Erol, H. (2018). A New Semi-supervised Classification Method Based on Mixture Model Clustering for Classification of Multispectral Data. Journal of the Indian Society of Remote Sensing, 46(8), 1323-1331.
  • [13] Akogul, S., & Erisoglu, M. (2017). An Approach for Determining the Number of Clusters in a Model Based Cluster Analysis. Entropy, 19(9), 452–0
  • [14] Gogebakan, M., & Erol, H. (2019). Mixture Model Clustering Using Variable Data Segmentation and Model Selection: A Case Study of Genetic Algorithm, Mathematics Letters. Vol. 5, No. 2, 2019, pp. 23-32. doi: 10.11648/j.ml.20190502.12
  • [15] Cheballah, H., Giraudo, S., & Maurice, R., 2015. Hopf algebra structure on packed square matrices. Journal of Combinatorial Theory, Series A, 133, 139-182.