Sağdan sansürlü veriler için veri madenciliği algoritmaları performanslarının karşılaştırılması

Veri madenciliği algoritmaları ile gerçekleştirilen modelleme çalışmaları bilgisayar teknolojisinin gelişmesiyle birlikte artış göstermiştir. Ancak bu algoritmalar ile yapılan çalışmalarda veri kalitesinin bozulması elde edilecek sınıflandırma performanslarında önemli rol oynamaktadır. Bu çalışmada veri madenciliği sınıflandırma algoritmalarının performanslarının veri kalitesini bozan etmenlerden biri olan sansürlü verinin veri setinde yer alması durumunda nasıl etkilendiği incelenmiştir. Sansürlü verilerinin etkisini veri setinde gösterilebilmesi amacı ile K en yakın komşu algoritması (kNN) imputasyon yöntemi kullanılmıştır. Daha sonra sınıflandırma algoritmalarından olan Naive Bayes (NB), Lojistik Regresyon (LR) ve K en yakın komşu algoritması (kNN) ile uygulamalar gerçekleştirilmiştir. Yöntemlerin performanslarının incelenmesi için simülasyon çalışması ve gerçek veri seti çalışmaları yapılmış, sonuçlar sunulmuştur. Analiz sonuçlarına göre, yüksek sansür seviyesinde ve düşük sansür seviyesinde Lojistik Regresyon algoritmasının sansür ile baş etmede dikkate değer performans gösterdiği belirlenmiştir. Ayrıca örneklem büyüklüğü arttıkça genel olarak algoritmaların doğru sınıflama performanslarının arttığı gözlenmiştir. Özetle büyük örneklemeli veri setlerinde Lojistik Regresyon algoritmasının doğru sınıflandırma oranı ile başarılı sınıflandırma performansı gösterdiği söylenebilir.

Comparison of Data Mining Algorithms Performances for Right-Censored Data

Modeling studies performed with data mining algorithms have increased with the development of computer technology. However, the deterioration of data quality in studies with these algorithms plays an important role in the classification performances to be obtained. In this study, it has been examined how the performance of data mining classification algorithms is affected when censored data, which is one of the factors that deteriorates data quality, is included in the data set. In order to show the effect of the censored data in the data set, the K nearest neighbor algorithm (KNN) imputation method was used. Then, applications were carried out with Naive Bayes (NB), Logistic Regression (LR) and K nearest neighbor algorithm (KNN), which are among the classification algorithms. To inspect the performance of the mentioned methods, simulation study and real data example are carried out. According to the results of the analysis, it was determined that Logistic Regression algorithm at high and low censorship level showed remarkable performance in dealing with censorship. In addition, it was observed that the correct classification performance of the algorithms increased as the sample size increased. In summary, it can be said that the correct classification success of Logistic Regression algorithm in data sets with large samples show successful classification performance with values.

___

  • Ahmed, S. E., Aydin, D., & Yılmaz, E. (2020). Nonparametric regression estimates based on imputation techniques for right-censored data. Advances in Intelligent Systems and Computing, 1001, 109–120. https://doi.org/10.1007/978-3-030-21248-3_8
  • Akpınar, H. (2014). Data : Veri Madenciliği Veri Analizi (Genişletil). Papatya Bilim Yayınevi.
  • Alpar, R. (2013). Çok Değişkenli İstatistiksel Yöntemler. Detay Yayıncılık.
  • Aydin, D., & Yilmaz, E. (2018). Modified spline regression based on randomly right-censored data: A comparative study. Communications in Statistics: Simulation and Computation, 47(9), 2587–2611. https://doi.org/10.1080/03610918.2017.1353615
  • Balaban, M. E., & Kartal, E. (2015). Veri Madenciliği ve Makine Öğrenmesi Temel Algoritmaları ve R Dili İle Uygulamaları (Birinci Ba). Çağlayan Kitapevi.
  • Bandyopadhyay, S., Wolfson, J., Vock, D. M., Vazquez-Benitez, G., Adomavicius, G., Elidrisi, M., Johnson, P. E., & O’Connor, P. J. (2015). Data mining for censored time-to-event data: a Bayesian network model for predicting cardiovascular risk from electronic health record data. In Data Mining and Knowledge Discovery (Vol. 29, Issue 4, pp. 1033–1069). https://doi.org/10.1007/s10618-014-0386-6
  • Batista, G. E. A. P. A., & Monard, M. C. (2002). A study of k-nearest neighbour as an imputation method. In Frontiers in Artificial Intelligence and Applications (Vol. 87, pp. 251–260).
  • Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
  • Bramer, M. (2007). Principles of Data Mining. Undergraduate Topics in Computer Science. Springer Verlag.
  • Davidson, I., & Tayi, G. (2009). Data preparation using data quality matrices for classification mining. In European Journal of Operational Research (Vol. 197, Issue 2, pp. 764–772). https://doi.org/10.1016/j.ejor.2008.07.019
  • Eröz, İ., & Tutkun, N. A. (2020). Aralıklı Sansürlü Veriler için Sağkalım Modelleri. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi, 24(2), 267–280. https://doi.org/DOI: 10.19113/sdufenbed.652776
  • Frank, E., Hall, B., & Pfahringer, B. (2003). Locally weighted naive bayes. Proceedings of Conference on Uncertainty in Artificial Intelligence, 249–256.
  • Gamgam, H., & Altunkaynak, B. (2017). SPSS Uygulamalı Regresyon Analizi (2. Basım). Seçkin Kitapevi. Gijbels, I. (2010). Censored data. Wiley Interdisciplinary Reviews: Computational Statistics, 2(2), 178–188. https://doi.org/10.1002/wics.80
  • Goldberg, Y., & Kosorok, M. R. (2012). Q-learning with censored data. Annals of Statistics, 40(1), 529–560. Guo, G., Wang, H., Bell, D., Bi, Y., & Greer, K. (2003). KNN Model-Based Approach in Classification. In R. Meersman, Z. Tari, & D. C. Schmidt (Eds.), On The Move to Meaningful Internet Systems 2003: CoopIS, DOA, and ODBASE (pp. 986–996). Springer Berlin Heidelberg.
  • Han, J., Kamber, M., & Pei, J. (2012). Data Mining Concepts and Techniques (Third Edit). Morgan Kaufman Publishers. Harrington, P. (2012). Machine Learning In Action. Manning Publications.
  • Hosmer, D. W., Lemeshov, S., & Sturdivant, R. X. (2013). Applied Logistic Regression (Third Edit). John Wiley & Sons, Inc.
  • Ishwaran, H., Kogalur, U. B., Blackstone, E. H., & Lauer, M. S. (2008). Random survival forests. Ann. Appl. Stat., 2(3), 841–860.
  • Khan, F. M., & Zubek, V. B. (2008). Support vector regression for censored data (SVRc): A novel tool for survival analysis. Proceedings - IEEE International Conference on Data Mining, ICDM, 863–868. https://doi.org/10.1109/ICDM.2008.50
  • Lewis, N. D. (2017). Machine Learning Made Easy with R: An Intuitive Step by Step Blueprint for Beginners. CreateSpace Independent Publishing Platform.
  • McNamara, J. M., Green, R. F., & Olsson, O. (2006). Bayes’ Theorem and Its Applications in Animal Behaviour. Oikos, 112(2), 243–251. http://www.jstor.org/stable/3548663
  • Mucherino, A., Papajorgji, P. J., & Paradalos, P. M. (2009). Data Mining In Agriculture. Springer.
  • Mulla, G. A. A., Demir, Y., & Hassan, M. (2021). Combination of PCA with SMOTE Oversampling for Classification of High-Dimensional Imbalanced Data. Bitlis Eren Üniversitesi Fen Bilimleri Dergisi, 10(3), 858–869. https://doi.org/10.17798/bitlisfen.939733
  • Özdamar, K. (2019). Paket Programları İle İstatistiksel Veri Analizi-1 (11. Baskı). Nisan Kitapevi.
  • Özkan, Y. (2008). Veri Madenciliği Yöntemleri. Papatya Yayınevi.
  • Saygin, E., & Baykara, M. (2021). Karaciğer Yetmezliği Teşhisinde Özellik Seçimi Kullanarak Makine Öğrenmesi Yöntemlerinin Başarılarının Ölçülmesi. Fırat Üniversitesi Mühendislik Bilimleri Dergisi, 33(2), 367–377.
  • Shivaswamy, P. K., Chu, W., & Jansche, M. (2007). A support vector approach to censored targets. Proceedings - IEEE International Conference on Data Mining, ICDM, 655–660. https://doi.org/10.1109/ICDM.2007.93
  • Silahtaroğlu, G. (2013). Veri Madenciliği Kavram ve Algoritmaları. Papatya Yayınevi.
  • Štajduhar, I., Dalbelo-Bašić, B., & Bogunović, N. (2009). Impact of censoring on learning Bayesian networks in survival modelling. In Artificial Intelligence in Medicine (Vol. 47, Issue 3, pp. 199–217). https://doi.org/10.1016/j.artmed.2009.08.001
  • Vock, D. M., Wolfson, J., Bandyopadhyay, S., Adomavicius, G., Johnson, P. E., Vazquez-Benitez, G., & O’Connor, P. J. (2016). Adapting machine learning techniques to censored time-to-event health record data: A general-purpose approach using inverse probability of censoring weighting. Journal of Biomedical Informatics, 61, 119-131. https://doi.org/https://doi.org/10.1016/j.jbi.2016.03.009
  • Yılmaz, E., & Aydın, D. (2019). Regresyon Analizinde Sağdan Sansürlü Veriler İçin Önerilen Çözüm Yöntemleri Üzerine Bir İnceleme. Turkiye Klinikleri Journal of Biostatistics, 11(3), 224–238. https://doi.org/10.5336/biostatic.2019-66838
  • Zhu, J., Ge, Z., Song, Z., & Gao, F. (2018). Review and big data perspectives on robust data mining approaches for industrial process modeling with outliers and missing data. Annual Reviews in Control, 46(1), 107–133. https://doi.org/https://doi.org/10.1016/j.arcontrol.2018.09.003