C4.5 Decision Tree Pruning Using Genetic Algorithm

Karar ağaçları sınıflandırma ve değer tahmini amacıyla kullanılan makina öğrenme algoritmalarından biridir. Karar ağaçlarını oluşturmak amacıyla birçok yaklaşım önerilmiştir. Bu yaklaşımlardan biri olan C4.5 karar ağaçları metodu birçok alanda sıklıkla kullanılmaktadır. Ağaç yapısını kurmada kullanılacak veri setinin nitelik sayısının fazla olması, ağaç yapısında gereksiz dallar ve düğüm noktalarına sebep olmaktadır. Bunun sonucunda gereksiz oluşturulan dallar ve düğüm noktaları aşırı öğrenmeye, aşırı öğrenme ise sınıflandırma başarı oranını olumsuz yönde etkilemektedir. Bu çalışmada aşırı öğrenmenin etkilerini azaltmak için yeni bir budama algoritması önerilmiştir. WEKA ortamında çalıştırılan C4.5 algoritmasının Güven Faktörü Confidence Factor genetik algoritma ile optimize edilerek başarılı sonuçlar elde edilmiştir

C4.5 Karar Ağaçlarında Genetik Algoritma ile Budama

Decision tree is a machine learning algorithm that is used for classification and regression. Many approaches were proposed to build decision trees. C4.5 decision tree that is one of these approaches, is frequently used in many fields. Large number of attributes of the data set that is used for building decision tree causes unnecessary branches and nodes on decision tree. Unnecessary branches and nodes cause overfitting. Overfitting negatively affects classification success rate. In this paper, a novel pruning algorithm is proposed to reduce the effects of overfitting. Successful results were obtained by optimizing confidence factor CF of C4.5 algorithm executed in Weka using genetic algorithm

___

  • J. R. Quinlan, C4.5: Programs for Machine Learning: Morgan Kaufmann, 1993.
  • J. R. Quinlan, “Induction of decision trees,” Machine Learning, vol. 1, pp. 81-106, 1986.
  • Breiman L, Friedman J, Olshen R, Stone C (1984) Classification and regression trees. Wadsworth International, Belmont.
  • Niblett T, Bratko I (1986) Learning decision rules in noisy domains. In: Proceedings of expert systems’86. Cambridge University Press, New York, pp 25–34.
  • J. R. Quinlan, “Simplifying decision trees,” Int. J. Hum.- Comput. Stud, vol. 51, pp. 497-510, 1999.
  • Jie Chen, Xizhao Wang, Junhai Zhai, “Pruning Decision Tree Using Genetic Algorithms” International Conference on Artificial Intelligence and Computational Intelligence, 2019, pp 244–248.
  • Esposito F, Malerba D, Semeraro G (1997) A comparative analysis of methods for pruning decision trees. IEEE Trans Pattern Anal Mach Intell 19(5):476–491.
  • T. Kavzaoğlu, İ. Çölkesen, “Karar Ağaçları İle Uydu Görüntülerinin Sınıflandırılması: Kocaeli Örneği”,Harita Teknolojileri Elektronik Dergisi , vol. 2, no:1, pp. 36-45, 2010.
  • Quinlan J.R., 1987, “Simplifying decision trees”, International Journal of Man-Machine Studies, 27, 221- 234.
  • I.B. Aydilek, A. Arslan, A hybrid method for imputation of missing values using optimized fuzzy c-means with support vector regression and a genetic algorithm, Information Sciences 233 (2013) 25–35.
  • T. Marwala, S. Chakraverty, Fault classification in structures with incomplete measured data using autoassociative neural networks and genetic algorithm, Curr. Sci. India 90 (2006) 542–548.
  • Lichman, M. (2013). UCI Machine Learning Repository [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science.