Kübik Smoothing Spline ve Robust Regresyon Kullanılarak Özellik Seçimi

Bu çalışmada sınıflandırma uygulamaları için kübik smoothing spline ve robust regresyonun kombinasyonu temelli etkili bir özellik seçim yaklaşımı sunulmuştur. Altı farklı veri seti önerilen özellik seçim algoritmasını test etmek için kullanılmıştır. İlgili sınıflandırma uygulamasında verisetinin %50’si kullanılarak her bir özellik değeri için kübik smoothing spline ve robust regresyon terimleri hesaplandı. Önerilen algoritmanın başarısı K. En Yakın Komşu Algoritması ve Diskriminant analizi kullanılarak değerlendirilmiştir. Elde edilen benzetim sonuçları önerilen özellik seçim yaklaşımının daha az özellik sayısıyla yüksek sınıflandırma başarı oranına sahip olduğunu göstermektedir. Örneğin Kalp Statlog veri seti sınıflandırma probleminde önerilen özellik seçim algoritması kullanmadan önce KNN K=5 için ile 13 özellik değeri için %66.6 sınıflandırma doğruluğu elde edilirken, önerilen özellik seçim yaklaşımı kullanılarak 6 özellik ile %83.7 sınıflandırma başarısı elde edilmiştir

Feature Selection Using Cubic Smoothing Spline and Robust Regression

An efficient feature selection approach based on the combination of cubic smoothing spline and robust regression is presented for classification applications in this study. Six different data sets are used to test the proposed feature selection algorithm. Cubic smoothing spline and robust regression terms are calculated for each attributes in related classification application with %50 of dataset. The success of proposed algorithm is evaluated by using K-Nearest Neighbor KNN algorithm and Discriminant analysis. Obtained simulation results show that proposed feature selection approach has high classification accuracy rate with fewer number of features. For example, in the Heart Statlog dataset classification problem, 66.6% classification accuracy is obtained for KNN K = 5 and 13 feature values before using the feature selection algorithm, using the proposed feature selection approach, a classification success of 83.7% is achieved by using 6 features.

___

  • Chen, C. 2002. Robust Regression and Outlier Detection with the ROBUSTREG Procedure. Proceedings of the 27th SAS Users Group Int. Conference, Cary NC: SAS Institute, Inc.
  • Dasarathy, BV. 1991. Nearest Neighbor (NN) Norms: NN pattern classification techniques. IEEE Computer Society Press, Los Alamitos, CA.
  • Fukunaga, K. 1990. Introduction to Statistical Pattern Recognition, 2nd ed., San Diego, CA: Academic.
  • Hyndman, RJ., King, ML., Pitrun, I., Billah, B. 2005. Local Linear Forecasts Using Cubic Smoothing Splines. Aust. N. Z. J. Stat., 47: 87–99.