Feature Selection Using Cubic Smoothing Spline and Robust Regression

An efficient feature selection approach based on the combination of cubic smoothing spline and robust regression is presented for classification applications in this study. Six different data sets are used to test the proposed feature selection algorithm. Cubic smoothing spline and robust regression terms are calculated for each attributes in related classification application with %50 of dataset. The success of proposed algorithm is evaluated by using K-Nearest Neighbor (KNN) algorithm and Discriminant analysis. Obtained simulation results show that proposed feature selection approach has high classification accuracy rate with fewer number of features. For example, in the Heart(Statlog) dataset classification problem, 66.6% classification accuracy is obtained for KNN (K = 5) and 13 feature values before using the feature selection algorithm, using the proposed feature selection approach, a classification success of 83.7% is achieved by using 6 features.

Kübik Smoothing Spline ve Robust Regresyon Kullanılarak Özellik Seçimi

seçim yaklaşımı sunulmuştur. Altı farklı veri seti önerilen özellik seçim algoritmasını test etmek için kullanılmıştır. İlgili sınıflandırma uygulamasında verisetinin %50’si kullanılarak her bir özellik değeri için kübik smoothing spline ve robust regresyon terimleri hesaplandı. Önerilen algoritmanın başarısı K. En Yakın Komşu Algoritması ve Diskriminant analizi kullanılarak değerlendirilmiştir. Elde edilen benzetim sonuçları önerilen özellik seçim yaklaşımının daha az özellik sayısıyla yüksek sınıflandırma başarı oranına sahip olduğunu göstermektedir. Örneğin Kalp(Statlog) veri seti sınıflandırma probleminde önerilen özellik seçim algoritması kullanmadan önce KNN (K=5 için) ile 13 özellik değeri için %66.6 sınıflandırma doğruluğu elde edilirken, önerilen özellik seçim yaklaşımı kullanılarak 6 özellik ile %83.7 sınıflandırma başarısı elde edilmiştir.

Kaynakça

Chen, C. 2002. Robust Regression and Outlier Detection with the ROBUSTREG Procedure. Proceedings of the 27th SAS Users Group Int. Conference, Cary NC: SAS Institute, Inc.

Dasarathy, BV. 1991. Nearest Neighbor (NN) Norms: NN pattern classification techniques. IEEE Computer Society Press, Los Alamitos, CA.

Fukunaga, K. 1990. Introduction to Statistical Pattern Recognition, 2nd ed., San Diego, CA: Academic.

Hyndman, RJ., King, ML., Pitrun, I., Billah, B. 2005. Local Linear Forecasts Using Cubic Smoothing Splines. Aust. N. Z. J. Stat., 47: 87–99.

Kuligowski, J., Carrión D., Quintás, G., Garrigues, S., Guardia, M. 2010. Cubic smoothing splines background correction in on-line liquid chromatography–Fourier transform infrared spectrometry. J Chr. A, 1217: 6733–6741.

Liu, H., Lei, Y. 2005. Toward Integrating Feature Selection Algorithms for Classification and Clustering. IEEE Trans. K. D. E., 17 (4): 491-502.

Machine Learning Repository, 2016. Center for Machine Learning and Intelligent Systems. Retrieved from: http:// archive.ics.uci.edu/ml/

Polat, Ö. 2015. A robust regression based classifier with determination of optimal feature set. J. App. R. T., 13:443-6.

Shahzad, W., Asad, S., Khan, MA. 2013. Feature subset selection using association rule mining and JRip classifier. Int. J. P. S. 8(18):885–896.

Wang, J., Xiong, S. 2014. A hybrid forecasting model based on outlier detection and fuzzy time series – A case study on Hainan wind farm of China. Energy, 76: 526–541.

Kaynak Göster