Doğrusal regresyonda en iyi altküme seçimine genetik algoritma yaklaşımı

Çok sayıda bağımsız değişken ve bir bağımlı değişkenden oluşan veri seti verildiğinde, bağımlı değişkeni kestiren en iyi modelin seçilmesi "değişken seçimi" ya da "en iyi altküme modelinin seçimi" olarak bilinmektedir. Değişken seçimi için çok sayıda yöntem önerilmiştir. Maalesef, bağımsız değişkenler arasındaki ilişki yüksek olduğunda mevcut yöntemler çoğu kez başarısız olmaktadır. Ayrıca, bağımsız değişken sayısı arttığında olası altküme sayısı üstel olarak arttığından, tüm olası altküme yönteminin büyük boyutlu veri setlerini ele alma güçlüğü bulunmaktadır. Bu çalışmada, doğrusal regresyonda değişken seçimi için Genetik Algoritmaya (GA) dayalı yeni bir stokastik optimizasyon yöntemi önerilmektedir. Önerilen yöntemin ve klasik değişken seçim yöntemlerinin performansı literatürde yaygın olarak kullanılan veri setleri kullanılarak karşılaştırılmaktadır.

A Genetic algorithm approach for the best subset selection in linear regression

When a data set including many explanatory variables and a response variable is given, the choice of best model which predicts the response variable is known as "variable selection" or "the selection of the best subset model". Many methods for variable selection have been suggested. Unfortunately, when the correlation between explanatory variables is high, currently used methods are mostly unsuccesful. Also, as the number of possible subsets grows exponentially when the number of explanatory variables increase, all possible subset methods have difficulty handling large dimensional data sets. In this study, a new stochastic optimization method based on Genetic Algorithm (GA) is proposed for variable selection in linear regression. The performance of the method proposed and that of classical variable selection methods are compared by using data sets commonly given in literature.

___

  • 1. Hocking, R.R., "The analysis and selection of variables in linear regression", Biometrics, 32: 1-49 (1976).
  • 2. Thompson, M.L., "Selection of variables in multiple regression, part I, a review and evaluation", International Statistical Review, 46: 1-19 (1978a).
  • 3. Thompson, M.L., "Selection of variables in multiple regression, part II, chosen procedures", Computations and Examples, International Statistical Review, 46: 129-146 (1978b)
  • 4. Miller, A., Subset selection in regression, London, Chapman and Hall (1990).
  • 5. Draper, N.R. and Smith, H., applied regression analysis, 3rd edition, John Wiley & Sons, New York (1998).
  • 6. Montgomery, D.G. and Peck, E.A., "Introduction to linear regression analysis", 2nd edition, John Wiley & Sons, New York (1991).
  • 7. Berk, K.N., "Comparing subset regression procedures", Technometrics, 20(1): 1-6 (1978).
  • 8. Goldberg, D.E., Genetic algorithms in search optimization and machine learning, Addison-Wesley (1989).
  • 9. Wasserman, G.S. and Sudjianto, A., "All subsets regression using a genetic algorithm", Computers and Industrial Engineering, 27(1): 489-492 (1994).
  • 10. Wallet, B.C., Marchette, D.J., Solka, J.L. and Wegman, E.J., "A genetic algorithm for best subset selection in linear regression", Proceedings of the 28th Symposium on the Interface (1996).
  • 11. Longley, J.W., "An appraisal of least-squares programs from the point of view of the user", JASA, 62: 819-841 (1967).
  • 12. Gunst, R.F. and Mason, R.L., "Regression analysis and its applications", Marcel Dekker, New York (1980).
  • 13. Chatterjee, S., Hadi, A.S., and Price, B., "Regression analysis by example, 3rd edition", John Wiley & Sons, New York (2000).
  • 14. PLS-Toolbox Version 2:1, Eigenvector Research Inc. Manson, WA (2000).