İkili yanıt değişkenine sahip modellerin yeterliliklerine ilişkin benzetim çalışması – parametrik olmayan yöntemler

   Regresyon modelleri; birçok açıklayıcı değişkenin önemini ortaya koyabilmek için tahmin, sınıflama, ve analitik veri araçlarını kullanarak, veri analizinde etkili bir rol oynamaktadır. Oldukça basit olmasına rağmen klasik doğrusal model, gerçek hayattaki örneklerin doğrusal olmaması nedeniyle sıkça yetersiz kalmaktadır. Bu çalışmada, çoklu doğrusal regresyon analizi varsayımlarından biri olan; bağımlı değişkenin açıklayıcı değişkenler ile arasındaki ilişkinin belli bir matematiksel forma uymasının zorunlu olmadığı parametrik olmayan bir değerlendirme süreci ele alınacaktır. Bu anlamda bağımlı değişkenin iki düzeyli değerler aldığı, daha çok neden-sonuç ilişkilerinin ortaya koyulması amacıyla kullanılan klasik lojistik regresyon modelinin yerine, bağımlı değişken ile açıklayıcı değişkenlerin aralarında var olan ilişki bir benzetim çalışması kapsamında; genelleştirilmiş doğrusal model, toplamsal lojistik regresyon model ve karar ağaçları ile incelenecektir. Benzetim çalışmasında söz konusu olan yöntemler ile küçük, orta ve büyük ölçekli veri kümelerinde çoklu bağlantının etkileri incelenecek ve bu yöntemler birbirleriyle karşılaştırılacaktır.

Comparative simulation study for model adequancy with binary response variable under multicollinearity – nonparametric approaches

Regression models used to explore the importance of several explanatory variables in estimation, classification and analytical tools play an efficient role for many data analysis. Although the classical linear model is quite easy to use, it is often not sufficient for many real data sets as the relationships between variables do not hold the assumption of the linearity of the relationship between dependent and explanatory variables. Under this study, a nonparametric model fitting that does not require to form a strict mathematical relationship between dependent and explanatory variables will be discussed on the contrary the assumption in multiple linear regression. In this study, the relationship between a binary dependent variable and the explanatory variables will be examined in a conducted simulation study by using generalized linear, the additive logistic regression in case of classical logistic regression model and decision trees to explore the cause and effect relationship. The methods in question and the simulation study will be performed for small, medium and large data sets when multicollinearity problem exists and will be compared with each other. 

___

  • [1] A. Erar, “Çoklu bağlantı varlığında doğrusal regresyon modellerinde değişken seçimi” Ankara, Hacettepe Üniversitesi, İstatistik Bölümü, 1994.
  • [2] A. Erar, “Bağlanım (Regresyon) Çözümlemesi Ders Notları” İstanbul, Mimar Sinan Güzel Sanatlar Üniversitesi, 2006.
  • [3] B. Kan Kılınç, “Yanıt Yüzeyi Modellerine MARS Yaklaşımı”, Eskişehir, Anadolu Üniversitesi, İstatistik Bölümü, 2010.
  • [4] Y. Kaşko, “Çoklu Bağlantı Durumunda İkili Lojistik Regresyon Modelinde Gerçekleşen 1.Tip Hata ve Testin Gücü”, Ankara, Ankara Üniversitesi, Biyometri ve Genetik Anabilim Dalı, 2007.
  • [5] G. Wahba and J. Wendelberger, “Some new mathematical methods for variational objective analysis using splines and cross validation”, Monthly Weather Review, vol.108, pp. 1122-1145, 1980.
  • [6] S. Wood, “Generalized Additive Models: An introduction to R”, Chapman and Hall/CRC, 2006.
  • [7] L. Breiman, J. Friedman, R. Olshen, and C. Stone, “Classification and Regression Trees”, Wadsworth, 1984.
  • [8] H. Christian, “Smoothing by spline functions”, Journal of Numerische Mathematic, vol.10, no.3, pp. 177-183, 1967.
  • [9] J. Duchon, “Splines minimizing rotation-invariant semi-norms in Sobolev spaces”, Constructive Theory of Functions of Several Variables, Springer, 1977.
  • [10] R. De Veaux and L. Ungar, “Multicollinearity: A tail of two nonparametric regressions”, Lecture Notes in Statistics: Selecting Models from Data, pp. 393-402, 2007.
  • [11] M. Hutchinson and R. Bischof, “A new method for estimating the spatial distribution of mean seasonal and annual rainfall applied to the Huner Valley, New South Wales”, Australian Meteorological Magazine , vol.31, no.3, pp.179-184, 1983.
  • [12] T. Hastie, R. Tibshirani and F. Friedman, “The Elements of Statistical Learning”, Springer, 2009.
  • [13] S. Kovalchik and R. Varadhan, “Fitting additive binomial regression models with the R package blm”, Journal of Statistical Software, vol.54, no.1, pp.1-18, 2013.
  • [14] L. Ma and X. Yan, “Examining the nonparametric effect of drivers' age in rear-end accidents through an additive logistic regression model”, Accident Analysis and Prevention, vol.67, pp.129-136, 2014.
  • [15] D. McFadden, “Conditional logit analysis of qualitative choice behavior”, Frontiers in Econometrics ,Academic Press, pp.105-142, 1974.
  • [16] J. Meinguet, “Multivariate interpolation at arbitrary points made simple”, Journal of Applied Mathematics and Physics, vol.30, pp.370-384,1979.
  • [17] C. Montgomery, E. Peck and G. Vining, “ Introduction to Linear Regression Analysis”, Wiley, 2012.
  • [18] W. Press, B. Flannery, S. Teukolsky and W. Vetterling, “Cubic Spline Interpolation. The Art of Scientific Computing”, Cambridge University Press, 1992.
  • [19] S. Silvey, “Multicollinearity and imprecise information”, Journal of Royal Statistics Society vol.31, pp.539-552, 1969.
  • [20] J. Shen and S. Gao, “A solution to seperation and multicollinearity in multiple logistic regression”, Journal of Data Science, vol.6, no.4, pp.515-531, 2008.
  • [21] B. Ripley, “Pattern Recognation and Neural Networks”, Cambridge University Press, 1996.
Sakarya University Journal of Science-Cover
  • Yayın Aralığı: Yılda 6 Sayı
  • Başlangıç: 1997
  • Yayıncı: Sakarya Üniversitesi