İkili yanıt değişkenine sahip modellerin yeterliliklerine ilişkin benzetim çalışması – parametrik olmayan yöntemler
Regresyon modelleri; birçok açıklayıcı değişkenin önemini ortaya koyabilmek için tahmin, sınıflama, ve analitik veri araçlarını kullanarak, veri analizinde etkili bir rol oynamaktadır. Oldukça basit olmasına rağmen klasik doğrusal model, gerçek hayattaki örneklerin doğrusal olmaması nedeniyle sıkça yetersiz kalmaktadır. Bu çalışmada, çoklu doğrusal regresyon analizi varsayımlarından biri olan; bağımlı değişkenin açıklayıcı değişkenler ile arasındaki ilişkinin belli bir matematiksel forma uymasının zorunlu olmadığı parametrik olmayan bir değerlendirme süreci ele alınacaktır. Bu anlamda bağımlı değişkenin iki düzeyli değerler aldığı, daha çok neden-sonuç ilişkilerinin ortaya koyulması amacıyla kullanılan klasik lojistik regresyon modelinin yerine, bağımlı değişken ile açıklayıcı değişkenlerin aralarında var olan ilişki bir benzetim çalışması kapsamında; genelleştirilmiş doğrusal model, toplamsal lojistik regresyon model ve karar ağaçları ile incelenecektir. Benzetim çalışmasında söz konusu olan yöntemler ile küçük, orta ve büyük ölçekli veri kümelerinde çoklu bağlantının etkileri incelenecek ve bu yöntemler birbirleriyle karşılaştırılacaktır.
Comparative simulation study for model adequancy with binary response variable under multicollinearity – nonparametric approaches
Regression models used to explore the importance of several explanatory variables in estimation, classification and analytical tools play an efficient role for many data analysis. Although the classical linear model is quite easy to use, it is often not sufficient for many real data sets as the relationships between variables do not hold the assumption of the linearity of the relationship between dependent and explanatory variables. Under this study, a nonparametric model fitting that does not require to form a strict mathematical relationship between dependent and explanatory variables will be discussed on the contrary the assumption in multiple linear regression. In this study, the relationship between a binary dependent variable and the explanatory variables will be examined in a conducted simulation study by using generalized linear, the additive logistic regression in case of classical logistic regression model and decision trees to explore the cause and effect relationship. The methods in question and the simulation study will be performed for small, medium and large data sets when multicollinearity problem exists and will be compared with each other.
___
- A. Erar, “Çoklu bağlantı varlığında doğrusal
regresyon modellerinde değişken seçimi” Ankara,
Hacettepe Üniversitesi, İstatistik Bölümü, 1994.
- A. Erar, “Bağlanım (Regresyon) Çözümlemesi
Ders Notları” İstanbul, Mimar Sinan Güzel
Sanatlar Üniversitesi, 2006.
- B. Kan Kılınç, “Yanıt Yüzeyi Modellerine MARS
Yaklaşımı”, Eskişehir, Anadolu Üniversitesi,
İstatistik Bölümü, 2010.
- Y. Kaşko, “Çoklu Bağlantı Durumunda İkili
Lojistik Regresyon Modelinde Gerçekleşen 1.Tip
Hata ve Testin Gücü”, Ankara, Ankara
Üniversitesi, Biyometri ve Genetik Anabilim
Dalı, 2007.
- G. Wahba and J. Wendelberger, “Some new
mathematical methods for variational objective
analysis using splines and cross validation”,
Monthly Weather Review, vol.108, pp. 1122-
1145, 1980.
- S. Wood, “Generalized Additive Models: An
introduction to R”, Chapman and Hall/CRC,
2006.
- L. Breiman, J. Friedman, R. Olshen, and C. Stone,
“Classification and Regression Trees”,
Wadsworth, 1984.
- H. Christian, “Smoothing by spline functions”,
Journal of Numerische Mathematic, vol.10, no.3,
pp. 177-183, 1967.
- J. Duchon, “Splines minimizing rotation-invariant
semi-norms in Sobolev spaces”, Constructive
Theory of Functions of Several Variables,
Springer, 1977.
- R. De Veaux and L. Ungar, “Multicollinearity: A
tail of two nonparametric regressions”, Lecture
Notes in Statistics: Selecting Models from Data,
pp. 393-402, 2007.
- M. Hutchinson and R. Bischof, “A new method
for estimating the spatial distribution of mean
seasonal and annual rainfall applied to the Huner
Valley, New South Wales”, Australian
Meteorological Magazine , vol.31, no.3, pp.179-
184, 1983.
- T. Hastie, R. Tibshirani and F. Friedman, “The
Elements of Statistical Learning”, Springer, 2009.
- S. Kovalchik and R. Varadhan, “Fitting additive
binomial regression models with the R package
blm”, Journal of Statistical Software, vol.54, no.1,
pp.1-18, 2013.
- L. Ma and X. Yan, “Examining the nonparametric
effect of drivers' age in rear-end accidents through
an additive logistic regression model”, Accident
Analysis and Prevention, vol.67, pp.129-136,
2014.
- D. McFadden, “Conditional logit analysis of
qualitative choice behavior”, Frontiers in
Econometrics ,Academic Press, pp.105-142,
1974.
- J. Meinguet, “Multivariate interpolation at
arbitrary points made simple”, Journal of Applied
Mathematics and Physics, vol.30, pp.370-
384,1979.
- C. Montgomery, E. Peck and G. Vining, “
Introduction to Linear Regression Analysis”,
Wiley, 2012.
- W. Press, B. Flannery, S. Teukolsky and W.
Vetterling, “Cubic Spline Interpolation. The Art
of Scientific Computing”, Cambridge University
Press, 1992.
- S. Silvey, “Multicollinearity and imprecise
information”, Journal of Royal Statistics Society
vol.31, pp.539-552, 1969.
- J. Shen and S. Gao, “A solution to seperation and
multicollinearity in multiple logistic regression”,
Journal of Data Science, vol.6, no.4, pp.515-531,
2008.
- B. Ripley, “Pattern Recognation and Neural
Networks”, Cambridge University Press, 1996.