REGRESYON DENKLEMİNİN BAARISINI ÖLÇMEDE KULLANILAN BELİRLEME KATSAYISI VE KRİTİĞİ

Makalede, regresyon analizinin konu ile ilgili hususları kısaca tekrarlandıktan sonra, örnek regresyon denkleminin göreceli etkinliğini belirlemede kullanılan "belirleme katsayısı"nın R2 kullanılmasındaki isabet üzerinde durulmuş ve kullanıma ilişkin sorunlara işaret edilmiştir. R2 sistematik hata ile yüklü bir istatistik olup, sistematik hata düzeyi, sabit bağımsız değişken sayısı için, R2 değeri yükseldikçe ve/veya örnek büyüklüğü arttıkça azalmaktadır. R2 nin ilgili literatürde,üzerinde durulmayan bir özelliği, regresyon denkleminin "eğimi" ile bağıntılı oluşudur. Aynı düzeyde başarılı iki regresyon denkleminden, eğimi daha yüksek olanın R2 değeri de daha büyük hesaplanmaktadır. Örnek büyüklüğünü dikkate alarak hesaplanan "düzeltilmiş R2" ise, örnek büyüklüğünün belirli bir değerin altına kalması durumunda, negatif değerler almaktadır. R2'nin özellikleri dikkate alındığında, belirleme katsayısının tek başına, regresyon denkleminin özelliklerini temsil edemediği, bu nedenle, regresyon denklemlerinin başarılarının karşılaştırılmasında, ek kriterlere de gerek olduğu anlaşılmaktadır. Söz konusu ek kriterler, örnek büyüklüğü, denklemlin eğimi ve denklemin standart hatası ile hata varyansının R2'ye oranı olabileceği gibi, düzeltilmiş R2 durumunda, örnek büyüklüğünün R2 değerini negatif yapan eşik değeri ile 1 - SY.X / SY istatistiği kombinasyonu da kullanılabilir.

SOME CRITICS ON THE USE OF COEFFICIENT OF DETERMINATION AS A SIGNIFICANCE TEST CRITERION FOR REGRESSION EQUATION

After introducing briefly the relevant aspects of regression analysis, the article discusses the merit of using the coefficient of determination R2 as a measure the relative efficiency or predictive precision of a sample linear regression and points out some problems associated with its use. Sample R2 is a biased statistics, however, the bias decreases as the value of R2 increases for the same sample size and for the same number of independent variables. On the other hand, R2 also measures the steepness of the regression equation. If the goodness-of-fit of the regression curve remains constant, R2 increases as the slope of regression surface increases, a fact that appears to be neglected in the relevant literature. Adjusted R2, which is computed by taking the sample size into consideration, assumes negative values when sample size smaller than a threshold value. In short, R2 alone does not reflect the entire picture with respect the efficiency of a sample regression curve; consequently, additional criteria should also be considered in inferring the efficiency of the regression curve, such as sample size, slope of the regression curve, standard error of the equation, ratio of the error variance over R2. Another combination of criteria suggested is adjusted R2 , threshold value of sample size, and the statistics 1 – SY.X /SY

___

  • BARRET, J.P. (1974). Coefficient determination - some limitations. The American Statistics, 28 (1).
  • CROCKER, D.C. (1972) Some interpretations of the multiple correlation coefficients. The American Statistician, 26 (2).
  • GREEN, W.H. (1990) Econometric analysis, New York, McMillan.
  • KENDALL, M.G., STUART, A. (1967) The advanced theory of statistics, Vol. II. New York, Hafner Pub. Co.
  • NETER, J. et al. (1996) Applied linear statistical models, New York, McGraw-Hill.
  • WISHART, J. (1931) The mean and second moment coefficient of the multiple correlation coefficient, in sample from a normal population, Biometrika, Vol. 2.