Regresyon Denkleminin Başarısını Ölçmede Kullanılan Belirleme Katsayısı ve Kritiği

Makalede, regresyon analizinin konu ile ilgili hususları kısaca tekrarlandıktan sonra, örnek regresyon denkleminin göreceli etkinligini belirlemede kullanılan "belirleme katsayısı"nın (R2) kullanılmasındaki isabet üzerinde durulmus ve kullanıma iliskin sorunlara isaret edilmistir. R2 sistematik hata ile yüklü bir istatistik olup, sistematik hata düzeyi, sabit bagımsız degisken sayısı için, R2 degeri yükseldikçe ve/veya örnek büyüklügü arttıkça azalmaktadır. R2 nin ilgili literatürde,üzerinde durulmayan bir özelligi, regresyon denkleminin "egimi" ile bagıntılı olusudur. Aynı düzeyde basarılı iki regresyon denkleminden, egimi daha yüksek olanın R2 degeri de daha büyük hesaplanmaktadır. Örnek büyüklügünü dikkate alarak hesaplanan "düzeltilmis R2" ise, örnek büyüklügünün belirli bir degerin altına kalması durumunda, negatif degerler almaktadır. R2'nin özellikleri dikkate alındıgında, belirleme katsayısının tek basına, regresyon denkleminin özelliklerini temsil edemedigi, bu nedenle, regresyon denklemlerinin basarılarının karsılastırılmasında, ek kriterlere de gerek oldugu anlasılmaktadır. Söz konusu ek kriterler, örnek büyüklügü, denklemlin egimi ve denklemin standart hatası ile hata varyansının R2'ye oranı olabilecegi gibi, düzeltilmis R2 durumunda, örnek büyüklügünün R2 degerini negatif yapan esik degeri ile (1 – SY.X / SY) istatistigi kombinasyonu da kullanılabilir.

Some Critics on the Use of Coefficient of Determination as a Significance test Criterion for Regression Equation

After introducing briefly the relevant aspects of regression analysis, the article discusses the merit of using the coefficient of determination (R2) as a measure the relative efficiency or predictive precision of a sample linear regression and points out some problems associated with its use. Sample R2 is a biased statistics, however, the bias decreases as the value of R2 increases for the same sample size and for the same number of independent variables. On the other hand, R2 also measures the steepness of the regression equation. If the goodness-of-fit of the regression curve remains constant, R2 increases as the slope of regression surface increases, a fact that appears to be neglected in the relevant literature. Adjusted R2, which is computed by taking the sample size into consideration, assumes negative values when sample size smaller than a threshold value. In short, R2 alone does not reflect the entire picture with respect the efficiency of a sample regression curve; consequently, additional criteria should also be considered in inferring the efficiency of the regression curve, such as sample size, slope of the regression curve, standard error of the equation, ratio of the error variance over R2. Another combination of criteria suggested is adjusted R2 , threshold value of sample size, and the statistics (1 - SY.X /SY).

___

  • BARRET, J.P. (1974). Coefficient determination - some limitations. The American Statistics, 28 (1).
  • CROCKER, D.C. (1972) Some interpretations of the multiple correlation coefficients. The American Statistician, 26 (2).
  • GREEN, W.H. (1990) Econometric analysis, New York, McMillan.
  • KENDALL, M.G., STUART, A. (1967) The advanced theory of statistics, Vol. II. New York, Hafner Pub. Co.
  • NETER, J. et al. (1996) Applied linear statistical models, New York, McGraw-Hill.
  • WISHART, J. (1931) The mean and second moment coefficient of the multiple correlation coefficient, in sample from a normal population, Biometrika, Vol. 2.