Güçlü İkili Kovaryans Tahmincisinin Performans Değerlendirmesi

Yüksek boyutlu veri kümelerinde aykırı gözlemlerin varlığı halinde, çok değişkenli analiz ve çok boyutlu aykırı gözlem teşhis teknikleri, zamanı etkin kullanan, kırılma noktası yüksek güçlü kovaryans tahmincilerin kullanımını zorunlu kılar. Klasik tahmincilerin aykırı gözlemler karşısında bozulması, güçlü tahmincilerin kullanımını gerektirir. FMCD kırılma noktası yüksek, yüksek boyutlu verilerde kullanımı uygun olan bir tahmincidir, fakat Maronna ve Zamar (2002), gözlem sayısının artmasıyla FMCD’nin önemli zaman aldığını ve yüksek kırılma noktasına sahip olma özelliğini yitirdiğini vurgular. OGK tahmincisi, yüksek kırılma noktasına sahip güçlü tahmincilerin işlem süresinin uzunluğu problemine yanıt vermek için (Maronna, Zamar, 2002) önerilmiştir. Bu çalışmada OGK tahmincisi ile çeşitli kovaryans tahmincilerinin performansı Temel Bileşenler Analizi (TBA) ile değerlendirilmiştir.

The Performance Evaluation of Robust Pairwise Covariance Estimator

Multivariate analysis and multidimensional outlier detection techniques necessitate using robust high breakdown covariance estimators, which have time saving algorithms in the presence of outliers in high dimensional data. The preference for robust estimators arises from the distortion effect of outliers when classical estimators are used. Orthogonalized Gnanadesikan-Kettering (OGK) estimator (Maronna and Zamar, 2002) was devised in order to address the computational challenge of high breakdown estimators. In this study the focus is on the evaluation of some covariance estimators in Principal Component Analysis (PCA). A comparison of the performance of OGK in PCA and Robust Principal Component Analysis (ROBPCA) (Hubert et al, 2005) has been carried out by way of simulations and with real data sets.

___

  • Alqallaf F.A, Konis K.P., Martin R.D. and Zamar R.H., 2002. Scalable robust covariance and correlation estimates for data mining. Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining, 14-23.
  • Campbell N.A., 1980. Robust procedures in multivariate analysis I: Robust covariance estimation, Applied Statistics, 29, 3, 231-237
  • Croux, C. and Haesbroeck, G., 2000. Principal component analysis based on robust estimators of the covariance or correlation matrix: influence functions and efficiencies. Biometrika, 87, 603-618.
  • Gnanadesikan, R., and Kettenring, J.R., 1972. Robust estimates, residuals, and outlier detection with multiresponse data. Biometrics, 28, 81-124.
  • Huber,P.J.,1981. Robust statistics, John Wiley&Sons, New York.
  • Hubert, M., Rousseeuw, P.J., and Verboven, S., 2002. A fast method for robust principal components with applications to chemometrics, Chemometrics and Intelligent Laboratory Systems, 60, 101–111.
  • Hubert M., Rousseeuw P. J., and Vanden Branden K., 2005. ROBPCA: A new approach to robust principal components analysis. Technometrics, 47:64–79.
  • Li, G., Chen, Z., 1985. Projection-pursuit approach to robust dispersion matrices and principal components: Primary theory and Monte Carlo. J. Amer. Statist. Ass. 80, 759-766.
  • Maronna, R.A,.1976. Robust M-estimators of multivariate location and scatter, Ann. Stat., 4, 51-67.
  • Maronna, R.A. and Yohai, V. J., 1995. The Behavior of the Stahel-Donoho robust multivariate estimator. J. Amer. Statist. Assoc. 90, 330-341.
  • Maronna R.A. and Zamar R.H., 2002. Robust estimates of location and dispersion for high-dimensional data sets. Technometrics, 44, 307-314.
  • Rousseeuw P.J. and Leroy A. M., 1987. Robust regression and outlier detection. Wiley-Interscience, New York.
  • Rousseeuw P.J. and Van Driessen K.,1999. A fast algorithm for the minimum covariance determinant estimator. Technometrics, 41, 212–223.
  • Stahel W., 1981. Breakdown of covariance estimators, Research Report 31, ETH Zurich,fachgruppe fuer Statistik.