Aykırı Değer Yönetimi

Türkçe Özet: Diğer değerlerle karşılaştırıldığında veri setine uygun olmadığı tespit edilen aşırı değerlere aykırı değer denir. Aykırı değerlerin fazla olması veri setinin normal dağılımdan sapmasına ve yapacağımız istatistiksel analizlerin etkilenmesine sebep olabilir. Hem seçilecek yöntem hem de kullanılan hesaplamalar, farklı örnek genişliği içeren veri setlerine bağlı olarak farklılık göstermektedir. Yapılan testler sonucunda normal dağılmadığı ve fazlasıyla aykırı değer içerdiği belirlenen veri setlerine, veri dönüşüm yöntemlerinden biri uygulanarak hem verinin bilgi sağlayacak hale gelmesi ve anlamlı özet değerler üretmesi, hem de analitik yöntemlerin kullanılabilir hale gelmesi sağlanır. Bu yazının amacı veri setinin dağılımını etkileyen aykırı değerleri tespit etmek için kullanılan tanımlayıcı ve teste dayalı yöntemleri incelemek ve veri setinin dağılımını normal dağılıma benzetip, parametrik yöntemler kullanmaya olanak sağlayan veri dönüşümlerini değerlendirmektir. Dixon testi en az duyarlı ancak en hızlı sonuç veren test olarak belirlenmiştir.

Aykırı Değer Yönetimi

Abstract Management of Outliers The extreme values differing greatly from the majority of the data set upon comparison are called outliers. If the outliers are excessive in quantity, this can result in deviation of the data set from normal distribution and as well as have an influence on the statistical analysis to be carried out. Both the method to be chosen and the calculations used show differences based on the data sets with varying sample sizes. By applying one of the data transformation methods to the data sets possessing excess number of outliers and not showing normal distribution, the data do not only become informative and produce significant summary values, but also make analytical methods available. The aims of this article are to examine descriptive and test-based methods used for detection of outliers affecting distribution of a data set, and to assess data transformations allowing application of parametric methods upon the assumption of normal distribution. Dixon test was determined as the least sensitive, but the fastest result-giving test.

___

  • Aktürk Z, Acemoğlu H. Sağlık Çalışanları için Araştırma
  • ve Pratik İstatistik, Anadolu Matbaası, İstanbul, 2010:45- 46,83-90.
  • Balcı Y. Laboratuvar hasta verileri kullanılarak biyokimya testlerinde referans aralıkları belirlenmesi. Uzmanlık Tezi, İstanbul, 2006.
  • Seo S. A review and comparison of methods for detecting outliers in univariate data sets. Master thesis. University of Pittsburgh, 2006.
  • Walfısh S. A review of statistical outlier methods. PharmTee 2006;30(11):82-8.
  • McGill R, John W. Tükey and Wayne A. Larsen. Variations of box plots. The American Statistician 1978;32(1):12-6.
  • Tukey JW. Exploratory data analysis. Reading, Mass: Addison-Wesley Publishing Company, 1977.
  • Uckardes F, Sahinler S, Efe E. Aykırı gözlemlerin belirlenmesinde kullanılan bazı istatistikler. KS Ü Doğa Bil Derg2010;l3(1):42-5.
  • Yvonne J Prettyman-Beck. Environmental quality- environmental statistics, U.S. Army Corps of Engineers Washington, DC 20314-1000, 2008;253-265. Erişim: http:// 1 40. 1 94.76. l29/publications/eng-manuals/ emlllO-l-4014/toc.htm Erişim Tarihi: 05.02.2013.
  • Kanji GK. 100 Statistical Tests. SAGE Publication Ltd. London, 1993.
  • Lohninger H. Fundamentals of statistics. Erişim:
  • http://Www.statistics4u.com/fundstat_eng/ee_nalimov_ou
  • tliertest.html# Erişim tarihi: 20.06.2013.
  • Rosner B. Percentage points for a generalized ESD many
  • outlier procedure. Technometrics 1983;25(2):165-72.
  • Navy. Handbook for Statistical Analysis of Environmental
  • Background Data, Tech. rep Department of the Naval,
  • Seely RJ , Munyakazi L, Haury J, Simmerman H, Rushing
  • WH, Curry TF. Demonstrating the consistency of small
  • Solak MK. Detection of Multiple Outliers 1n Univarlate
  • Data Sets, PharmaSUG 2009, Portland, Oregon. Erişim:
  • Burke S. Missing values, outliers, robust statistics and
  • nonparametric methods. LCGC Europe Online
  • Grubbs F. Procedures for detecting outlying observations
  • in samples. Technometrics 1969;11(1):1-21.
  • Tietjen G, Moore R. Some Grubbs-type statistics for the
  • detection of several outliers. Technometrics 1972;14(3):
  • Oguzlar A. Veri ön işleme. Erciyes Üniversitesi İktisadi ve
  • Idari Bilimler Fakültesi Dergisi 2003;21(2):67-76.
  • McDonald JH. Handbook of Biological Statistics, 2nd ed.
  • Sparky House Publishing, Baltimore, Maryland.
  • Petrie A, Sabin C. Medical Statistics at a Glance, 2005,
  • Wiley-Blackwell Publishing, Massachusetts, USA.
  • Jose VRR, Winkler LR. Simple robust averages of
  • forecasts: Some empirical results. International Journal of
  • Beliakov G. Fast computation of trimmed mean. Journal of
  • Statistical Software 2011;39(2):1-6.
  • Hawkins DM. IdentiŞcation of Outliers, 1980, Chapman
  • and Hall Ltd, New York. Erişim: http:// books. google.com.
  • Quackenbush J. Microarray data normalization and
  • transformation. Nature Genetic Supplement 2002;32(5):
  • Jain A, Nandakumar K, Ross A. Score normalization in
  • multimodal biometric systems. Pattern Recognition
  • Chromir'iski K, Tkacz M. Comparison of Outlier Detection
  • Methods in Biomedical Data. Journal of Medical Informatics&Technologies 2010;16(2):89-94.
  • Enli Y, Aslan D, Akalın N, Aydın Y, Yılmaztürk G, Göçhan
  • l, Tekintürk S, Demir S. Denizli'de yaşayan 18-40 yaş arası bireylerde farklı yöntemlerle referans aralıkların saptanması. Turk J Biochem 2003;28(4):228-45.