KAYIP VERİLER YERİNE YAKLAŞIK DEĞER ATAMAK İÇİN KULLANILAN GELİŞMİŞ YÖNTEMLERİN FARKLI KOŞULLAR ALTINDA KARŞILAŞTIRILMASI
Bu araştırmada, farklı oranlarda (%15 ve %25) ve yapılarda (TROK ve ROK) oluşturulan kayıp veriler yerine farklı yöntemlerle yaklaşık değer atanması sonucu elde edilen veri setlerinin tam veri setleriyle karşılaştırılarak incelenmesi amaçlanmıştır. Bu araştırma, PISA’ya (2012) Türkiye’den katılan 15 yaş grubundaki 4848 öğrenci arasından matematik özyeterliği anketine katılan ve eksiksiz bir şekilde yanıtlayan 3129 öğrencinin puanlarından oluşan veri seti üzerinde yürütülmüştür. Söz konusu veri seti içerisinden farklı yapılar oluşturulacak şekilde farklı oranlarda veri silinerek eksik veri setleri oluşturulmuştur. Bu eksik veri setleri BM, BVA, ESE, MUA, MZMC ve RA olmak üzere altı farklı gelişmiş değer atama yöntemiyle tamamlanmıştır. Söz konusu yöntemlerle yapılan yaklaşık değer atamaları sonucu elde edilen ölçek puanları ile tam veri ölçek puanları arasındaki korelasyon değerlerinin yüksek olduğu görülmüştür. Benzer şekilde farklı yöntemlerle tamamlanmış veri setlerinden elde edilen ölçek puanları arasındaki korelasyon değerleri de yüksek bulunmuştur. Tam veri seti ile tamamlanmış veri setlerinden hesaplanan ölçek puanları arası farkların mutlak değer toplamları ve ortalamaları göz önünde bulundurulduğunda belirlenen koşullar altında en iyi çalışan yaklaşık değer atama yöntemlerinin MZMC ve BM olduğu sonucuna ulaşılmıştır.
A COMPARISON OF ADVANCED METHODS USED FOR MISSING DATA IMPUTATION UNDER DIFFERENT CONDITIONS
In this study, it is aimed to comparatively research of data sets obtained imputation for missing values that is formed by different ratios (%15 and %25) and in different structures (MCAR and MAR) with different methods. This study has been conducted on data set formed by points of 3129 students who participated in mathematics selfefficacy survey and answered it completely among 4848 students -age group of 15- who participated in PISA 2012 from Turkey. Missing data sets have been constituted by deleting data in different ratios to be constitute different structures in the data set. These data sets have been completed by six different nearby value imputation including EM, BIM, PSM, MCMC, MDIM, and RIM. Obtained data sets have been compared with full data sets by scale points of students. In the scope of the research, correlation between obtained scale points and scale points of real data has been seen quite high. Similarly, when scale points is considered, correlation of missing data imputation methods with each other have also been found quite high. Considering the difference between the totals and avarages of student scores calculated from the full data set and imputed data sets EM and MCMC is founded that the best missing data imputation methods under all conditions.
___
- Akbaş, U. ve Tavşancıl, E. (2015). Farklı örneklem büyüklüklerinde ve kayıp veri
örüntülerinde ölçeklerin psikometrik özelliklerinin kayıp veri baş etme teknikleri ile
incelenmesi. Eğitimde ve Psikolojide Ölçme ve Değerlendirme Dergisi, 6(1), 38-57.
- Aljuaid, T. ve Sasi, S. (2016). Proper imputation techniques for missing values in data sets.
2016 International Conference on Data Science and Engineering (ICDSE), Cochin, 23-
25 Ağustos 2016, s. 1-5.
- Allison, P.D. (2001).Missing Data. CA: Sage University Paper.
- Allison. P. D. (2003). Missing data techniques for structural equation modeling. Journal of
Abnormal Psychology. 4(1), 545-557.
- Alpar. R. (2011). Çok değişkenli istatistiksel yöntemler. Ankara: Detay Yayıncılık.
- Altaş, D. ve Kaspar, E.Ç. (2012). Propensity skor ve hot-deck veri atama
yöntemlerinin
karşılaştırılması. Trakya Üniversitesi İktisadi ve İdari Bilimler Fakültesi E-Dergi, 1(1),
26-41.
- Byrne, B. (2000). Structural equation modelingwith AMOS: Basic concepts, applications,
andprogramming. Mahwah, NJ: Lawrence Erlbaum.
- Cool. A. L. (2000). A review of methods for dealing with missing data (rapor). Annual
Meeting of the Southwest Educational Resarch Association. Dallas.
- Çokluk, Ö. ve Kayrı, M. (2011). Kayıp değerlere yaklaşık değer atama yöntemlerinin ölçme
araçlarının geçerlik ve güvenirliği üzerindeki etkisi. Kuram ve Uygulamada Eğitim
Bilimleri, 11(1), 289-309.
- Çüm, S. ve Gelbal, S. (2015). Kayıp veriler yerine yaklaşık değer atamada kullanılan farklı
yöntemlerin model veri uyumu üzerine etkisi. Mehmet Akif Ersoy Üniversitesi Eğitim
Fakültesi Dergisi, 35, 87-111.
- Demir, E. (2013). Kayıp verilerin varlığında çoktan seçmeli testlerde madde ve test
parametrelerinin kestirilmesi: SBS örneği. Eğitim Bilimleri Araştırmaları Dergisi, 3(2),
47-68.
- Enders, C. K. (2004). The impact of missing data on sample reliability estimates: implications
for reliability reporting practices. Educational and Psychological
Measurement, 64(3),
419-436.
- Enders, C. K. (2010). Applied missing data analysis. NY: The Guilford Press.
- Engels, J. M. ve Diehr, P. (2003). Imputation of missing longitudinal data: A comparison of
methods. Journal of Clinical Epidemiology, 56(1), 968-976.
- Hasan, H., Ahmad, S., Osman, B. M., Sapri, S., ve Othman, N. (2017). A comparison of
model-based imputation methods for handling missing predictor values in a linear
regression model: A simulation study. AIP Konferansı, 8-9 Ağustos 2017, s. 60003.
- Hedderley, D. ve Wakeling, I. (1995). A comparison of imputation techniques for internal
preferencemapping using Monte Carlo simulation. Food Quality and Preference, 6, 281-
297.
- Kaspar, E.Ç. (2011). Kayıp veriler ve kayıp veriler için bir çoklu veri atama yöntemi:
Propensity skor (yayımlanmamış doktora tezi). Marmara Üniversitesi, İstanbul.
- Koçak, D. ve Çokluk Bökeoğlu, Ö. (2017). Kayıp veriyle baş etme yöntemlerinin model veri
uyumu ve madde model uyumuna etkisi. Eğitimde ve Psikolojide Ölçme ve
Değerlendirme Dergisi, 8(2), 200-223.
- Köse, A. (2014). The effect of missing data handling methods on goodness of fit indices in
confirmatory factor analysis. Educational Research and Reviews, 9(8), 208-215.
- Köse, İ. A. ve Öztemur, B. (2014). Kayıp veri ele alma yöntemlerinin t-testi ve ANOVA
parametreleri üzerine etkisinin incelenmesi. Abant İzzet Baysal Üniversitesi Eğitim
Fakültesi Dergisi, 14(1), 400-412.
- Lin, T.H. (2008). A comparison of multiple imputation with EM algorithm and MCMC
method for quality of life missing data. Quality & quantity. 2010, 44 (2): 277-287.
- Little. R. ve Rubin. D. (1987). Statistical analysis with missing data. New York: Wiley.
- Mao, Q. Ve Li, X. (2005). Markov Chain Monte Carlo Method of multiple imputation for
longitudinal data with missing values in the survey of maternal and children health.
Sichuan da xue xue bao. Yi xue ban (Journal of Sichuan University) Medical science
edition, 36(3), 422–425.
- Musil, C,M., Warner, C, B., Yobas, P,K. ve Jones, L,S. (2002). A comparison of imputation
techniques for handling missing data. Western Journal of Nursing Research, 24(7), 815-
829.
- Nartgün, Z. (2015). Kayıp veri sorununun çözümünde kullanılan farklı yöntemlerin farklı
kayıp veri koşulları altında ölçeklerin psikometrik nitelikleri ve ölçme sonuçları bağlamında karşılaştırılması. International Online Journal of Education Sciences, 7(4),
252-265.
- Ni, D. ve Leonard, JD. (2005) Markov chain monte carlo multiple ımputation for ıncomplete
ıts data using bayesian networks. 84. Annual Meeting of the Transportation Research
Board, 12 Temmuz, 2005.
- Osborne. J. W. (2013). Best practices in data cleaning. California: Sage Publication. Inc.
- Pigott. T. D. (2001). A review of methods for missing data. Educational Resarch and
Evaluation. 7(1), 353-383.
- Roth. P. L. (1994). Missing data: A conceptual review for applied psychologists. Personnel
Psychology. 3(1), 537-560.
- Saunders, J. A., Morrow-Howell, N., Spitznagel, P. D., Proctor, E.K. ve Pescarino, R. (2006).
Imputing missing data: A comparison of methods for social work researchers. Social
Work Research, 30(1),
- Şahin Kürşad, M., ve Nartgün, Z. (2015). Kayıp veri sorununun çözümünde kullanılan farklı
yöntemlerin ölçeklerin geçerlik ve güvenirliği bağlamında karşılaştırılması.Eğitimde ve
Psikolojide Ölçme ve Değerlendirme Dergisi, 6(2), 254-267.
- Schafer. J. L. (1999). Multiple imputation: a primer. Statistical Methods on Medical Resarch.
8(1), 3-15.
- Shrive, F. M., Stuart, H., Quan, H. ve Ghali, W. A. (2006). Dealing with missing data in a
multi-question depression scale: A comparison of imputation methods. BMC Medical
Research Methodology, 57(6), 110.
- Tabachnick. B. ve Fidell. L. (1996). Using multivariate statistics (3th ed.). New York: Herper
Collins College Publishers.
- Takahashi, M. (2017). Statistical inference in missing data by MCMC and non-MCMC
multiple imputation algorithms: Assessing the effects of between-imputation
iterations. Data Science Journal, 37(16), 1-17.