Puanlayıcılar Arası Güvenirlik Belirleme Tekniklerinin Karşılaştırılması

Bu araştırmada dereceli puanlama anahtarı türü ve puanlayıcı sayısı değişiminin, puanlayıcı güvenirliğini belirlemede kullanılan tekniklerden elde edilen sonuçlar üzerindeki etkisi incelenmiştir. Araştırmanın çalışma grubu, 50 öğrenci ve puanlama yapan 10 öğretmenden oluşmaktadır. Betimsel nitelik taşıyan araştırmada puanlayıcı güvenirliğini belirlemede Kappa istatistik tekniği, log linear analiz tekniği ve Krippendorff alfa tekniği kullanılmıştır. Puanlayıcı sayısı değişiminin puanlayıcı güvenirliğine etkisini incelemek adına belirtilen üç teknik kullanılarak iki, beş ve on puanlayıcı arasındaki uyum düzeyleri hesaplanmıştır. Araştırmada üç teknikten elde edilen analiz sonuçlarında, analitik puanlama anahtarı kullanımıyla elde edilen puanlarda, puanlayıcı sayısı artışının güvenirlik düzeyini düşürdüğü tespit edilmiştir. Üç teknikle yapılan analizlerde, en yüksek güvenirlik değerleri iki puanlayıcı kullanıldığında elde edilmiş, puanlayıcı sayısı artırıldıkça güvenirliğin düştüğü saptanmıştır. Analitik puanlama anahtarını oluşturan kategoriler incelendiğinde kategoriler arasında objektiflik düzeyine dayalı olarak, puanlayıcıların uyum düzeylerinde değişkenlik olduğu saptanmıştır.  Araştırmanın sonucunda, kullanılan tekniklerden Kappa tekniği ve Krippendorff alfa tekniğinin paralel sonuçlar verdiği görülmüştür. Bununla birlikte Krippendorff alfa tekniğinin puanlayıcı sayısı değişiminden Kappa tekniğine göre daha az etkilendiği belirlenmiştir. Log-linear analiz tekniğinin ise değişkenler arasındaki etkileşimleri ve uyumsuzluk kaynağını gösteren daha kapsamlı ve geniş bilgi sağladığı tespit edilmiştir.  Sonuç olarak, daha detaylı ölçme sonuçları elde edilmek istendiğinde alt kategorilerden oluşan analitik puanlama anahtarı kullanılarak toplanan puanların, kategorik veri analizi için uygun olan log-linear analiz tekniğinin; daha genel ölçme sonuçlarına ulaşılmak istendiğinde ise bütünsel puanlama anahtarı ile elde edilen puanların Krippendorff alfa tekniğinin kullanılmasının uygun olduğu düşünülmektedir.  

___

  • Airasian, P. W. (1994). Classroom assessment. New York: McGraw-Hill.
  • Agresti, A. (1996). An introduction to categorical data analysis. New York: John Wiley & Sons, INC.
  • Akgül, A. (2005). Tıbbi araştırmalarda istatistiksel analiz teknikleri, SPSS uygulamaları. (3. Baskı). Ankara: Emek Ofset.
  • Anthony, J., Viere, M. D., ve Garrett, P.D. (2005). Understanding interobserver agreement: The kappa statistic. Family Medicine, 37(5), 360-362.
  • Atılgan, H., Kan, A. ve Doğan, N. (2007). Eğitimde ölçme ve değerlendirme. (2. Basım). Ankara: Anı Yayıncılık.
  • Baykul, Y. (2000). Eğitim ve Psikolojide Ölçme: Klasik Test Teorisi ve Uygulaması. Ankara: ÖSYM.
  • Brennen, R. L. ve Prediger, D. J. (1981). Coefficient kappa: Some Uses, misuses, and alternatives. Educational and Psychological Measurement, 41(1981), 687-699.
  • Burry-Stock, J. A., Shaw, D. G., Laurie, C., ve Chissom, B. S. (1996). Rater agreement indexies for performance assessment. Educational and Psychological Measurement, 56(2), 251-262.
  • Cohen. J. R., Swerdlik E. M. ve Phillips, S. M. (1996). Psychological testing and assessment. (3th ed). London: Mayfield Publishing Compony.
  • Cohen, J. (1960). A coefficient of agreement for nominal scales. Educational and Psychological Measurement, 20(1), 37-46.
  • Crawforth, K. (2001). Measuring the interrater reliability of a data collection instrument developed to evaluate anesthetic outcomes. Doctoral Dissertation. Available from Proquest Dissertations and Theses database. (UMI No. 3037063)
  • Crocker, L. ve Algina, J. (2008). Introduction to classical and modern test theory. Ohio: Centage Learning.
  • Fitzpatrick, R. ve Morrison, E. J. (1971). Performance and product evaluation. In R. L. Thorndike (Ed.), Educational Measurement (2), 237–270. Washington DC: American Council on Education.
  • Fleiss, J. L. (1971). Measuring nominal scale agreement among many raters. Psychological Bulletin. 76(5), 378-382.
  • Goodrich, H. (1997). Understanding rubric. Educational Leadership, 54(4), 14-17.
  • Goodwin, L. D. (2001). Interrater agreement and reliability. Measurement in Psychical Education and Exercises Science, 5(1), 13-14.
  • Haladyna, M. T. (1997). Writing test items to evaluate higher order thinking. Needham Heights: Allyn and Bacon.
  • Johnson, A. ve Swingly, G. (2007) . The use of scoring rubrics: Reliability, validity and educational consequences. Educational Research Rewiew. 2(2007), 130-144.
  • Korkmaz, H. (2004). Fen ve teknoloji eğitiminde alternatif değerlendirme yaklaşımları. Ankara: Yeryüzü Yayınevi.
  • Krippendorff, K. (1995). On the reliability of unitizing continuous data. Sociological Methodology, 25, 47-76.
  • Krippendorff, K. (2004b). Measuring the reliability of qualitative text analysis data.
  • Humanities, Social Sciences and Law, 38(6), 787-800.
  • Kutlu, Ö., Doğan, D. C. ve Karakaya, Ġ. (2009). Öğrenci başarısının belirlenmesi: performansa ve portfolyaya dayalı durum belirleme. Ankara: Pegem Akademi.
  • Landis, J, R. ve Koch, G. (1977). The measurement of observer agreement for categorical data. Biometrics. 33, 159-174.
  • Mertler, C. A. (2001). Designing scoring rubrics for your classroom. Pratical Assessment Research and Evaluation, 7(25).
  • Moskal, B. M. (2000). Scoring rubrics: What, when and how?. Practical Assessment Research and Evaluation, 7(3).
  • Nitko, A. J. (2001). Educational assessment of students. (3th ed). New Jersey: Prentice Hall.
  • Sim, J. ve Wright, C. C. (2005) The kappa statistic in reliability studies: use, interpretation, and sample size requirements. Physical Theraphy, 85(3), 258-268.
  • Tanner, M. A. ve Young, M. A. (1988). Modeling agreement among raters. Journal of the American Statistical Association, 80(389). 175-180.
  • Von Eye, A. ve Mun, E. Y. (2005). Analyzing rater agreement: Manifest variable methods. New Jersey: Lawrence Erlbaum Associates.