Çoktan Seçmeli Maddelerde Uzmanlarca Öngörülen ve Ampirik Olarak Hesaplanan Güçlük İndekslerinin Karşılaştırılması

Bu araştırmada, çoktan seçmeli maddeler için uzmanlarca öngörülen ve ampirik olarak hesaplanan güçlük indekslerinin karşılaştırılması amaçlanmıştır. Araştırmanın katılımcıları; ölçme ve değerlendirme alanından 10 uzman ile Türkiye’de bir devlet üniversitesinin eğitim fakültesinde öğrenim gören 222 öğretmen adayından oluşmuştur. Çalışmanın verileri araştırmacılar tarafından geliştirilen ve çoktan seçmeli 25 madde içeren ölçme değerlendirme başarı testi ile toplanmıştır. Araştırma sonuçları, uzman kanılarına dayalı madde güçlükleri ile ampirik olarak hesaplanan güçlük indeksleri arasında .25 ile .71 arasında değişen pozitif yönlü korelasyonlar bulunduğunu ortaya koymuştur. Fakat elde edilen korelasyon katsayıları arasında uzmanların unvanlarına ya da daha önce ilgili dersi yürütüp yürütmemelerine bağlanabilecek net bir örüntü gözlenmemiştir.

A Comparison of Difficulty Indices Predicted by Experts and Calculated Empirically in Multiple Choice Items

In this study, we aimed to compare the difficulty indices predicted by experts and calculated empirically for multiple choice test items. The participants of the research consisted of 10 experts from the field of measurement and evaluation in education, and 222 teacher candidates who study at the education faculty of a state university in Turkey. We collected research data via a measurement-evaluation achievement test developed by the ourselves and containing 25 multiple choice items. The research results revealed that there were positive correlations range through .25 to .71 between item difficulties estimated by experts and the difficulty indices calculated empirically. Nevertheless, we did not observe a clear pattern among the correlation coefficients that can be attributed to the titles of the experts or to whether they had taught the related course before.

___

  • Baker, F. (2001). The basics of item response theory (2nd ed.). ERIC Clearinghouse on Assessment and Evaluation.
  • Baykul, Y., & Sezer, S. (1993). Deneme yapılamayan durumlarda madde güçlük ve ayırıcılık gücü indekslerinin ve bunlara bağlı test istatiklerinin kestirilmesi [Özet]. Eğitim ve Bilim, 17(83).
  • Bazvand, A. D., Kheirzadeh, S., & Ahmadi, A. (2019). On the statistical and heuristic difficulty estimates of a high stakes test in Iran. International Journal of Assessment Tools in Education, 6(3), 330–343. https://doi.org/10.21449/ijate.546709
  • Cohen, R. J., & Swerdlik, M. E. (2018). Psychological testing and assessment: An introduction to tests and measurement (9th ed.). NY: McGraw-Hill Education.
  • Crocker, L., & Algina, J. (1986). Introduction to classical and modern test theory. NY: Holt, Rinehart and Winston.
  • Domino, G., & Domino, M. L. (2006). Psychological testing: An introduction (2nd ed.). NY: Cambridge University.
  • Enright, M. K., & Bejar, I. I. (1989). An analysis of test writers' expertise: Modeling analogy item difficulty. Alınan yer https://files.eric.ed.gov/fulltext/ED395014.pdf
  • Frey, B. B. (2015). 100 questions (and answers) about tests and measurement. CA: Sage.
  • Haladyna, T. M., & Rodriguez, M. C. (2013). Developing and validating test items. NY: Routledge.
  • Impara, J. C., & Plake, B. S. (1998). Teachers' ability to estimate item difficulty: A test of the assumptions in the Angoff standard setting method. Journal of Educational Measurement, 35(1), 69-81. https://doi.org/10.1111/j.1745-3984.1998.tb00528.x|
  • Kilmen, S. (2012). Madde analizi, madde seçimi ve yorumlanması. N. Çıkrıkçı Demirtaşlı, (Ed.), Eğitimde ölçme ve değerlendirme içinde (s. 363–385). Ankara: Öz Baran Ofset.
  • Lorge, I., & Diamon, L. K. (1954). The value of information to good and poor judges of item difficulty. Educational and Psychological Measurement, 14(1), 29–33. https://doi.org/10.1177/001316445401400103
  • Mohan, R. (2016). Measurement, evaluation and assessment in education. PHI Learning Pvt. Özçelik, D. A. (2010). Test hazırlama kılavuzu. Ankara: PegemA.
  • Quereshi, M. Y., & Fisher, T. L. (1977). Logical versus empirical estimates of item difficulty. Educational and Psychologıcal Measurement, 37(1), 91–100. https://doi.org/10.1177/001316447703700110
  • Rowntree, D. (1981). Statistics without tears: A primer for non-mathematicians. Ally & Bacon.
  • Salkind, N. J. (2018). Tests & measurement for people who (think they) hate tests & measurement (3rd ed.). CA: Sage.
  • Taube, K. T., & Newman, L. S. (1996, 8–12 April). The accuracy and use of item difficulty calibrations estimated from judges' ratings of item difficulty [Conference presentation]. Annual Meeting of the American Educational Research Association, New York.
  • Tinkelman, S. (1947). Difficulty prediction of test items. Teachers College Contributions to Education, 941, 55.
  • Urbina, S. (2014). Essentials of psychological testing (2nd ed.). Wiley.
  • Uyar, Ş. (2019). Madde puanları üzerinde istatistiksel işlemler. N. Doğan, (Ed.), Eğitimde ölçme ve değerlendirme içinde (s. 377–399). Ankara: Pegem Akademi.
  • Whiston, S. C. (2017). Principles and applications of assessment in counseling (5th ed.). Cengage Learning.
Journal of Computer and Education Research-Cover
  • Yayın Aralığı: Yılda 2 Sayı
  • Başlangıç: 2013
  • Yayıncı: Tamer KUTLUCA