Geleneksel Yöntemle ve Eleme Yöntemiyle Puanlanan Çoktan Seçmeli Testlerin Psikometrik Özelliklerinin İncelenmesi

Problem Durumu: Çoktan seçmeli testlerin şans başarısına izin vermesi ve madde teme- linde bireyler arasındaki ayırımı iki kategoride yapması gibi sınırlılıkları vardır. Eleme puanlaması kısmi bilgiye sahip bireylerle şansla cevaplayan bireyleri ayırt eder. Araştırmanın Amacı: Bu çalışmada, çoktan seçmeli testlerin alternatif bir uygulama yön- temi olan eleme puanlamasının psikometrik özelliklerinin geleneksel uygulama ile Kla- sik Test Kuramı ve Madde Tepki Kuramı bağlamında karşılaştırılması amaçlanmıştır. Araştırmanın Yöntemi: Araştırmanın örneklemini Hacettepe Üniversitesi’nin çeşitli fa- kültelerinde İngilizce hazırlık öğrenimi gören 370 öğrenci oluşturmaktadır. Öğrencile- rin, yarısına öncelikle eleme puanlaması diğer yarısına geleneksel uygulamadan daha sonra eleme puanlaması yaptırılarak veriler elde edilmiştir. Klasik Test Kuramı’na da- yalı olarak, testin uzunluk verimliliği, güvenirliği ve geçerliği karşılaştırılmıştır. Madde Tepki Kuramı’na dayalı geleneksel puanlama ile eleme puanlamasının göreceli verimli- likleri, marjinal güvenirlikleri ve geçerlikleri karşılaştırılmıştır. Elde edilen veriler SPSS, ITEMAN ve MULTILOG programları kullanılarak analiz edilmiştir. Bulgular ve Sonuçlar: Klasik Test Kuramı’na dayalı karşılaştırmalarda, geleneksel puan- lama ile karşılaştırılmasında, eleme puanlaması uzunluk olarak 1.88 kat daha verimli olabileceğini bulunmuştur. Eleme puanlaması (0.84) güvenirlik yönünden geleneksel puanlamadan (0.73) daha yüksek bulunmuştur. Geleneksel puanlama ile eleme puan- lamasının uyum geçerlikleri arasındaki fark anlamlı bulunmamıştır. Madde Tepki Ku- ramı’na dayalı olarak, tüm yetenek düzeylerinde eleme puanlamasının geleneksel pu- anlamaya göre daha verimli olduğunu göstermektedir (1.42 kattan, 19.44 kata kadar). Madde Tepki Kuramı’na dayalı olarak elde edilen marjinal güvenirlikler yönünden e- leme puanlamasının geleneksel puanlamadan daha yüksek katsayılar verdiği gözlen- miştir. Madde Tepki Kuramı’na dayalı olarak eleme puanlamasının geleneksel puanla- madan daha yüksek geçerlik değerlerine sahip olduğu belirlenmiştir. Öneriler: Eleme puanlaması geleneksel puanlamaya göre daha iyi sonuçlar vermiştir. Bu bağlamda, büyük ölçekli test uygulamalarında daha büyük örneklemde ve gerçeğe da- ha yakın sınav koşullarında deneme uygulaması yapılması ve bu uygulamanın sonuç- larına göre, büyük ölçekli sınavlarda eleme puanlamasının kullanılması önerilebilir.

Psychometric Properties of Multiple Choice Tests Scored with Traditional and Elimination Scoring

Problem Statement: There are limitations of multiple choice tests which have guessing and don’t measure partial knowledge on an item. Elimination scoring is discriminate examinees that possess partial knowledge as compared with those who are simply guessing. Purpose: In this research, item and test properties of form which is answered according to the traditional method and form which is answered as eliminating distracters that identified by examinee (elimination scoring) are compared within Classical Test Theory (CTT) and Item Response Theory (IRT). Methods: The sample of the study consists of 370 university students who enrolled in preparation course in different faculty at Hacettepe University. In respect of CTT, length efficiency of methods, reliabilities and validities test scores estimated from tradi- tional and elimination scoring are compared. In respect of IRT, the relative efficiency of test, marginal reliabilities and validities estimated from traditional and elimination scoring are compared. Data analyzed using SPSS, ITEMAN and MULTILOG programs. Findings/Results: Internal consistency reliabilities are obtained 0.83 in elimination scor- ing, 0.74 in traditional scoring and the difference of these reliability coefficients is sig- nificant (p< 0.01). Validity coefficients are obtained 0.21 in elimination, 0.17 in tradi- tional scoring. The difference of validity coefficients is not significant. Additionally, the elimination scoring is more efficient than traditional scoring according to length effi- ciency. Elimination scoring have higher test information than traditional scoring for all ability levels in respect to IRT. The elimination scoring is more efficient than traditional scoring for all ability levels. The marginal reliabilities are estimated 0.95 in elimination scoring and 0.74 in traditional scoring. The difference of marginal reliability coefficients between elimination and traditional scoring is significant (p< 0.01). Validity coefficients are predicted 0.29 in elimination, 0.18 in traditional scoring and the difference of these validity coefficients is significant (p< 0.05). Conclusions/Recommendations: In elimination scoring we estimate higher reliability, va- lidity and efficiency with respect to conventional number right scoring. We suggest that the elimination method could be use in large scale testing practices.

PDF

___

Ben – Simon, A., Budescu, D. V., & Nevo, B. (1997). A comparative study of measures of partial knowledge in multiple – choice tests. Applied Psychological Measurement, 21, 65-88.
Bradbard, D. A., Parker, D., & Stone, G. L. (2004). An alternate multiple-choice scoring procedure in a macroeconomics course. Decision Sciences Journal of Innovative Education, 2, 11-26.
Collet, L. S. (1971) Elimination scoring: An empirical evaluation. Journal of Educational Measurement, 8, 209-214.
Coombs, C. H., Milholland, J. E., & Womer, F. B. (1956). The assessment of partial knowledge.Educational and Psychological Measurement, 16, 13-37.
Embretson, S. E., & Reise, S. P. (2000). Item response theory for psychologists, Mahwah, NJ: Lawrence Erlbaum Associates.
Frary, R. (2000). Testing Memo 1: Guessing on Multiple-Choice Tests. Test scoring services pages,Blacksburg. 15 Ağustos 2000’de http://www.testscoring.vt.edu/memo01.html den alındı.
Hakstian, A. R., & Kansup, W. (1975). A comparison of several methods of assessing partial knowledge in multiple choice tests: II. testing procedures. Journal of Educational Measurement, 12, 219-230.
Hambleton, R. K., & Swaminathan, H. (1985). Item response theory: Principles and applications. Boston: Kluwer-Nijhoff.
Jaradat, D., & Tollefson N. (1988). The impact of alternative scoring procedures for multiple choice items on test reliability, validity, and grading. Educational and Psychological Measurement, 48, 627-635.
Kurz, T. B. (1999). A review of scoring algorithms for multiple-choice tests. Paper presented at the Annual Meeting of Southwest Educational Research Association, San Antonio.
Thissen, D. (1991). Multilog user’s guide (version 6.0). Chicago, II.: Scientific Software Incorporated.