Adnan KAN, Okan BULUT

Application of computerized adaptive testing to entrance examination for graduate studies in Turkey

Son yıllarda dünya genelinde yaygınlaşmaya başlayan bilgisayar ortamında bireyselleştirilmiş (CAT) test uygulamaları halen kullanılmakta olan klasik testlere göre çok daha güvenilir ve hızlı sonuçlar alınmasını sağlamaktadır. Bilgisayar ortamında gerçekleştirilen bu sınavlarda, sınava giren kişiler önceden hazırlanmış bir soru havuzundan kendileri için seçilen sorulara yanıt vermektedirler. CAT sisteminde eğer kişinin her bir soruya verdiği cevap doğru ise bir sonraki soru için soru havuzundan daha zor bir soru, eğer yanlış ise daha kolay bir soru gönderilmektedir. Böylece test kişinin bilgi yada yetenek düzeyine göre ayarlanmış olur. CAT sistemi kullanılan sınavlarda klasik sınavlara göre çok daha az soru ile sınavı alan kişinin puanı güvenilir bir şekilde hesaplanabilmektedir. Çünkü klasik test uygulamalarında olduğu gibi kişi sınavdaki tüm sorulara cevap vermek yerine, kendi bilgi yada yetenek düzeyine uygun olan ve bireyin potansiyelinin en az hata ile kestirilmesini sağlayacak sorularla karşılaşmaktadır.Türkiye'de her yıl öğrenci seçme ve yerleştirme merkezi ve Milli Eğitim Bakanlığı tarafından birçok sınav düzenlemekte ve bu sınavların sonuçlarına göre üniversite programlarına yerleştirme, devlet memurluğuna atama gibi önemli kararlar verilmektedir. Bu sınavı alan kişilerin bilgi, beceri yada yetenek düzeylerinin en iyi şekilde saptanması büyük önem taşımaktadır. Şuan uygulanmakta olan klasik test yöntemlerine göre CAT sistemi çok daha hızlı ve güvenilir sonuçlar sağlayabilir. Fakat CAT uygulamasına geçilmeden önce eldeki sınavların bu sisteme uygunluğu detaylı bir şekilde araştırılmalıdır.Araştırmanın AmacıBu çalışmanın amacı bilgisayar ortamında bireyselleştirilmiş (CAT) test yönteminin Akademik Personel ve Lisansüstü Eğitimi Giriş Sınavı'na (ALES) uygunluğunu incelemektir. ALES, yükseköğretim kurumlarında öğretim görevlisi, okutman, araştırma görevlisi, uzman, çevirici ve eğitim öğretim planlamacısı kadrolarına açıktan veya öğretim elemanı dışındaki kadrolardan naklen atamalarda, lisansüstü eğitime girişte, yurt dışma lisansüstü eğitim için gönderilecek adayların seçiminde ilgili kurumların kullanacakları puanlan veren bir sınavdır. Bu çalışmada öncelikle CAT sistemi ALES' üzerinde uygulanmıştır. CAT sisteminden elde edilen sonuçlar ALES sınavının klasik formatta gerçekleştirilmiş halinden elde edilen sonuçlarla kıyaslanmakta ve CAT sisteminin hangi koşullar altında en iyi sonuçlar verdiği tartışılmaktadır.Araştırmanın YöntemiBu çalışmada ALES'in CAT ve şuan kullanılmakta olan klasik formatlarından elde edilen yetenek kestirimlerini karşılaştırmak amacı ile post-hoc simülasyonlar uygulanmıştır. 2008 yılında uygulanmış olan ALES verileri kullanılarak sınav eğer bilgisayar ortamında CAT sistemi ile gerçekleştirilseydi nasıl sonuçlar elde edilirdi sorusunun yanıtı aranmaktadır. Sınava tüm katılanlar arasından rastgele on bin kişilik bir örneklem seçilmiştir. Bu kişilerin sorulara verdiği cevaplar kullanılarak 3 parametreli madde-cevap kuramı (IRT) modeline göre soruların zorluk ve ayırıcılık indeksleri ve de katılımcıların IRT ölçeğine göre test puanları belirlenmiştir. Sonrasında eldeki sorular bir soru havuzu olarak kullanılarak katılımcıların test puanları bu sefer CAT sistemi ile hesaplanmıştır. Yetenek kestirim yöntemi olarak Expected A Posteriori (EAP) kullanılmıştır. Test sonlandırma kuralı ise standart hata eşik değeri olarak belirlenmiştir. CAT, ALES'in her bir alt testine (sayısal 1, sayısal 2 ve sözel) ayrı ayrı uygulanmıştır. Elde edilen katılımcıların tüm teste verdikleri cevaplardan elde edilen asıl puanları ile karşılaştırılmıştır. Bu karşılaştırmalar için korelasyon ve RMSE gibi indeksler hesaplanmıştır. Post-hoc simulasyonları gerçekleştirmek için Firestar-D programı kullanılmıştır.Araştırmanın BulgularıPost-hoc simülasyon bulguları CAT uygulamasının ALES için Expected A Posteriori yetenek kestirim yöntemi ile 0.25, 0.30 ve 0.40 standart hata eşik değeri ile uygulanabileceğini göstermiştir. CAT ve klasik formattan elde edilen yetenek kestirimleri arasındaki korelasyon 0.93 ve üzeri olarak bulunmuştur. CAT ile kullanılan soru sayısı ortalaması ise her bir alt test için 9 ile 22 arasında değişmektedir. Bu sonuçlara göre CAT sistemi ALES' deki soru sayısında yüzde 70'lere varan oranda azalma sağlarken en az tüm sorular uygulandığındaki kadar net yetenek kestirimi sağlamıştır. EAP yetenek kestirim yöntemi ALES için en uygun yöntem olarak görülmüştür. Sayısal 1, sayısal 2 ve sözel alt testleri arasında en fazla hata miktarı sözel testte görülmüştür. Her ne kadar soru sayısı diğer iki alt teste göre daha fazla olsa da soruların sadece belirli bir yetenek aralığını ölçmesinden dolayı çok yüksek ya da düşük yetenekteki katılımcıların puanlarının hesaplanmasında hata oranının yüksek olduğu belirlenmiştir. Sayısal 1 testi normalin biraz daha altında yetenek kestirimleri verirken (negatif yanlılık) sayısal 2 ve sözel alt testleri normalin biraz üstünde yetenek kestirimleri (pozitif yanlılık) sağlamaktadır.Araştırmanın Sonuçları ve ÖnerileriBu araştırmanın sonuçları bilgisayar ortamında bireyselleştirilmiş test (CAT) sisteminin ALES'e uygulanmasının mümkün olduğunu, uygulandığı takdirde güvenilir sonuçlar sağlayabileceğini göstermektedir. CAT ile yüksek standart hata eşik değeri kullanıldığında bile güvenilir ve net sonuçlar elde edilmektedir. Yeterli genişlikte bir soru havuzu hazırlanması halinde CAT, sınava giren kişileri sınavın klasik formatındaki kadar çok sayıda soruya tabi tutmadan yetenek kestirimi yapabilmektedir. Bu nedenle CAT'in ALES'e uygulanması aşamasında ilk olarak iyi sorulardan oluşan kaliteli bir soru havuzu oluşturulmalıdır. CAT'in yapacağı bir diğer katkı ise sınavın maliyetini ve değerlendirme süresini düşürecek olmasıdır. CAT ile test kitapçıkları ve cevap formlarının kullanımına gerek kalmamaktadır. Ayrıca her yanıt sonrası yetenek kestirimi yapıldığı için katılıcılar sınav sonrası hemen puanlarını öğrenebilmektedirler. CAT sistemini

Bilgisayar ortamında bireyselleştirilmiş testlerin akademik personel ve lisansüstü eğitimi giriş sınavı'na uygulanması

Problem Statement: Computerized adaptive testing (CAT) is a sophisticated and efficient way of delivering examinations. In CAT, items for each examinee are selected from an item bank based on the examinee’s responses to the items. In this way, the difficulty level of the test is adjusted based on the examinee’s ability level. Instead of administering very long tests, CAT can estimate examinees’ ability levels with a small number of items. A number of operational testing programs have implemented CAT during the last decade. However, CAT hasn’t been applied to any operational test in Turkey, where there are several standardized assessments taken by millions of people every year. Therefore, this study investigates the applicability of CAT to a high-stakes test in Turkey. Purpose of Study: The purpose of this study is to examine the applicability of CAT procedure to the Entrance Examination for Graduate Studies (EEGS), which is used in selecting students for graduate programs in Turkish universities. Methods: In this study, post-hoc simulations were conducted using real responses from examinees. First, all items in EEGS were calibrated using the three-parameter item response theory (IRT) model. Then, ability estimates were obtained for all examinees. Using the item parameters and responses to EEGS, post-hoc simulations were run to estimate abilities in CAT. Expected A Posteriori (EAP) method was used for ability estimation. Test termination rule was standard error of measurement for estimated abilities. Findings and Results: The results indicated that CAT provided accurateability estimates with fewer items compared to the paper-pencil format of EEGS. Correlations between ability estimates from CAT and the real administration of EEGS were found to be 0.93 or higher under all conditions. Average number of items given in CAT ranged from 9 to 22. The number of items given to the examinees could be reduced by up to 70%. Even with a high SEM termination criterion, CAT provided very reliable ability estimates. EAP was the best method among several ability estimates methods (e.g., MAP, MLE, etc.). Conclusions and Recommendations: CAT can be useful in administering EEGS. With a large item bank, EEGS can be administered to examinees in a reliable and efficient way. The use of CAT can help to minimize the cost of the test since test booklets, examinee response sheets, etc. won’t be needed anymore. It can also help to prevent cheating during the test.

PDF

___

Betz, N. E. & Weiss, D. J. (1974). Simulation studies of two stage ability testing. Research report. Research Report 74-4. Minneapolis: University of Minnesota. Psychometric Methods Program. Department of Psychology.
Bulut, O. (2010). The fit of one-, two- and three-parameter item response theory models to the Entrance Examination for Graduate Studies in Turkey. Unpublished master's thesis, University of Minnesota, Minneapolis, MN, USA.
Choi, S. W. (2009). Firestar: Computerized adaptive testing simulation program for polytomous IRT models. Applied Psychological Measurement, 33,644-645.
Choi, S. W., Podrabsky, T., & McKinney, N. (2010). Firestar-D: Computerized adaptive testing Simulation program for dichotomous IRT models (Version 1.4.0) [Software]. Northwestern University, Feinberg School of Medicine.
Embretson, S. E, (1996). The new rules of measurement. Psychological Assessment, 8(4), 341-349.
Frey, A., & Seitz, N. N. (2009). Multidimensional adaptive testing in educational and psychological measurement: Current state and future challenges. Studies in Educational Evaluation, 35,89-94.
Guyer, R., & Thompson, N.A., (2011).User's Manual for Xcalibre 4.2.St. Paul MN: Assessment Systems Corporation.
IACAT - International Association for Computerized Adaptive Testing (2012). Retrieved on 05/31/2012 from http://iacat.org/.
Kalender, I, (2011). Effects of different computerized adaptive testing strategies on recovery of ability. Unpublished doctoral dissertation, MiddleEast Technical University, Ankara, Turkey.
Kalender, I. (2012).Computerized adaptive testing for student selection to higher education Journal of Higher Education, 2(1), 13-19.
Kaptan, F. (1993).Yetenek kestiriminde adaptive (bireyselleştirilmiş) test uygulamasi ile Geleneksel kağıt-kalem testi uygulamasının karşılaştırılması [A comparison of adaptive and conventional paper-pencil testing applications for ability estimation] .Unpublished doctoral dissertation, Hacettepe University, Turkey.
Koklu, N. (1990). Klasik test teorisine gore geliştirilen tailored test ile grup testi arasında bir karşılaştırma [A comparison between tailored and group tests based on classical test theory]. Unpublished doctoral dissertation. Hacettepe University, Turkey.
Mead, A. D. & Drasgow, F. (1993). Equivalence of computerized and paper-and pencil cognitive ability tests: a meta-analysis. Psychological Bulletin 1993,114(3), 449-458.
R Development Core Team (2012). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org/.
Rudner, L. (2012). An online, interactive, computer adaptive testing tutorial. Retrieved from http://echo.edres.org:8080/scripts/cat/catdemo.htm on 05/31/2012.
Segall, D. O. (1996).Multidimensional adaptive testing. Psychometrika, 61,331-354.
Segall, D. O. (2001). General ability measurement: An application of multidimensional itemresponse theory. Psychometrika, 66, 79-97.
Segall, D. O. (2005). Computerized adaptive testing. In K. Kempf-Leonard (Ed.), Encyclopedia of social measurement. New York, NY: Academic Press.
Student Selection and Placement Center. (2010). Retrieved on from http: / / www.osym.gov.tr05/31 /2012.
Van der Linden, W. J. (2008). Bayesian procedures for identifying aberrant response-time patterns in adaptive testing. Psychometrika. 73(3), 365-384.
Wang, W. C., & Chen, P. H. (2004). Implementation and measurement efficiency ofmultidimensional computerized adaptive testing. Applied Psychological Measurements, 450-480.
Weiss, D. J. (1983). Latent trait theory and adaptive testing. In D. J. Weiss (Ed.).New horizons in testing (pp. 5-7). New York: Academic Press.
Weiss, D. J. (2004). Computerized adaptive testing for effective and efficient measurement in counseling and education. Measurement and Evaluation in Counseling and Development, 37, 70-84.
Weiss, D. J. (2012).CAT Central: A global resource for computerized adaptive testing research and applications. Retrieved fromhttp://www.psych.umn.edu/psylabs/CATCentralon 05/31/2012.
Weiss, D. J., & Gibbons, R. D. (2007). Computerized adaptive testing with the bifactor model. In D. J. Weiss (Ed.). Proceedings of the 2007 GMAC Conference on Computerized Adaptive Testing, URL. http://www.psych.umn.edu/psylabs/catcentral/pdf files / cat07weiss&gibbons .pdf
Wise, S. L., and Kong, X. (2005). Response time effort: a new measure of examinee motivation in computer-based tests. Applied Measurement in Education, 18(2), 163-183.
Yaşar, M. (1999). Bireyselleştirilmiş testler üzerine bir çalışma [A research study on adaptive testing]. Unpublished doctoral dissertation, Hacettepe University, Turkey.