An Explanatory Item Response Theory Approach for a Computer-Based Case Simulation Test

Problem: Test geliştirme ve geliştirilen testlerin güvenirlik ve geçerliğini araştırmada sıkça kullanılan Madde Tepki Modelleri çoktan seçmeli testlerde uzun zamandır madde ve test kalitesini kontrol amacıyla kullanılmaktadır. Bu modellerin aynı amaçla uygulamalı testlerde kullanımı ise birçok zorluk ile karşılaşmıştır. Bu zorluklardan ilki ilk geliştirilen Madde Tepki Modellerinin sadece ikili puanlanan test maddeleri için uygun olmasıydı. Oysa uygulamalı test maddeleri çoğunlukla kısmı puanlama gerektirecek şekilde geliştirilir. Kısmi puanlamaya uygun Madde Tepki Modellerinin geliştirilmesiyle bu sorun kısa zaman içerisinde çözümlendi. Bir diğer zorluk ki hala güncelliğini korumaktadır, uygulamalı test verilerinin Madde Tepki Modelleri ile modellenmeye daha az uygun oluşlarıdır. Bir başka deyişle, uygulamalı testlerde kullanıldığında Madde Tepki Modelleri uygulamaları güvenirliği çok iyi olmayan madde ve kişi istatistikleri ile sonuçlanabilmektedir. Bunun iki önemli nedeni uygulamalı testlerin çoktan seçmeli testlere göre daha kısa oluşları ve de uygulamalı test sorularının ölçülmesi istenen becerilerle direk olarak ilgili olmayan birçok faktörlerin etkisine çoktan seçmeli sorulardan daha açık oluşlarıdır. Uygulama testleri ile çalışan psikometristler de diğer testlerle çalışan meslektaşları gibi Madde Tepki Modellerinin sağlayacağı örneklem bağımlılığı oldukça düşük olan madde ve kişi istatistiklerine ihtiyaç duymakta ve yukarıda sayılan zorlukları aşabilecek yeni modellerin geliştirilmesini beklemektedir. Amaç: İkincil değişkenleri model hesaplamalarına yordayıcı olarak dahil etmeye izin veren Açıklayıcı Madde Tepki Modelleri birçok farklı ortamda uygulanan bir çok testin madde ve kişi istatistiklerinin kalitesinin arttırılmasında kullanılmaktadır. Ancak bu modellerin uygulamalı testlerde kullanıldıklarında sıkça karşılaşılan düşük model uygunluğu ve düşük güvenirlik problemlerini çözmede kullanılması ile ilgili bir çalışma henüz yapılmamıştır. Bu çalışmanın amacı Madde Tepki Modelleri kullanıldığında veriye uygunluk indeksleri düşük çıkan altı adet interaktifuygulamalı madde içeren bir uygulama testi için Açıklayıcı Madde Tepki Modellerinin iyi bir alternatif olup olmadığını değerlendirmekti. Yöntem: Bu çalışmanın örneklemi araştırmaya konu olan uygulamalı CCS (Computer Case Simulations) testini alan 767 kişinin altı uygulama sorusuna verdiği cevaplardan oluşmaktadır. CCS Amerika'da çalışma lisansı almaya hak kazanabilmek için hekim adaylarının aldıkları üçaşamalı bir testin, üçüncü ve son aşmasında verilen bir uygulama testidir. Hekim adayları bu son aşamada çoktan seçmeli bir testin yanı sıra bu uygulama testini de alırlar. Sınav sırasında, her bir CCS uygulaması için hekim adaylarına bilgisayar ortamında bir hasta profili verilir. Hekim adayları uygun olduklarını düşündükleri teşhis ve takipleri interaktif bir ortamda yapabilmektedir. Her bir CCS için hekim adayları maksimum 25 dakika harcayabilir. Bu çalışmada örneklemdeki kişiler her uygulama sorusundaki performansları için yanlış uygulamaya 0, kısmi doğru uygulamaya 1 ve doğru uygulamaya 2 puanla puanlanmıştır. Kısmi puanlama kullanıldığı için, Kısmi Puanlama Madde Tepki Modelleri (Partial Credit Modeling) ile hesaplanan beş ayrı model kullanılmıştır. İlk model hiçbir yordayıcı değişken olmadan, yani geleneksel kısmi puanlama Madde Tepki Modelleri ile hesaplanmıştır. İkinci model uygulama sorusunun sırası, üçüncü model uygulama sorusuna ne kadar zaman harcandığı, dördüncü model hekim adayının cinsiyeti ve beşinci model hekim adayının son aşama sınavının çoktan seçmeli sorulardan oluşankısmındanaldığıpuanıyordayıcıolarakkullanarak hesaplanmıştır. Her yordayıcının faydalılığını test etmek için her bir Açıklayıcı Madde Tepki Modeli için hesaplanan veriye uygunluk indeksleri geleneksel Madde Tepki Modeli için hesaplanan indeksleri ile karşılaştırılmıştır. Bulgular: Model uygunluk indeksleri çoktan seçmeli bölümden alınan test puanının iyi bir yordayıcı olduğunu göstermektedir.Uygulama sorusunun hangi sırayla cevaplandığı, uygulama sorusuna harcanan toplam zaman ve hekim adayının cinsiyeti yordayıcı olarak faydalı bulunmamıştır. Karşılaştırıldığında Madde Tepki Modeli ve çoktan seçmeli test puanı ile hesaplanan Açıklayıcı Madde Tepki Modelli ile hesaplanan madde eşik değerlerini kullanarak elde edilen figürler açıkça göstermektedir ki iyi bir yordayıcı ile kurulan bir Açıklayıcı Madde Tepki Modeli madde istatistikleri ile kişilerin beceri düzeyleri arasındaki fonksiyonel ilişkiyi iyi yöndedeğiştirebilecektir. Öneriler: Uzmanlar kişilerin bilgi ve becerilerini ortaya koyabilecekleri uygulama sınavlarının, çoktan seçmeli sınavlara birçok bakımdan üstün olduğunu düşünürler. Ancak uygulama sınavları ile elde edilen test puanlarının güvenirliği çoktan seçmeli sınavlarla karşılaştırıldığında genellikle düşüktür. Test güvenirliğini arttırmanın en olağan yolu olan madde sayısını arttırma uygulama sınavları için çok kolay olmamaktadır. Uygulama sorularını geliştirmek, uygulamak ve puanlamak oldukçaemek yoğun ve pahalı olabilmektedir. Test maddeleri artırılamıyorsa, bir alternatif uygulama elde bulunan ek verilerin yapılan model tahminlerinde kullanılması olabilir. Bu çalışma böylesi bir yaklaşımla yapılmıştır. Bulgular göstermektedir ki gelenekselMadde Tepki Modeli uygulandığında kabul edilebilir veriye uygunluk indeksleri ve güvenilir madde istatistikleri elde etmede güçlük çekenuygulamatestleriAçıklayıcıMaddeTepkiModellerinin uygulamalarından yararlanabilir. Bu araştırmaya konu olan CCS uygulama testi için alınan sonuçlar göstermektedir ki ikincil değişkenlerin sağlayacağı ek bilgi, bu bilgi olmadan elde edilecek tahminleri iyi yönde değiştirecektir. Elbette Açıklayıcı Madde Tepki Model'inin başarılı olması için ikincil verilerin elde bulunması ve modele eklenmesi başlı başına yeterli olmayacaktır. Bu ikincil değişkenlerin katkısının ne olacağı bu araştırmada da kullanılan aşamalı bir yaklaşım ile ayrı ayrı de

Açıklayıcı Madde Tepki Kuramının İnteraktif Bir Bilgisayar Simülasyon Testine Uygulanması

Problem: Practitioners working with multiple-choice tests have long utilized Item Response Theory (IRT) models to evaluate the performance of test items for quality assurance. The use of similar applications forperformance tests, however, is often encumbered due to the challenges encountered in working with complicated data sets in which local calibrations alone provide a poor model fit. Purpose: The purpose of this study was to investigate whether the item calibration process for a performance test, computer-based case simulations (CCS), taken from the United States Medical Licensing Examination®(USMLE®) Step 3®examination may be improved through explanatory IRT models. It was hypothesized that explanatory IRT may help improve data modeling for performance assessment tests by allowing important predictors to be added to a conventional IRT model, which are limited to item predictors alone.Methods: The responses of 767 examinees from a six-item CCS test were modeled using the Partial Credit Model (PCM) and four explanatory model extensions, each incorporating one predictor variable of interest. Predictor variables were the examinees' gender, the order in which examinees encountered an individual item (item sequence), the time it took each examinee to respond to each item (response time), and examinees' ability score on the multiple-choice part of the examination. Results: Results demonstrate a superior model fit for the explanatory PCM with examinee ability score from the multiple-choice portion of Step 3. Explanatory IRT model extensions might prove useful in complex performance assessment test settings where item calibrations are often problematic due to short tests and small samples. Recommendations: Findingsof this study have great value in practice and implications for researchers working with small or complicated response data. Explanatory IRT methodology not only provides a way to improve data modeling for performance assessment tests but also enhances the inferences made by allowing important person predictors to be incorporated into a conventional IRT model.Keywords: Explanatory Item Response Theory, Partial Credit Model, Item Response Theory, Performance Tests, Item calibration, Ability estimation, Small tests

___

  • Akaike, M. (1974). A new look at the statistical model identification. IEEE Transactions on Automatic Control, 19, 716-723.
  • Bock, R. D. (1972). Estimating item parameters and latent ability when responses are scored in two or more nominal categories. Psychometrika, 37, 29-51.
  • Clauser, B. E., Harik, P., Clyman, S. G. (2000). The generalizability of scores for a performance assessment scored with a computer-automated scoring system. Journal of Educational Measurement, 37, 245-262.
  • De Boeck, P. & Wilson, M. (2004). Explanatory item response models: a generalized linear and nonlinear approach. New York, NY: Springer.
  • Dillon, G. F., Henzel, T. R., & Walsh, W. P. (1997). The impact of postgraduate training on an examination for medical licensure. In Advances in Medical Education (pp. 146-148). Springer Netherlands.
  • Embretson, S. E. (1984). A general latent trait model for response processes. Psychometrika, 49(2), 175-186.
  • Embretson, S. E. (1998). A cognitive design system approach to generating valid tests: Application to abstract reasoning. Psychological Methods, 3(3), 380-396.
  • Embretson, S. E. (1997). Multicomponent response models. In Handbook of modern item response theory (pp. 305-321). Springer New York.
  • Feinberg, R. A. (2012). The impact of postgraduate training on USMLE® step 3® and its computer-based case simulation component. Journal of general internal medicine, 27 (1), 65-70.
  • Fischer, G. H. (1983). Logistic latent trait models with linear constraints. Psychometrika, 48 (1),3-26.
  • Fitzpatrick, A. R., Link, V. B., Yen, W. M., Burket, G. R., Ito, K. and Sykes, R. C. (1996). Scaling Performance Assessments: A Comparison of One-Parameter and Two-Parameter Partial Credit Models. Journal of Educational Measurement, 33: 291-314.
  • Fox, J.P. (2005). Multilevel IRT using dichotomous and polytomous response data. British Journal of Mathematical and Statistical Psychology, 58: 145-172.
  • Hambleton, R. K., Swaminathan H., & Rogers, H. J. (1991). Fundamentals of item response theory. Newbury Park, CA: Sage Publications, Inc.
  • Hambleton, R. K., & Van der Linden, W. J. (1982). Advances in Item Response Theory and Applications: An Introduction, Applied Psychological Measurement, 6 (4), 373-378
  • Harting, J., Frey, A., Nold, G. & Klieme, E. (2012). An Application of Explanatory Item Response Modeling for Model-Based Proficiency Scaling, Educational and Psychological Measurement, 72 (4), 665-686
  • Kane, M. B. & Mitchell, R. (1996). Implementing Performance Assessment. Mahwah, NJ: Lawrence Erlbaum Ass.
  • Leary, L. F & Dorans, N. J. (1985). Implications for altering the context in which test items appear: A historical perspective on an immediate concern, Review of Educational research, 55, 387-413.
  • Lu, Y & Sireci, S. G. (2007). Validity issues in test speededness. Educational Measurement: Issues and Practice, 26, 29-37.
  • Margolis, M.J., Clauser B. E., and Harik P. (2004). Scoring the computer-based case simulation component of USMLE Step 3: A comparison of preoperational and operational data. Academic Medicine, 79, 62 - 64.
  • Masters, G. N. (1982). A Rasch model for partial credit scoring. Psychometrika, 47 (2), 149-174.
  • McDonald, R. P. (1999). Test theory: a unified treatment. Mahwah NJ: Erlbaum
  • Nitko, A. J. (1996). Educational assessment of students (2nd. Ed.). Englewood Cliffs NJ: Prentice-Hall.
  • Novick, M. R. (1966). The axioms and principal results of classical test theory. Journal of Mathematical Psychology, 3(1), 1-18.
  • Ramineni, C., Harik, P., Margolis, M.J., Clauser, B.E., Swanson, D.B. & Dillon, G.F. (2007) Sequence Effects in the United States Medical Licensing Examination (USMLE) Step 2 Clinical Skills (CS) Examination. Academic Medicine, 10, S101- S104.
  • Rasch, G. (1960), An item analysis which takes individual differences into account. British Journal of Mathematical and Statistical Psychology, 19: 49-57.
  • Samejima, F. (1969). Estimation of latent ability using a response pattern of graded scores. Psychometrika, Monograph No. 17.
  • Sawhill, A. J., Dillon, G. F., Ripkey, D. R., Hawkins, R. E., & Swanson, D. B. (2003). The impact of postgraduate training and timing on USMLE Step3 performance. AcademicMedicine, 78, 10-12.
  • SAS Institute Inc., SAS 9.1.3 Help and Documentation, Cary, NC: SAS Institute Inc., 2000-2004.
  • Schwarz, G. (1978). Estimating the dimension of a model. The Annals of Statistics, 6, 461-464.
  • Skrondal, A.& Rabe-Hesketh, S. (2004). Generalized latent variable modeling: Multilevel, longitudinal, and structural equation models. CRC Press
  • Spearman, C. (1904). "General Intelligence," Objectively Determined and Measured. The American Journal of Psychology, 15(2), 201-292.
  • United States Medical Licensing Examination® (USMLE®). (2010). Step 3® Content Description Online. Retrieved June 6, 2010, from the World Wide Web: http://www.usmle.org/examinations/step3/step3_content.html.
  • Wang, W.-C., Wilson, M. and Shih, C.L. (2006), Modeling Randomness in Judging Rating Scales with a Random-Effects Rating Scale Model. Journal of Educational Measurement, 43: 335-353.
  • Wright, B. D. (1977). Solving measurement problems with the Rasch model. Journal of Educational Measurement, 14:97-116.
  • Yen, W. M. (1980). The extent, causes and importance of context effects on item parameters for two latent trait models. Journal of Educational Measurement, 17: 297-311.
  • Yen, W. M. (1983). Scaling performance assessment: Strategies for managing local item dependence. Journal of Educational Measurement, 30: 187-213.
  • Zinderman, A. H. (1991). A generalized Rasch model for manifest predictors. Psychometrika, 56 (4), 589-600.