Dikey Ölçeklemede Madde Tepki Kuramına Dayalı Kalibrasyon ve Yetenek Kestirim Yöntemlerinin Karşılaştırılması*

Bu araştırma kapsamında; ortak madde deseninde madde tepki kuramına dayalı ayrı ve eş zamanlı kalibrasyon ve Expected A Posteriori, Maximum A Posteriori ve Maksimum Olabilirlik yetenek kestirim yöntemleri kombinasyonuyla elde edilen dikey ölçeklerin karşılaştırılması yapılmıştır. Bu karşılaştırmayı yapabilmek için öncelikle 2008-2010 yılları arasında yapılan SBS sınavında sorulan sorulardan 6., 7. ve 8. sınıf matematik testleri oluşturulmuştur. Daha sonra 6. sınıftaki 503, 7. sınıftaki 502 ve 8. sınıftaki 500 öğrencinin zorluk düzeyleri farklı olan matematik testlerine verdikleri cevaplardan elde edilen puanlar kullanılarak dikey ölçekler geliştirilmiştir. Dikey ölçekleme süreciyle aynı ölçeğe yerleştirilen bu puanlardan elde edilen ölçek puanları kullanılarak ortalamalar, ortalamalar arasındaki fark, etki büyüklükleri ve yatay uzaklıklar hesaplanmış ve böylece ölçekleme sürecinde yapılan seçimlerin dikey ölçeklemeyi nasıl etkilediği belirlenmeye çalışılmıştır.

A Comparison of Calibration Methods and Proficiency Estimators Based on Item Response Theory in Vertical Scaling

In this study the comparison of the vertical scales, which are obtained through the combination of separate and concurrent calibration based on item response theory and Expected A Posteriori,, Maximum A Posteriori and Maximum Likelihood proficiency estimation methods, take place. For this comparison firstly, math tests for the 6th, 7th and 8th grades were composed from the questions asked in SBS (high school entrance exam) between 20082010 years. Then, the vertical scales were developed by using the scores obtained from the answers of 503 6th grade, 502 7th grade and 500 8th grade students to the math tests in different difficulty levels. By using the scale scores which were obtained from these scores placed in the same scale with the vertical scaling process, means and the difference between the means, effect sizes and horizontal distances were calculated so it was tried to be determined how the choices in scaling process affected the vertical scaling.

___

  • Beard, J. J.(2008). An Investigation of vertical scaling with item response theory using a multistage testing framework. Yayınlanmamış Doktora Tez. University of Iowa, Iowa.
  • Boughton, K.A., Lorie, W. & Yao, L. (2005). A Multidimensional Multigrup IRT Models for Vertical Scales with
  • Complex Test Structure: An Emprical Evaluation of Student Growth using Real Data. National Council on Measurement in Education: 2005. Monreal/ Quebec/ Canada.
  • Briggs, D.C. & Weeks, J.P. (2009). The İmpact of Vertical Scaling Decisions on Growth Interpretations. Educational Measurments 28(4), 3-14
  • Burg, S. (2008). An investigation of dimensionality across grade levels and effects on vertical linking for elementary gerade mathematics achievement tests. NCME: NYC, 2008.
  • Chin, T.Y. , Kim,W. & Nering, M. L. (2006). Five Statistical Factors That Influence IRT Vertical Scaling. Paper presented at the annual meeting of National Council on Measurement in Education (NCME) at San Francisco, April 2006.
  • Hanson, B.& Zeng, L.(Rev. Cui,Z 2004). ST: A Computer Program for IRT Scale Transformation.
  • Holland, P. W. (2002). Two measures of changes in the gaps between the CDFs of test score distributions. Journal of
  • Educational and Behavioral Statistics, 27, 3- 17. Karkee,T.; Lewis, D.M.; Hoskens, M.; Yao, L.& Haug, C. (2003). Seperate vs Concurrente Calibration Methods in
  • Vertical Scaling. Paper presented at the annual meeting of National Council on Measurement in Education Chicago, IL, April 22-24, 2003.
  • Kim, J. (2007). A comparison of calibration methods and proficiency estimators for creating IRT vertical scales.
  • (Yayınlanmamış Doktora Tezi), University of Iowa, Iowa. Kim,J., Lee, W.C., Kim,D. & Kelley, K. ( 2009). Investigation of Vertical Scaling Using the Rasch Model. National
  • Council on Measurement in Education: April 2009.
  • Kolen, J. M. (2004). Linking Assessments: Concept and History. Applied Psychological Measurement, 28(4), 219
  • Kolen M.. J. & Tong, Y. (2010). Psychometric Properties of IRT Proficiency Estimates. Educational Measurement
  • Issues and Practice, 29(3), 8-14. Loyd, B. H., & Hoover, H. D. (1980). Vertical equating using the Rasch model. Journal of Educational Measurement, , 179-193.
  • Macro, G. L. (1977). Item Characteristic Curve Solutions to Three Intractable Testing Problems. Journal of
  • Educational Measurement, 14 (2), 139- 160
  • MEB. (2009). İlköğretim Matematik Dersi 6-8. Sınıflar Öğretim Programı. Ankara, 2009.
  • MEB (2008a). 6. Sınıf seviye belirleme sınavı soru kitapçığı.
  • MEB (2008b). 7. Sınıf seviye belirleme sınavı soru kitapçığı.
  • MEB (2008c). 8. Sınıf seviye belirleme sınavı soru kitapçığı.
  • MEB (2009a). 6. Sınıf seviye belirleme sınavı soru kitapçığı.
  • MEB (2009b). 7. Sınıf seviye belirleme sınavı soru kitapçığı.
  • MEB (2009c). 8. Sınıf seviye belirleme sınavı soru kitapçığı.
  • MEB (2010a). 6. Sınıf seviye belirleme sınavı soru kitapçığı.
  • MEB (2010b). 7. Sınıf seviye belirleme sınavı soru kitapçığı.
  • MEB (2010c). 8. Sınıf seviye belirleme sınavı soru kitapçığı.
  • Meng, H (2007). A comparison study of IRT calibration methods for mixed-format tests in vertical scaling.Unpublished Ph.D. Thesis, University of Iowa, Iowa.
  • McBridge, J.& Wise, L. (2001) Developing the Vertical Scale fort he Florida Comprehensive Assesment Test
  • (FCAT). A Harcourt Educational Measurment, San Antonio, Texas. Stocking, M. L. & Lord, F. M. (1983). Developing a Common Metric İn Item Response Theory. Applies
  • Psychological Measurment, 7(2), 201-2010.
  • Tong, Y. & Kolen, M. (2010) Scaling: An ITEMS Module. Educational Measurement: Issues and Practice, 29(4), 39
  • Tong, Y. & Kolen (2007). Comparison of Methodologies and Results in Vertical Scaling for Educational
  • Achievement Tests. Applied Measurement in Education, 20(2), 227-253. Tong, Y. & Kolen, M. (2008). Maintenance of Vertical Scales. National Council on Measurement in Education:
  • March 2008. New York City.
  • Yen, W. M. (1986). The choice of scale for educational measurement: An IRT perspective. Journal of Educational Measurement, 23, 299-325.
  • Zimowski, M. F., Muraki, E., Mislevy, R. J.,& Bock, R. D. (2003). BILOG-MG 3 [computer program]. Chicago:Scientific Software Corporation.