Hatice INAL, Duygu ANIL

Test Eşitlemede Grup Değişmezliğinin Farklı Simülasyon Koşulları Altında İncelenmesi

Problem Durumu: Psikometride, bir testin farklı formlarından elde edilen puanların karşılaştırılabilmesini ve birbiri yerine kullanılabilmesini sağlayan puanları dönüştürme süreci eşitleme olarak adlandırılmaktadır. Eşitleme işlemin hatasız olması, gerçekleştirilen test uygulamalarının daha adil olması ve bireylerin geleceği ile ilgili doğru kararlar alınmasında kritik önem arz etmektedir. Başarılı bir eşitleme, bir testin daha kolay formuna alan bireylerin testin daha zor formuna giren bireylere göre haksız bir avantajı olmadığı ve bir testin farklı formlarını alan bireylerin puanlarındaki farklılığın, bireylerin başarı düzeyindeki farklılıktan kaynaklandığı anlamına gelmektedir. Eşitleme sürecinin başarılı bir şekilde yürütülmesi için, başka bir değişle eşitleme süreci yardımı ile farklı formlardan alınan puanların birbiri yerine kullanılabilmesi için eşitlemenin, grup değişmezliği şartının da yer aldığı birtakım şartları karşılanması gerekmektedir. Eşitlemenin grup değişmezliği, farklı ölçekler üzerindeki puanları eşitlemek için kullanılan fonksiyonun alt gruplara bağlı olmamasıyla sağlanır. Diğer yandan, bir testte yer alan bir maddeye ait performansın farklı alt gruplarda nasıl değiştiğini incelemek için Değişen Madde Fonksiyonu (DMF) kullanılmaktadır. Bundan dolayı parametre kestirimi ya da test eşitleme çalışmasına başlanmadan önce DMF gösteren maddeleri belirlemek ve gerekirse silmek için DMF analizi yürütmek gerekmektedir. Ancak bazı koşullarda iyi yapılandırılmış bir test çok sayıda DMF gösteren madde içerse de testten DMF gösteren maddelerin silinmesi testin yapı geçerliliğinin düşmesine ve yetenek parametre kestirimlerindeki hatanın artmasına neden olur. Ayrıca DMF gösteren maddelerin silinmesi durumunda testin geçersiz olacağı durumlar oluşabilir. Bu nedenle, eşitleme sırasında DMF gösteren maddelerin varlığında da eşitlemeye olan etkisini en aza indirebilecek koşulların incelenmesi önemlidir. Araştırmanın Amacı: Bu çalışmanın amacı ortak maddelere dayalı olarak yapılan eşitlemelerde, ortak maddelerin DMF göstermesi durumunda; DMF ve örneklem büyüklüğünden oluşturulan çeşitli koşullara göre grup değişmezliği indislerini belirlemek ve elde edilen sonuçları karşılaştırmaktır. Araştırmanın amacı doğrultusunda; ortak maddeler yardımıyla eşitlenmede, DMF ve örneklem büyüklüğü faktörleri altında simülasyon yardımıyla eşitleme açısından en optimum durum belirlenmeye çalışılmıştır. Çalışmada kullanılan simülasyon faktörleri; örneklem büyüklüğü, örneklem büyüklüğü oranı, DMF gösteren maddelerin bulunduğu form, DMF gösteren madde oranı, DMF yönü ve gruplar arası ortalama yetenek farkıdır.Araştırmanın Yöntemi: Bu araştırmada, belirlenen koşullara göre üretilen simülasyon veriyi kullanarak farklı eşitleme tasarımlarının karşılaştırılması amaçlanmaktadır. Böylece belirlenen koşullar altında eşitleme tasarımı için optimum koşullar incelendiği bu araştırmanın bir simülasyon çalışması niteliği taşımakta olduğu söylenebilir.Bu araştırmada iki test formunu eşitleyebilmek için “denk gruplarda ortak madde/test deseni” kullanılmıştır. Ortak maddeler, F0 ve F1 arasındaki eşitleme ilişkisini kurmak için kullanılmıştır. Eşitlenecek her bir form %25’si yani 10 tanesi ortak madde olmak üzere ikili puanlanmış 40 maddeden oluşmaktadır. Verilerin üretilmesinde R programından yararlanılmıştır. Bu çalışmada sonuçların tutarlı ve genellenebilir olabilmesi için her veri seti 100 defa türetilmiştir. Çalışma kapsamında bazı ortak test maddelerinde DMF tanımlamak gerekmektedir. Bu nedenle eşitlenecek olan F0 ve F1 formlarının uygulandığı gruplar, odak grup ve referans grup olarak ikiye ayrılmıştır. Verilerin analizinde R programı ve SPSS programından yararlanılmıştır. Veri analizinin ilk aşamasında eşitleme süreci yürütülmüştür. Daha sonra eşitleme sürecinden elde edilen sonuçlara dayalı olarak eşitlemenin doğruluğunu değerlendirmek amacıyla eşitlemede grup değişmezliği indisleri elde edilmiştir. Son olarak da elde edilen grup değişmezliği indislerinin çalışmada ele alınan faktörlere göre varyans analizi yapılmıştır.Çalışmanın amacı doğrultusunda F0 ve F1 formlarını eşitleme süreci toplam gruplar, odak gruplar ve referans gruplar üzerinde ayrı ayrı yürütülmüştür. Eşitleme süreci her bir grup için üç aşamada gerçekleştirilmiştir. İlk olarak R da batch edilen BILOG kodlarıyla madde kalibrasyonu işlemi yapılmıştır. Daha sonra eşitlenecek formlara ait parametreler ortalama sigma yöntemiyle aynı metrik üzerine ölçeklenmiştir. Ölçeklemenin akabinde, MTK gerçek puan eşitlemesi yapılarak F1 formuna ait eşitlenmiş gerçek puanlar elde edilmiştir. Eşitleme süreci çalışma kapsamındaki 96 koşul için 100’er kere gerçekleştirilmiştir. Her bir eşitleme süreci tamamlandıktan sonra; her bir puanın toplam grupların eşitlenmesi sonucunda elde edilen eşitlenmiş puanının, referans grupların eşitlenmesi sonucunda elde edilen eşitlenmiş puanının ve odak grupların eşitlenmesi sonucunda elde edilen eşitlenmiş puanının yer aldığı eşitleme tabloları oluşturulmuştur. Bu çalışmada eşitlemenin doğruluğunu grup değişmezliği açısından değerlendirilmiştir. Eşitlemede grup değişmezliğin belirlenmesinde çeşitli yöntemler kullanılmaktadır. Bu çalışmada Dorans ve Holland (2000) tarafından test eşitlemede grup değişmezliğini belirlemek amacıyla geliştirilen REMSD indisinden yararlanılmıştır. Tekrar sayısı 100 olduğu için her bir koşulda grup değişmezliği indisleri tekrarlardan elden edilen hesaplamaların ortalamaları alınarak raporlanmıştır. Eşitlemede grup değişmezliğinin değerlendirilmesinde, Dorans ve diğerlerinin (2003) ve Dorans’ ın (2004) önerdiği ham puan biriminin yarısı olarak alınan DTM (Difference That Matters) kriterinden yararlanılmaktadır. DTM= 0.50 kriteri alınarak bir puanın toplam gruptaki bir eşitlenmiş puan ile alt grup(lar)daki eşitlenmiş puan(lar) arasındaki farklılığın 0.50’den daha az olmasının yok sayılabilir; 0.50’den daha fazla olmasının ise manidar olduğu kabul edilerek yorumlar yapılmaktadır.Araştırmanın Bulguları: REMSD grup değişmezliğinin çalışmada ele alınan tüm değişkenlere göre manidar farklılık gösterdiği görülmektedir. Çalışma grubu büyüklüğü arttıkça REMSD grup değişmezliği indisinin manidar olarak azaldığı görülmektedir. Ayrıca, DMF gösteren ortak madde oranı arttıkça ise manidar şekilde REMSD grup değişmezliği indisi de artmaktadır. REMSD grup değişmezliği indisinin DMF gösteren ortak madde oranına göre gösterdiği manidar farklılığın hangi alt gruplar arasında olduğunu belirlemek için yapılan Post Hoc testine göre ise DMF gösteren ortak madde oranı değişkeninin tüm ikili alt grup karşılaştırmalarında manidar fark olduğu belirlenmiştir. REMSD grup değişmezliği, tek yönlü DMF’nin söz konusu olduğu koşullarda iki yönlü DMF’nin söz konusu olduğu koşullara göre manidar olarak daha büyük değer aldığı görülmektedir. Ayrıca gruplar arası yetenek farkının 0 olduğu koşullar, gruplar arası yetenek farkının 1 olduğu koşullara göre daha küçük REMSD değerleri hesaplanmıştır. Araştırmanın Sonuç ve Önerileri: Bu çalışmada veriler 3 parametreli lojistik modele göre üretilerek eşitleme yapılmıştır. Farklı modellere göre veri üretip farklı çalışmalar oluşturulabilir. Ayrıca, farklı eşitleme desenlerinde ortak maddelerde ya da eşitlenecek testte DMF gösteren maddelerin yer alması durumunda da test eşitlemede grup değişmezliğinin nasıl değiştiği incelenebilir. Diğer yandan, farklı örneklem büyüklükleri için farklı test uzunluklarında farklı eşitleme yöntemleri kullanılarak test eşitlemenin grup değişmezliği araştırılabilir. Bu çalışmada DMF gösteren ortak maddelerin test eşitlemenin grup değişmezliğine etkisi simülasyon verisi kullanılarak gerçekleştirilmiştir. Benzer şekilde gerçek bir veri setinde ya da simülasyon çalışması ile birlikte gerçek veri seti kullanılarak ortak maddelerde DMF görülmesi durumunda test eşitlemenin grup değişmezliğini nasıl etkilediği hususunda bir çalışma yapılması önerilebilir.

Anahtar Kelimeler:

: Test eşitleme, grup değişmezliği, simülasyon çalışması, değişen madde fonksiyonu.

Investigation of Group Invariance in Test Equating Under Different Simulation Conditions

Purpose: This study aimed to examine the impact of differential item functioning in anchor items on the group invariance in test equating for different sample sizes. Within this scope, the factors chosen to investigate the group invariance in test equating were sample size, frequency of sample size of subgroups, differential form of differential item functioning (DIF), frequency of items in the anchor test with differential item functioning, directionality of differential item functioning and mean differences in subpopulation ability levels. Research Methods: The current study was conducted by using item response theory true score equating under equivalent groups anchor test design. REMSD index was used for investigating group invariance in test equating. This study was designed as a comparison of equating results on 96 simulation conditions. The R language and SPSS software was utilized for analysis and 100 replications were performed for each condition. The effect of the conditions held in the study on group invariance in test equating was evaluated by taking average of REMSD. Also, ANOVA was performed to determine significant effect of each factor on group invariance in test equating. Findings: The findings of the study showed that differential form DIF was the factor that had the most prominent impact on group invariance in test equating. Implications for Research and Practice: Within the scope of the results of the study, group invariance affected by factors of DIF were only in instances in which DIF in anchor items was differential across test forms.

Keywords:

test equating, group invariance, differential item functioning, simulation study,

PDF

___

Angoff, W.H. (1971). Scales, norms, and equivalent scores. In R.L. Thorndike (Ed.), Educational measurement (2nd ed., pp. 508-600). Washington, D.C: American Council on Education
Angoff, W.H. (1984). Scales, norms, and equivalent scores. Princeton, NJ: Educational Testing Service.
Angoff, W. H., & Cook, L. L. (1988). Equating the scores of the Prueba de Aptitud Academica and the Scholastic Aptitude Test (College Board Report No. 88-2). New York: College Entrance Examination Board.
Atar, B. (2007). Differential item functioning analyses for mixed response data using irt likelihood-ratio test, logistic regression, and gllamm procedures. Unpublished doctorate dissertation. The Florida State University.
Bolt, D., & Stout, W. (1996). Differential item functioning: Its multidimensional model and resulting SIBTEST detection procedure. Behaviormetrika, 23(1), 67-95.
Chu, K. L. (2002). Equivalent group test equating with the presence of differential item functioning. Unpublished doctorate dissertation. The Florida State University.
Chu, K. L., & Kamata, A. (2005). Test equating in the presence of dif items. Journal of Applied Measurement.Special Issue: The Multilevel Measurement Model, 6(3), 342-354.
Cohen, J. (1992). A power primer. Psychological Bulletin, 112, 155–159.
Demirus, K.B. (2015). Ortak maddelerin değişen madde fonksiyonu gösterip göstermemesi durumunda test eşitlemeye etkisinin farklı yöntemlerle incelenmesi. Yayınlanmamış doktora tezi. Hacettepe Üniversitesi, Eğitim Bilimleri Enstitüsü. Ankara
Dorans, N.J. (2004). Using subpopulation invariance to assess test score equity. Journal of Educational Measurement, 41, 43-68.
Dorans, N. J., (2008). Three facets of fairness. Paper presented at the annual meeting of the National Council on Measurement in Education, New York.
Dorans, N. J., & Holland, P. W. (2000). Population invariance and the equatability of tests: basic theory and the linear case. Journal of Educational Measurement, 37(4), 281-306.
Dorans, N.J., & Holland, P.W. (1993). DIF detection and description: Mantel-Haenszel and standardization. In P.W. Holland & H. Wainer (Eds.), Differential item functioning (pp.35-66). Hillsdale, NJ: Lawrence Erlbaum.
Dorans, N. J., Holland, P. W., Thayer, D. T., & Tateneni, K. (2003). Invariance of score linking across gender groups for three advanced placement program exams. In N. J. Dorans (Ed.), Population invariance of score linking: Theory and applications to advanced placement program examinations (pp. 79-118), Research Report 03-27. Princeton, NJ: Educational Testing Service.
Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of item response theory. Newbury Park, CA: Sage. Han, K. T. (2008). Impact of item parameter drift on test equating and proficiency estimates. Unpublished doctorate thesis. University of Massachusetts, Amherst.
Hanson, B. A., & Beguin, A. A. (2002). Obtaining a common scale for item response theory item parameters using separate versus concurrent estimation in the common-item equating design. Applied Psychological Measurement, 26(1), 3–24.
Hidalgo Montesinos, M. D., & Lopez Pina, J. A. (2002). Two-stage equating in differential item functioning detection under the graded response model with the Raju area measures and Lord statistic. Educational and Psychological Measurement, 62(1), 32. Holland, P.W. (2007). A framework and history for score linking. In N.J. Dorans, M. Pommerich, & P.W. Holland’s (Eds.), Linking and aligning scores and scales (pp. 5- 30). NY: Springer
Holland, P. W., & Wainer, H. (1993). Differential item functioning. Hillsdale, NJ: Lawrence Erlbaum Associates.
Holland, P. W., & Dorans, N. J. (2006). Linking and equating. In R. L. Brennan (Ed.), Educational measurement (pp. 187–220). Westport, CT: Praeger Publishers.
Huang, J. (2010). Population invariance of linking functions of curriculum-based measures of math problem solving. Unpublished doctorate thesis. University of Miami, Florida.
Huggins, A.C. (2012). The effect of differential item functioning on population invariance of item response theory true score equating. Unpublished doctoral dissertation. University of Miami, Florida.
Huggins, A. C. (2014). The effect of differential item functioning in anchor items on population invariance of equating. Educational and Psychological Measurement, 74(4), 627-658.
Huggins, A.C., & Penfield, R.D. (2012). An instructional NCME module on population invariance in linking and equating. Educational Measurement: Issues and Practices, 31, 27-40.
Kane, M. T. (2013). Validating the interpretations and uses of test scores. Journal of Educational Measurement, 50(1), 1-73.
Kim, S.H., & Cohen, A. S. (1992). Effects of linking methods on detection of DIF. Journal of Educational Measurement, 29(1), 51–66.
Kolen, M., & Brennan, R. L. (2004). Test equating, scaling, and linking: Methods and practices (Second ed.). New York: Springer.
Kolen, M.J. (2004). Population invariance in equating and linking: Concept and history. Journal of Educational Measurement, 41, 3-14. Lee, W., & Ban, J. (2010). A comparison of IRT linking procedures. Applied Measurement in Education, 23, 23–48.
Petersen, N. S., Cook, L. L., & Stocking, M. L. (1983). IRT versus conventional equating methods: A comparative study of scale stability. Journal of Educational Statistics, 8, 137–156.
Sahin, A., & Anil, D. (2017). The effects of test length and sample size on item parameters in Item Response Theory. Educational Sciences: Theory and Practice, 17(1n), 321-335.
Tian, F. (1999). Detecting differential item functioning in polytomous items. Unpublished doctoral dissertation. Faculty of Education, University of Ottawa.
von Davier, A. A., Holland, P. W., & Thayer, D. T. (2004). The chain and post-stratification methods for observed-score equating and their relationship to population invariance. Journal of Educational Measurement, 41, 15-32.
von Davier, A. A., & Wilson, C. (2008). Investigating the population sensitivity assumption of item-response theory true-score equating across two subgroups of examinees and two test formats. Applied Psychological Measurement, 32(1), 11-26.
Yang, W.L. (2004). Sensitivity of linkings between AP multiple-choice scores and composite scores to geographical region: An illustration of checking for population invariance. Journal of Educational Measurement, 41, 33-41.
Yang, W.L., Dorans, N.J., & Tateneni, K. (2003). Sample selection effects on AP multiple-choice score to composite score scaling. In N.J. Dorans (Ed.), Population invariance of score linking: Theory and applications to advanced placement program examinations (ETS Research Report No. RR- 03-27) (pp. 57-78). Princeton, NJ: Educational Testing Service.