PISA 2012 Türkiye Örneklemi İlgi ve Motivasyon Maddelerinin Gruplar Arası Karşılaştırmalarda Eşdeğerliğinin İncelenmesi

Problem Durumu: Grup karşılaştırmaların geçerliği, ilgili ölçümlerin kabul edilebilir düzeyde psikometrik niteliklere sahip olmasına bağlıdır. Ancak klasik test kuramında, geçerlik ve güvenirlik çalışmaları kapsamında hesaplanan test ve madde istatistikleri, araştırma grubunun özelliklerini yansıtmaktadır. Büyük ölçekli sınavların kullanımının yaygınlaşması ise aynı düzeydeki bireylere farklı test formlarının uygulanmasına ve aynı test formlarının farklı özelliklere sahip gruplarda uygulanmasına yol açmıştır. Bu bağlamda ulusal ve uluslararası test uygulamalarında dikkat edilmesi gereken bir durum, farklı demografik gruplara ait olmanın ölçme sonuçları üzerindeki etkisidir. Bireylerin demografik özelliklerinin etkisinin arındırılmadığı ölçme araçlarının kullanılması ve bunlardan elde edilen sonuçların karşılaştırılmalı olarak yorumlanması ise ölçme aracının geçerliğini düşürerek, bireyler hakkında yanlış kararlar alınmasına neden olacaktır. Bu nedenle ölçme sonuçlarına dayalı olarak verilecek kararların isabetliliği açısından ölçme değişmezliğinin sağlanması ve maddelerin olası yanlılık şüphesine karşı sınanması gerekmektedir. Bu koşullar sağlanmadan yapılan karşılaştırmalarda görülen farklılığın gerçek durumdan mı yoksa ölçülen yapının gruplarda farklılık göstermesinden mi kaynaklandığı bilinemeyecektir. Dolayısıyla yapılan karşılaştırma sonuçları tartışmalı olabilecektir.Araştırmanın Amacı: Bu çalışmanın amacı; PISA 2012 öğrenci anketinde yer alan ilgi ve motivasyonla ilgili maddelerin cinsiyet, okul türü ve istatistikî bölgelere göre ölçme değişmezliğini incelemek ve gruplar arası DMF gösteren maddeleri tespit etmektir.Araştırmanın Yöntemi: PISA 2012 uygulamasında Türkiye, 15 yaş grubu yaklaşık sayısı 1.266.638 öğrenciyi temsilen 4848 öğrenci ile yer almıştır. Veri setinin kayıp ve aykırı değerler açısından incelenmesi sonrasında bu araştırma, Türkiye örneklemindeki 3124 öğrenci (1553 kız ve 1571 erkek) ile yürütülmüştür. PISA öğrenci anketi matematik öğretimi alt boyutunda yer alan ST29Q01-ST29Q08 maddelerinin ilgi ve motivasyon modelini oluşturup oluşturmadığına ilişkin kanıtlar elde etmek üzere, doğrulayıcı faktör analizi uygulanmıştır. Ölçeğin 8 maddelik Türkçe formunun faktör yapısına ilişkin tanımlanan temel modelin faktör yapısının her bir grup içinde geçerli olup olmadığını incelemek için model uyumu birleştirilmiş veri ve her bir grup verisi için ayrı ayrı değerlendirilmiştir. Model test etme sürecinde, hangi parametre kestirim yönteminin kullanılacağını belirlemek için ilgili veri setinin dağılım özellikleri incelenmiştir. Veri seti çok değişkenli normal dağılım sergilemediği ve örneklem sayısı büyük olduğu için parametre kestiriminde ağırlıklandırılmış en küçük kareler yöntemi kullanılmıştır. Ölçme değişmezliğini incelemek üzere çoklu grup doğrulayıcı faktör analizi uygulanmıştır. Değişmezlik testleri dört aşamada yürütülmüştür. Daha fazla sınırlama konulan bir model ile daha az sınırlama konulan bir modelin araştırma verisine uyum düzeylerini karşılaştırmak üzere χ2’ler için ölçeklendirilmiş fark testi uygulanmıştır. Cinsiyete göre ölçme değişmezliğinin incelenmesi sürecinde, model uyumunun değerlendirilmesinde kullanılan ölçütler karşılanmadığı için olası madde yanlılıkları incelenmiştir. DMF gösteren maddelerin belirlenmesi amacıyla Mantel-Haenszel, poly-SIBTEST ve MTK-OO teknikleri kullanılmıştır.Araştırmanın Bulguları: Ölçeğin 8 maddelik Türkçe formunun faktör yapısına ilişkin tanımlanan temel modelin kız öğrenci, ilköğretim ve Batı Marmara grupları dışındaki tüm alt grup verilerine yeterli düzeyde uyum sergilediğini göstermiştir. Modele uyumunu sağlamayan gruplar, analiz dışında bırakılmıştır. Okul türü ve istatistiki bölgelere dayalı olarak yapılan değişmezlik testi sonuçları, modellerin tüm değişmezlik koşullarını yerine getirdiğini göstermiştir. Cinsiyete göre ölçme değişmezliğinin sağlanmaması, ölçekte yer alan maddelerden en az bir tanesinin cinsiyete göre DMF sergilediğine işaret etmektedir. Bu bağlamda, cinsiyete göre DMF sonuçları incelendiğinde MH tekniğine göre 6 maddede A düzeyinde; poly-SIBTEST tekniğine göre 1 maddede A, 2 maddede B ve 3 maddede C düzeyinde; MTK-OO tekniğine göre 2 maddede C düzeyinde DMF’ye rastlanmıştır. Araştırmanın Sonuç ve Önerileri: Yapılan analizler tanımlanan modelin, okul türü ve istatistiki bölgelere göre karşılaştırılmasının anlamlı olduğunu ortaya koymuştur. Bu durum, ilgi ve motivasyonla ilgili tüm maddelerden elde edilen ölçümlerin okul grupları ve istatistiki bölgeler arasında genellenebileceğine, öğrencilerin ilgi ve motivasyonlarını belirlemede geçerli ve güvenilir ölçümler sağlayabileceğine işaret etmektedir. Bu doğrultuda okul ve bölge grupları arasında yapılan karşılaştırmalarda görülen farklılığın gerçek durumdan kaynaklandığı söylenebilir. Yapılan ulusal düzeydeki test uygulamaları, DMF’nin nedenleri arasında cinsiyet ve okul türü gibi değişkenleri göstermektedir. Nitekim bu çalışmanın sonuçları da cinsiyet farklılıklarının maddelerin DMF göstermesinde etkili olduğunu göstermiştir. DMF belirleme teknikleri genel olarak belli ölçüde benzer sonuçlar verse de, farklı eşitleme kriterleri ile farklı algoritmalar ve kategorilendirmelerde farklı kesme noktaları kullandıkları için tam bir uyum içinde değildir Çalışmadan elde edilen sonuçlar incelendiğinde, kullanılan tekniklere göre DMF gösteren madde sayıları ve DMF miktarları arasındaki benzerliğin düşük düzeyde olduğunu gözlenmiştir. Bu çalışma kapsamında PISA 2012 uygulaması matematik öğretimi bölümünde yer alan ilgi ve motivasyonla ilgili maddeler incelenmiştir. Gelecek çalışmalar, farklı dil ve kültür grupları üzerinde ölçme değişmezliği çalışmaları yapabilir. DMF belirlemede gerçek veri ile birlikte simülasyon çalışmaları yaparak, hangi tekniğin hangi durumlar için daha uygun olduğunu belirleyebilir ve DMF gösteren maddelerin olası nedenlerini araştırabilir.

Anahtar Kelimeler:

PISA, ölçme değişmezliği, çoklu grup doğrulayıcı faktör analizi, değişen madde fonksiyonu.

Cross-group Equivalence of Interest and Motivation Items in PISA 2012 Turkey Sample

Purpose: The aim of this study was to examine measurement invariance of the interest and motivation related items contained in the PISA 2012 student survey with regard to gender school type and statistical regions and to identify the items that show differential item functioning (DIF) across groups. Research Methods: Multiple-group confirmatory factor analysis was conducted to examine measurement invariance. When the invariance with regardto gender was being investigated, potential item biases were examined, as the criteria used in the model fit evaluation were not met. Mantel-Haenszel, poly-SIBTEST, and item response theory likelihood ratio (IRT-LR) techniques were employed to identify which items displayed DIF. Findings: Results of the invariance test conducted based on the school type and statistical regions demonstrated that the models satisfied all invariance conditions. Failure to achieve measurement invariance according to gender indicates that at least one of the items in the scale displayed DIF. When the results of DIF according to gender were examined, MH identified DIF in six items at A level, poly-SIBTEST identified DIF in one item at A level, two items at B level, and three items at C level, IRT-LR identified DIF in two items at C level. Implications for Research and Practice: Further studies could determine which techniques would be more suitable for which situations by conducting simulation studies along with real data, and explore the possible reasons why the items display DIF.

Keywords:

PISA measurement invariance multiple-group confirmatory factor analysis, differential item functioning.,

PDF

___

Akın Arıkan, Ç. (2015). Değişen madde fonksiyonu belirlemede mtk-olabilirlik oranı, ordinal lojistik regresyon ve poly-sibtest yöntemlerinin karşılaştırılması [Comparison of irt likelihood ratio test, poly-sibtest and logistic regression difdetection procedures]. Uluslararası Eğitim Araştırmaları Dergisi, 6(1), 1-16.
Akyıldız, M. (2009). PIRLS 2001 testinin yapı geçerliliğinin ülkeler arası karşılaştırılması [The comparison of construct validities of the PIRLS 2001 test between countries]. Yüzüncü Yıl Üniversitesi Eğitim Fakültesi Dergisi, 6(1), 18-47.
Angoff, W. H. (1993). Perspectives on differential item functioning methodology. In P. W. Holland & H. Wainer (Eds.), Differential item functioning (pp. 3–23). Hillsdale, NJ: Lawrence Erlbaum.
Atalay Kabasakal, K. & Kelecioğlu, H. (2012). PISA 2006 Öğrenci anketinde yer alan maddelerin değişen madde fonksiyonu açısından incelenmesi [Evaluation of attitude items in PISA 2006 student questionnaire in terms of differential item functioning]. Ankara Üniversitesi Eğitim Bilimleri Fakültesi Dergisi, 45(2), 77-96.
Atalay Kabasakal, K. (2014). Değişen madde fonksiyonunun test eşitlemeye etkisi [The effect of differential item functioning on test equating]. Unpublished doctoral thesis, Hacettepe University, Ankara.
Bakan Kalaycıoğlu, D. & Berberoğlu, G. (2010). Differential item functioning analysis of the science and mathematics items in the university entrance examinations in Turkey. Journal of Psychoeducational Assessment, 20, 1-12.
Bakan Kalaycıoğlu, D. & Kelecioğlu, H. (2011). Öğrenci Seçme Sınavı’nın madde yanlılığı açısından incelenmesi [Item bias analysis of the university entrance examination]. Eğitim ve Bilim, 36, 3-13.
Başokçu, T. & Öğretmen, T. (2013). Öğretmen öz yeterlilik ölçeğinde değişen madde fonksiyonlarının ağırlıklandırılmış cevap modeli ile belirlenmesi [Determine the differential item functioning in teacher self efficacy by graded response model]. Ege Eğitim Dergisi, 14(2), 63-78.
Başusta, N. B & Gelbal, S. (2015). Gruplar arası karşılaştırmalarda ölçme değişmezliğinin test edilmesi: PISA öğrenci anketi örneği [Examination of measurement invariance at groups’ comparisons: a study on PISA student questionnaire]. Hacetepe Üniversitesi Eğitim Fakültesi Dergisi, 30(4), 80-90.
Bentler, P. M. (2006). EQS 6 Structural equations program manual. Encine, CA: Multivariate Software, Inc.
Brown, T. A. (2006). Confirmatory factor analysis for applied research. New York: The Guilford Press.
Bryne, B. M. & Watkins, D. (2003). The issue of measurement invariance revisited. Journal of Cross-Cultural Psychology. 34(2), 155-175.
Camilli, G. (2006). Test fairness. In R. L. Brennan (Ed.), Educational measurement (4th ed., pp. 221-256). Westport: American Council on Education&Praeger Publishers.
Cheung, G. W. & Rensvold, R. B. (2002). Evaluating goodness-of-fit indexes for testing measurement invariance. Structural Equation Modeling, 9(2), 233–255.
Çıkrıkçı Demirtaşlı, N. & Uluştaş, S. (2015). A study on detecting of differential item functioning of PISA 2006 science literacy items in Turkish and American samples. Eurasian Journal of Educational Research, 58, 41-60.
Crocker, L. & Algina, J. (1986). Introduction to classical and modern test theory. Orlando: Harcourt Brace JovanovichInc. Fidalgo, A. M., Mellenbergh, G. J. & Muñiz, J. (2000). Effects of amount of DIF, test length, and purification type on robustness and power of mantel-haenszel procedures. Methods of Psychological Research, 5(3), 43-53.
Flowers, C.P., Raju, N. S. & Oshima, T.C. (2002). A comparison of measurement equivalence methods based on confirmatory factor analysis and item response theory. Journal of Applied Psychology, 87(3), 517–529.
Gök, B., Atalay Kabasakal, K. & Kelecioğlu, H. (2014). PISA 2009 öğrenci anketi tutum maddelerinin kültüre göre değişen madde fonksiyonu açısından incelenmesi [Analysis of attitude items in PISA 2009 student questionnaire in terms of differential item functioning based on culture]. Eğitimde ve Psikolojide Ölçme ve Değerlendirme Dergisi, 5(1), 72-87.
Gök, B., Kelecioğlu, H. & Doğan, N. (2010). Değişen madde fonksiyonunu belirlemede Mantel-Haenzsel ve lojistik regresyon tekniklerinin karşılaştırılması [The comparison of mantel-haenszel and logistic regression techniques in determining the differential item functioning]. Eğitim ve Bilim, 35(156), 3-16.
Hambleton, R. K. (2006). Good practices for identifying differential item functioning. Medical Care, 44, 182-188.
Higaldo, M. D. & Lopez-Pina, J. A. (2004). Differential item functioning detection and effect-size: a comparison between LR and MH procedures. Educational and Psychological Measurement, 64(6), 903–915.
Holland, P. W. & Wainer, H. (1993).Differential item functioning. Hillsdale, NJ: Lawrence Erlbaum Associates.
Johnson, T. P. (1998). Approaches to equivalence in crosscultural and cross-national survey research. ZUMA-Nachrichten Spezial, 1-40.
Kline, R. B. (2011). Principles and practice of structural equation modelling (3rd Edition). New York: Guildford Publication, Inc.
Le, L. T. (2009).Investigation gender differential item functioning across countries ABD test languages for PISA science items. International Journal of Testing, 9(2), 122–133.
Linden, V. D. & Hambleton, R.K. (1997). Handbook of modern item response theory. New York: Springer-VerlagInc. Mark, B. A. & Wan, T.T.H (2005). Testing measurement equivalence in a patient satisfaction instrument. Western Journal of Nursing Research,27 (6), 772-787.
Mendes-Barnett, S. & Ercikan, K. (2006). Examining sources of gender DIF in mathematics assessment susing a confirmatory multidimensional model approach. Applied Measurement in Education, 19, 289-304. Meredith, W. (1993). Measurement invariance, factor analysis and factorial invariance. Psychometrika, 58, 525-543.
MNE (2010). PISA 2009 Uluslararası Öğrenci Değerlendirme Programı Ulusal Ön Raporu. MEB, Ankara.
MNE (2013). PISA 2012 Uluslararası Öğrenci Değerlendirme Programı Ulusal Ön Raporu. MEB, Ankara.
Narayanan, P. & Swaminathan, H. (1996). Identification of items that nonuniform DIF. Applied Psychological Measurement, 20(3), 257–274.
Önen, E. (2007). Gruplar arası karşılaştırmalarda ölçme değişmezliğinin incelenmesi: epistemolojik inançlar envanteri üzerine bir çalışma [Examination of measurement invariance at groups’ comparisions: a study on epistemological beliefs inventory]. Ege Eğitim Dergisi, 2(8), 87–110.
Önen, E. (2009). Ölçme değişmezliğinin yapısal eşitlik modelleme teknikleri ile incelenmesi [Examination of measurement invariance with structural equation modelling techniques]. Unpublished doctoral thesis, Ankara University, Ankara.
Organization for Economic Cooperation and Development Programme for International Student Assessment Web Site. Retrieved November 20, 2015, from http://www.pisa.oecd.org
Penfield, R. D. & Camilli, G. (2007). Dierential item functioning and item bias. In C. R. Rao & S. Sinharay (Eds.), Handbook of Statistics Psychometrics (26, pp. 125–167). Amsterdam: Elsevier.
Prelow, H. M., Tein, J.Y., Roosa, M. W. & Wood, J. (2000). Do coping styles differ across sociocultural groups? The role of measurement equivalence in making this judgment. American Journal of Community Psychology, 28 (2), 225-244.
Reise, S. P., Widaman, K. F. & Pugh, R. H. (1993). Confirmatory factor analysis and item response theory: two approaches for exploring measurement invariance. Psychological Bulletin, 114(3), 552-566.
Roussos, L.L. & Stout, W. F. (1996). Simulation studies of the effects of small sample size and studied item parameters on sibtest and mantel-haenszel type I error performance. Journal of Educational Measurement, 33(2), 215–230.
Somer, O., Korkmaz, M., Dural, S., & Can, S. (2009). Detection of measurement equivalence by structural equation modeling and item response theory. Turkish Journal of Psychology, 24(64).
Steenkamp, E. M & Baumgartner, H. (1998). Assessing measurement invariance in cross-national consumer research. The Journal of Consumer Research, 25(1), 78-90.
Tabachnick, B. G. & Fidell, L. S. (2007). Using multivariate statistics (5th Edition). Boston MA: Allyn& Bacon.
Uyar, Ş. & Doğan, N. (2014). PISA 2009 Türkiye örnekleminde öğrenme stratejileri modelinin farklı gruplarda ölçme değişmezliğinin incelenmesi [An investigation of measurement invariance of learning strategies model across different groups in PISA Turkey sample]. Uluslararası Türk Eğitim Bilimleri Dergisi, 2(3), 30-43.
Uzun, B. & Öğretmen, T. (2010). Fen başarısı ile ilgili bazı değişkenlerin TIMSS-R Türkiye örnekleminde cinsiyete göre ölçme değişmezliğinin değerlendirilmesi [Assessing the measurement invariance of factors that are related to students’ science achievement across gender in TIMSS-R Turkey sample]. Eğitim ve Bilim, 35(155), 26-35.
Van de Vijver, F. J. R. & Tanzer, N. K. (2004). Bias and equivalence in cross-cultural assessment. European Review of Applied Psychology, 54, 119-135.
Vandenberg, R.J. & Lance, C.E. (2000). A review and synthesis of the measurement invariance literature: suggestions, practices, and recommendations for organizational research. Organizational Research Methods, 3(1), 4-70.
Wu, D. A., Li, Z. & Zumbo, B. D. (2007). Decoding the meaning of factorial invariance and updating the practice of multi-group confirmatory factor analysis: a demonstration with TIMSS data. Practical Assesment, Research & Evaluation, 12(3),1-26.
Zumbo, B. D. & Gelin, M. N. (2005). A matter of test bias in educational policy research: bringing the context into picture by investigating sociological community moderated (or mediated) test and item bias. Journal of Educational Research and Policy Studies, 5, 1-23.