PISA 2012 Türkiye Örneklemi İlgi ve Motivasyon Maddelerinin Gruplar Arası Karşılaştırmalarda Eşdeğerliğinin İncelenmesi

Problem Durumu: Grup karşılaştırmaların geçerliği, ilgili ölçümlerinkabul edilebilir düzeyde psikometrik niteliklere sahip olmasına bağlıdır. Ancakklasik test kuramında, geçerlik ve güvenirlik çalışmaları kapsamında hesaplanantest ve madde istatistikleri, araştırma grubunun özelliklerini yansıtmaktadır.Büyük ölçekli sınavların kullanımının yaygınlaşması ise aynı düzeydekibireylere farklı test formlarının uygulanmasına ve aynı test formlarının farklıözelliklere sahip gruplarda uygulanmasına yol açmıştır. Bu bağlamda ulusal veuluslararası test uygulamalarında dikkat edilmesi gereken bir durum, farklıdemografik gruplara ait olmanın ölçme sonuçları üzerindeki etkisidir.Bireylerin demografik özelliklerinin etkisinin arındırılmadığı ölçmearaçlarının kullanılması ve bunlardan elde edilen sonuçların karşılaştırılmalıolarak yorumlanması ise ölçme aracının geçerliğini düşürerek, bireyler hakkındayanlış kararlar alınmasına neden olacaktır. Bu nedenle ölçme sonuçlarına dayalıolarak verilecek kararların isabetliliği açısından ölçme değişmezliğininsağlanması ve maddelerin olası yanlılık şüphesine karşı sınanmasıgerekmektedir. Bu koşullar sağlanmadan yapılan karşılaştırmalarda görülenfarklılığın gerçek durumdan mı yoksa ölçülen yapının gruplarda farklılık göstermesindenmi kaynaklandığı bilinemeyecektir. Dolayısıyla yapılan karşılaştırma sonuçlarıtartışmalı olabilecektir.Araştırmanın Amacı: Bu çalışmanın amacı; PISA 2012 öğrenci anketinde yeralan ilgi ve motivasyonla ilgili maddelerin cinsiyet, okul türü ve istatistikîbölgelere göre ölçme değişmezliğini incelemek ve gruplar arası DMF gösterenmaddeleri tespit etmektir.Araştırmanın Yöntemi: PISA 2012 uygulamasında Türkiye, 15 yaş grubuyaklaşık sayısı 1.266.638 öğrenciyi temsilen 4848 öğrenci ile yeralmıştır.  Veri setinin kayıp ve aykırıdeğerler açısından incelenmesi sonrasında bu araştırma, Türkiye örneklemindeki3124 öğrenci (1553 kız ve 1571 erkek) ile yürütülmüştür. PISA öğrenci anketimatematik öğretimi alt boyutunda yer alan ST29Q01-ST29Q08 maddelerinin ilgi vemotivasyon modelini oluşturup oluşturmadığına ilişkin kanıtlar elde etmeküzere, doğrulayıcı faktör analizi uygulanmıştır. Ölçeğin 8 maddelik Türkçeformunun faktör yapısına ilişkin tanımlanan temel modelin faktör yapısının herbir grup içinde geçerli olup olmadığını incelemek için model uyumubirleştirilmiş veri ve her bir grup verisi için ayrı ayrı değerlendirilmiştir.Model test etme sürecinde, hangi parametre kestirim yönteminin kullanılacağınıbelirlemek için ilgili veri setinin dağılım özellikleri incelenmiştir. Veriseti çok değişkenli normal dağılım sergilemediği ve örneklem sayısı büyükolduğu için parametre kestiriminde ağırlıklandırılmış en küçük kareler yöntemikullanılmıştır. Ölçme değişmezliğini incelemek üzere çoklu grup doğrulayıcıfaktör analizi uygulanmıştır. Değişmezlik testleri dört aşamada yürütülmüştür.Daha fazla sınırlama konulan bir model ile daha az sınırlama konulan birmodelin araştırma verisine uyum düzeylerini karşılaştırmak üzere χ2’ler içinölçeklendirilmiş fark testi uygulanmıştır. Cinsiyete göre ölçme değişmezliğininincelenmesi sürecinde, model uyumunun değerlendirilmesinde kullanılan ölçütlerkarşılanmadığı için olası madde yanlılıkları incelenmiştir. DMF gösterenmaddelerin belirlenmesi amacıyla Mantel-Haenszel, poly-SIBTEST ve MTK-OOteknikleri kullanılmıştır.Araştırmanın Bulguları: Ölçeğin 8 maddelik Türkçe formunun faktör yapısınailişkin tanımlanan temel modelin kız öğrenci, ilköğretim ve Batı Marmaragrupları dışındaki tüm alt grup verilerine yeterli düzeyde uyum sergilediğinigöstermiştir. Modele uyumunu sağlamayan gruplar, analiz dışındabırakılmıştır.  Okul türü ve istatistikibölgelere dayalı olarak yapılan değişmezlik testi sonuçları, modellerin tümdeğişmezlik koşullarını yerine getirdiğini göstermiştir. Cinsiyete göre ölçmedeğişmezliğinin sağlanmaması, ölçekte yer alan maddelerden en az bir tanesinincinsiyete göre DMF sergilediğine işaret etmektedir.  Bu bağlamda, cinsiyete göre DMF sonuçlarıincelendiğinde MH tekniğine göre 6 maddede A düzeyinde; poly-SIBTEST tekniğinegöre 1 maddede A, 2 maddede B ve 3 maddede C düzeyinde; MTK-OO tekniğine göre 2maddede C düzeyinde DMF’ye rastlanmıştır.Araştırmanın Sonuç ve Önerileri: Yapılan analizler tanımlanan modelin, okul türü veistatistiki bölgelere göre karşılaştırılmasının anlamlı olduğunu ortayakoymuştur. Bu durum, ilgi ve motivasyonla ilgili tüm maddelerden elde edilenölçümlerin okul grupları ve istatistiki bölgeler arasında genellenebileceğine,öğrencilerin ilgi ve motivasyonlarını belirlemede geçerli ve güvenilir ölçümlersağlayabileceğine işaret etmektedir. Bu doğrultuda okul ve bölge gruplarıarasında yapılan karşılaştırmalarda görülen farklılığın gerçek durumdankaynaklandığı söylenebilir. Yapılan ulusal düzeydeki test uygulamaları, DMF’ninnedenleri arasında cinsiyet ve okul türü gibi değişkenleri göstermektedir.Nitekim bu çalışmanın sonuçları da cinsiyet farklılıklarının maddelerin DMFgöstermesinde etkili olduğunu göstermiştir. DMF belirleme teknikleri genelolarak belli ölçüde benzer sonuçlar verse de, farklı eşitleme kriterleri ilefarklı algoritmalar ve kategorilendirmelerde farklı kesme noktalarıkullandıkları için tam bir uyum içinde değildir Çalışmadan elde edilen sonuçlarincelendiğinde, kullanılan tekniklere göre DMF gösteren madde sayıları ve DMFmiktarları arasındaki benzerliğin düşük düzeyde olduğunu gözlenmiştir. Buçalışma kapsamında PISA 2012 uygulaması matematik öğretimi bölümünde yer alanilgi ve motivasyonla ilgili maddeler incelenmiştir. Gelecek çalışmalar, farklıdil ve kültür grupları üzerinde ölçme değişmezliği çalışmaları yapabilir. DMFbelirlemede gerçek veri ile birlikte simülasyon çalışmaları yaparak, hangitekniğin hangi durumlar için daha uygun olduğunu belirleyebilir ve DMF gösterenmaddelerin olası nedenlerini araştırabilir.

Cross-group Equivalence of Interest and Motivation Items in PISA 2012 Turkey Sample

Purpose: The aim of this study was to examinemeasurement invariance of the interest and motivation related items containedin the PISA 2012 student survey with regard to gender school type andstatistical regions and to identify the items that show differential itemfunctioning (DIF) across groups.  Research Methods: Multiple-groupconfirmatory factor analysis was conducted to examine measurement invariance.When the invariance with regardto gender was being investigated,potential item biases were examined, as the criteria used in the model fitevaluation were not met. Mantel-Haenszel, poly-SIBTEST, and item responsetheory likelihood ratio (IRT-LR) techniques were employed to identify whichitems displayed DIF. Findings:Results of the invariance test conducted based on the school type andstatistical regions demonstrated that the models satisfied all invarianceconditions. Failure to achieve measurement invariance according to genderindicates that at least one of the items in the scale displayed DIF. When theresults of DIF according to gender were examined, MH identified DIF in sixitems at A level, poly-SIBTEST identified DIF in one item at A level, two itemsat B level, and three items at C level, IRT-LR identified DIF in two items at Clevel. Implicationsfor Research and Practice: Further studies could determine which techniques would be more suitablefor which situations by conductingsimulation studies along with real data, and explore the possible reasons whythe items display DIF.  

Kaynakça

Akın Arıkan, Ç. (2015). Değişen madde fonksiyonu belirlemede mtk-olabilirlik oranı, ordinal lojistik regresyon ve poly-sibtest yöntemlerinin karşılaştırılması [Comparison of irt likelihood ratio test, poly-sibtest and logistic regression difdetection procedures]. Uluslararası Eğitim Araştırmaları Dergisi, 6(1), 1-16.

Akyıldız, M. (2009). PIRLS 2001 testinin yapı geçerliliğinin ülkeler arası karşılaştırılması [The comparison of construct validities of the PIRLS 2001 test between countries]. Yüzüncü Yıl Üniversitesi Eğitim Fakültesi Dergisi, 6(1), 18-47.

Angoff, W. H. (1993). Perspectives on differential item functioning methodology. In P. W. Holland & H. Wainer (Eds.), Differential item functioning (pp. 3–23). Hillsdale, NJ: Lawrence Erlbaum.

Atalay Kabasakal, K. & Kelecioğlu, H. (2012). PISA 2006 Öğrenci anketinde yer alan maddelerin değişen madde fonksiyonu açısından incelenmesi [Evaluation of attitude items in PISA 2006 student questionnaire in terms of differential item functioning]. Ankara Üniversitesi Eğitim Bilimleri Fakültesi Dergisi, 45(2), 77-96.

Atalay Kabasakal, K. (2014). Değişen madde fonksiyonunun test eşitlemeye etkisi [The effect of differential item functioning on test equating]. Unpublished doctoral thesis, Hacettepe University, Ankara.

Bakan Kalaycıoğlu, D. & Berberoğlu, G. (2010). Differential item functioning analysis of the science and mathematics items in the university entrance examinations in Turkey. Journal of Psychoeducational Assessment, 20, 1-12.

Bakan Kalaycıoğlu, D. & Kelecioğlu, H. (2011). Öğrenci Seçme Sınavı’nın madde yanlılığı açısından incelenmesi [Item bias analysis of the university entrance examination]. Eğitim ve Bilim, 36, 3-13.

Başokçu, T. & Öğretmen, T. (2013). Öğretmen öz yeterlilik ölçeğinde değişen madde fonksiyonlarının ağırlıklandırılmış cevap modeli ile belirlenmesi [Determine the differential item functioning in teacher self efficacy by graded response model]. Ege Eğitim Dergisi, 14(2), 63-78.

Başusta, N. B & Gelbal, S. (2015). Gruplar arası karşılaştırmalarda ölçme değişmezliğinin test edilmesi: PISA öğrenci anketi örneği [Examination of measurement invariance at groups’ comparisons: a study on PISA student questionnaire]. Hacetepe Üniversitesi Eğitim Fakültesi Dergisi, 30(4), 80-90.

Bentler, P. M. (2006). EQS 6 Structural equations program manual. Encine, CA: Multivariate Software, Inc.

Brown, T. A. (2006). Confirmatory factor analysis for applied research. New York: The Guilford Press.

Bryne, B. M. & Watkins, D. (2003). The issue of measurement invariance revisited. Journal of Cross-Cultural Psychology. 34(2), 155-175.

Camilli, G. (2006). Test fairness. In R. L. Brennan (Ed.), Educational measurement (4th ed., pp. 221-256). Westport: American Council on Education&Praeger Publishers.

Cheung, G. W. & Rensvold, R. B. (2002). Evaluating goodness-of-fit indexes for testing measurement invariance. Structural Equation Modeling, 9(2), 233–255.

Çıkrıkçı Demirtaşlı, N. & Uluştaş, S. (2015). A study on detecting of differential item functioning of PISA 2006 science literacy items in Turkish and American samples. Eurasian Journal of Educational Research, 58, 41-60.

Crocker, L. & Algina, J. (1986). Introduction to classical and modern test theory. Orlando: Harcourt Brace JovanovichInc.Fidalgo, A. M., Mellenbergh, G. J. & Muñiz, J. (2000). Effects of amount of DIF, test length, and purification type on robustness and power of mantel-haenszel procedures. Methods of Psychological Research, 5(3), 43-53.

Flowers, C.P., Raju, N. S. & Oshima, T.C. (2002). A comparison of measurement equivalence methods based on confirmatory factor analysis and item response theory. Journal of Applied Psychology, 87(3), 517–529.

Gök, B., Atalay Kabasakal, K. & Kelecioğlu, H. (2014). PISA 2009 öğrenci anketi tutum maddelerinin kültüre göre değişen madde fonksiyonu açısından incelenmesi [Analysis of attitude items in PISA 2009 student questionnaire in terms of differential item functioning based on culture]. Eğitimde ve Psikolojide Ölçme ve Değerlendirme Dergisi, 5(1), 72-87.

Gök, B., Kelecioğlu, H. & Doğan, N. (2010). Değişen madde fonksiyonunu belirlemede Mantel-Haenzsel ve lojistik regresyon tekniklerinin karşılaştırılması [The comparison of mantel-haenszel and logistic regression techniques in determining the differential item functioning]. Eğitim ve Bilim, 35(156), 3-16.

Hambleton, R. K. (2006). Good practices for identifying differential item functioning. Medical Care, 44, 182-188.

Higaldo, M. D. & Lopez-Pina, J. A. (2004). Differential item functioning detection and effect-size: a comparison between LR and MH procedures. Educational and Psychological Measurement, 64(6), 903–915.

Holland, P. W. & Wainer, H. (1993).Differential item functioning. Hillsdale, NJ: Lawrence Erlbaum Associates.

Johnson, T. P. (1998). Approaches to equivalence in crosscultural and cross-national survey research. ZUMA-Nachrichten Spezial, 1-40.

Kline, R. B. (2011). Principles and practice of structural equation modelling (3rd Edition). New York: Guildford Publication, Inc.

Le, L. T. (2009).Investigation gender differential item functioning across countries ABD test languages for PISA science items. International Journal of Testing, 9(2), 122–133.

Linden, V. D. & Hambleton, R.K. (1997). Handbook of modern item response theory. New York: Springer-VerlagInc.Mark, B. A. & Wan, T.T.H (2005). Testing measurement equivalence in a patient satisfaction instrument. Western Journal of Nursing Research,27 (6), 772-787.

Mendes-Barnett, S. & Ercikan, K. (2006). Examining sources of gender DIF in mathematics assessment susing a confirmatory multidimensional model approach. Applied Measurement in Education, 19, 289-304. Meredith, W. (1993). Measurement invariance, factor analysis and factorial invariance. Psychometrika, 58, 525-543.

MNE (2010). PISA 2009 Uluslararası Öğrenci Değerlendirme Programı Ulusal Ön Raporu. MEB, Ankara.

MNE (2013). PISA 2012 Uluslararası Öğrenci Değerlendirme Programı Ulusal Ön Raporu. MEB, Ankara.

Narayanan, P. & Swaminathan, H. (1996). Identification of items that nonuniform DIF. Applied Psychological Measurement, 20(3), 257–274.

Önen, E. (2007). Gruplar arası karşılaştırmalarda ölçme değişmezliğinin incelenmesi: epistemolojik inançlar envanteri üzerine bir çalışma [Examination of measurement invariance at groups’ comparisions: a study on epistemological beliefs inventory]. Ege Eğitim Dergisi, 2(8), 87–110.

Önen, E. (2009). Ölçme değişmezliğinin yapısal eşitlik modelleme teknikleri ile incelenmesi [Examination of measurement invariance with structural equation modelling techniques]. Unpublished doctoral thesis, Ankara University, Ankara.

Organization for Economic Cooperation and Development Programme for International Student Assessment Web Site. Retrieved November 20, 2015, from http://www.pisa.oecd.org

Penfield, R. D. & Camilli, G. (2007). Dierential item functioning and item bias. In C. R. Rao & S. Sinharay (Eds.), Handbook of Statistics Psychometrics (26, pp. 125–167). Amsterdam: Elsevier.

Prelow, H. M., Tein, J.Y., Roosa, M. W. & Wood, J. (2000). Do coping styles differ across sociocultural groups? The role of measurement equivalence in making this judgment. American Journal of Community Psychology, 28 (2), 225-244.

Reise, S. P., Widaman, K. F. & Pugh, R. H. (1993). Confirmatory factor analysis and item response theory: two approaches for exploring measurement invariance. Psychological Bulletin, 114(3), 552-566.

Roussos, L.L. & Stout, W. F. (1996). Simulation studies of the effects of small sample size and studied item parameters on sibtest and mantel-haenszel type I error performance. Journal of Educational Measurement, 33(2), 215–230.

Somer, O., Korkmaz, M., Dural, S., & Can, S. (2009). Detection of measurement equivalence by structural equation modeling and item response theory. Turkish Journal of Psychology, 24(64).

Steenkamp, E. M & Baumgartner, H. (1998). Assessing measurement invariance in cross-national consumer research. The Journal of Consumer Research, 25(1), 78-90.

Tabachnick, B. G. & Fidell, L. S. (2007). Using multivariate statistics (5th Edition). Boston MA: Allyn& Bacon.

Uyar, Ş. & Doğan, N. (2014). PISA 2009 Türkiye örnekleminde öğrenme stratejileri modelinin farklı gruplarda ölçme değişmezliğinin incelenmesi [An investigation of measurement invariance of learning strategies model across different groups in PISA Turkey sample]. Uluslararası Türk Eğitim Bilimleri Dergisi, 2(3), 30-43.

Uzun, B. & Öğretmen, T. (2010). Fen başarısı ile ilgili bazı değişkenlerin TIMSS-R Türkiye örnekleminde cinsiyete göre ölçme değişmezliğinin değerlendirilmesi [Assessing the measurement invariance of factors that are related to students’ science achievement across gender in TIMSS-R Turkey sample]. Eğitim ve Bilim, 35(155), 26-35.

Van de Vijver, F. J. R. & Tanzer, N. K. (2004). Bias and equivalence in cross-cultural assessment. European Review of Applied Psychology, 54, 119-135.

Vandenberg, R.J. & Lance, C.E. (2000). A review and synthesis of the measurement invariance literature: suggestions, practices, and recommendations for organizational research. Organizational Research Methods, 3(1), 4-70.

Wu, D. A., Li, Z. & Zumbo, B. D. (2007). Decoding the meaning of factorial invariance and updating the practice of multi-group confirmatory factor analysis: a demonstration with TIMSS data. Practical Assesment, Research & Evaluation, 12(3),1-26.

Zumbo, B. D. & Gelin, M. N. (2005). A matter of test bias in educational policy research: bringing the context into picture by investigating sociological community moderated (or mediated) test and item bias. Journal of Educational Research and Policy Studies, 5, 1-23.

9921 4823

Arşiv
Sayıdaki Diğer Makaleler

PISA 2012 Türkiye Örneklemi İlgi ve Motivasyon Maddelerinin Gruplar Arası Karşılaştırmalarda Eşdeğerliğinin İncelenmesi

Elif Ozlem ARDIC, Selahattin GELBAL

Başkalarını ve Kendini Affetme: Bilişsel Çarpıtmalar, Empati ve Ruminasyonun Yordayıcı Rolü

Aslı ASCIOGLU ONAL, İlhan YALCIN

Lise Ogretmelerinin Egitim Arastırmalarına Yonelik Tutumlarının Sınıflandırma Agacı Yontemi Ile Incelenmesi

Alpturk AKCOLTEKIN, Ali Osman ENGIN, Hikmet SEVGIN

Sigara Paketleri Üzerindeki Sağlık Uyarılarının Davranışa Etkisinin Değerlendirilmesi: Eğitimsel Bir Yaklaşım

Cem GERCEK, Nuri DOGAN, Ceylan GUNDEGER, Levent YAKAR

Koordinasyon ile Öğretim Yöntemi Uygulamalarının 6 Yaş Çocuklardaki Bazı Motor Becerilere Etkisi

Mustafa ALTINKOK

Erken Çocukluk Eğitiminde Sınıf Büyüklüğünün Ve Eğitim Süresinin Çocuk Gelişimi Üzerindeki Etkileri

Merve CANBELDEK, Nesrin ISIKOGLU ERDOGAN

60-66 Aylık Çocukların Bilimsel Süreç Becerilerine Duyu Temelli Bilim Eğitimi Programının Etkisi

Hacer TEKERCI, Adalet KANDIR

Üstün ve Üstün Olmayan Öğrencilerin Kendilerini Gerçekleştirme Düzeylerine Ilişkin Algilari

Duygu GUR ERDOGAN, Tugba YURTKULU

Bootstrap Örnekleme Yönteminin Çeşitli İstatistikler için Güven Aralığının Hesaplanmasında R Yazılımı ile Kullanımı

C. Deha DOGAN

Öğretmen Adaylarının Eleştirel Dinleme Yeterliklerinin Çeşitli Değişkenler Açısından Karşılaştırılması

Hilal KAZU, Demet DEMIRALP