PISA 2015’de Türk Öğrencilerin Düşük Başarı Göstermelerinin Nedeni Değişen Madde Fonksiyonu (DMF) içeren maddeler midir?

 GİRİŞUluslararası Öğrenci Değerlendirme Programı (PISA) 15 yaşındaki öğrencilerin okuma, matematik ve fen okuryazarlığı alanlarındaki becerilerini uluslararası karşılaştırmalara olanak veren bir yapıda ölçmektedir. Katılan ülke sayısının giderek arttığı PISA’ya 70’in üzerinde ülke dahil olmaktadır. (OECD, 2016a). OECD üyesi olan Türkiye PISA’ya 2003 yılından beri düzenli olarak katılmaktadır. Ortalama puanın 500 olduğu PISA matematik okuryazarlık testinde, Türkiye PISA 2003’de 423, PISA 2006’da 424, PISA 2009’da 445, PISA 2012’de 448 ve PISA 2015’de 420 ortalama puan almıştır (MEB, 2015; MEB, 2016). Benzer bir değişim hem fen hem de okuma alanlarında da mevcuttur. PISA 2012’ye doğru artan yönde olumlu gelişmeler yaşanırken, 2015 yılında ciddi bir düşüşün yaşanması oldukça dikkat çekicidir. Bu düşüşün nedenlerinin araştırılması gerekmektedir. Nedenlerden bir tanesi ölçme aracında kullanılan maddelerin dil açısından yanlılık göstermeleri olabilir. Ölçme sonuçlarının sınavın uygulandığı dilden bağımsız olarak sonuçlar üretmesi beklenir. PISA soruları çoğunlukla İngilizce olarak geliştirilmekte, ardından diğer dillere adaptasyonu yapılmaktadır (OECD, 2017). Bu sebeple PISA matematik sorularının Türkçe ve İngilizce konuşan ülkelerdeki öğrenciler için değişen madde fonksiyonu (DMF) gösterip göstermediğinin incelenmesi gereklidir. Bu çalışmada Türkiye’deki öğrencilerin düşük puan alma nedeninin maddelerin DMF içermeleri olup olmadığı incelenecek, eğer neden bu değil ise de bu ihtimal elenerek, diğer ihtimallere odaklanılacaktır.DMF tespit etme yöntemleri kullanılarak testlerin madde bazında yanlılık gösterip göstermediği ile ilgili ön inceleme yapılabilmektedir (Zumbo, 2007). DMF’nin ve sonrasında madde yanlılığının ortaya çıkması öğrenci gruplarının puanlarını doğru bir şekilde karşılaştırmayı engellemektedir. Aynı beceri düzeyine sahip iki öğrenci grubunun bir soruyu yanıtlama olasılıkları farklılaştığında DMF ortaya çıkmaktadır (van de Vijver & Leung, 1997; Zumbo, 2007). Bir maddede istatistiksel olarak DMF çıkarsa, uzmanlar o soruyu incelemeli ve neden DMF çıktığını yorumlayarak maddenin ilgili gruplar için yanlılık gösterip göstermediğine karar vermelidir (van de Vijver & Leung, 1997). PISA soruları oldukça geniş bir uzman kadrosu tarafından titizlikle hazırlanmakta ve adaptasyon süreçleri gerçekleştirilmektedir (OECD, 2017). Ancak yine de, araştırmalar PISA matematik sorularında DMF içeren maddeler olduğunu raporlamışlardır (Demir & Kose, 2014; Kankaras & Moors, 2014; Lyons-Thomas, Sandilands, & Ercikan, 2014; Yildirim & Berberoglu, 2009). Bu sebeple PISA 2015 maddelerini de DMF içerip içermedikleri bakımından incelemek faydalı olacaktır. Alan yazında PISA 2015 maddelerini Türk öğrenciler ve İngilizce konuşan öğrenciler bakımından DMF için karşılaştıran bir çalışmaya rastlanmamıştır.Bu amaçla bu çalışmada Türk, İngiliz ve Amerikan öğrencilerin matematik sorularına verdikleri yanıtlar DMF içerip içermedikleri yönünden incelenmiştir. Türk öğrencilerin düşük matematik performansı gösterme nedenlerinden birisi olarak DMF içeren maddelerin olup olmaması incelenmiştir. Araştırma soruları ise (1)   Türk ve İngiliz öğrencileri karşılaştırıldığında, DMF içeren PISA 2015 matematik sorusu var mıdır?(2)   Türk ve American öğrencileri karşılaştırıldığında, DMF içeren PISA 2015 matematik sorusu var mıdır? (3)   DMF içeren maddeler testten çıkarıldığında matematik performans farklarından ortaya çıkan etki büyüklükleri değişmekte midir? YÖNTEM ÖrneklemPISA 15 yaşındaki öğrencilerin ilgili konu alanlarındaki performanslarını ölçerken eksik test deseni kullanmaktadır (OECD, 2016b). Farklı kitapçıklar testin farklı sorularını içermektedir. Kitapçık 43, 45 ve 47 bir araya gelince tüm soruları içermektedir. Bu sebeple 43, 45, 47 numaralı kitapçıklara yanıt veren öğrenciler bu çalışmanın örneklemini oluşturmaktadır. Bu çalışmada 491 Türk, 1154 İngiliz ve 448 Amerikan öğrenci yer almaktadır.   Ölçme Aracı  PISA 2015 kapsamında öğrencilerin matematik performanslarının değerlendirmesi için toplam 69 madde kullanılmıştır. Her bir öğrenci yaklaşık 23 soru yanıtlamıştır. PISA matematik testindeki bu sorular ölçtükleri beceriler bakımından hiyerarşik bir yapıda hazırlanmıştır. En temel beceri olarak formüle etme, ardından uygulama ve en üst düzey düşünme süreci olarak yorumlama becerisi yer almaktadır (OECD, 2016b). Veri AnaliziBu çalışmada 3 farklı DMF belirleme yöntemi kullanılmıştır. Bu yöntemler logistik regresyon (LR), Mantel-Haenszel (MH) ve yapısal eşitlik modelidir (SEM). Her metot farklı hesaplama yöntemlerine dayalı olduğu için (Atalay Kabasakal, Gok, Kelecioglu & Arsan, 2012) daha tutarlı sonuçlar için en az 2 yöntemde farklılık gösteren maddeler DMF içeriyor olarak kabul edilmiştir. Logistik regresyon analizinde ilk adım olarak toplam puan, ikinci adım olarak toplam puan ve grup değişkeni, üçüncü adım olarak da toplam puan, grup değişkeni ve toplam puan ile grup değişkeninin etkileşimi modellere eklenmektedir. ΔR2 0.035’den büyük ise DMF olduğuna karar verilmiştir (Jodoin and Gierl, 2001). SPSS programı kullanılarak bu analizler gerçekleştirilmiştir. Mantel-Haenszel metodunda ise grupların toplam puanına göre K adet 2x2 çapraz tablolar baz alınarak ki-kare değerleri hesaplanmaktadır. Daha sonra ilgili dönüşümler yapılarak MH D-DIF indeksi oluşturulmaktadır (Holland & Thayer, 1986). Bu değer 1’den büyük ise DMF olduğuna karar verilmektedir (Zieky, 1993). DIFAS 5.0 programı ile hesaplamalar yapılmıştır (Penfield, 2005). SEM ile DMF belirleme yönteminde ise doğrulayıcı faktör analizinde ilgili parametrelerin eşit olmaya zorlanması sonucunda elde edilen fit değerlerine büyük etkisi olan maddeler DMF içeren madde olarak belirlenmektedir (van de Vijver, 2017). Comparative fit index (CFI) ve Tucker Lewis index (TLI) değerleri arasındaki fark 0.010’dan büyük ise modifikasyon indeksleri incelenerek DMF içeren maddeler tespit edilir (Cheung and Rensvold, 2002). Bu analizde Mplus 7.4 programı kullanılmıştır (Muthen & Muthen, 2015). SONUÇ VE TARTIŞMA İç TutarlılıkPISA 2015 matematik sınavı için Cronbach’s alpha iç tutarlılık katsayıları kitapçık 43, 45 ve 47 için Türk öğrenciler için sırasıyla 0.78, 0.79, 0.76; İngiliz öğrenciler için 0.81, 0.84, 0.85; ve  Amerikan öğrenciler için 0.80, 0.86, 0.86 olarak hesaplanmıştır. Bu değerler testin iyi düzeyde iç tutarlılığa sahip olduğunu göstermektedir (Cicchetti, 1994).  DMF sonuçlarıBu kısımda LR, MH ve SEM yöntemleri kullanılarak elde edilen DMF sonuçları verilmektedir.LR yöntemi ile elde edilen sonuçlar Tablo 4’de verilmektedir. Türk ve İngiliz öğrenciler karşılaştırıldığında, 69 maddeden 10 tanesi (B43_11, B45_10, B45_13, B45_18, B47_1, B47_6, B47_7, B47_8, B47_9 ve B47_19), Türk ve Amerikan öğrenciler karşılaştırıldığında, 69 maddeden 14 tanesi (B43_11, B43_15, B43_16, B45_10, B45_11, B45_13, B45_18, B47_1, B47_6, B47_7, B47_9, B47_11, B47_14 ve B47_19) DMF içermektedir. MH yöntemi ile elde edilen sonuçlar Tablo 5’de verilmektedir. Türk ve İngiliz öğrenciler karşılaştırıldığında, 69 maddeden 10 tanesi (B43_11, B45_10, B45_13, B45_18, B47_1, B47_6, B47_7, B47_9, B47_10 ve B47_19) Türk ve Amerikan öğrenciler karşılaştırıldığında, 69 maddeden 10 tanesi (B43_11, B45_10, B45_13, B45_18, B47_1, B47_7, B47_9, B47_11, B47_14 ve B47_19) DMF içermektedir. SEM yöntemi ile elde edilen sonuçlar Tablo 6’da verilmektedir. Türk ve İngiliz öğrenciler karşılaştırıldığında, 69 maddeden 4 tanesi (B45_2, B45_10, B45_13, B45_18) Türk ve Amerikan öğrenciler karşılaştırıldığında, 69 maddeden 2 tanesi (B45_13 ve B47_9) DMF içermektedir.En az iki yöntem tarafından DMF içerdiği görülen maddeler burada listelenmiştir. Türk ve İngiliz öğrenciler karşılaştırıldığında, 69 maddeden 9 tanesi (B43_11, B45_10, B45_13, B45_18, B47_1, B47_6, B47_7, B47_9 ve B47_19) her iki yönteme göre DMF içermektedir. Ayrıca, hangi maddelerin hangi grubun lehine çalıştığının raporlanması da önem taşımaktadır. Bu 9 maddeden 3 tanesi Türk öğrenciler lehine (B43_11, B45_10, B45_18, B47_6, B47_7, B47_9) 3 madde ise İngiliz öğrencilerin lehine çalışmaktadır (B45_13, B47_1, B47_19). Türk ve Amerikan öğrenciler karşılaştırıldığında, 69 maddeden 10 tanesi (B43_11, B45_10, B45_11, B45_13, B47_1, B47_7, B47_9, B47_11, B47_14 ve B47_19) her iki yönteme göre DMF içermektedir. Bu 10 maddeden 5 tanesi Türk öğrenciler lehine (B43_11, B45_10, B47_7, B47_9, B47_14) 4 madde ise Amerikan öğrencilerin lehine çalışmaktadır (B45_13, B47_1, B47_11, B47_19). Bir madde (B45_11) kısmen Türk öğrencilerin lehine, kısmen ise Amerikan öğrencilerin lehine çalışmaktadır. Türk-İngiliz ve Türk-Amerikan karşılaştırmaları benzer sonuçlar vermiştir.Tablo 8 incelendiğinde, DMF gösteren tüm maddelerin açık uçlu sorular olduğu görülmektedir. Ayrıca, Türk öğrencilere hem İngiliz hem de Amerikalı öğrencilere göre avantaj sağlayan 7 sorunun 4 tanesinin en alt düşünme sürecini ölçen formüle etme düşünme süreci ile ilgili olduğu görülmektedir. Formüle etme becerisini ölçen hiçbir soru İngiliz ve Amerikan öğrencilerin lehine çalışmamaktadır. DMF Sonuçları ve Etki Büyüklüğü Türk öğrenciler ile İngiliz ve Amerikalı öğrenciler arasında başarı farkı bulunmaktadır. Gruplar arası farkları örneklemdeki kişi sayısından bağımsız olarak değerlendirebilmek için etki büyüklüğünü kullanmak iyi bir yöntemdir (Field, 2013). Tablo 9’da öğrenci grupları arasındaki farkın etki büyüklüğü tüm maddeler kullanılarak ve DMF gösteren maddeler çıkarıldığında hesaplanmıştır. Türk ve İngiliz öğrenciler arasında başlangıçta .51 ile .93 arasında değişen etki büyüklüğü hesaplanmıştır. DMF içeren maddeler çıkarıldığında ise bir değişiklik gözlenmemiştir. Aynı şekilde Türk ve Amerikalı öğrenciler arasında .28 ile .85 arasında değişen etki büyüklüğü gözlenmiştir. DMF içeren maddeler çıkarıldığında yine farkın değişmediği görülmüştür.  TartışmaBu çalışma Türk öğrencilerin PISA 2015 matematik testinden çok düşük alma nedenlerinden birisi olabilecek olan DMF içeren maddeleri incelemesi bakımından oldukça önemlidir. Araştırmada önceki bölümlerde belirtildiği gibi DMF içeren maddeler tespit edilmiştir. Ancak, bu maddeler sadece Türk öğrencilerin aleyhinde çalışmamaktadır. DMF içeren maddelerin bir kısmı Türk öğrencilerin lehine çalışmaktadır. Ek olarak, etki büyüklükleri karşılaştırıldığında DMF içeren maddelerin toplam puanlarda herhangi bir gruba bir avantaj sağladığına dair kanıt bulunmamaktadır. Puanlardaki düşüş için farklı nedenlere odaklanmak gerekmektedir. Türk öğrencilerin PISA 2015 ortalama matematik puanlarında neden düşüş yaşadıklarını tespit etmek için yıllar içerisinde seçilen örneklemlerin karşılaştırılabilirliği, sınavın kağıt kalem formatı yerine artık bilgisayar ortamında uygulanması ve ülke bazındaki eğitim sistemi, öğretim programları ve eğitim politikalarında yaşanan değişimler gibi farklı değişkenleri de incelemek gerekmektedir. PISA’daki sorular yayınlanmadığı için DMF içeren maddelerin yanlılık gösterip göstermediğine dair uzman incelemesi yaptırılamamıştır. Ancak, soruların özellikleri incelendiğinde bazı önemli ipuçları elde edilmiştir. DMF içeren tüm maddelerin açık uçlu sorulardan oluşması bu soruların puanlanma süreçlerinin yeniden gözden geçirilmesi gerektiğini göstermektedir. Bu puanlama sırasında maddeler DMF içeriyor hale gelmiş olabilir. Diğer bir bulgu da, Türk öğrencilerin lehine çalışan maddelerin çoğunun en alt düzey düşünme sürecini içeren maddeler olmasıdır. Bu tip maddelerin hiçbiri İngilizce konuşan öğrencilere DMF göstermemiştir. Türkiye’deki eğitim genel olarak çok soru çözmeye dayandığı için, öğrenciler temel becerileri geliştirmiş ve bu tip sorularla daha fazla karşılaşmış olabilir (Arikan, van de Vijver & Yagmur, 2016; Doganay & Bal, 2010; Temur, 2012). Bu durum da bu tip maddelerin Türk öğrenciler lehine DMF göstermiş olabileceği anlamına gelmektedir. Son olarak, kullanılan DMF belirleme yöntemleri karşılaştırıldığında logistik regresyon ve Mantel-Haenszel yöntemlerinin yapısal eşitlik modeline göre birbirine daha yakın sonuçlar verdiği görülmüştür.

Are Differentially Functioning Mathematics Items Reason of Low Achievement of Turkish Students in PISA 2015?

In PISA 2015 the average mathematics score of Turkey decreased dramatically. One of the reasons could be the psychometric properties of mathematics items of PISA 2015. Therefore, it is necessary to evaluate PISA mathematics items for language DIF. In the study, three different DIF detection methods were used: logistic regression (LR), Mantel-Haenszel (MH) and structural equation modeling (SEM). Eleven items were found to have DIF when Turkish and English speaking students were compared. The effect sizes of mathematics performance differences between Turkish and English speaking students before and after excluding DIF items did not change which indicated that DIF items did not cause Turkish students to perform lower than expected. All the DIF items were open response format in which answers were rated by experts and computers. The DIF items favoring Turkish students were mainly related to the basic cognitive process.  

___

  • Angoff, W. (1993). Perspective on differential item functioning methodology. In P. W. Holland & H. Wainer (Eds.), Differential item functioning (pp. 3–24). Hillsdale, NJ: Lawrence Erlbaum Associates.
  • Arikan, S., van de Vijver, F., & Yagmur, K. (2016). Factors contributing to mathematics achievement differences of Turkish and Australian Students in TIMSS 2007 and 2011. Eurasia Journal of Mathematics, Science and Technology Education, 12, 2039-2059. doi:10.12973/eurasia.2016.1268a
  • Atalay Kabasakal, K., Gok, B., Kelecioglu, H., & Arsan, N. (2012). Comparing different differential item functioning methods: A simulation study. Hacettepe University Journal of Education, 43, 270-281.
  • Cheung, G. W., & Rensvold, R. B. (2002). Evaluating goodness-of-fit indexes for testing measurement invariance. Structural Equation Modeling: A Multidisciplinary Journal, 9, 233–255. doi:10.1207/S15328007SEM0902_5.
  • Cicchetti, D. V. (1994). Guidelines, criteria, and rules of thumb for evaluating normed and standardized assessment instruments in psychology. Psychological Assessment, 6, 284–290. doi:10.1037/1040-3590.6.4.284.
  • Cohen, J (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Mawhaw, NJ: Lawrence Erlbaum Associates.
  • Demir, S., & Köse, İ. A. (2014) An analysis of the differential item function through Mantel-Haenszel, SIBTEST and Logistic Regression Methods. Journal of Human Sciences, 11(1), 700-714.
  • Doganay, A., & Bal, A. P. (2010). The measurement of students' achievement in teaching primary school fifth year mathematics classes. Educational Sciences: Theory and Practice, 10, 199-215.
  • Field, A. (2013). Discovering Statistics Using IBM SPSS Statistics. Sage.
  • He, J., & Van de Vijver, F. J. R. (2013). Methodological issues in cross-cultural studies in educational psychology. In G. A. D. Liem & A. B. I. Bernardo (Eds.), Advancing cross-cultural perspectives on educational psychology: A festschrift for Dennis McInerney (pp. 39-56). Charlotte, NC: Information Age Publishing.
  • Holland, P. W., & Thayer, D. T. (1986). Differential item functioning and the Mantel-Haenszel procedure (ETS Research Report No. RR-86-31). Princeton, NJ: ETS.
  • Holland, P. W. and Thayer, D. T. (1988). Differential item performance and Mantel-Haenszel procedure. En H.Wainer & H. I. Braun (Eds.), Test Validity, pp. 129-145. Hillsdale, N.J.: Erlbaum.
  • Jodoin, M. G., & Gierl, M. J. (2001). Evaluating type I error and power rates using an effect size measure with the logistic regression procedure for DIF detection. Applied Measurement in Education, 14(4), 329-349.
  • Joldersma, K., & Bowen, D. (2010). Application of Propensity Models in DIF Studies To Compensate For Unequal Ability Distributions. Paper presented at the annual meeting of National Council on Measurement in Education, Denver, CO.
  • Kankaraš, M., & Moors, G. (2014). Analysis of cross-cultural comparability of PISA 2009 scores. Journal of Cross-Cultural Psychology, 45(3), 381-399.
  • Liu, Y., Zumbo, B. D., Gustafson, P., Huang, Y., Kroc, E., & Wu, A. D. (2016). Investigating Causal DIF via Propensity Score Methods. Practical Assessment, Research & Evaluation, 21(13), 1-24.
  • Lyons-Thomas, J., Sandilands, D. D., & Ercikan, K. (2014). Gender Differential Item Functioning in Mathematics in Four International Jurisdictions. Education &Science, 39(172), 20-32.
  • MEB (2015). PISA 2012 Araştırması Ulusal Nihai Raporu. Ankara. Retrieved from https://drive.google.com/file/d/0B2wxMX5xMcnhaGtnV2x6YWsyY2c/view
  • MEB (2016). PISA 2015 Ulusal Raporu. Ankara. Retrieved from http://pisa.meb.gov.tr/wp-content/uploads/2016/12/PISA2015_Ulusal_Rapor1.pdf
  • Muthen, B. O., & Muthen, L. K. (2015). Mplus (Version 7.4). California. Los Angeles.
  • OECD (2016a). PISA 2015 Results (Volume I): Excellence and Equity in Education. Paris: OECD Publishing. doi:10.1787/9789264266490-en
  • OECD (2016b). PISA 2015 Assessment and Analytical Framework: Science, Reading, Mathematic and FinancialLiteracy. PISA, OECD Publishing, Paris.doi:10.1787/9789264255425-en
  • OECD (2017). PISA 2015 Technical Report. Paris: OECD Publishing. Retrieved from http://www.oecd.org/pisa/data/2015-technical-report/
  • Penfield, R. D. (2005). DIFAS: Differential Item Functioning Analysis System. AppliedPsychological Measurement, 29, 150-151.
  • Temur, Ö. D. (2012). Analysis of prospective classroom teachers’ teaching of mathematical modeling and problem solving. Eurasia Journal of Mathematics, Science & Technology Education, 8(2), 83-93. doi:10.12973/eurasia.2012.822a
  • Van de Vijver, F. J. R., & Leung, K. (1997). Methods and data analysis of comparative research. Thousand Oaks, CA: Sage.
  • Van de Vijver, F. J. R. (2017). Capturing bias in structural equation modeling. In E. Davidov, P. Schmidt, & J. Billiet (Eds.), Cross-cultural analysis. Methods and applications (2nd, revised edition). New York, NY: Routledge.
  • Yildirim, H. H., & Berberoĝlu, G. (2009). Judgmental and statistical DIF analyses of the PISA-2003 mathematics literacy items. International Journal of Testing, 9(2), 108-121.
  • Zieky, M. (1993). Practical questions in the use of DIF statistics in item development. InP. W. Holland & H. Wainer (Eds.), Differential item functioning (pp. 337–364).Hillsdale, NJ: Lawrence Erlbaum.
  • Zumbo, B. D. (1999). Zumbo, B. D. (1999). A Handbook on the Theory and Methods of Differential Item Functioning (DIF): Logistic Regression Modeling as a Unitary Framework for Binary and Likert-Type (Ordinal) Item Scores. Ottawa, ON: Directorate of Human Resources Research and Evaluation, Department of National Defense.
  • Zumbo, B. D. (2007). Three generations of DIF analyses: Considering where it has been, where it is now, and where it is going. Language assessment quarterly, 4(2), 223-233.
  • Zumbo, B. D., & Gelin, M. N. (2005). A matter of test bias in educational policy research: Bringing the context into picture by investigating sociological/community moderated (or mediated) test and item bias. Journal of Educational Research & Policy Studies, 5(1), 1-23.
  • Zumbo, B. D., & Thomas, D. R. (1997). A measure of effect size for a model-based approach for studying DIF. Prince George, Canada: Edgeworth Laboratory for Quantitative Behavioral Science, University of Northern British Columbia.