Neşe GÜLER

Analysis of Open-Ended Statistics Questions with Many Facet Rasch Model

Problem Durumu: Eğitimde kullanılan ölçme araç ve yöntemlerinden biri de açık-uçlu maddelerdir. Açık-uçlu maddeler, öğrencilerin cevaplarını kendi ifadeleriyle özgürce aktarabilmelerini sağlarken diğer bazı ölçme araçlarıylaanaliz edilemeyen eksikleri/hataları analiz edebilmeyi de mümkün kılar. Açık-uçlu maddeler öğrencilerin düşünme ve strateji kurabilme sürecinin izlenmesini; öğrencinin bilgi düzeyinin ve bilgiyi nasıl yapılandırdığının daha geçerli şekilde anlaşılabilmesini sağlar. Açık-uçlu maddelerin, çoktan seçmeli maddelere göre başlıca üç avantajı bulunmaktadır: 1. Şans başarısını ortadan kaldırarak bu sebeple oluşacak ölçme hatasını azaltıp; daha güvenilir sonuçlara ulaşılmasını sağlar. 2. Çoktan seçmeli maddelerde öğrenci, doğru cevabı seçeneklerden giderek de bulabilmektedir. Ancak bu tür bir sağlama yapılarak doğru cevaplamak, açık-uçlu maddelerde mümkün değildir. Örneğin; 2(X+4)= 38-X eşitliğinde X değerinin bulunmasında; öğrenci seçeneklerde verilen değerleri denklemde yerine koyarak doğru cevabı bulabilir. Halbuki öğrenciden bilmesi istenilen çözüm yolu bu değildir. Bu durum, ölçmenin istenilen yapıdan farklı bir yapıyı ölçmesine sebep olacaktır ki bu da testin yapı geçerliğinin düşmesine yol açar. Açık-uçlu maddelerde yapı geçerliğini tehdit eden bu tür bir faktör bulunmamaktadır. 3. Çoktan seçmeli maddelerin doğasında yer alan istenmeyen düzeltici dönütün yapılmasına izin vermez. Öğrenci, doğru cevabı seçeneklerde bulamayınca soruya tekrar dönüp yeni bir stratejiyle cevabı bulma yoluna gitmektedir. Açık-uçlu maddelerde bu tür bir durum söz konusu değildir. Özellikle sentez ve değerlendirme gibi üst düzey bilişsel davranış basamaklarının geçerli bir şekilde ölçülebilmesini sağlayan açık-uçlu maddelerin en önemlidezavantajı ise puanlanmasıdır. Açık-uçlu maddelere verilen cevapların objektif puanlanmasındaki güçlük, elde edilen puanların güvenirliğini düşüren önemli sebeplerden biridir. Açık-uçlu maddelere güvenirliği etkileyen farklı hata kaynakları da bulunmaktadır. Sınavın bütününü oluşturan her bir maddenin iç-tutarlılığı, farklı zamanlarda aynı maddelere aynı öğrencilerin verdikleri cevaplar arasındaki tutarlığı ifade eden test-tekrar test güveniliği gibi klasik test kuramı (KTK)'nda yer alan herbir hata kaynağı için farklı güvenirlik katsayıları hesaplamak mümkündür. KTK'da tüm hata kaynaklarının ve bunlar arasındaki etkileşimin birlikte aynı anda ele alınabildiği bir yöntemle güvenirliğin hesaplanması mümkün olmamaktadır. Açık-uçlu maddelerde olduğu gibi hata kaynaklarının birden fazla olduğu ölçme durumlarında KTK'nın bu sınırlılığını ortadan kaldıran genellenebilirlik ve madde tepki kuramlarının (MTK) kullanılması tercih edilmektedir. Bu çalışmada, açık-uçlu istatistik maddelerinden alınan puanların güvenirliği; öğrenci, madde ve puanlayıcı yüzeyinin birlikte ele alındığı MTK'da yer alan, Rasch modelinin bir uzantısı olan çok yüzeyli Rasch modeli (ÇYRM) kullanılarak incelenmiştir.Araştırmanın Amacı:Bu çalışmada, açık-uçlu maddelerden oluşan istatistik sınavı puanlarının ÇYRM analiziyle herbir yüzey (öğrenciler, maddeler ve puanlayıcılar) için uyum indeksleri ve güvenirlik katsayılarının bulunması, sonuçlar doğrultusunda puanların güvenirliğinin yorumlanması amaçlanmıştır. Araştırmanın Bulguları: Araştırmada yer alan 55 öğrencinin 10 maddeye verdiği cevapların üç puanlayıcı tarafından puanlanmasıyla elde edilen veriler logit cetvelle incelenmiştir. Bu cetvelde tüm yüzeylerin sonuçlarını ortak bir doğrusal ölçek üzerinde görmek mümkündür. Cetvelde, öğrenci sütunu incelendiğinde, -1'den 1'e maddeleri en az doğru cevaplayan öğrencilerden en çok doğru cevaplayanlara doğru bir sıralama yer almaktadır. Böylece, en az başarı gösterenin 2. (logit puanı -0.33);en yüksek başarı gösterenlerin 19. (logit puanı 2.00), 9. ve 14. öğrenciler olduğunu açıkça görmek mümkündür. Maddelerin yer aldığı sütunda da -1'e en yakın madde, güçlük düzeyi en düşük (en zor) iken; 1'e yaklaştıkça maddelerin güçlük düzeyleri artmakta (en kolay)'dır. Böylece, en zor 1. ve 2.; en kolay 10. maddenin olduğu görülmektedir. Puanlayıcı sütununda -1'den 1'e; en cömert puan verenden en katı puanlayıcıya doğrubir gidiş söz konusudur ve üç puanlayıcının da puanlamadaki katılık-cömertlik düzeylerinin aynı olduğu (0 logits düzeyinde) görülmektedir. Verilerin, modele uyumunu iç ve dış uyum istatistikleri göstermektedir.Dış-uyum, gözlenen ile beklenen veriler arasındaki artıkların kareler ortalamasıdır ve beklenmedik uç değerlere karşı oldukça duyarlıdır. İç-uyum ise dış-uyuma göre uç değerlere karşı daha az duyarlıdır. İç-uyum için istenilen değer 1 olup; daha büyük değerler verilerin beklenenden daha fazla değişim gösterdiğini, daha küçük değelerse beklenenden daha az değişim olduğunu (veriler arası bağımlılık) gösterir.Verilerin modele uyumlu olması durumunda her iki kareler ortalaması için de beklenen değerler 1'dir. Alan yazında uyumun olduğunu söyleyebilmek üzere; dış ve iç uyum için belirtilen sınır değerler çok büyük farklılıklar göstermemektedir.Kabul edilebilir değerler (0.6, 1.5) ya da (0.5, 1.5) aralığında yer almaktadır. Buna göre; 9, 14, 22, 26, 10, 12, 8, 5, 4, 25 numaralı öğrenciler kabul edilebilir sınırların dışında iç ya da dışuyum değerleri göstermişlerdir. Son olarak, ayırma indeksinin 1.95 ve güvenirlik katsayısının .79 olduğu görülmüştür. Buradan, testin iç-tutarlılık katsayısının kabul edilebilir düzeyde olduğu söylenebilir. Maddeler için elde edilen analiz sonuçları incelendiğinde (Şekil 1), en zor 10. (logit değeri 0.18), en kolay 1. ve 2. maddeler (logit değeri -.09) dir. Maddelerin iç ve dış uyumları incelendiğinde, tüm maddelere ilişkin bu değerlerin kabul edilebilir sınırlar (0.5, 1.6) içinde yer aldığı görülmektedir. Maddelere ait ayırma indeksi 2.95, güvenirlik katsayısı .90 olarak bulunmuştur. Bu bilgiler dışında, maddelerin güçlük düzeylerine göre sıralaması incelendiğinde, ilk iki maddenin öğrencilere en kolay, en son maddenin en zor geldiği ve diğer maddelerin güçlük düz

Açık Uçlu İstatistik Maddelerine Verilen Cevapların Çok Yüzeyli Rasch Modeli ile Analizi

Problem Statement:The most significant disadvantage of open-ended items that allow the valid measurement of upper level cognitive behaviours, such as synthesis and evaluation, is scoring. The difficulty associated with objectively scoring the answers to the items contributes to the reduction of the reliability of the scores. Moreover, other sources of error also affect reliability.When measurement involves more than one source of error, as in the case of scoring open-ended items, item response theory, which removes the restriction of the classical test theory, is preferred. Purpose of Study:The purpose of the study is to assess the infit-outfit statistics and reliability coefficients of the scores for a statistics exam composed of open-ended items using the many facet Rasch model (MFRM) analysis for each source of variability (i.e., students, items, and raters) and to interpret the reliability of the scores. Methods:In this study, MFRM was used to analyse the answers given to 10 open-ended items in a Statistics I course; the answers were provided by 55 third year graduate students of the Psychological Counselling and Guidance Department of the Faculty of Education in the fall semester of the 2010-2011 academic year. The scoring was performed by three raters who were experts in statistics and work as academic staff at the university. Thereby, this study contains the following three sources of variability (facets): students, items, and raters. Measurement reports, including infit and outfit statistics, separation indexes and reliability coefficients were calculated for each facet by FACET computer package programme. Findings and Results: According to the MFRM analysis, the reliability coefficients for the student and item facets were.79 and .90, respectively; moreover, the separation indexes of the student and item facets were 1.95and 2.95, respectively. Additionally, complete consistency was found between the raters in this study.Conclusions and Recommendations: The MFRM makes important contributions to the analysis of measurement results, the development of measurement tools, the organization of appropriate measurement circumstances, and the provision of effective training for raters. Because it is believedto provide important information, the use of the MFRM might be recommended when analysing the results obtained from exams in which open-ended items are used and through which important decisions about the students' future are made.

PDF

___

Alharby, E. R. (2006). A comparison between two scoring methods, holistic vs. analytic using two measurement models, the generalizability theory and the many facet Rasch measurement within the context of performance asssessment. Unpublished phd. dissertation. The Pennsylvenia State University.
Atılgan, H. (2005). Analysis of special ability selection examination for music education department using many-facets Rasch measurement (İnönü University Case). Eurasian Journal of Educational Measurement, 20, 62-73.
Baştürk, R. (2010). Evaluating of research assignments with many facets Rasch measurement model. Measurement and Evaluation in Education and Psychology. 1(1), 51-57.
Bridgeman, B. (1992). A comparison of quantative questions in open-ended and multiple-choice formats. Journal of Educaitonal Measurement. 29, 3, 253-271.
Engelhard, G. (1994). Examining rater errors in the assessment of written composition with a many-faceted Rasch model. Journal of Educational Measurement. 31, 2, 93-112.
Geer, J. G. (1988). What do open-ended questions measure? Public Opinion Quarterly, 52, 3, 365-371.
Goodwin, L. D. (2001). Interrater agreement and reliability. Measurement in Psychical Education and Exercises Science, 5 (1), 13-14.
Güler, N. & Gelbal, S. (2010 (a)). A study based on classical test theory and many facet Rasch measurement. Eurasian Journal of Educational Research, 38, 108-125.
Güler, N. & Gelbal, S. (2010 (b)). Studying reliability of open ended mathematics ıtems according to the classical test theory and generalizability theory. Educational Sciences: Theory & Practice, 10, 2, 1011-1019.
Hetherman, S. C. (2004). An application of multi faceted Rasch measurement to monitor effectiveness of the written composition in English in the new york city department of education. Unpublished phd. dissertation. Teacher College, Colombia University, Colombia.
Hong, L. K. (1984). List processing free responses: analysis of open-ended questions with word processor. Qualitative Sociology, 7, 2, 98-109.
Kim, Y., Park, I. ve Kang, M. (2012). Examining Rater Effects of the TGMD-2 on Children with Intellectual Disability. Adapted Physical Activity Quarterly. 29, 346-365.
Leiva, F. M., Montoro, F. J. & Martinez, T. L. (2006). Assessment of ınterjudge reliability in the open-ended questions coding process. Quality & Quantity, 40, 519-537.
Linacre, J. M. (2007). A user's guide to FACETS. Rasch model computer programs. Chicago, IL.
Linacre, J. M. (1989). Many facet Rasch measurement. Unpublished phd. dissertation. University of Chicago, Chicago.
Looney, M. A. (2012). Judging Anomalies at the 2010 Olympics in Men's Figure Skating. Measurement in Physical Education and Exercise Science. 16, 55-68.
Lunz, M. E., Wright, B. D. & Linacre, J. M. (1990). Measuring the ımpact of judge severity on examination scores. Applied Measurement in Education. 3, 4, 331-345.
Nakamura, N. (2002). Teacher assessment and peer assessment in practice. Educational Studies, 44, 143. 204-215.
Nakamura, N. (2000). Many-facet Rasch based analysis of communicative language testing results. Journal of Communication Students, 12, 3-13.
Özçelik, D. A. (1998). Ölçme ve değerlendirme ?Measuremet and evaluation? (2nd ed.). ÖSYM Yayınları, Ankara.
Randall, J. & Engelhard, G. Jr. (2009). Examining teacher grades using Rasch measurement theory. Journal of Educational Measurement, 46, 1, 1-18.
Revesz, A. (2012). Working Memory and the Observed Effectiveness of Recasts on Different L2 Outcome Measures. Language Learning. 62, 1, 93-132.
Semerci, Ç. (2011). Mikro Öğretim Uygulamalarının Çok-Yüzeyli Rasch Ölçme Modeli ile Analizi ?Analyzing microteaching applications with many-facet Rasch measurement model?. Eğitim ve Bilim/ Education and Science, 36 (161), 14- 25.
Smith, V. E. & Kulikowich, M. J. (2004). An application of generalizability theory and many facet Rasch measurement using a complex problem-solving skills assessment. Educational and Psychological Measurement, 64, 617-639.
Turner, J. (2003). Examining on art portfolio assessment using a many facet Rasch measurement model. Unpublished phd. dissertation. Boston College, Boston.