A study based on classic test theory and many facet rasch model

Problem Durumu: Ölçme, bir özelliğin gözlenerek gözlem sonuçlarının sayı ya da sembollerle ifade edilmesi olarak tanımlanırken, değerlendirme daha geniş kapsamlı bir süreç olup; ölçme sonuçları, ölçüt ve karar verme basamaklarını içermektedir. Ölçme sonuçlarının bir ölçütle karşılaştırılarak karara varılması olarak tanımlanan değerlendirmenin doğru yapılmış olmasında, kullanılan ölçütün uygunluğu yanısıra, ölçme sonuçlarının güvenilir ve geçerli olmasının çok büyük önemi bulunmaktadır. Değerlendirme sonuçlarının isabetli olma derecesini arttırabilmek için yapılan ölçme işlemlerinde kullanılan ölçme araçlarının güvenirliğinin ve geçerliğinin olabildiğince yüksek olması istenir. Güvenirlik, ölçme sonuçlarının tesadüfi hatalarından arınık olma derecesi olarak tanımlanmaktadır. Güvenirlik, ölçümlerin zaman içersindeki tutarlılıklarının derecesidir. Güvenirliğin derecesi genellikle bir katsayı ile ifade edilir. Bu katsayı “0” (güvenilir değil) ile “1”(mükemmel güvenirlik) arasında değişen değerler alır ve ölçme sonuçlarının tesadüfi hatalardan ne derece arınık olduğunu gösterir. Öğrenci başarısını açık-uçlu sorularla ölçülmesinde, güvenirlik en zayıf halka olarak düşünülmektedir. Puanlayıcı, açık-uçlu sorulara verilen cevapların puanlanmasında güvenirliği düşüren önemli bir hata kaynağı olmakla birlikte, görev ya da madde gibi diğer faktörler de en az o kadar önemli diğer hata kaynaklarıdır. Bu nedenle sadece puanlayıcılar arası tutarlılığı sağlamak puanlamanın güvenirliği için yeterli olmamakta, diğer hata kaynaklarının da güvenirliğin hesaplanmasında göz önünde bulundurulması gerekmektedir. Ancak güvenirliğin hesaplanması için kullanılan tüm yöntemler, tüm hata kaynaklarıyla aynı anda ele almamaktadır. Açık-uçlu sorularla yapılan ölçmelerin güvenirliği, ölçmenin üç temel kuramı olan klasik test kuramı, madde tepki kuramı ve genellenebilirlik kuramına dayalı yöntemlerle çalışılmaktadır. Araştırmanın Amacı: Bu araştırmayla, güvenirliğin belirlenmesinde klasik test kuramı klasik test kuramına dayalı ölçme yöntemi ve çok değişkenlik kaynaklı Rasch modeli (ÇDKRM) yaklaşımları kullanılarak birbirleriyle ve kendi içlerinde tutarlılıkları sınanarak benzer ölçme durumları için kuramsal bir katkı sağlanabileceği düşünülmektedir. Matematik eğitimcileri, matematikle ilgili başarının ölçülmesinde subjektif ölçme araçları kullandıklarında, öğrencilerinin matematiksel bilgilerine ilişkin verdikleri puanların ne kadar güvenilir olduğunu bilmek isterler. Bununla birlikte, matematik başarısının ölçülmesinde en etkili olan değişkenlik kaynağının ne olduğunu ve ölçme hatasını en aza indirmek için ölçmenin nasıl yapılması gerektiğini bilmeye ihtiyaç duyarlar. Aynı zamanda bu noktalara temas edilerek matematik eğitimcilerini bu konularda aydınlatmak, çalışmanın bir diğer amacıdır.

Klasik test kuramı ve çok değişkenlik kaynaklı rasch modeli üzerine bir çalışma

Problem Statement: Reliability is considered the weakest ring when measuring students’ achievement through open-ended questions. Despite being an important source of errors that reduce reliability in rating responses given to questions, such factors as tasks or items are other sources of error that are equally important. However, all the methods employed in computing reliability are not handled with all sources of error at the same time. The reliability of measurements conducted with openended questions is studied through methods based on three basic theories of measurement: namely, classical test theory, item response theory, and generalizability theory. Purpose of Study: The purpose of the study is to apply classical test theory (CTT) and many facet Rasch model (MFRM) to determine the reliability of the mathematic achievement scores and to compare the results of both theories. Methods: Since the characteristics of CTT and MFRM are discussed and confirmed in this study, this is a descriptive study. Findings and Results: According to CTT, the interconsistency of the mathematic scores was found to be 0.92. Although Kendall’s concordance coefficient for four raters was obtained as 0.52, correlation coefficients for four raters were different values between 0.90 and 0.97. According to MFRM, the reliability of the person facet was 0.95, and the reliability of the rater facet was 0.99. For determining the students’ mathematic success, the reliability of the mathematic scores was found to be very high. Although there was a difference between the means of the raters’ scores, it was determined that the four raters scored the students consistently. Conclusions and Recommendations: With this study, it was seen that the theory to be selected for determining the reliability of the scores depended upon the purpose for which the scores obtained would be used. However, it is concluded that it is more appropriate that at least two theories should be used for determining the reliability of the measurement.


