KONTROL LİSTESİ, ANALİTİK RUBRİK VE DERECELEME ÖLÇEKLERİNDE PUANLAYICIGÜVENİRLİĞİNİN GENELLENEBİLİRLİK KURAMINA GÖRE İNCELENMESİ

Bu araştırmanın amacı, aynı performans görevlerinin farklı sayıda puanlayıcı tarafından kontrol listesi, dereceleme ölçeği ve analitik rubrik yardımıyla puanlanması durumunda, puanlayıcılar arası güvenirliklerinin G kuramı çerçevesinde incelenmesidir. Bu amaç doğrultusunda, 5. sınıf düzeyindeki öğrencilerin hikâye yazma becerilerini puanlamak amacıyla, kontrol listesi, dereceleme ölçeği ve analitik rubrik hazırlanmıştır. İlköğretim 5. sınıf öğrencilerine yazdırılan hikâyeler arasından seçilen 6 hikâye 45 puanlayıcıya üç farklı puanlama anahtarı ile 10-15 gün aralıklarla puanlattırılmıştır. Araştırmaya katılan 45 puanlayıcı içerisinden 2, 3, 5 ve 10 puanlayıcılı 100'er örneklem çekilmiştir. Elde edilen 400 örneklem için G kuramı'na göre puanlayıcılar arası güvenirlikleri hesaplanmıştır. Elde edilen 1200 hesaplamanın her bir durum için elde edilen 100 örneklemi için ortancaları ve standart hataları hesaplanmıştır. Güvenirlik kestirimlerinin ortanca değerleri incelendiğinde, 5 puanlayıcının kontrol listesi kullanarak yaptıkları puanlamaların güvenirliklerinin ortanca değeri hariç olmak üzere, puanlayıcı sayısı ve aynı zamanda kullanılan ölçeğin kategori sayısı arttıkça ortanca değerlerinin de arttığı; elde edilen standart hataların, puanlayıcı sayısı arttıkça azaldığı gözlenmiştir. En düşük standart hata değerlerinin, 10 puanlayıcı olması durumunda elde edildiği saptanmıştır. Puanlayıcı sayısı 5 ve kategori sayısı 2 olduğunda, güvenirlik kestiriminin en yüksek değeri verdiği belirlenmiştir

EXAMINATION OF SCORING RELIABILITY ACCORDING TO GENERALIZABILITY THEORY IN CHECKLIST, ANALYTIC RUBRIC AND RATING SCALES 1

The aim of this research is to examine the inter-rater reliability in the context of G theory when the same performance tasks are rated by different raters with the help of a checklist, rating scale and analytical rubric. To this end, a checklist, rating scale and analytic rubric were prepared to rate the story-writing skills of fifth grade students. Six stories selected from the stories written by the 5th grade students of the primary school were rated 45 different raters with three different scoring keys at intervals of 10-15 days. 100 samples each were drawn with 2, 3, 5 and 10 raters from 45 raters participating in the study. For the 400 samples obtained, reliability between the raters was calculated according to G theory. For the 100 samples obtained for each case, the median and standard error were calculated. When the median values of the reliability estimates are examined, the median values increase as the number of raters and the number of categories increase, except for the median of the reliability of the raters that the 5 raters make using the checklist; it was observed that the standard errors obtained decreased as the number of raters increased. It has been determined that the lowest standard error values are obtained in the case of 10 raters. When the number of raters was 5 and the number of category was 2, it was determined that the reliability estimation gave the highest value

PDF

___

Aiken, L. R. (2000). Psychological Testing and Assessment (10th ed). USA: Allyn and Bacon.
Anastasi, A. ve Urbina, S. (1997). Psychological Testing (7th ed.). USA: Macmillan Pub. Co. Inc.
Arıcı, H,. (2005). İstatistik: Yöntem ve Uygulamalar (15. Baskı). Ankara: Meteksan A.Ş.
Aşiret, S,. (2014). Küçük Örneklemlerde Test Eşitleme Yöntemlerinin Çeşitli Faktörlere Göre İncelenmesi. Yayınlanmış Yüksek Lisans Tezi, Mersin Üniversitesi, Mersin.
Atılgan, H., (2005). G Kuramı ve Puanlayıcılar Arası Güvenirlik İçin Örnek Bir Uygulama. Eğitim Bilimleri ve Uygulama, 4 (7), 95-108.
Atılgan, H., (2004). G Kuramı ve Çok Değişkenlik Kaynaklı Rasch Modelinin Karşılaştırılmasına İlişkin Bir Araştırma. Yayımlanmış Doktora Tezi. Hacettepe Üniversitesi Sosyal Bilimler Enstitüsü Eğitim Bilimleri Anabilim Dalı Eğitimde Ölçme ve Değerlendirme Bilim Dalı, Ankara.
Brennan, R., L. (2001). Generalizability Theory. USA: Springer-Verlag New York Inc.
Büyükkıdık. S,. (2012). Problem Çözme Becerisinin Değerlendirilmesinde Puanlayıcılar Arası Güvenirliğin Klasik Test Kuramı ve G Kuramına Göre Karşılaştırılması. Yayımlanmış Yüksek Lisans Tezi. Hacettepe Üniversitesi Sosyal Bilimler Enstitüsü Eğitim Bilimleri Anabilim Dalı Eğitimde Ölçme ve Değerlendirme Bilim Dalı, Ankara.
Büyükkıdık. S,. Anıl, D,. (2015). Performansa Dayalı Durum Belirlemede Güvenirliğin Genellenebilirlik Kuramında Farklı Desenlerle İncelenmesi. Eğitim ve Bilim. 40 (177).
Covill. A. E. (2012). College Students' Use of a Writing Rubric: Effect on Quality of Writing, Self-Efficacy, and Writing Practices. The Journal of Writing Assessment. (5)1.
Çakıcı Eser. D,. Gelbal. S,. (2013). Genellenebilirlik Kuramı ve Lojistik Regresyona Dayalı Hesaplanan Puanlayıcılar Arası Tutarlığın Karşılaştırılması. Kastamonu Eğitim Dergisi. 21(2).
Deliceoğlu, G. (2009). Futbol Yetilerine İlişkin Dereceleme Ölçeğinin Genellenebilirlik ve Klasik Test Kuramına Dayalı Güvenirliklerinin Karşılaştırılması. Yayımlanmış Doktora Tezi. Ankara Üniversitesi Eğitim Bilimleri Enstitüsü Eğitimde Psikolojik Hizmetler Anabilim Dalı Ölçme ve Değerlendirme Bilim Dalı, Ankara.
Deliceoğlu, G., Çıkrıkçı Demirtaşlı. N,. (2012). Futbol Yetilerine İlişkin Dereceleme Ölçeğinin Genellenebilirlik ve Klasik Test Kuramına Dayalı Güvenirliklerinin Karşılaştırılması. Hacettepe Spor Bilimleri Dergisi. 23 (1),1–12.
Erkuş. A. (2006). Sınıf Öğretmenleri İçin Ölçme ve Değerlendirme: Kavramlar ve Uygulamalar. Ankara: Ekinoks.
Güler, N. (2011). Rasgele Veriler Üzerinde Genellenebilirlik Kuramı ve Klasik Test Kuramı’na Göre Güvenirliğin Karşılaştırılması. Eğitim ve Bilim, 36 (162).
Güler, N., Uyanık, G. K., Taşdelen Teker, G. (2012). Genellenebilirlik Kuramı. Ankara: Pegem Akademi.
Hobart, C., and Frankel, J. (1999) A Practical Guide to Child Observation and Assessment. Cheltenham: Stanley Thornes.
Keeves, J. P. (1988). Educational Research, Methodology, and Measurement: an İnternational Handbook. USA: Pergamon Press.
Kolen, M. J.,& Brennan R. L. (2004). Test Equating, Scaling, and Linking: Method and Practice (2nd ed.). New York, NY: Springer-Verlag.
Kothari. C. R. (2004). Research Methodology. New Delhi: New Age International (P) Ltd., Publishers. Kutlu. Ö., Doğan. C. D., Karakaya. İ. (2008). Öğrenci Başarısının Belirlenmesi: Performansa ve Prtfolyoya Dayalı Durum Belirleme. Ankara: Pegem Akademi.
Moskal, Barbara M. & Jon A. Leydens (2000). Scoring Rubric Development: Validity and Reliability. Practical Assessment, Research & Evaluation. http://PAREonline.net/getvn.asp?v=7&n=10 web adresinden 24 Şubat 2012 tarihinde edinilmiştir.
Nalbantoğlu Yılmaz. F,. ve Gelbal. S,. (2011). İletişim Becerileri İstasyonu Örneğinde Genellenebilirlik Kuramı ile Farklı Desenlerin Karşılaştırılması. Hacettepe Üniversitesi Eğitim Fakültesi Dergisi. 41:509-518.
Nalbantoğlu Yılmaz. F,. ve Başusta. B,. (2015). Genellenebilirlik Kuramıyla Dikiş Atma ve Alma Becerileri İstasyonu Güvenirliğinin Değerlendirilmesi. Eğitimde ve Psikolojide Ölçme ve Değerlendirme Dergisi. 6(1).
Özbek, K. ve Keskin, S. (2007). Standart Sapma Mı Yoksa Standart Hata Mı? Van tıp dergisi. 14(2):64-67.
Popham, J. W. (1997). What’s Wrong and What’s Right With Rubric. Educational Leadership. 55, (2), 12.
Singer. N. B., LeMahieu. P. (2011). The Effect of Scoring Order on the Independence of Holistic and Analytic Scores. The Journal of Writing Assessment. (4)1.
Singh. Y. K. (2006). Fundamental of Research Methodology and Statistics. New Delhi: New Age International (P) Ltd., Publishers.
Tekindal. S, (Editör). (2008). Eğitimde Ölçme ve Değerlendirme. Ankara: Pegem Akademi.
Turgut, M. F., Baykul, Y. (2010). Eğitimde Ölçme ve Değerlendirme (2. baskı). Ankara: Pegem Akademi.