Kompozisyon Puanlarının Güvenirliği: Genellenebilirlik Kuramı Çalışması

Problem Durumu: Kompozisyonların puanlanmasında puanlayıcılar arasındaki bu farklılaşmaların ölçme hatalarına neden olması puanların tutarsızlığı ve güvenirliğin düşmesi ile sonuçlanır. Kompozisyon tipi sınavlarla ölçülen becerilerin ne derece doğrulukla puanlanabildiğinin belirlenmesi varyans kaynaklarından gelen ölçme hatalarının ortaya konulmasına bağlıdır. Aynı zamanda ölçme sonuçlarına karışan bu tür ölçme hatalarının azaltılması için de bu hata kaynaklarının doğru şekilde bilinmesi ve ölçme durumunun ona göre desenlenmesi gerekir. Araştırmanın Amacı: Bu Çalışmada çok değişkenli G Kuramı kapsamında bireylerin Türkçe anadilde yazma becerilerin ölçüldüğü kompozisyon puanlarının genellenebilirliği ve güvenirliği incelenmiştir. Bu bağlamda kompozisyon puanlarının genellenebilirliği ve güvenirliği üzerine yukarıda belirtildiği gibi daha etkili olduğu bilinen puanlama konusunda eğitilmiş puanlayıcıların etkisi üzerine odaklanılmıştır. Örtük özellik olan yazma becerisinin tümü ve alt boyutları olarak başlık bulma, paragraf oluşturma, anlatım-yazma boyutlarında puanlamada puanlayıcı sayısına göre genellenebilirlik ve güvenirlik katsayılarının nasıl değiştiği ve optimal bir güvenirlik için en uygun puanlayıcı sayısının ne olabileceği ortaya konulmaya çalışılmıştır. Böylece kompozisyon yazma becerilerinin değerlendirilmesi konusunda bilgimizi genişletmek ve kompozisyonların yeterince güvenilir puanlanması için referans oluşturmak amaçlanmıştır. Araştırmanın Yöntemi: Çalışmada kullanılan okul örneklemi; Türkiye’de İzmir il merkezinden önce üç ilçe, sonra bu üç ilçenin her birinden birer okul yansız küme örneklem olarak seçilmiştir. Örnekleme seçilen okulların 8. sınıf öğrencilerinin tamamı öğrenci örneklemini oluşturmuştur. Öğrenci örneklemi 443 öğrenciden oluşmaktadır. Puanlayıcı örneklemi ise konusunda uzman olan Türkçe dersi öğretmenleri arasından seçilen dört öğretmenden oluşturulmuştur. Öğrencilerin kompozisyonlarını puanlamak için Yazma Becerileri Ölçeği (YBÖ) kullanılmıştır. Dereceleme ölçeği olan bu ölçekte 20 madde bulunmaktadır. Her bir madde dörtlü dereceleme ölçeği şeklinde puanlanmaktadır. Dört puanlayıcının kompozisyonların tümünü birbirlerinden bağımsız puanlamaları sağlanmıştır. Araştırmada G Kuramının çok değişkenli  deseni kullanılmıştır. G Kuramının  çok değişkenli deseniyle uygulanan G çalışmasında varyans bileşenleri alt boyutlar için kestirilmiştir. Araştırmada bağıl ölçmeler için Genellenebilirlik katsayısı , mutlak ölçmeler için güvenirlik katsayısı ( ) alt boyutlar ve birleşik ölçme için hesaplanmıştır. Alternatif D çalışması ile  and  katsayıları puanlayıcı sayısının artırılması ve azaltılması senaryoları ile alt boyutlar ve birleşik ölçme için hesaplanmıştır.Araştırmanın Bulguları: G Kuramının  çok değişkenli deseni Genellenebilirlik (G) çalışması ile her bir alt boyut için üç ana (p, i, r) ve dört ortak etki varyansı (pxi, pxr, ixr, pxixr,e) kestirilmiştir. Başlık bulma, paragraf oluşturma ve anlatım/yazma alt boyutunda birey (p) sırasıyla %73.90, %75.51 ve %49.88 olarak hesaplanan varyanslar toplam varyanslar içindeki en büyük varyansa sahiptir. Bu sonuç bireylerin yazdıkları kompozisyonlarda “başlık bulma” beceri farklılıklarının ortaya konulabildiğini göstermektedir. Başlık bulma, paragraf oluşturma ve anlatım/yazma alt boyutlarının madde (i) varyansı toplam varyansları sırasıyla %5.12, %0.10 ve %4.87 olarak bulunmuştur. Paragraf oluşturma alt boyutu dışında nispeten büyük olan bu varyans yüzdesi; başlık bulma ve anlatım/yazma alt boyutunda maddelerin farklılaştığı biçiminde yorumlanabilir. Bu çalışmanın odak noktası olan puanlayıcı (r) varyansı başlık bulma, paragraf oluşturma ve anlatım/yazma alt boyutunda toplam varyansın sırasıyla %2.75, %2.05 ve %1.59 olarak hesaplanmıştır. Toplam varyansların nispeten küçük bir kısmını oluşturan puanlayıcı varyansları; puanlayıcıların alt boyutunda puanlamaları arasında tutarsızlıklarının az olduğunu göstermektedir. Başlık bulma, paragraf oluşturma ve anlatım/yazma alt boyutları için kestirilen birey ve madde (pxi) ortak etkisi toplam varyansların sırasıyla %4.31, %.08 ve %4.84’üdür. Başlık bulma, paragraf oluşturma ve anlatım/yazma alt boyutlarında varyansların nispeten büyük oluşu, bireylerin bu alt boyutunda maddeler arasında bağıl durumlarının farklılaştığını göstermektedir. Birey ve puanlayıcı (pxr) arasındaki ortak etkisi varyansı başlık bulma, paragraf oluşturma ve anlatım/yazma alt boyutlarında toplam varyansın sırasıyla %7.35, %17.36 ve %12.83’ünü oluşturmaktadır. Bu sonuç alt boyutlara belli puanlayıcıların belli bireyler için daha katı ya da daha cömert puanlama yaptıklarını göstermektedir. Madde ve puanlayıcı (ixr) arasındaki ortak etki varyansı başlık bulma, paragraf oluşturma ve anlatım/yazma alt boyutlarında toplam varyansın %.71, %.14 ve %3.60’ı olarak hesaplanmıştır. Başlık bulma ve paragraf oluşturma alt boyutlarında bu varyansların toplam varyansları içindeki payının sıfıra yakın olması, puanlayıcıların öğrencileri bir maddeden diğerine kararlı puanladıkları biçiminde yorumlanabilirken, anlatım/yama alt boyutunda aynı kararlığın olmadığını göstermektedir. Birey, puanlayıcı, madde arasında üç yönlü ortak etki ile hata varyansları (pxrxi,e) başlık bulma, paragraf oluşturma ve anlatım/yazma alt boyutlarında toplam varyansların %5.86, %4.76 ve %22.39’u olarak kestirilmiştir. Alt boyutlarda, özellikle anlatım/yazma alt boyutunda büyük olan bu varyanslar bireylerin bağıl konumlarının; birey, puanlayıcı, madde üç yönlü ortak etki varyansının G çalışmasında hesaba katılmayan diğer hata kaynaklarının büyüklüğünü göstermektedir. G Kuramının  çok değişkenli deseni Karar (D) Çalışması ile her bir alt boyut ve bütün ölçek için G ve Phi katsayıları çalışmanın orijinalinde puanlama yapan dört puanlayıcı için ve alternatif olarak daha az ve daha çok puanlayıcı sayıları için hesaplanmıştır. Bağıl ölçmeler için hesaplanan G katsayısı  çalışmada puanlama yapan dört puanlayıcı için “başlık bulma”, “paragraf oluşturma” ve “anlatım/yazma” alt boyutları için sırasıyla .95, .94, .93 birleşik ölçme için ise .95 olarak elde edilmiştir. Mutlak ölçmeler için puanların güvenirliğinin bir ölçüsü olan Phi ( ) katsayısı çalışmada puanlama yapan dört puanlayıcı için “başlık bulma”, “paragraf oluşturma” ve “anlatım/yazma” alt boyutları için sırasıyla .92, .93, .91 ve birleşik ölçme için ise .94 olarak hesaplanmıştır.  Puanlayıcı sayısının beş puanlayıcıya çıkarılması alt boyutlar ve birleşik ölçme için G ve Phi katsayılarında çok az kazanç sağladığı gibi, üç puanlayıcıya indirildiğinde ise kayıp çok az olmakta ve tüm katsayılar .89 ve üzerinde olmaktadır. Puanlayıcı sayısı ikiye indirildiğinden alt boyutlar ve birleşik ölçme için G ve Phi katsayılarında kayıp biraz daha artmakta ancak başlık bulma, paragraf oluşturma ve anlatım/yazma alt boyutları için sırasıyla G katsayıları .92, .89, .87; Phi katsayıları .89, .88, .85 ve birleşik ölçme için G katsayısı .91, Phi katsayısı .90 olarak elde edilmektedir. Araştırmanın Sonuç ve Önerileri: Yapılan G çalışmalarında başlık bulma, paragraf oluşturma anlatım/yazma alt boyutlarında hesaplanan birey varyansı da en büyük paya sahiptir. Puanlayıcı ana etkisi varyansları alt boyutlarda göreli olarak küçük bulunmuştur. Bu sonuç literatürde yazma becerilerinin puanlanmasına ilişkin pek çok çalışmada puanlayıcı varyansının küçük ve puanlayıcıların birbirleri ile tutarlı puanlamalar yaptıkları bulguları ile benzerdir. Madde ve puanlayıcı (ixr) arasındaki ortak etki varyansı yüzdesinin tüm alt boyutlarda küçük olması puanlayıcıların maddeleri puanlamada tutalı oldukları şeklinde yorumlanabilir. Elde edilen bu sonuçlar puanlama yapacak kişilerin puanlama yapacakları konunun uzmanlarından seçilmesi, eğitilmesi ve bu eğitimlerde neyin nasıl puanlanması gerektiği, puanlama kriterlerinin verilmesi durumunda puanların güvenirliğinin yüksek olacağını göstermiştir. Ancak birey ve puanlayıcı (pxr) ortak etki varyansı yüzdelerinin tüm alt boyutlarda yüksek oluşu belli puanlayıcıların belli bireyleri puanlamalarında daha katı ya da cömert olduklarını göstermektedir. Bu bağlamda birey ve puanlayıcı (pxr) arasındaki ortak etki varyansının küçültülebilmesi ve böylece belli puanlayıcıların belli bireyleri puanlamalarında katılık ya da cömertlik bakımından farklılıkların olmaması için kompozisyon puanlayacak uzmanların eğitiminde bu konunun dikkate alınması yerinde olacaktır. Ayrıca puanlama yapacak uzman ve eğitimli puanlayıcıların puanlama deneyimlerinin artması ile bu sorunun da azalacağı düşünülebilir.     K çalışması analizlerinde, orijinali dört puanlayıcıyla yürütülen çalışmada birleşik ölçme için G katsayısının .95 ve Phi katsayısının .94 olduğu, tüm alt ölçeklerde bu katsayıların .90’ın üzerinde ve oldukça yüksek olduğu görülmüştür. Alternatif K çalışmaları ile puanlayıcı sayısının artırılması uzman ve eğitimli dört puanlayıcı ile elde edilen katsayılarda çok az kazanç sağlamıştır. Bununla birlikte uzman ve eğitimli puanlayıcı sayısının iki olması durumunda ise G katsayısı .91, Phi katsayısı .90 olarak elde edilmiştir. Bu sonuç .90 üzerinde bir güvenirliğe ulaşmak için iki puanlayıcının yeterli olduğunu göstermiştir. 

Reliability of Essay Ratings: A Study on Generalizability Theory

Purpose: This study intended to examine the generalizability and reliability of essay ratings within the scope of the generalizability (G) theory. Specifically, the effect of raters on the generalizability and reliability of students’ essay ratings was examined. Furthermore, variations of the generalizability and reliability coefficients with respect to the number of raters and optimal number of raters for obtaining optimal reliability of the rating of the writing ability of a student, which is considered to be an implicit trait as a whole and in its sub-dimensions of wording/writing, paragraph construction, and title selection, were determined. Research Methods: The student sample of the study comprised 443 students who were selected via random cluster sampling, and rater sample of this study comprised four Turkish teachers. All the essays written by the students in the sample were independently rated on a writing skill scale (WSS), which is an ordinal scale comprising 20 items, by four trained teachers. In this study, data analysis was performed using the multivariate  design of the G theory. Finding: In the G studies that were performed, variances of the rater (r) as well as item and rater (ixr) were low in all sub-dimensions; however, variance of the object of measurement and rater (pxr) was relatively high. The presence of trained raters increased the reliability of the ratings. Implications for Research and Practice: In the decision (D) study analyses of the original study conducted using four raters, the G and Phi coefficients for the combined measurement were observed to be .95 and .94, respectively. Further, the G and Phi coefficients were .91 and .90, respectively, for the alternative D studies that were conducted by two trained raters. Thus, rating of essays by two trained raters may be considered to be satisfactory.  

___

  • Atilgan, H. (2008). Using generalizability theory to assess the score reliability of the special ability selection examinations for music education programs in higher education. International Journal of Research & Method in Education, 31(1), 63-76. https://doi.org/10.1080/17437270801919925.
  • Atılgan, H., Kan, A., & Aydin, B. (2017). Egitimde olcme ve degerlendirme [Measurement and evaluation in education]. Ankara: Anı Yayıncılık.
  • Baykul, Y. (2000). Egitimde ve psikolojide olcme: Klasik Test Teorisi ve uygulamasi [Measurement in education and psychology: Classical Test Theory and application]. Ankara: OSYM.
  • Bereiter, C. (2003). Foreword. In M. D. Shermis, & J. C. Burstein (Ed.), Automated essay (pp. 7-9). NJ: LEA: Mahwah.
  • Blok, H. (1985). Estimating the reliability, validity, and invalidity of essay ratings. Journal of Educational Measurement, 22, 41-52. https://doi.org/10.1111/j.1745-3984.1985.tb01048.x.
  • Bouwer, R., Beguin, A., Sanders, T., & van den Berg, H. (2015). Effect of genre on the generalizability of writing scores. Language Testing, 32(1) 83-100. https://doi.org/10.1177/0265532214542994.
  • Brennan, R. L. (2001a). Generalizability Theory. New York: Springer-Verlag.
  • Brennan, R. L. (2001b). Manual for mGENOVA (version2.1). Iowa Testing Programmes, Occasional Papers Number 50. Iowa City, IA: University of Iowa.
  • Cohen, R. J., Swerdlik, M. E., & Philips, S. M. (1996). Pyschological testing and assessment: An inroduct on to test and measurement (3th Edition). California: Mayfield Publishing Company.
  • Cooper, P. L. (1984). The assessment of writing ability: A review of research. Princeton, NJ: Educational Testing Service. GRE Board Research Report GREB No. 82-15R=ETS Research Report 84-12.
  • Crocker, L., & Algina, J. (1986). Introduction to Classical and Modern Test Theory. New York: Holt, Rinehart, and Winston.
  • Cronbach, J. L. (1984). Essentials of psychological testing. New York: Happers&Row Publishers.
  • Cronbach, L. J., Gleser, G., Nanda, H., & Rajaratnam, N. (1972). The dependability of behavioral measurements: Theory of generalizability of scores and profiles. New York, NY: Wiley.
  • Cronbach, L. J., Rajaratnam, N., & Gleser, G. C. (1963). Theory of Generalizability: A liberalization of reliability theory. British Journal of Statistical Psychology, 16, 137-163. https://doi.org/10.1111/j.2044-8317.1963.tb00206.x.
  • Cumming, A., Kantor, R., & Powers, D. E. (2002). Decision making while rating ESL/EFL writing tasks: A descriptive framework. The Modern Language Journal, 86, 67–96. https://doi.org/10.1111/1540-4781.00137.
  • Doğan, N. (2015). Yazılı yoklamalar [Written examinations]. In H. Atılgan (Ed.), Eğitimde ölçme ve değerlendirme [Measurement and evaluation in education] (pp. 145-168). Ankara: Anı Yayıncılık.
  • Doğan, C. D., & Uluman, M. (2017). A comparison of rubrics and graded category rating scales with various methods regarding raters’ reliability. Educational Sciences: Theory & Practice, 7, 631–651. http://dx.doi.org/10.12738/estp.2017.2.0321.
  • Eckes, T. (2008). Rater types in writing performance assessments: A classification approach to rater. Language Testing, 25, 155–185. https://doi.org/10.1177/0265532207086780.
  • Gebril, A. (2009). Score generalizability of academic writing tasks: Does one test method fit it all? Language Testing, 26, 507–531. https://doi.org/10.1177/0265532209340188.
  • Graham, S. (2006). Writing. In P. Alexander, & P. Winne (Ed.), Handbook of educational psychology (pp. 457-478). NJ: Erlbaum: Mahwah.
  • Graham, S., Harris, K., & Hebert, M. (2011). Informing writing: The benefits of formative assessment. A carnegie Corporation Time to Act report. Washington, DC: Alliance for Excellent Education.
  • Kan, A. (2007). Effects of using a scoring guide on essay scores: Generalizability theory. Perceptual and Motor Skills, 105, 891-905. https://doi.org/10.2466/pms.105.3.891-905.
  • Kim, Y.-S. G., Schatschneider, C., Wanzek, J., Gatlin, B., & Otaiba, S. A. (2017). Writing evaluation: rater and task effects on the reliability of writing scores for children in Grades 3 and 4. Read Writ, 30, 1287-1310.
  • Kondo-Brown, K. (2002). A facets analysis of rater bias in measuring Japanese second language writing. Language Testing, 19, 3–31. https://doi.org/10.1191/0265532202lt218oa.
  • Lord, F., & Novick, M. (1968). Statistical Theory of mental test score. California: Addison-Wesley Publishing Company.
  • Miller, D. M., Linn, R. L., & Gronlund, N. E. (2009). Measurement assessment in teaching. New Jersey: Pearson Education Inc.
  • Nitko, A. J., & Brookhart, S. M. (2011). Educational assessment of student. Boston, MA: Pearson Education.
  • Nunnally, J., & Bernstein, I. (1994). Psychometric Theory (3rd Edition). New York: McGraw-Hill, Inc..
  • Schoonen, R. (2005). Generalizability of writing scores: an application of structural equation modeling. Language Testing, 22(1) 1-30. https://doi.org/10.1191/0265532205lt295oa.
  • Schoonen, R. (2012). The validity and generalizability of writing scores: The effect of rater, task and language. In E. Van Steendam, M. Tillema, G. Rijlaarsdam, & H. van
  • den Berg (Ed.), Measuring writing: Recent insights into theory, methodology and practice (pp. 1-22). Leiden, The Netherlands: Brill.
  • Schoonen, R., Vergeer, M., & Eiting, M. (1997). The assessment of writing ability: Expert readers versus lay readers. Language Testing, 14, 157-84 https://doi.org/10.1177/026553229701400203.
  • Shavelson, R. J., & Webb, M. N. (1991). Generalizability Theory Aprime. California: SAge Publication.
  • Shavelson, R. J., Baxter, G. P., & Gao, X. (1993). Sampling variability of performance assessments. Journal of Educational Measurement, 30, 215-232.
  • Sudweeks, R. R., Reeve, S., & Bradshaw, W. S. (2005). A comparison of generalizability theory and many-facet Rasch measurement in an analysis of college sophomore writing. Assessing Writing, 239-261. https://doi.org/10.1016/j.asw.2004.11.001.
  • Swartz, C. W., Hooper, S. R., Montgomery, J. W., Wakely, M. B., de Kruif, R. E., Reed, M., Brown, T. T., Levine, M. D., & White, K. P. (1999). Using generalizability theory to estimate the reliability of writing scores derived from holistic and analytical scoring methods. Education and Psychological Measurement, 59, 492–506. https://doi.org/10.1177/00131649921970008.
  • Thordike, L. R. (1971). Educational measurement (2nd. Edition). Washington: American Council on Education.
  • Tugut, F. (1995). Egitimde olcme ve degerlendirme metodları [Measurement and evaluation methods in education]. Ankara: Nüve Matbaası.
  • Turgut, M., & Baykul, Y. (2010). Egitimde olcme ve degerlendirme [Measurement and evaluation in education]. Ankara: Pegem Akademi.
  • Weigle, S. C. (1998). Using FACETS to model rater training effects. Language Testing, 15, 263-287. https://doi.org/10.1177/026553229801500205.
  • Weilgle, S. C. (1994). Effects of training on raters of ESL compositions. Language Testing, 197-223. https://doi.org/10.1177/026553229401100206.