Sample size for estimation of G and Phi coefficients in generalizability theory

Problem DurumuEğitimde ve psikolojide ölçme sonuçlarına karışan ölçme hatalan nedeniyle yapılan ölçme ile gerçek puana ulaşılamaz. Yapılan ölçmeler ile ölçülen özelliğin gerçek puanına olabildiğince yakın ölçme sonuçları elde edilmek istenir. Bu nedenle; ölçme sonuçlarının ölçme hatalarından ne derece arınık olduğu anlamına gelen güvenirlik kavramı ve güvenirliğin tahmin edilmesi psikometri alanında önemli bir yer tutmaktadır, öyle ki psikometri alanında geliştirilen kuramlar ile pek çok güvenirlik tahmin metodu önerilmiştir. Güvenirlik tahmin metodu öneren kuramlardan biri de Genellenebilirlik Kuramıdır. Genellenebilirlik kuramıyla bağıl değerlendirmeler için Genellenebilirlik (G) katsayısı ve mutlak değerlendirmeler için güvenirlik (Phi) katsayısı olmak üzere iki farklı güvenirlik katsayısı hesaplanır. Tüm güvenirlik kestirme metotlarında olduğu gibi Genellenebilirlik kuramında da G ve Phi katsayıları ölçme aracının bir birey örneklemine uygulanması ile elde edilecek örneklem puan dağılımından hesaplanan bir istatistiktir. Bu nedenle popülasyon güvenirliğinin tahmin edilmesi için örneklem büyüklüğünün ne olması gerektiği önemli bir soru olagelmiştir. Genel olarak güvenirlik kestirme çalışmalarında örneklem büyüklüğünün ne olması gerektiği konusunda psikometri literatürde farklı öneriler bulunmaktadır.Araştırmanın AmacıGenellenebilirlik kuramında G ve Phi katsayılarının hesaplanmasında kullanılan varyans bileşenlerinin örneklem büyüklüğüne bağlı olarak değişiklik gösterebilir. G ve Phi katsayılarının kestirilmesi için örneklem büyüklüğünün yeterli olması durumunda G ve Phi katsayıları doğru olarak kestirilemez. Bu nedenle G ve Phi katsayılarının kestirilmesi için uygun örneklem büyüklüğünün ne olması gerektiği genellenebilirlik kuramında çalışılması gereken bir alandır. Bu çalışmada, örneklemden elde edilen G ve Phi katsayılarının evren G ve Phi katsayılarını yansız olarak kestirebilmesi için örneklem büyüklüğünün ne olması gerektiği araştırılmıştır.Araştırmanın Yöntemi2008 yılında yapılan 6. Sınıf Seviye Belirleme Sınavı (SBS) testi "A" formunu alan 480691 kişi evren olarak kabul edilmiştir. Evren olarak kabul edilen bu veri setinden bootstrap metoduyla 12 farklı örneklem büyüklüğünde (n=30, 50, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000) ve her bir örneklem büyüklüğü için 100 tane olmak üzere toplam 1200 örneklem basit seçkisiz olarak çekilmiştir. Verilerin elde edildiği testte, madde sayıları eşit olmayan farklı kapsamda beş alt test bulunduğundan vetüm maddeleri tüm bireyler yanıtladığından p* X çok değişkenli G kuramı deseni kullanılmıştır. Evren için ve bu evrenden 12 farklı örneklem büyüklüğünde çekilen örneklemler için G ve Phi katsayıları hesaplanmıştır. G ve Phi katsayılarının evren için hesaplanan G ve Phi parametreleri ile tutarlılıkları incelemek için hata indeksi olarak göreli hata kareler ortalaması karekökü (R-RMSE) kullanılmıştır. Hata indeksi olarak elde edilen R-RMSE değerleri sıfıra yaklaştıkça örneklemlerden kestirilen G ve Phi katsayılarının G ve Phi parametrelerinin sağlam kestiricisi olduğu söylenebilir. Bu çalışmada R-RMSE değerlerinin 0,01'den küçük olması durumunda kestirilen G ve Phi katsayılarının G ve Phi parametrelerinin sağlam kestiricisi olduğu kabul edilmiştir.Araştırmanın BulgularıÖrneklem büyüklüğü 30 için kestirilen G ve Phi katsayılarının G ve Phi parametrelerinden küçük çıkma eğiliminde olduğu ve R-RMSE değerinin 0,01'den büyük çıktığı görülmüştür. Bununla birlikte örneklem büyüklükleri 50, 100, 200 ve 300 olarak arttığında, hem kestirilen G hem de kestirilen Phi katsayılarının göreli olarak tutarlılıklarının arttığı ve parametre değerlerine giderek yaklaştığı söylenebilir, örneklem büyüklüğü 50 ve üstünde olduğunda R-RMSE değerleri 0,01'den küçük bulunduğundan G ve Phi katsayılarının G ve Phi parametrelerinin sağlam kestiricisi olduğu söylenebilir. Bununla birlikte, örneklem büyüklüğü 400, 500, 600, 700, 800, 900 ve 1000 olduğunda kestirilen G ve Phi katsayılarının daha kararlı davrandıkları, fakat örneklem büyüklüğünün 400'den sonra artırılması durumunda kestirilen G ve Phi katsayılarının tutarlılığının göreli olarak fazlaca değiştirmediği sonucuna ulaşılmıştır, örneklem büyüklüğü 400 olduğunda G ve Phi parametrelerinin daha kesin ve daha sağlam kestirildiği, örneklem büyüklüğünün 400'den sonra artırılmanın G ve Phi parametrelerinin yansız kestirilmesinde önemli bir katkı sağlamadığını görülmüştür.Araştırmanın Sonuçları ve önerilerG ve Phi katsayılarının kestirilmesi için ömeklem büyüklüğünün 30 gibi küçük bir örneklem olması durumunda G ve Phi katsayılarının istikrarlı olarak kestirilemediği görülmüştür. Diğer yandan örneklem büyüklüğünün 50, 100, 200 ve 300 olması durumunda G ve Phi katsayılarının yeterince yansız olarak kestirilebileceği, ancak 400 örneklem büyüklüğünde ise G ve Phi katsayılarının daha kesin ve daha sağlam olduğu sonucuna varılmıştır. Diğer yandan örneklem büyüklüğünün 400'den sonra artırılmasının G ve Phi katsayılarının yansız olarak kestirilmesine katkı sağlamadığı söylenebilir. G ve Phi katsayılarının sağlam kestirilmesi için örneklem büyüklüğünün 50 ile 300 arasında olması, ancak daha kesin ve daha sağlam kestirme için örneklem büyüklüğünün 400 olması önerilebilir.Bu çalışmada G ve Phi katsayılarının kestirilmesinde kişi örneklemi üzerinde,p ' x C multivariate G kuramı deseni ile çalışılmıştır. G kuramı özelliği gereği farklı hata kaynaklarını birlikte değerlendirerek tek bir G ve Phi katsayılannı kestiren bir kuramdır. Bu nedenle; madde, zaman, puanlayıcı vb. farklı hata kaynaklarının yer aldığı G kuramının farklı desenlerinde bu hata kaynaklan için örneklem büyüklükleri çalışılabilir.

Genellenebilirlik kuramında g ve phi katsayılarının kestirilmesi için örneklem büyüklüğü

Problem Statement: Reliability, which refers to the degree to which measurement results are free from measurement errors, as well as its estimation, is an important issue in psychometrics. Several methods for estimating reliability have been suggested by various theories in the field of psychometrics. One of these theories is the generalizability theory. In generalizability theory, two distinct reliability coefficients are estimated: the generalizability coefficient (G coefficient) for relative evaluation, and the index of dependability (Phi coefficient) for absolute decisions. Like in all methods of reliability estimation, G and Phi coefficients are estimated based on a data set obtained from a sample as a result of administering the instrument. Therefore, it has been a critical issue to determine what sample size is necessary in order to reliably estimate the population's characteristics. Purpose of Study: The purpose of this study is to determine the adequate sample size required to ensure that the G and Phi coefficients obtained from a sample can estimate the G and Phi coefficients for the population in an unbiased way. Methods: A total of 480691 students who took Form A of the SBS test for the 6th grade in 2008 were considered as the population of the study. Using a bootstrap method, a total of 1200 students were selected from this population, randomly falling into 12 subgroups consisting of different sample sizes (n=30, 50, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000), with each sample size having 100 replications. Since the test battery contained five subtests with distinct contents and numbers of items, and all items were replied to by all participants, a multivariate G theory design was used. G and Phi reliability coefficients were estimated both for the population and each of the 12 distinct samples of different sizes. The relative root mean square error (R-RMSE) index was used as the error index to analyze the consistency of the G and Phi coefficients with the G and Phi parameters estimated for the population. Findings and Results: It was found that the G and Phi coefficients estimated for a sample size of 30 tended to be less than the G and Phi parameters, and the R-RMSE value was greater than .01. When the sample size was 50 or more, R-RMSE values were less than .01. Thus it can be said that G and Phi coefficients are robust estimators of G and Phi parameters. Moreover, it was concluded that where the sample size is 400 or greater, R-RMSE values become stable. It was seen that a sample size of 400 is a more exact and robust estimator of G and Phi parameters, and increasing the sample size over 400 does not make a significant contribution to the unbiased estimation of G and Phi parameters. Conclusions and Recommendations: A sample size of 30 does not provide an adequately unbiased estimation of G and Phi coefficients. It can be recommended that sample sizes of 50 to 300 are adequate for a robust estimation of G and Phi coefficients; however, a more exact and robust estimation requires a sample size of 400. In future research, the sample size for facets using different designs of G theory can be studied.

___

  • Brennan, L. R. (2001a). Generalizability theory. New York: Springer-Verlag.
  • Brennan, J. R. (2001b). Manual for mGENOVA. City, LA: Iowa Testing Program, University of Iowa.
  • Brennan, L. R. (2011). Generalizability theory and classical test theory. Applied Measurement in Education, 24:1-21.
  • Charter, R. A. (1999). Sample size requirements for precise estimates of reliability, generalizability, and validity coefficients. Journal of Clinical and Experimental Neuropsychology, 21(4), 559-566.
  • Charter, R. A. (2003). Study sample are too small to produce sufficiently precise reliability coefficients. The Journal of General Psychology, 130(2), 117-129.
  • Charter, R. A. (2008). Statistical approaches to achieving sufficiently high test score reliability for research purposes. The Journal of General Psychology, 135(3), 241-251.
  • Crocker, L., & Algina, J. (1986). Introduction to classical and modern test theory. New York: Holt.
  • Cronbach, L. J., Gleser, G. C., Nanda, H., & Rajaratnam, N. (1972). The dependability of behavioral measurements: Theory of generalizability for score and profiles. New York: Wideliy.
  • Felt, L. S., & Ankenmann, R. D. (1998). Appropriate sample size for comparing alpha reliabilities. Applied Psychological Measurement, 22,170-178.
  • Felt, L. S., & Ankenmann, R. D. (1999). Determining sample size for a test of the equality of alpha coefficients when the number of part-tests is small. Psychological Methods, 4,366-377.
  • Kline, P. (1986). A handbook of test construction: Introduction to psychometric design. New York: Methuen.
  • Nunnally, J. C., & Bernstein, I. H. (1994). Psychometric theory (3rd ed).New York: McGraw-Hill.
  • Segall, D. O. (1994). The reliability of linearly equated tests. Psychometrika, 59, 361-375.
  • Shavelson, R. J., & Webb, N. M. (1991). Generalizability theory: A primer. Newbury park, CA: Sage.
  • Shumate, S. R., Surles, ]., Johnson, R. L: & Penny, J. (2007). The effects of number of scale point and non-normality on the generalizability coefficient: A monte carlo study. Applied Measurement in Education, 20 (4), 357-376.
  • Smith, P. (1978). Sampling errors of variance components in small multifacet generalizability studies. Journal of Educatioruil Statistics, 3, 319-346.
  • Yurdugül, H. (2008). Minimum sample size for Cronbach's coefficient alpha: A monte-carlo study. H. U. Journal of Education, 35:397-405.
  • Yurdugül, H. (2009). The comparison of four different coefficient alphas from a psychometric point of view. H. U. Journal of Education, 36,327-339.