KUDER-RICHARDSON 20, CRONBACH’IN ALFASI, HOYT’UN VARYANS ANALİZİ, GENELLENİRLİK KURAMI VE ÖLÇÜM GÜVENİRLİĞİ ÜZERİNE BİR ÇALIŞMA

Güvenirlik ve geçerlik, testlerin ya da ölçme araçlarının özellikleri değildir. Güvenirlik gibi geçerlik de, ölçme aracının kendisine değil, ölçümlere işaret eder. Böylelikle, “testin güvenirliği” veya “ölçeğin geçerliği” benzeri ifadeler kullanmak doğru değildir. Güvenilir ya da güvenilmez olan testler veya ölçme araçları değil, bir test ya da ölçme aracından elde edilmiş ölçümlerdir. Dolayısıyla, “ölçüm güvenirliği” ya da “test ölçümlerinin güvenirliği” benzeri ifadeler kullanılmalıdır. Cronbach’ın alfası, Kuder-Richardson 20 ve Hoyt’un varyans analizi, iç tutarlılık güvenirlik kestirimlerinde yaygın kullanılan yöntemlerdir. Kuder-Richardson 20, sadece iki değerli [0,1] ölçümlenmiş maddeler için uygundur. Cronbach’ın alfası, hem iki değerli [0,1] ölçümlenmiş maddelerle, hem de ağırlıklı [1,2,3,4,5] ölçümlenmiş maddelerle kullanılabilir. Tüm maddeler iki değerli [0,1] ölçümlendiğinde, Kuder-Richardson 20, Cronbach’ın alfası ve Hoyt’un varyans analizi formülleri aynı sonuçları verir.

Anahtar Kelimeler:

Ölçüm güvenirliği, geçerlik, Kuder-Richardson 20, Cronbach’ın alfası, Hoyt’un varyans analizi, genellenirlik kuramı

A Study on the Kuder-Richardson 20, Cronbach’s Alpha, Hoyt’s Analysis of Variance, Generalizability Theory and Score Reliability

Reliability and validity are not the characteristics of tests or measurement instruments. Validity also refers to scores not to the measurement instrument itself, like reliability. Accordingly, it is not correct to use the terms such as “the reliability of the test” or “the validity of the scale”. It is not the tests or measurement instruments which are reliable or unreliable but the scores obtained from a test or measurement instrument. For this reason, statements such as “score reliability” or “the reliability of the test scores” should be used. Cronbach’s alfa, the Kuder-Richardson 20 and Hoyt’s analysis of variance are commonly used methods in estimating the internal consistency reliability. The Kuder-Richardson 20 is only suitable for dichotomously scored items [0,1]. Cronbach’s alpha can be both used with dictomously scored items [0,1] and weightily scored items [1,2,3,4,5]. The formulas of the Kuder-Richardson 20, Cronbach’s alpha and Hoyt’s analysis of variance give identical results when all items scored dichotomously [0, 1].

Keywords:

Score reliability, validity, the Kuder-Richardson 20, Cronbach’s alpha, Hoyt’s analysis of variance,

PDF

___

Akdeniz, C., Aydemir,Ö., Akdeniz, F., Gülseren,Ş. & Kültür, S. (1999). Sağlık Düzeyi Ölçeği’nin Türkçe’ye Uyarlanması ve Güvenilirliği. Klinik Psikofarmakoloji Bülteni, Cilt 9 (2), 104-108.
Allen, M. J. & Yen, W. M. (1979). Introduction to Measurement Theory. Monterey, California: Brooks/Cole.
Aygin, D. & Eti Aslan, F. (2005). Kadın Cinsel İşlev Ölçeği’nin Türkçeye Uyarlanması. Türkiye Klinikleri Tıp Bilimleri Dergisi, Cilt 25 (3), 393-399.
Bademci, V. (2011). Türk Eğitim ve Biliminde Bilimsel Devrim: Testler ya da Ölçme Araçları Güvenilir ve Geçerli Değildir. Dicle Üniversitesi Ziya Gökalp Eğitim Fakültesi Dergisi,Sayı16,116-132. (http://www.zgefdergi.com/Makaleler/713177846_16_09_Bademci.pdf )
Türk Eğitim ve Biliminde Paradigma Değişikliği: Testler veya Ölçekler Güvenilir ve Geçerli Değildir. Konferans. Düzenleyen: Gazi Üniversitesi, Endüstriyel Sanatlar Eğitim Fakültesi Dekanlığı. Ankara: G.Ü. Gazi Eğitim Fakültesi, Resim-İş Eğitimi Anabilim Dalı Konferans Salonu, 26 Nisan. [Konferansla ilgili haber için; Gazi Haber, Nisan 2010, Sayı 104, Sayfa 48-49.]
Bademci, V. (2008). Araştırmalarda Ölçme ile İlgili Bazı Büyük Hataları Düzeltmek ve Eğitimde Yeniden Yapılanmayı Sürdürmek: Güvenirlik, Testlerin Bir Özelliği Değildir. Gazi Üniversitesi Endüstriyel Sanatlar Eğitim Fakültesi Dergisi, Sayı 22, 50-69. (http://www.esef.gazi.edu.tr/html/yayinlar/22_pdf/22_5.pdf )
Bademci, V. (2007). Ölçme ve Araştırma Yöntembiliminde Paradigma Değişikliği: Testler Güvenilir Değildir. Ankara: Yenyap Yayınları.
Bademci, V. (2006a). Güvenirliği Doğru Anlamak ve Bazı Klişeleri Yıkmak: Bilinenlerin Aksine, Cronbach’ın Alfa Katsayısı, Negatif ve –1’den Küçük Olabilir. İnönü Üniversitesi (http://web.inonu.edu.tr/~efdergi/arsiv/bademci.pdf ) Dergisi, Eğitim Fakültesi Cilt 7, Sayı 12, 3-26.
Bademci, V. (2006b). Tartışmayı Sonlandırmak: Cronbach’ın Alfa Katsayısı, İki Değerli [0,1] Ölçümlenmiş Maddeler ile Kullanılabilir. Kazım Karabekir Eğitim Fakültesi Dergisi, Sayı 13, 438-446. (http://e-dergi.atauni.edu.tr/index.php/kkefd/article/viewFile/4116/3940)
Bademci, V. (2006c). Paradigma Değişikliği: Testler Güvenilir Değildir. Konferans. Düzenleyen: Gazi Üniversitesi, Endüstriyel Sanatlar Eğitim Fakültesi Dekanlığı. Ankara: G.Ü. Mesleki Eğitim Fakültesi Konferans Salonu, 28 Nisan. [Konferansla ilgili haber için; Gazi Haber, Nisan 2006, Sayı 66, Sayfa 64.]
Bademci, V. (2005a). Araştırmalarda Ölçme ile İlgili Bazı Büyük Hataları Düzeltmek ve Bir Reformu Başlatmak:Güvenirlik, Testlerin Bir Özelliği Değildir. Eğitim Fakültelerinde Yeniden Yapılandırmanın Sonuçları ve Öğretmen Yetiştirme Sempozyumu. Ankara: Gazi Üniversitesi, Gazi Eğitim Fakültesi, 22-23-24 Eylül.
Bademci, V. (2005b). Testler Güvenilir Değildir: Ölçüm Güvenirliğine Yeterli Dikkat ve Güvenirlik Çalışmaları İçin Örneklem Büyüklüğü. Gazi Üniversitesi Endüstriyel Sanatlar (http://www.esef.gazi.edu.tr/html/yayinlar/17_pdf/17_c.pdf ) Fakültesi Dergisi, Sayı 17, 33-45.
Bademci, V. (2005c). Hakemlerin Değerlendirmelerindeki Hatalar Üzerine: Fisher’in Z Dönüşümü ve Güvenirlik Çalışmaları İçin Örneklem Büyüklüğü. Gazi Üniversitesi Endüstriyel Sanatlar Eğitim Fakültesi Dergisi, Sayı 17, s. 46-75. (http://www.esef.gazi.edu.tr/html/yayinlar/17_pdf/17_d.pdf )
Bademci, V. (2004). Testin Güvenirliği” veya “Test Güvenilirdir” Diye İfade Etmek Doğru Değildir. (http://www.tebd.gazi.edu.tr/c2s3.html) (http://www.tebd.gazi.edu.tr/arsiv/2004_cilt2/sayi_3/367-373.pdf )
Bademci, V. (2002). Türkiye'deki Okullar Ne İşe Yarar? Türkiye'nin Anomi, Yabancılaşma, Ekonomik Büyüme,Demokratikleşme Sorunlarına Çözüm Önerisi. Konferans. Düzenleyen: ESEF Öğrenci Bilimsel Faal. Org. Kom. Ankara: G.Ü. Mesleki Eğitim Fakültesi Konferans Salonu, 30 Mayıs 2002.
Bademci, V. (2001a). Düşünmenin Öğretilmesi ve Öğretimde Kullanılan Yöntemler-Teknikler. Konferans. Düzenleyen: TÜRMOB. Bursa: Bursa SMMM Odası Konferans Salonu, 9 Kasım 2001.
Bademci, V. (2001b). Türkiye'deki Okullar Ne İşe Yarar? Konferans. Düzenleyen: Ankara Türk Telekom Anadolu Teknik L. Ankara: Başkent Öğretmenevi Konferans Salonu, 9 Aralık 2001.
Bademci, V. (2000). Türkiye’deki Okullar Ne İşe Yarar? Türkiye'nin Anomi, Yabancılaşma, Ekonomik Büyüme, Demokratikleşme Sorunlarına Çözüm Önerisi: Toplam Kalite Yönetimi Temelli Bir Eğitimde Yeniden Yapılanma Stratejisi. (Birinci Basım). Ankara: Başkent Basım Yayın.
Hedefin Davranışlara Çevrilmesi, Davranışlardan Seçmeli Test Maddeleri Yazılması. (Geliştirilmiş Üçüncü Baskı). Ankara: Gazi Kitabevi.
Bademci, V. (1994). “Ürün ve Süreç Değerlendirmesi Yapılan Öğrencilerin Erişi Düzeyleri ile İlgili Bir Araştırma”. Yayımlanmamış Doktora Tezi. Ankara: Hacettepe Üniversitesi, Sosyal Bilimler Enstitüsü.
Bademci, V. (1991). Varyans Analiziyle Güvenirlik Hesaplanması. Ankara.
Bademci, V. (1988). “Ağaçişleri Atelyesine Gelen Lise ve Meslek Lisesi Çıkışlı Öğrencilerin Psiko-Motor Giriş Davranışları ve Psiko-Motor Erişi Düzeyleri Arasındaki Farklılık”. Yayımlanmamış Yüksek Lisans Tezi. Ankara: Hacettepe Üniversitesi, Sosyal Bilimler Enstitüsü.
Bahar, M., Nartgün, Z., Durmuş, S. & Bıçak, B. (2006). Bahar, M. (Ed.), Geleneksel-Alternatif Ölçme ve Değerlendirme Teknikleri Öğretmen El Kitabı. Ankara: Pegem A.
Barchard, K. A. & Hakstian, A. R. (1997). The Effects of Sampling Model on Inference with Coefficient Alpha. Educational and Psychological Measurement, Vol.57, 893-905.
Barnes, L. L. B., Harp, D. & Jung, W. S. (2002). Reliability Generalization of Scores on the Spielberger State-Trait Anxiety Inventory. Educational and Psychological Measurement, Vol. 62, 603-618.
Beycioğlu, K. (2007). Alfa Güvenirliği ve Eğitim Araştırmaları. Çağdaş Eğitim, 347, 37-42.
Boysan, M. (2008). Ölçme ve Değerlendirme. KPSS El Kitabı. Ankara: Yargı.
Baugh, F. (2002). Correcting Effect Sizes for Score Reliability: A Reminder That Measurement and Substantive Measurement, Vol. 62, 254-263.
Brennan, R. L. (1992). Elements of Generalizability Theory. (Revised Edition). Iowa City, Iowa: American College Testing.
Brookhart, S. M. & Nitko, A. J. (2008). Assessment and Grading in Classrooms. Upper Saddle River, New Jersey: Pearson.
Buhi, E. R. (2005). Reliability Reporting Practices in Rape Myth Research. Journal of School Health, Vol. 75, 63-66.
Bulduk,S. (2003). Yeni Başlayanlar İçin Deneysel Psikolojide Araştırma Yöntemleri. İstanbul: Çantay Kitabevi.
Buluş Kırıkkaya, E., Bozkurt, E., İşeri, Ş., Vurkaya, G. & Bali, G. (2011). Tubitak Supported Science Summer School for Primary School Students: Happinence of Learning by Exploring and Enjoying. Procedia Social and Behavioral Sciences, 15, 2219-2227.
Büyüköztürk, Ş. (2005). Sosyal Bilimler İçin Veri Analizi El Kitabı. (Gözden Geçirilmiş 5. Baskı). Ankara: PegemA.
Capraro, R. M. & Capraro, M. M. (2002). Myers-Briggs Type Indicator Score Reliability Across Studies: A Meta-Analytic Reliability Generalization Study. Educational and Psychological Measurement, Vol.62, 590-602.
Cebeci, S. (2006). “The Examination of Guidance and Research Centers’ Administrators’ Conflict Management Strategies with the Perceptions of Self and Teachers”. Unpublished Master’s Thesis. Ankara: Middle East Technical University, The Graduate School of Social Sciences.
Charter, R.A. (2001). Damn the Precision, Full Speed Ahead with the Clinical Interpretation. Journal of Clinical and Experimental Neuropsychology, Vol. 23, 692-694.
Charter, R.A. (1999). Sample Size Requirements for Precise Estimates of Reliability, Generalizability, and Validity Coefficients. Journal of Clinical and Experimental Neuropsychology, Vol. 21, 559-566.
Crocker, L. & Algina, J. (1986). Introduction to Classical and Modern Test Theory. Fort Worth: Holt, Rinehart and Winston.
Cronbach, L. J. (1988). Five Perspectives on the Validity Argument. In Wainer, H. & Braun, H. I. (Eds.), Test Validity. Hillsdale, New Jersey: Lawrence Erlbaum.
Cronbach, L. J. (1972). Validation of Educational Measures. In Bracht, G. H., Hopkins, K. D. & Stanley, J. C. (Eds.), Perspectives in Educational and Psychological Measurement. Englewood Cliffs, New Jersey: Prentice-Hall.
Cronbach, L. J. (1971). Test Validation. In Thorndike, R. L. (Ed.), Educational Measurement. (Second Edition). Washington, D. C.: American Council on Education.
Cronbach, L. J. (1951). Coefficient Alpha and the Internal Structure of Tests. Psychometrika, Vol. 16, 297-334.
Cronbach, L. J., Rajaratnam, N. & Gleser, G. C. (1963). Theory of Generalizability: A Liberalization of Reliability Theory. The British Journal of Statistical Psychology, Vol. 16, 137-163.
Cronbach, L. J., Gleser, G. C., Nanda, H. & Rajaratnam, N. (1972). The Dependability of Behavioral Measurements:Theory of Generalizability for Scores and Profiles. New York: John Wiley and Sons.
Demir, H. & Okan, T. (2009). Motivasyon Üzerinde Ulusal Kültür Etkisi. Gazi Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi, Cilt 11(1), 121-142.
Ebel, R. E. (1965). Measuring Educational Achievement. Englewood Cliffs, New Jersey: Prentice-Hall.
Ebel, R. L. & Frisbie, D. A. (1991). Essentials of Educational Measurement. (Fifth Edition). Englewood Cliffs, New Jersey: Prentice Hall.
Ellis, B. E. & Mead, A. D. (2002). Item Analysis: Theory and Practice Using Classical and Modern Test Theory. In Rogelberg, S. G. (Ed.), Handbook of Research Methods in Industrial and Organizational Psychology. Madlen, Massachusetts: Blackwell.
Erkuş, A. (2003). Psikometri Üzerine Yazılar. (1. Basım). Ankara: Türk Psikologlar Derneği Yayınları, 24.
Erkuş, A. (2000). Sık Kullanılan Bazı Psikolojik Ölçeklerin Güvenirliklerinin İrdelenmesi. Türk Psikoloji Yazıları, Cilt 3 (6), 3-17.
Feldt, L. S. & Brennan, R. L. (1989). Reliability. In Linn, R. L. (Ed.), Educational Measurement. (Third Edition). New York: American Council on Education ve Macmillan.
Ferguson, G. A. & Takane, Y. (1989). Statistical Analysis in Psychology and Education. (Sixth Edition). New York: McGraw-Hill.
Gardner, H. (1999). Who Owns İntelligence? Atlantic Monthly. Vol. 283 (2), 67-76.
Gazi Haber (2010). Türk Eğitim ve Biliminde Paradigma Değişikliği: Testler veya Ölçekler Güvenilir ve Geçerli Değildir. Nisan 2010, Sayı 104, 48-49.
Glass, G. V. & Hopkins, K. D. (1996). Statistical Methods in Education and Psychology. (Third Edition). Boston: Allyn and Bacon.
Gronlund, N. E. (1965). Measurement and Evaluation in Teaching. New York: Macmillan.
Gronlund, N. E. & Linn, R. L. (1990). Measurement and Evaluation in Teaching. (Sixth Edition). New York: Macmillan.
Guilford, J. P. (1954). Psychometric Methods. (Second Edition). New York: McGraw-Hill.
Guthrie, A. C. (2000). A Review of Coefficient Alpha and Some Basic Tenets of Classical Measurement Theory. (ERIC Document Reproduction Service No. ED 438 307).
Güneş, B. (2003). Paradigma Kavramı Işığında Bilimsel Devrimlerin Yapısı ve Bilim Savaşları: Cephelerdeki Fizikçilerden Thomas S. Kuhn ve Alan D. Sokal. Türk Eğitim Bilimleri Dergisi, Cilt 1(1), 23-42.
Henrysson, S. (1971). Gathering, Analyzing, and Using Data on Test Items. In Thorndike, R. L. (Ed.), Educational Measurement. (Second Edition). Washington, D.C.: American Council on Education.
Henson, R. K. (2001). Understanding Internal Consistency Reliability Estimates: A Conceptual Primer on Coefficient Alpha. Measurement and Evaluation in Counseling and Development, Vol. 34, 177-189.
Henson, R. K., Kogan, L. R. & Vacha-Haase, T. (2001). A Reliability Generalization Study of the Teacher Efficacy Scale and Related Instruments. Educational and Psychological Measurement, Vol. 61, 404-420.
Hicks, C. R. (1973). Fundamental Concepts in the Design of Experiments. (Second Edition). New York: Holt,Rinehart and Winston.
Hogan, T. P., Benjamin, A. & Brezinski, K. L. (2000). Reliability Methods: A Note on the Frequency of Use of Various Types. Educational and Psychological Measurement, Vol. 60, 523-531.
Hopkins, C. D. & Antes, R. L. (1978). Classroom Measurement and Evaluation. Itasca, Illinois: F. E. Peacock.
Hotaman, D. & Yüksel-Şahin, F. (2010). The Effect of Instructors’ Enthusiasm on University Students’ Level of Achievement. Education and Science [Eğitim ve Bilim], Vol 35(155), 89-103.
Hoyt, C. (1941). Test Reliability Estimated by Analysis of Variance. Psychometrika, Vol. 6, 153-160.
Jones, L. V. (1971). The Nature of Measurement. In Thorndike, R. L. (Ed.), Educational Measurement. (Second Edition). Washington, D.C.: American Council on Education.
Kan, A. (2006).Ölçme Araçlarında Bulunması Gereken Nitelikler. Atılgan, H. (Ed.), Eğitimde Ölçme ve Değerlendirme. Ankara: Anı.
Kane, M. T. (1992). An Argument-Based Approach to Validity. Psychological Bulletin, Vol. 112(3), 527-535.
Kane, M. T. (1990). An Argument-based Approach to Validation. ACT Research Report Series, 90-13. Iowa City, Iowa: ACT.
Kartal, H. (2009). Öğretmen Adaylarının Uygulama Okullarındaki Zorbalıkla İlgili Değerlendirmeleri. GÜ, Gazi Eğitim Fakültesi Dergisi, Cilt 29(1), 141-172.
Kartal, E. & Pekkanlı, İ. (2011). Yabancı Dil Öğretmen Adaylarının Anadil ve Yabancı Dilde İnternet Üzerinden Okuma Alanları ve Sıklıkları. International Journal of Human Sciences, Vol. 8(1), 1316-1326.
Keppel, G. & Wickens, T. D. (2004). Design and Analysis. A Researcher’s Handbook. (Fourth Edition). Upper Saddle River, New Jersey: Pearson.
Kieffer, K. M. (1999). Why Generalizability Theory is Essential and Classical Test Theory is Often Inadequate. In Thompson, B. (Ed.), Advances in Social Science Methodology, Volume 5. Stamford, Connecticut: JAI
Korkmaz, A. (2010). “Vahit Bademci’nin Paradigma Değişikliği Üzerine Bir Araştırma: “Testler Değil, Ölçümler Güvenilirdir” ”. Yayımlanmamış Yüksek Lisans Tezi. Zonguldak: Zonguldak Karaelmas Üniversitesi, Sosyal Bilimler Enstitüsü.
Kubiszyn, T. & Borich, G. (2007). Educational Testing and Measurement: Classroom Application and Practice. (Eighth Edition). USA: John Wiley and Sons.
Kuder, G. F. & Richardson, M. W. (1937). The Theory of the Estimation of Test Reliability. Psychometrika, Vol. 2, 151-160.
Kuhn, T. S. (1995). Bilimsel Devrimlerin Yapısı. (Çev.: Kuyaş, N.). (Dördüncü Baskı). İstanbul: Alan Yayıncılık.
Li, H. & Wainer, H. (1998). Toward a Coherent View of Reliability in Test Theory. Research Report. Princeton, New Jersey: Educational Testing Service.
Linn, R. L. & Gronlund, N. E. (2000). Measurement and Assessment in Teaching. (Eighth Edition). Upper Saddle River, New Jersey: Merrill.
Livingston, S. A. (1988). Reliability of Test Results. In Keeves, J. P. (Ed.), Educational Research, Methodology, and Measurement: An International Handbook. Oxford: Pergamon.
McCoach, D. B. (2002). A Validation Study of the School Attitude Assessment Survey. Measurement and Evaluation in Counseling and Development, Vol. 35, 66-77.
McMillan, J. H. (2001). Classroom Assessment. Principles and Practice for Effective Instruction. (Second Edition). Boston: Allyn and Bacon.
Mehrens, W. A. & Lehmann I. J. (1991). Measurement and Evaluation in Education and Psychology. (Fourth Edition). Fort Worth: Harcourt Brace College.
Messick, S. (1995). Validity of Psychological Assessment. Validation of Inferences From Person’s Responses and Performances as Scientific Inquiry into Score Meaning. American Psychologist, Vol. 50, 741-749.
Messick, S. (1989). Validity. In Linn, R. L. (Ed.), Educational Measurement. (Third Edition). New York: American Council on Education & Macmillan.
Mji, A. & Onwuegbuzie, A. J. (2004). Evidence of Score Reliability and Validity of the Statistical Anxiety Rating Scale Among Technikon Students in South Africa. Measurement and Evaluation in Counseling and Development, Vol. 36, 238-251.
Murhpy, K. R. & Davidshofer, C. O. (2001). Psychological Testing. Principles and Applications. (Fifth Edition). Upper Saddle River, New Jersey: Prentice Hall.
Nitko, A. J. (2001). Educational Assessment of Students. (Third Edition). Upper Saddle River, New Jersey: Merrill/Prentice-Hall.
Norton, D. (2001). Giriş. “Yerleşik Düşünceler: Verip Veriştirmek”. (Hazırlayan: Bouvet, J-F.) (Çev.: Atuk, E.) Ispanaktaki Demir ve Diğer Yerleşik Düşünceler Üzerine. İstanbul: YKY.
Nunnally, J. C. & Bernstein, I. H. (1994). Psychometric Theory. (Third Edition). New York: McGraw-Hill.
Oğuzkan, F. (1981). Eğitim Terimleri Sözlüğü. (Gözden Geçirilmiş ve Genişletilmiş İkinci Baskı). Ankara: Türk Dil Kurumu Yayınları.
Osterlind, S. J. (1989). Constructing Test Items. Boston: Kluwer.
Öncü, H. (1994). Eğitimde Ölçme ve Değerlendirme. Ankara: Matser Basım.
Özkan, S. & Sevil, Ü. (2007). Doğum Sonrası Fonksiyonel Durum Envanterinin Geçerlilik Güvenilirlik Çalışması. TSK Koruyucu Hekimlik Bülteni, Cilt 6(3), 199-208.
Reynolds, C. R., Livingston, R. B. & Willson, V. (2009). Measurement and Assessment in Education. (Second Edition). Upper Saddle River, New Jersey: Pearson.
Sayın, S. (2010). Bilimsel Araştırmalarda Yapılan İstatistiksel ve Yöntembilimsel Hatalar-II: Grafik, Tablo ve Gösterim Hataları. Türk Eğitim Bilimleri Dergisi, Cilt 8(1), 117-143.
Sayın, S. (2008). Bilimsel Araştırmalarda Yapılan Bazı İstatistiksel ve Yöntembilimsel Hatalar- III: Güvenirlik Kestirimlerine Yönelik Hatalar. Mehmet Akif Ersoy Üniversitesi Eğitim Fakültesi Dergisi, Sayı 15, 53-69.
Serdar, Z. (2001). Thomas Kuhn ve Bilim Savaşları. (Çev.: Kılıç, E.). İstanbul: Everest.
Sever, E. (2008). “Öğrenme Stilleri: İlköğretim 6-8. Sınıf Öğrencilerine Yönelik Bir Ölçek Geliştirme Çalışması”. Yayımlanmamış Yüksek Lisans Tezi. Aydın: Adnan Menderes Üniversitesi, Sosyal Bilimler Enstitüsü.
Shavelson, R. J., Webb, N. M. & Rowley, G. L. (1989). Generalizability Theory. American Psychologist, Vol. 44, 922-932.
Shrout, P. E. (1998). Measurement Reliability and Agreement in Psychiatry. Statistical Methods in Medical Research, Vol. 7, 301-317.
Spearman, C. (1913). Correlations of Sums or Differences. British Journal of Psychology, Vol. 5, 417-426.
Spearman, C. (1910). Correlation Calculated from Faulty Data. British Journal of Psychology, Vol. 3, 271-295.
Spearman, C. (1907). Demonstration of Formulae for True Measurement of Correlation. The American Journal of Psychology, Vol 15(2), 161-169.
Spearman, C. (1904b). “General Intelligence,” Objectively Determined and Measured. The American Journal of Psychology, Vol 18(2), 201-292.
Spearman, C. (1904a). The Proof and Measurement of Association between Two Things. The American Journal of Psychology, Vol 15(1), 72-101.
Spector, P. E. (1992). Summated Rating Scale Construction. An Introduction. Newbury Park: Sage.
Stanley, J. C. (1971). Reliability. In Thorndike, R. L. (Ed.), Educational Measurement. (Second Edition). Washington, D.C.: American Council on Education.
Strube, M. J. (2000). Reliability and Generalizability Theory. In Grimm, L. G. & Yarnold, P. R. (Eds.), Reading and Understanding More Multivariate Statistics. Washington, DC: American Psychological Association.
Suen, H. K. (1990). Principles of Test Theories. Hillsdale, New Jersey: Lawrence Erlbaum.
Suen, H. K. & Lei, P.-W. (2007). Classical versus Generalizability Theory of Measurement. Educational Measurement, 4. http://suen.ed.psu.edu/~hsuen/pubs/Gtheory.pdf, en son 21 Eylül 2008’de alınmıştır.
Tan, Ş. (2008). Öğretimde Ölçme ve Değerlendirme. KPSS El Kitabı. Ankara: Pegem Akademi.
Tan, Ş. & Erdoğan.A. (2004). Öğretimi Planlama ve Değerlendirme. (Genişletilmiş 5. Baskı). Ankara: PegemA.
Tavşancıl, E. (2005). Tutumların Ölçülmesi ve SPSS ile Veri Analizi. (2. Baskı). Ankara: Nobel Yayın Dağıtım.
Thompson, B. (Ed.) (2003). Score Reliability. Contemporary Thinking on Reliability Issues. Thousand Oaks, California: Sage.
Thompson, B. (1999). Five Methodology Errors in Educational Research: A Pantheon of Statistical Significance and other Faux Pas. In Thompson, B. (Ed.), Advances in Social Science Methodology, Volume 5. Stamford, Connecticut: JAI.
Thompson, B. (1994a). Guidelines for Authors. Educational and Psychological Measurement, Vol. 54, 834-847.
Thompson, B. (1994b). It is Incorrect to Say “The Test Is Reliable”: Bad Language Habits Can Contribute to Incorrect or Meaningless Research Conclusions. (ERIC Document Reproduction Service No. ED 367 707).
Thompson, B. ve Vacha-Haase, T. (2000). Psychometrics is Datametrics : The Test is Not Reliable. Educational and Psychological Measurement, Vol. 60, 174-195.
Thorndike, R. L. (1982). Applied Psychometrics. Boston: Houghton Mifflin.
Topdemir, H. G. (2002). Kuhn ve Bilimsel Devrimlerin Yapısı Üzerine Bir Değerlendirme. Felsefe Dünyası, Sayı 36,45-62.
Traub, R. E. (1994). Reliability for the Social Sciences. Theory and Applications. Thousand Oaks: Sage.
Winer, B. J. (1971). Statistical Principles in Experimental Design. (Second Edition). New York: McGraw-Hill.
Worthen, B. R., White, K. R., Fan, X. & Sudweeks, R. R. (1999). Measurement and Assessment in Schools. (Second Edition). New York: Longman.
Yılmaz, E. & Sünbül, A. M. (2009). Üniversite Öğrencilerine Yönelik Girişimcilik Ölçeğinin Geliştirilmesi. Selçuk Üniversitesi Sosyal Bilimler Enstitüsü Dergisi, Sayı 21, 195- 203.
Yurdabakan, İ. (2008). Eğitimde Kullanılan Ölçme Araçlarının Nitelikleri. Erkan, S. ve Gömleksiz, M. (Ed.), Eğitimde Ölçme ve Değerlendirme. Ankara: Nobel.