Geçerlik: Nedir? Ne Değildir?

Ölçme, bilimsel araştırmanın merkezinde, geçerlik ise, ölçmenin kalbindedir. Geçerlik, ölçmedeki en önemli kavram olarak kabul edilmektedir. Bu önemine rağmen, geçerlik, hâlâ çok yanlış anlaşılmakta ve hatalı kullanılmaktadır. Geçerlik kavram ve kuramı, son 100 yılda sayısız değişiklikler, bir diğer ifadeyle evrim geçirmiştir. En köklü değişimler ise, geçerliğin, test ölçümlerinden yapılan yorumlarla ilgili olduğunu vurgulayan çalışmalarla 1980’lerin başlarında meydana gelmiştir. Değişim sürecinin doruk noktası olan 1999 Standartlarında ise, kapsam geçerliği, ölçüt ilişkili geçerlik ile yapı geçerliği şeklindeki geçerliğin üç parçalı türü reddedilmiş ve geçerliği, çeşitli geçerlik kanıtı türlerine dayalı bütüncül bir kavram olarak ortaya koyan çağdaş görüş sergilenmiştir. Geçerlik, belirli bir evrene veya örnekleme uygulanan bir test ya da ölçme aracından elde edilen ölçümlerin kullanımlarının ve önerilen yorumlarının uygunluğunun ve yeterliğinin, kuram ve kanıt ile desteklenme derecesidir. Bunun yanı sıra, güvenirlik, belirli bir evrene veya örnekleme uygulanan bir test ya da ölçme aracından elde edilen ölçümlerin tutarlılığı veya tekrarlanabilirliğidir.

VALIDITY: WHAT IS IT? WHAT IS IT NOT?

Measurement is at the core of scientific research and validity is at the heart of measurement. Validity is accepted as the most important concept in measurement. Despite this importance, validity is still misunderstood and misused. The concept and theory of validity have undergone numerous changes, in other words, evolution, in the last 100 years. The most radical changes occurred in the early 1980s, with studies emphasizing that validity is related to interpretations of test scores. In the 1999 Standards, which was the culmination of the change process, the three-part type of validity based on content validity, criterion-related validity, and construct validity was rejected, and the contemporary view was put forward, arguing validity as a unitary concept based on various types of validity evidence. Validity is the degree to which evidence and theory support the adequacy and appropriateness of the proposed interpretations and uses of the scores obtained from the test or measurement instrument applied to a particular population or sample. Besides, reliability is the reproductibility  or the consistency of the scores obtained from the test or measurement instrument applied to a particular population or sample.

___

  • Algina, J., & Penfield, R. D. (2009). Classical test theory. In R. Millsap, & A. Maydeu-Olivares (Eds.), The Sage handbook of quantitative methods in psychology (pp. 93-122). Los Angeles: Sage.
  • American Educational Research Association, American Psychological Association, & National Council on Measurement in Education (AERA, APA, & NCME) (1985). Standards for educational and psychological testing. Washington, DC: American Psychological Association.
  • American Educational Research Association, American Psychological Association, & National Council on Measurement in Education (AERA, APA, & NCME) (1999). Standards for educational and psychological testing. Washington, DC: American Educational Research Association.
  • American Educational Research Association, American Psychological Association, & National Council on Measurement in Education (AERA, APA, & NCME) (2014). Standards for educational and psychological testing. Washington, DC: American Educational Research Association.
  • American Psychological Association, American Educational Research Association, & National Council on Measurement in Education (APA, AERA, & NCME) (1966). Standards for educational and psychological tests and manuals. Washington, DC: American Psychological Association.
  • Angoff, W. H. (1988). Validity: An evolving concept. In H. Wainer, & H. I. Braun (Eds.), Test validity (pp. 19-32). Hillsdale, New Jersey: Lawrence Erlbaum.
  • Bademci, V. (1999). Türkiye’de eğitim fakülteleri ve öğretmen yetiştirme. Panel. Düzenleyen: ESEF İşletme Araştırma Topluluğu. Ankara: G.Ü. Mesleki Eğitim Fakültesi Konferans Salonu, 21 Mayıs 1999.
  • Bademci, V. (2002). Türkiye'deki okullar ne işe yarar? Türkiye'nin anomi, yabancılaşma, ekonomik büyüme, demokratikleşme sorunlarına çözüm önerisi. Konferans. Düzenleyen: ESEF Öğrenci Bilimsel Faal. Org. Kom. Ankara: G.Ü. Mesleki Eğitim Fakültesi Konferans Salonu, 30 Mayıs 2002.
  • Bademci, V. (2007). Ölçme ve araştırma yöntembiliminde paradigma değişikliği: Testler güvenilir değildir / Güvenirlik ve geçerlik üzerine çağdaş düşünceler: Araştırmada yöntembilimle ilgili bazı büyük hataların düzeltilmesi. Ankara: Yenyap.
  • Bademci, V. (2010). Türk eğitim ve biliminde paradigma değişikliği: Testler veya ölçekler güvenilir ve geçerli değildir. Konferans. Düzenleyen: Gazi Üniversitesi, Endüstriyel Sanatlar Eğitim Fakültesi Dekanlığı. Ankara: G.Ü. Gazi Eğitim Fakültesi, Resim-İş Eğitimi Anabilim Dalı Konferans Salonu, 26 Nisan 2010. [Konferansın genel özeti şeklindeki ilgili haber için; Gazi Haber, Nisan 2010, Sayı 104, Sayfa 48-49.]
  • Bademci, V. (2011a). Türk eğitim ve biliminde bilimsel devrim: Testler ya da ölçme araçları güvenilir ve geçerli değildir. Dicle Üniversitesi Ziya Gökalp Eğitim Fakültesi Dergisi, 16, 116-132.
  • Bademci, V. (2011b). Kuder-Richardson 20, Cronbach’ın alfası, Hoyt’un varyans analizi, genellenirlik kuramı ve ölçüm güvenirliği üzerine bir çalışma. Dicle Üniversitesi Ziya Gökalp Eğitim Fakültesi Dergisi, 17, 173-193.
  • Bademci, V. (2013a). Yeni tez önerisi hazırlama kılavuzu. Gazi Üniversitesi Eğitim Bilimleri Enstitüsü, Ankara.
  • Bademci, V. (2013b). Değerbiçiciler arası (interrater) ölçüm güvenirliğinin Cronbach’ın alfası ile kestirilmesi. Gazi Üniversitesi Endüstriyel Sanatlar Eğitim Fakültesi Dergisi, 30, 55-62.
  • Bademci, V. (2017a). Ölçme ve araştırma yöntembiliminde çağdaş gelişmeler ve yeni standartlar 1: Geçerlik, ölçümlerin kullanımlarının ve önerilen yorumlarının bir özelliğidir. JRES, 4(1), 63-80.
  • Bademci, V. (2017b). Ölçme ve araştırma yöntembiliminde çağdaş gelişmeler ve yeni standartlar 2: Geçerlikte üçleme (kapsam, ölçüt ilişkili ve yapı geçerlikleri) öğretisinin reddi ve geçerlik kanıtının kaynakları. JRES, 4(1), 81-97.
  • Bademci, V. (2019). Tarih eğitiminde ölçme: Geçerlik hakkında doğrular ve yanlışlar. Bildiri. VI. Uluslararası Tarih Eğitimi Sempozyumu. Bolu: Abant İzzet Baysal Üniversitesi, 10 Ekim 2019.
  • Bonner, S. M. (2013). Validity in classroom assessment: Purposes, properties, and principles.In J. H. McMillan (Ed.), Sage handbook of research on classroom assessment (pp. 87-106). Los Angeles: Sage.
  • Bonner, S. M., & Chen, P. P. (2019). Systematic classroom assessment: An approach for learning and self-regulation. New York: Routledge.
  • Cizek, G. J. (2008). Assessing educational measurement: Ovations, omissions, opportunities. Educational Researcher, 37(2), 96-100.
  • Cizek, G. J. (2012). Defining and distinguishing validity: Interpretations of score meaning and justifications of test use. Psychological Methods, 17(1), 31-43.
  • Cizek, G. J. (2016). Validating test score meaning and defending test score use: Different aims, different methods. Assessment in Education: Principles, Policy & Practice, 23(2), 212-225.
  • Cook, D. A., Brydges, R., Ginsburg, S., & Hatala, R. (2015). A contemporary approach to validity arguments: A practical guide to Kane’s framework. Medical Education, 49(6), 560–575.
  • Cronbach, L. J. (1971). Test validation. In R. L. Thorndike (Ed.), Educational measurement (2nd ed.) (pp. 443-507). Washington, DC: American Council on Education.
  • Cronbach, L. J. (1980). Validity on parole: How can we go straight. In B. Schrader (Ed.), New directions for testing and measurement. Measuring achievement: Progress over a decade (pp. 99-108). San Francisco: Jossey-Bass.
  • Cronbach, L. J. (1989). Construct validation after thirty years. In R. L. Linn (Ed.), Intelligence: Measurement, theory, and public policy (pp. 147-171). Urbana: University of Illinois Press.
  • Denzin, N. K. (1978). The research act (2nd ed.). New York: McGraw-Hill.
  • Ferrara, S., & DeMauro, G. E. (2006). Standardized assessment of individual achievement in K-12. In R. L. Brennan (Ed.), Educational measurement (4th ed.) (pp. 579-621). Westport, CT: American Council on Education & Praeger.
  • Frisbie, D. A. (2005). Measurement 101: Some fundamentals revisited. Educational Measurement: Issues and Practice, 24(3), 21-28.
  • Furr, R. M., & Bacharach, V. R. (2008). Psychometrics: An introduction. Los Angeles: Sage.
  • Gipps, C. (1999). Socio-cultural aspects of assessment. Review of Research in Education, 24(1), 355–392.
  • Gronlund, N. E. (1998). Assessment in education (6th ed.). Boston: Allyn & Bacon.
  • Guion, R. M. (1974). Open a new window: Validities and values in psychological measurement. American Psychologist, 29(5), 287-296.
  • Guion, R. M. (1980). On trinitarian doctrines of validity. Professional Psychology, 11(3), 385-398.
  • Kane, M. T. (1992). An argument-based approach to validity. Psychological Bulletin, 112(3), 527-535.
  • Kane, M. T. (2001). Current concerns in validity theory. Journal of Educational Measurement, 38(4), 319-342.
  • Kane, M. (2004). Certification testing as an illustration of argument-based validation. Measurement, 2(3), 135-170.
  • Kane, M. T. (2006). Validation. In R. L. Brennan (Ed.), Educational measurement (4th ed.) (pp. 17-64). Westport, CT: American Council on Education & Praeger.
  • Kane, M. (2013). Validating the interpretations and uses of test scores. Journal of Educational Measurement, 50(1), 1-73.
  • Koretz, D. (2008). Measuring up: What educational testing really tells us. Cambridge, Massachusetts: Harvard University Press.
  • Linn, R. L. (2006). The Standards for Educational and Psychological Testing: Guidance in test development. In S. M. Downing, & T. M. Haladyna (Eds.), Handbook of test development (pp. 27-37). Mahwah, New Jersey: Lawrence Erlbaum.
  • Linn, R. L. (2010). Validity. In P. Peterson, E. Baker, & B. McGaw (Eds.), International encyclopedia of education, Volume 4 (pp. 181-185). Oxford: Elsevier.
  • Linn, R. L., & Gronlund, N. E. (2000). Measurement and assessment in teaching (8th ed.). Upper Saddle River, New Jersey: Prentice-Hall.
  • Linn, R. L., & Miller, M. D. (2005). Measurement and assessment in teaching (9th ed.).Upper Saddle River, New Jersey: Pearson.
  • Markus, K. A., & Borsboom, D. (2013). Frontiers of test validity theory: Measurement, causation, and meaning. New York: Routledge.
  • Merriam, S. B. (1998). Qualitative research and case study applications in education. San Francisco, CA: Jossey-Bass.
  • Merriam, S. B., & Tisdell, E. J. (2016). Qualitative research (4th ed.). San Francisco, CA: Jossey-Bass.
  • Messick, S. (1989). Validity. In R. L. Linn (Ed.), Educational measurement (3rd ed.) (pp. 13-103). New York: American Council on Education and Macmillan Publishing Company.
  • Messick, S. (1995). Validity of psychological assessment. American Psychologist, 50(9), 741-749.
  • Messick, S. (1998). Test validity: A matter of consequence. Social Indicators Research, 45, 35-44.
  • Moss, P. A. (2003). Reconceptualizing validity for classroom assessment. Educational Measurement: Issues and Practice, 22(4), 13-25.
  • Newton, P. E. (2012). Clarifying the consensus definition of validity. Measurement, 10(1-2), 1–29.
  • Nitko, A. J. (2001). Educational assessment of students (3rd ed.). Upper Saddle River, New Jersey: Prentice-Hall.
  • Nunnally, J. C., & Bernstein, I. H. (1994). Psychometric theory (3rd ed.). New York: McGraw-Hill.
  • Odendahl, N. V. (2011). Testwise. Lanham: Rowman & Littlefield Education.
  • Osterlind, S. J. (2006). Modern measurement: Theory, principles, and applications of mental appraisal. Upper Saddle River, New Jersey: Pearson.
  • Pan, M. (2016). Nonverbal delivery in speaking assessment. Singapore: Springer.
  • Patton, M. Q. (2002). Qualitative research & evaluation methods (3rd ed.). Thousand Oaks: Sage.
  • Reynolds, C. R., & Livingston, R. B. (2012). Mastering modern psychological testing: Theory & methods. Boston: Pearson.
  • Reynolds, C. R., Livingston, R. B., & Willson, V. (2006). Measurement and assessment in education. Boston: Pearson.
  • Rogers, T. B. (1995). The psychological testing enterprise: An introduction. Pasific Grove, California: Brooks/Cole.
  • Rowe, D. A., & Mahar, M. T. (2006). Validity. In T. M. Wood, & W. Zhu (Eds.), Measurement theory and practice in kinesiology (pp. 9-26). Champaign, IL: Human Kinetics.
  • Shepard, L. A. (1993). Evaluating test validity. Review of Research in Education, 19, 405-450.
  • Sijtsma, K. (2009). Correcting fallacies in validity, reliability, and classification. International Journal of Testing, 9, 167-194.
  • Sireci, S. G. (2009). Packing and unpacking sources of validity evidence. In R. W. Lissitz (Ed.), The concept of validity: Revisions, new directions, and applications (pp. 19-37). Charlotte, NC: Information Age Publishing.
  • Sireci, S. G. (2016). On the validity of useless tests. Assessment in Education: Principles, Policy & Practice, 23(2), 226-235.
  • Sireci, S. G., & Parker, P. (2006). Validity on trial: Psychometric and legal conceptualizations of validity. Educational Measurement: Issues and Practice, 25(3), 27-34.
  • Silva, F. (1993). Psychometric foundations and behavioral assessment. Newbury Park, California: Sage.
  • Viswanathan, M. (2005). Measurement error and research design. Thousand Oaks, California: Sage.
  • Worthen, B. R., White, K. R., Fan, X., & Sudweeks, R. R. (1999). Measurement and assessment in schools (2nd ed.). New York: Longman.