Kavram Haritalarının Puanlanmasında Puanlayıcı ve Puanlama Yöntemi Etkisinin Genellenebilirlik Kuramıyla İncelenmesi

Problem Durumu: 1970’lerde ortaya konan kavram haritaları, bilginin hiyerarşik bir düzen içerisinde şematize edilerek görselleştirilmesini sağlayan grafiksel araçlardır.Kavram haritaları eğitimde bir konudaki kavramlar arasındaki ilişkinin daha açık, anlamlı öğrenilmesini sağlamaya yardımcı olabilecek araçlardır. Novak (2001), kavram haritalarının öğretim amaçlı kullanılabildiği gibi değerlendirme amaçlı da kullanılabileceğini, çoktan seçmeli testlerin kullanılmasının bir zorunluluk olmadığını ve hatta zamanla ulusal başarı sınavlarında bu araçların etkili bir değerlendirme aracı olarak kullanılabileceğini belirtmiştir (Akt: Kaya ve Kılıç, 2004). Kavram haritalarının eğitimde değerlendirme amaçlı olarak kullanılması, öğrencilerin konuyu anlayıp anlamadıklarını göstermesi ve öğrenme ile ilgili eksiklerini ortaya çıkarması açısından çok önemlidir. Kavram haritaları, öğrencinin bilgi yapısını, konuyla ilgili yanılgılarını ve yanlış anlamalarını belirlemede oldukça fonksiyonel bir işleve sahiptir (Şahin, 2002). Kavram haritalarının değerlendirme aracı olarak kullanılması bunların puanlanması konusunu gündeme getirmiştir. Bu yöntemin değerlendirme amaçlı olarak kullanılabilmesi için öğretmenler tarafından puanlama yöntemlerinin çok iyi bilinmesi gerekmektedir. Farklı şekilde oluşturulan ve kullanılan haritalar farklı yöntemlerle puanlanabilmektedir. Bu yöntemlerden iki tanesi bütüncül ve ilişkisel puanlama metotlarıdır. Bütüncül puanlama yönteminde kavram haritaları bir bütün olarak ele alınır, öğrencilerin kavramlarla ilgili öğrenmelerini haritaya yansıtabilmeleri ve ilgili kavramların haritada yer alması göz önünde tutularak 1-10 arasında bir puanla değerlendirilir. İlişkisel puanlama yöntemi önermelerin ayrı ayrı puanlanması temeline dayanmaktadır. Önerme iki kavram arasındaki ilişkinin etiketlenmiş bir ok aracılığıyla gösterilmesi olarak tanımlanır. Haritanın toplam puanı, ayrı önermelerin her birine verilen puanların toplanmasıyla bulunmaktadır ve her bir önerme doğru olup olmadıklarına göre 0-3 arasında bir puan almaktadır (McClure, Sonak ve Suen,1999). Kavram haritası, değerlendirme aracı olarak kullanıldığında teknik özellikleri kritik hale gelmesine rağmen, elde edilen puanların güvenirlik ve geçerliliğinin nasıl değerlendirileceği her zaman net değildir (Yin ve Shavelson, 2008). Genellenebilirlik (G) kuramı, temeli varyans analizine (ANOVA) dayanan güvenirliğin değerlendirilmesini sağlayan, Cronbach ve arkadaşları (1972) tarafından geliştirilen, güvenirlik kavramına farklı bir bakış açısı getiren istatistiksel bir kuramdır (Shavelson ve Webb, 1991 Akt; Deliceoğlu, 2009). Öğrencilerden birinin aldığı puan kavram haritası puanlarının evreninden bir örnek olarak düşünülürse (değişen bütün koşullar altında örneğin; görev, cevap formatı ve puanlama metotları vb.) kavram haritalarının puanlanması G kuramı kapsamında incelenebilir. Ruiz-Primo ve Shavelson, (1996) kavram haritası puanlamasının; kavramlar, önermeler, görev tipi, cevaplama formatları, durumlar, puanlayıcılar ve puanlama yöntemleri gibi farklı hata kaynakları içerdiğinden, bu tür araştırmalarda G kuramının kullanılmasının bilhassa uygun olduğunu belirtmiştir (Akt: Yin ve Shavelson, 2008). Araştırmanın Amacı: Bu çalışmada, farklı öğretmenler tarafından puanlaması yapılan öğrencilerin oluşturduğu kavram haritalarının puanlarının güvenirlikleri G kuramı açısından ele alınacaktır. Bu araştırma kapsamında kavram haritası puanlama yöntemlerinden ikisi kullanılmıştır. Bunlar; bütünsel (holistik) puanlama ve ilişkisel puanlama yöntemleridir. Kavram haritalarının puanlanmasında sadece bu iki yöntemin kullanılabilmiş olması araştırmanın sınırlılıklarından biri olarak görülebilir.Araştırmanın Yöntemi: Araştırma, Osmaniye ili Merkez Atatürk İlköğretim okulunda 7.sınıfta öğrenim görmekte olan 15’i kız, 21’i erkek olmak üzere 36 öğrenci ile gerçekleştirilmiştir. Araştırma 2010-2011 eğitim-öğretim yılı güz dönemi Aralık-Ocak ayları içerisinde gerçekleştirilmiştir. Araştırma kapsamında öğrencilerin yapmış olduğu kavram haritalarını üç farklı öğretmen puanlamışlardır. Veriler, veri toplama aracı olarak kullanılan dört farklı kavram haritasından elde edilmiştir. Bu çalışmada kullanılan haritalar Kuvvet ve Hareket ünitesiyle ilgilidir. Araştırmanın Bulguları: Çalışmada 36 öğrencinin dört kavram haritası oluşturabilme düzeyleri iki farklı puanlama yöntemiyle üç puanlayıcı tarafından puanlanmıştır. Her bir puanlama yöntemine göre elde edilen puanlar G kuramına göre ayrı ayrı analiz edilmiş ve elde edilen sonuçlar yorumlanmıştır.Bütünsel puanlamada, çalışmada yer alan öğrenciler (s) ölçmenin objesi olup, diğer değişkenlik kaynakları olan kavram haritaları görevleri (t) ve puanlayıcılar (r) da çalışmanın yüzey (facet)lerini oluşturmaktadır. Bu çalışmada tüm öğrenciler tüm kavram haritalarını oluşturmakla sorumlu olduklarından ve tüm puanlayıcılar tarafından bütünsel puanlama yöntemiyle puanlandıkları için çalışma tümüyle çaprazlanmış (s x t x r) desenden oluşmaktadır. Genellenebilirlik analiziyle elde edilen varyans bileşenlerine ilişkin sonuçlara göre,en büyük değişkenlik kaynaklarından birinin öğrenciler olduğu görülmüştür (gerçek varyans). Diğer ana etkiler olan görev, toplam varyansı açıklayan en büyük bileşenlerden biri olurken (yaklaşık %14), puanlayıcı bileşeni toplam varyansın açıklanmasına nerdeyse hiç bir katkıda bulunmamaktadır (%001). Etkileşimlere baktığımızda öğrenci-görev bileşeni toplam varyansın yaklaşık %35’ini açıklarken, görev-puanlayıcı etkileşimi toplam varyansın çok küçük bir kısmını açıklamaktadır (%034). Üçlü etkileşimin, bir başka deyişle artık etkisinin, toplam varyansdaki payı ise %24’tür. G kuramına göre, artık etkisine ilişkin varyans değerinin olabildiğince küçük olması istenir. Bu değer, puanlardaki değişimin çalışmada yer almayan farklı değişkenlik kaynaklarına bağlı ortaya çıkmış olabileceğinin sinyalini vermektedir. G kuramında, klasik test kuramındaki güvenirlik katsayısına karşılık gelebilecek G katsayısı hesaplanmaktadır. G kuramında, klasik test kuramından farklı olarak bir de mutlak değerlendirmenin söz konusu olduğu durumlar için ayrıca Phi katsayısı (reliability coefficient) da hesaplanabilmektedir. Yukarıdaki eşitliklere dayalı olarak, çalışmada yer alan dört görev ve üç puanlayıcı üzerinden hesaplanan G ve Φ katsayısıları sırasıyla .63 ve .57 olarak bulunmuştur. İlişkisel puanlama yönteminde de aynı desen kullanılmış ve yine en büyük değişkenlik kaynaklarından birinin öğrenciler olduğu görülmüştür (%10). Görev ana etki bileşeni, toplam varyansı açıklayan en büyük bileşen olurken (yaklaşık %56), puanlayıcı bileşenin toplam varyansın açıklanmada bir payı bulunmamaktadır (%000). Diğer taraftan ikili etkileşimlere bakıldığında öğrenci-görev, öğrenci-puanlayıcı ve görev-puanlayıcı etkileşimleri sırasıyla yaklaşık %20, %0 ve %03 olarak elde edilmiştir. Buradan anlaşılacağı üzere, kavram haritalarında yer alan görevlerin zorluk düzeyleri öğrenciler için farklılık gösterirken, öğrencilerin ve görevlerin puanlanması puanlayıcıdan puanlayıcıya farklılık göstermemektedir. Üçlü etkileşimler artık etki olarak isimlendirilir ve eğer çalışmada, ölçme sonuçları güvenilir ise artıklara ait olan bu değerin olabildiğince küçük olması istenir. İlişkisel puanlama yönteminin kullanılarak elde edilen puanlar üzerinden bulunan artık etki varyansı toplam varyansın %10’unu açıklamaktadır. Elde edilen bu varyans değeri, puanlardaki değişimin çalışmada yer almayan farklı değişkenlik kaynaklarına bağlı ortaya çıkmış olabileceğinin sinyalini vermektedir. Çalışmada yer alan dört görev ve üç puanlayıcı üzerinden ilişkisel puanlama yöntemi için hesaplanan G ve Φ katsayısıları sırasıyla .63 ve .34 olarak bulunmuştur. Araştırmanın Sonuç ve Önerileri: Elde edilen sonuçlara göre, her ik puanlama yöntemi için G katsayısı aynı bulunmuşken, Phi katsayısı bütünsel puanlama yönteminin kullanıldığı kavram haritası çalışmasında daha yüksek bir değere sahiptir. Bu sonuçlara dayanarak mutlak kararkların alınması amaçalanan kavram haritası çalışmalarında, bütünsel puanlama yöntemini kullanmak önerilebilir. İlişkisel puanlama yönteminin kullanılacağı durumlarda ise öğrencilerin kavram haritalarını oluşturmada daha fazla pratik yapması ve puanlayıcılara puanlama konusunda daha fazla açıklama yapılması ve puanlama ölçütlerinin daha ayrıntılı verilmesi önerilebilir. Ayrıca, her iki puanlama yöntemiyle elde edilen sonuçlara göre, artık varyansın yüksek çıkmasına dayalı olarak, öğrencilerin kavram haritası oluşturulmasında hata kaynağı olabilecek diğer dış etkenlerin (ortam, ölçme aracı vb.) de dikkatlice kontrol altına alınması gerektiği önerilmektedir.

Anahtar Kelimeler:

Genellenebilirlik kuramı, puanlayıcı etkisi, kavram haritalarının puanlanması, puanlama yöntemleri.

Using Generalizability Theory to Examine Different Concept Map Scoring Methods

Problem Statement: In addition to being teaching tools, concept maps can be used as effective assessment tools. The use of concept maps for assessment has raised the issue of scoring them. Concept maps generated and used in different ways can be scored via various methods. Holistic and relational scoring methods are two of them.Purpose of the Study: In this study, the reliability of the concept map scores, which were made by the students and which were scored by different teachers using different scoring methods (holistic and relational), will be discussed in terms of G theory.Methods: The research was performed during the fall semester of the 2010-2011 academic year, between December and January. Concept maps created by thirty-six students were scored by three different teachers who played roles as raters. Data were obtained from four different concept maps that were generated by each student.Findings and Results: In focusing on the size of the variance estimates according to holistic scoring methods, while the student component (objects of measurement) accounts for one of the largest percentages of the variance (20%), the main effects of the task and the raters account for about 14% and almost 0% of the total variance, respectively. The difficulty level of tasks did not differ so much from student to student, and there is a scoring agreement among raters. Using the holistic scoring method, and coefficients were calculated as 0.63 and 0.57, respectively, depending upon the four tasks and three raters. In terms of relational scoring, the student component (object of measurement) accounts for 10% of the variance, the main effect of the task accounts for a very significant percentage of the variance (56%), and the main effect of the raters does not demonstrate any variance. G and Φ coefficients calculated over the four tasks and three raters in the study were .63 and .34, respectively. Conclusions and Recommendations: According to the results of this study, Phi coefficient was higher in the concept map study in which the holistic scoring method was used. In this study, tasks represented a significant variance component for both scoring methods. This may be interpreted to mean that the levels of difficulty for the tasks differed according to the students using both methods. In each of the scoring methods, the variance related to the raters was found to be zero, which may result in the interpretation that raters scored the maps consistently.

Keywords:

Generalizability theory, rater effect, scoring concept maps, scoring methods.,

PDF

___

Ahlberg, M. (2004).Varieties of Concept Mapping. Concept Maps: Theory, Methodology, Technology. Proc. of the First Int. Conference on Concept Mapping. A. J. Cañas, J. D. Novak, F. M. González, Eds. Pamplona, Spain 2004.
Allen, B.D. (2006). Concept Map Scoring: Empirical Support for A Truncated Joint Poisson and Conway-Maxwell-Poisson Distribution Method. Paper Presented at the 32nd Annual Meeting of The New England Mathematical Association of Two Year Colleges, Manchester.
Brennan, R. L. (2001). Generalizability theory. New York, Springer-Verlag.
Canbazoglu Bilici, S., Dogan, A. & Erduran Avci, D. (2015). Using concept maps as an alternative assessment tool and investigation by comparing with multiple choice tests. Kastamonu University, Journal of Kastamonu Education, 23(3), 1031-1046.
Cañas, A. J., & Novak, J. D. (2006). Re-Examining the Foundations for Effective Use of Concept Maps. Paper presented at Proc. of the Second Int. Conference on Concept Mapping, Costa Rica.
Cronbach, L. J., Gleser, G. C., Nanda, H., & Rajaratnam, N. (1972). The dependability of behavioral measurements: Theory of generalizability of scores and profiles. New York: John Wiley.
Deliceoglu, G. (2009). The comparison of the reliabilities of the soccer abilities’ rating scale based on the classical test theory and generalizability. Unpublished Doctoral Dissertation, Ankara University, Ankara.
Erduran Avci, D., Unlu, P. & Yagbasan, R. (2009). Using concept maps as a method of assessment in work-energy subject. Journal of Applied Sciences, 9(3), 427-439.
Guler, N. (2011). The comparision of reliability according to generalizability theory and classical test theory on random data. Education and Science, 36, 162, 225-234.
Guler, N. (2009). Generalizability theory and comparison of the results of G and D studies computed by SPSS and GENOVA Packet Programs. Education and Science, 34(154), 93-103.
Ingec, S. K. (2008). Using concept maps as an assessment tool in physics education. Hacettepe University Journal of Education, 35, 195-206.
Kaptan, F. (1998). The use of concept map technique in science education. Hacettepe University Journal of Education, 14, 95-99.
Kaya, O. N. & Kilic, Z. (2004). Student-Centered Reliability, Concurrent Validity and Instructional Sensitivity in Scoring of Students' Concept Maps in a University Science Laboratory. Poster presented at 18th International Conference on Chemical Education “Chemistry Education for the Modern World”, Istanbul.
Kaya, O. N. (2003). An alternative way of assessment in education: Concept maps. Hacettepe University Journal of Education, 25, 265-271.
Kaya Uyanik, G., & Guler, N. (2016). Investigation of concept map scores’ reliability: Example of crossed mixed design in generalizability theory. Hacettepe University Journal of Education, 31(1), 97-111.
Lakey, B. (2016). Understanding the P X S Aspect of Within-Person Variation: A Variance Partitioning Approach. Frontiers in Psychology. Doi: 10.3389/fpsyg.2015.02004.
McClure, J. R., Sonak, B., & Suen, H. K. (1999). Concept map assessment of classroom learning: Reliability, validity and logistical practicality. Journal of Research in Science Teaching, 36(4), 475-192.
Misdates, V., M. (2009). Concept mapping in introductory physics. Journal of Education and Human Development, 3(1), 1-6.
Mushquash, C., & O’Connor, B. P. (2006). SPSS and SAS Programs for generalizability theory analysis. Behavior Research Methods, 38 (3), 542-547.
Nakiboglu, C., & Ertem, H. (2010). Comparison of the structural, relational and proposition accuracy scoring results of concept maps about atom. Journal of Turkish Science Education, 7(3), 60-77.
Novak J.D. (2010). Learning, creating, and using knowledge: Concept maps as facilitative tools in schools and corporations. Journal of e-Learning and Knowledge Society, 6(3), 21 - 30.
Novak, J.D. & Gowin, R. (1984). Learning how to learn. New York: Cambridge University Pres.
Novak, J. D., & Cañas, A. J. (2008). The Theory Underlying Concept Maps and How to Construct and Use Them, Technical Report IHMC
Cmap Tools 2006-01 Rev 01-2008, Florida, Institute for Human and Machine Cognition, 2008, available at: http://cmap.ihmc.us/Publications/ResearchPapers/TheoryUnderlyingConceptMaps.pdf
Ruiz- Primo, M .A, & Shavelson, R. J. (1996). Problems and issues in the use of concept maps in science assessment. Journal of Research in Science Teaching, 33(6), 569-600.
Shavelson, J., & Webb, N. M. (1991). Generalizability theory: A primer. Sage Publications.
Srikaew, D., Tangdhanakanond, K., & Kanjanawasee, S. (2015). English speaking skills assessment for grade 6 thai students: an application of multivariate generalizability theory. Scientific Publications. http://dx.doi.org/10.7220/2345-024X.16.3
Sahin, F. (2002). A research on usage of concept maps as an evaluation tool. Pamukkale University Journal of Education, 11(1), 17-32.
Tasdelen, G., Kelecioglu, H., & Guler, N. (2010). A comparison of scores obtained by nedelsky ve angoff cutting score procedures with generalizability theory. Journal of Measureument and Evaluation in Education and Psychology, 22-28.
Yin, Y., & Shavelson, R. J. (2008). Application of generalizability theory to concept map assessment research. Applied Measurement in Education, 21, 273–291.
West, D.C, Park, J.K., Pomeroy, J.R., & Sandoval, J. (2002). Concept mapping assessment in medical education: A comparison of two scoring systems. Medical Education, 36, 820–826.