İki Faktör Madde Tepki Kuramında Diklik Varsayımının İncelenmesi

Problem Durumu: İki Faktör Modeli, çok boyutlu madde tepki kuramı (multidimensional item response theory) modellerinden biridir. İki faktör modeline göre birden fazla spesifik (özgül) faktör ve bu faktörler tarafından açıklanan bir genel faktör vardır ve ayrıca bu özgül etkilerin genel faktör üzerinde etkisinin olduğunu varsayılmaktadır. Tüm madde tepki kuramı modellerinde olduğu gibi İki Faktör modelinin de kendine özgü varsayımları vardır. İki Faktör Model’inin en önemli varsayımlarından biri verinin hem genel faktörü hem de spesifik faktörleri içermesidir. Bu varsayım karşılanması zor bir varsayım olmamakla birlikte çok boyutlu veriyi gerektirmektedir. Diğer varsayım olan faktörlerin dik (orthogonal) yani birbirinden bağımsız (ilişkisiz) olması ise pratikte karşılanması çok mümkün olmayan bir varsayımdır. İlişkili faktörleri dik olmaya zorlamak ise ölçülen yapı ile ilgili olarak bilgi kaybına neden olacak ve güvenilir olmayan parametre kestirimleri ile sonuçlanacaktır. Bu çalışma aracılığıyla İki Faktör Modelin kullanımını kısıtlayan varsayımın incelenmesi ve belirli kriterler ışığında değerlendirilmesi ile elde edilecek sonuçların alan yazına hem teorik anlamda hem de modelin daha doğru uygulanabilirliği açısından önemli katkılar sağlayacağı düşünülmektedir. Araştırmanın Amacı: İki Faktör Kuramı, gerektirdiği varsayımdan (diklik) dolayı kullanımı sınırlanan bir kuramdır. Bu sınırlılığının yanı sıra psikolojik ve eğitsel yapıların modellenmesinde ve ölçek geliştirme çalışmalarında bu varsayım göz ardı edilerek sıklıkla kullanılmaktadır. Diklik varsayımının sağlanmadığı koşullarda psikolojik ve eğitsel yapıların doğru modellenmesi, geliştirilen ölçeğin doğru faktör yapısına ulaşması ve parametre kestirimlerinin doğru olması mümkün olmayacaktır. Bunun yanı sıra eğitim ve psikoloji alanında faktörler arası korelasyonun sıfır olduğu ölçme araçları geliştirmek neredeyse imkansızdır. İlişkili faktörleri dik olmaya zorlamak ise ölçülen yapı ile ilgili olarak bilgi kaybına neden olacak ve güvenilir olmayan parametre kestirimleri ile sonuçlanacaktır. Parametre kestirimlerinin kesinliği ve doğruluğu ise yapılan her ölçme işleminde önemli bir durumdur. Çünkü parametre kestirimleri, madde performansı ve yanıtlayıcı yetenek düzeyinin belirlenmesinde önemli bir unsurdur. Belirtilen bu gerekçelerden kaynaklı, iki faktör kuramının, spesifik faktörler arası farklı ilişki düzeylerine olanak tanıyarak incelenmesi yani hangi diklik ihlal düzeylerinin kuram tarafından tolere edilip, diklik ihlaline rağmen kararlı, kesin ve doğru kestirimler yapılabildiğinin belirlenmesi bu araştırmanın amacıdır. Araştırmanın Yöntemi: Bu araştırma için veriler simülatif yolla iki adet (Model-1 ve Model-2)  İki Faktör iki parametreli modele göre üretilmiştir. Model-1 iki spesifik faktör arasında çapraz yüklenmelerden dolayı oluşan diklik ihlalini gösteren modeldir. Burada incelenen nokta iki spesifik faktör arasındaki diklik ihlalinin tüm faktörlerdeki parametre kestirimlerine olan etkisidir. Model-2 ise, tüm spesifik faktörler arasındaki ilişkiyi göstermektedir. Spesifik modellerde manipüle edilen değişkenler faktörler arası korelasyon düzeyleri ve test uzunluklarıdır. Kurulan modeller için korelasyon kabul düzeyleri 0.10 (çok düşük), 0.40 (orta), 0.70 (yüksek) olarak ele alınmıştır. Spesifik faktörlerdeki madde sayılarına karar vermek amacıyla yapılan alan yazın incelemesi sonucunda test uzunlukları 12, 40 ve 100 madde olarak belirlenmiştir.  Araştırma boyunca sabit tutulacak (manipüle edilmeyecek) değişken ise örneklem (5000) büyüklüğüdür. Replikasyon sayısı ise 200 olarak belirlenmiştir. Parametre kestirimlerinin replikasyonlar boyunca doğruluğunun değerlendirilmesi; ortalama yanlılık (mean bias),  RMSE (hataların kareleri ortalamasının karekökü) ve kestirimlerin standart hatası (Standart Error) ile yapılmıştır. Araştırmanın Bulguları: Ayırt edicilik parametreleri için tüm test uzunluklarında Model 1 ve Model 2 için görülen örüntü aynı şekildedir. Madde sayısındaki artış ayırt edicilik parametrelerinin kestirim kesinliğinde yani güvenirliğinde düşüşe neden olmuştur. Bu durum yanlı madde miktarındaki artış ile açıklanabilir. Yani modele ne kadar ilişkili madde eklenirse değişkenlik o kadar artmıştır. İki faktörün ilişkili olması durumu (Model-1) ile tüm faktörlerin ilişkili olması durumunun (Model-2), ayırt edicilik parametrelerinin kestiriminde neredeyse aynı etkiye sahip olduğu söylenebilir. Sonuç olarak her iki model için de parametre kestirim doğruluğu arasında farklılık yoktur. Buradan yola çıkarak model türünün parametre kestirim doğruluğuna etkisi olmadığı söylenebilir. Güçlük parametresinin kestiriminde, iki spesifik faktörün ilişkili olma durumu (Model 1) ile tüm spesifik faktörlerin ilişkili olma durumunun (Model 2) neredeyse aynı etkiye sahip olduğu söylenebilir. Yani model türünün güçlük parametre kestirim doğruluğuna etkisi olmadığı söylenebilir. Birey parametreleri incelendiğinde,  test uzunluğu ile doğru orantılı şekilde değişkenliğin azalması test uzunluğunun parametre iyileşmesinde etkisi olabileceğine işaret etmektedir. Yine de değişkenlik tüm test uzunluklarında yüksektir. Bu durum parametre kestirim güvenirliklerini düşürmektedir. Birey parametrelerinin kestiriminde, iki spesifik faktörün ilişkili olma durumu ile tüm spesifik faktörlerin ilişkili olma durumunun neredeyse aynı etkiye sahip olduğu söylenebilir.Araştırmanın Sonuçları ve Önerileri: Kestirim doğruluğu en düşük parametrelerin güçlük parametreleri olduğu görülmüştür. Ayırt edicilik, güçlük ve birey parametrelerinin kestirim doğruluğunda ise modelin öneminin olmadığı görülmüştür. Yani iki spesifik faktörün ilişkili olma durumu (Model 1) ile tüm faktörlerin ilişkili olma durumu (Model 2) hem birey hem de madde parametrelerinin kestirim doğruluğunda aynı etkiye sahiptir. Madde sayısını arttırmak, birey parametrelerinin kestirim kesinliğini yani güvenirliğini arttırmıştır. Birey parametrelerinde gözlenen bu durum, madde sayısı arttıkça bireyin örtük özelliğinin daha iyi açıklandığının bir sonucudur. Birey parametrelerinin kestiriminde, güvenirliği en düşük parametre kestirimleri her iki model için de (Model 1ve Model 2) en küçük test uzunluğundadır. Test uzunluğu arttıkça kestirim güvenirliği de artmıştır. Buna rağmen tüm test uzunluklarında ve diklik ihlal düzeylerinde kestirim güvenirliği en düşük parametreler birey parametreleridir.  Madde ve birey parametrelerinin kestirimi psikolojik ve eğitsel amaçlı değerlendirmelerde önemli bir unsurdur. İki faktör kuramının ilişkili yapılarda kullanılması yanlı parametre kestirimlerine, parametre kestirimlerindeki yanlılık ise değerlendirme sonuçlarında yanlılığı doğuracaktır. Literatürde varolan araştırmalar iki faktör kuramının ilişkili yapılarda bile çok iyi düzeyde uyum verdiği ve robust bir model olduğu belirtmektedir. Bu araştırmada ise parametre bazında yanlılık incelendiğinde bu robust yapı görülememiştir. İki faktör kuramı, birey parametrelerinin kestiriminde test uzunluğu arttıkça diklik varsayımı ihlalini daha iyi tolere edebilmektedir. Bu kuramı kullanmak isteyen uygulayıcıların büyük madde havuzları ile çalışmaları önerilir. Tüm korelasyon düzeylerinde parametre kestirim doğrulukları yaklaşık olarak aynı çıkmıştır. Yeni çalışmalar ara korelasyon (0.25, 0.35 vb.) düzeyleri ile tekrarlanabilir.Anahtar Kelimeler: Çok boyutlu madde tepki kuramı, İki faktör Madde Tepki Kuramı, diklik varsayımı, parametre kestirim yanlılığı, faktör analizi.  

Investigation of the Orthogonality Assumption in the Bifactor Item Response Theory

Purpose: This study aims to investigate the orthogonality assumption, which restricts the use of Bifactor item response theory under different conditions. Method: Data of the study have been obtained in accordance with the Bifactor model. It has been produced in accordance with two different models (Model 1 and Model 2) in a simulated way.Results: As a result of the research, it was found out that the case that two factors were correlated (Model 1) and that all factors were correlated (Model 2) had the same effect on the accuracy of both person and item parameter estimations. While estimating the discrimination parameters, as the orthogonality violation increased, it was concluded that the bias increased, too. As the test length increased, the accuracy of estimations of discrimination and difficulty parameters, namely the reliability decreased. Increasing the number of items increased the accuracy of person parameters, which was the reliability. Implication for Research and Practice: As test length increases, the Bifactor theory can better tolerate the orthogonality violation in estimation of person parameters. The practitioners who want to use this theory are recommended to work with large item pools. At all correlation levels, the accuracy of the parameter estimations was approximately the same. New studies can be repeated with intermediate correlation levels. Among all the parameters, the parameters whose estimation reliability is the lowest were found to be person parameters.  

___

  • Brouwer, D., Meijer, R. R., Weekers, A. M., & Baneke, J. J. (2008). On the dimensionality of the Dispositional Hope Scale. Psychological Assessment, 20(3), 310.
  • Brown, A. R., Finney, S. J., & France, M. K. (2011). Using the bifactor model to assess the dimensionality of the Hong Psychological Reactance Scale. Educational and Psychological Measurement, 71(1), 170-185.
  • Cai, L., Yang, J. S., & Hansen, M. (2011). Generalized full-information item bifactor analysis. Psychological Methods, 16(3), 221–248.
  • Canivez, G. L. (2016). Bifactor modeling in construct validation of multifactored tests: Implications for understanding multidimensional constructs and test interpretation. Principles and Methods of Test Construction: Standards and Recent Advancements. Gottingen, Germany: Hogrefe Publishers.
  • Chalmers, P. (2016). Mirt: Multidimensional item response theory. R package version 1.19,URL: https://cran.r-project.org/web/packages/mirt/index.html
  • Chen, F. F., West, S. G., & Sousa, K. H. (2006). A comparison of bifactor and second-order models of quality of life. Multivariate Behavioral Research, 41(2), 189-225.
  • Chen, F. F., Hayes, A., Carver, C. S., Laurenceau, J. P., & Zhang, Z. (2012). Modeling general and specific variance in multifaceted constructs: A comparison of the bifactor model to other approaches. Journal of Personality, 80(1), 219-251.
  • Cohen, J. (1988). Statistical power analysis for the behavioral science (2nd ed.). Hillside, NJ: L. Erlbaum Associates.
  • Cucina, J., & Byle, K. (2017). The bifactor model fits better than the higher-order model in more than 90% of comparisons for mental abilities test batteries. Journal of Intelligence, 5(3), 27.
  • DeMars, C. E. (2006). Application of the Bi‐Factor multidimensional item response theory model to testlet‐based tests. Journal of Educational Measurement, 43(2), 145-168.
  • DeMars, C. E. (2013). A tutorial on interpreting Bifactor model scores. International Journal of Testing, 13(4), 354-378.
  • Fukuhara, H. (2009). A Differential Item Functioning Model for Testlet-Based Items Using A Bi-Factor Multidimensional Item Response Theory Model: A Bayesian Approach. The Florida State University.
  • Garn, A. C. (2017). Multidimensional measurement of situational interest in physical education: Application of Bifactor exploratory structural equation modeling. Journal of Teaching in Physical Education, 36(3), 323-339.
  • Gibbons, R. D., & Hedeker, D. R. (1992). Full-information Item Bi-factor analysis. Psychometrika, 57(3), 423-436.
  • Gibbons, R. D., Bock, R. D., Hedeker, D., Weiss, D. J., Segawa, E., Bhaumik, D. K., ... & Stover, A. (2007). Full-Information item bifactor analysis of graded response data. Applied Psychological Measurement, 31(1), 4-19.
  • Golay, P., & Lecerf, T. (2011). Orthogonal higher order structure and confirmatory factor analysis of the french wechsler adult intelligence scale (WAIS-III). Psychological Assessment, 23(1), 143.
  • Hyland, P., Boduszek, D., Dhingra, K., Shevlin, M., & Egan, A. (2014). A Bifactor approach to modelling the Rosenberg Self Esteem Scale. Personality and Individual Differences, 66, 188-192.
  • Holzinger, K. J., & Swineford, F. (1937). The Bi-Factor method. Psychometrika, 2(1), 41-54.
  • Immekus, J. C., & Imbrie, P. K. (2008). Dimensionality assessment using the full-information item Bifactor analysis for graded response data: An illustration with The State Metacognitive Inventory. Educational and Psychological Measurement, 68(4), 695-709.
  • Jennrich, R. I., & Bentler, P. M. (2012). Exploratory Bi-Factor analysis: The oblique case. Psychometrika, 77(3), 442-454.
  • Kline, P. (1994). An easy guide to factor analysis. Routledge.
  • LaFond, L. J. (2014). Decision consistency and accuracy indices for the Bifactor and Testlet response theory models. The University of Iowa. UMI Number: 3638391.
  • Li, Y., & Rupp, A. A. (2011). Performance of The S−Χ2 Statistic for full-information Bifactor models. Educational and Psychological Measurement, 71(6), 986-1005.
  • MacCallum, R. C., Widaman, K. F., Zhang, S., & Hong, S. (1999). Sample size in factor analysis. Psychological methods, 4(1), 84.
  • Martel, M. M., Von Eye, A., & Nigg, J. T. (2010). Revisiting the latent structure of ADHD: is there A ‘G’ factor?. Journal of Child Psychology and Psychiatry, 51(8), 905-914.
  • Reise, S. P. (2012). The rediscovery of Bifactor measurement models. Multivariate Behavioral Research, 47(5), 667-696.
  • Reise, S. P., Moore, T. M., & Haviland, M. G. (2010). Bifactor models and rotations: Exploring the extent to which multidimensional data Yield Univocal Scale Scores. Journal of personality assessment, 92(6), 544-559.
  • Reise, S. P., Ventura, J., Keefe, R. S., Baade, L. E., Gold, J. M., Green, M. F., ... & Bilder, R. (2011). Bifactor and item response theory analyses of interviewer report scales of cognitive impairment in Schizophrenia. Psychological Assessment, 23(1), 245.
  • Revelle, W. (2017). Psych: Procedures for psychological, psychometric, and personality research. R package version 1.7.5. URL: https://cran.rproject.org/web/packages/psych/index.html
  • Rijmen, F. (2009). Three multidimensional models for testlet-based tests: Formal relations and an empirical comparison. Research Report. ETS RR-09-37. Educational Testing Service.
  • Rindskopf, D., & Rose, T. (1988). Some theory and applications of confirmatory second-order factor analysis. Multivariate Behavioral Research, 23(1), 51-67.
  • Rodriguez, A., Reise, S. P., & Haviland, M. G. (2016). Applying Bifactor statistical indices in the evaluation of psychological measures. Journal of Personality Assessment, 98(3), 223-237.
  • Simms, L. J., Grös, D. F., Watson, D., & O'hara, M. W. (2008). Parsing the general and specific components of depression and anxiety with Bifactor modeling. Depression and Anxiety, 25(7).
  • Spearman, C. E. (1904). General intelligence objectively determined and measured. American Journal of Psychology, 15, 201–293.
  • Stucky, B. D., Thissen, D., & Orlando Edelen, M. (2013). Using logistic approximations of marginal trace lines to develop short assessments. Applied Psychological Measurement, 37(1), 41-57.
  • Stucky, B. D., & Edelen, M. O. (2014). Using hierarchical IRT models to create unidimensional measures from multidimensional data. Handbook of Item Response Theory Modeling: Applications to Typical Performance Assessment, 183-206.
  • Stucky, B. D., Edelen, M. O., Vaughan, C. A., Tucker, J. S., & Butler, J. (2014). The psychometric development and initial validation of the DCI-A short form for adolescent therapeutic community treatment process. Journal of Substance Abuse Treatment, 46(4), 516-521.
  • Thomas, M. L. (2012). Rewards of bridging the divide between measurement and Clinical Theory: Demonstration of a Bifactor model for the brief symptom inventory. Psychological Assessment, 24(1), 101.
  • Walther, B. A., & Moore, J. L. (2005). The concepts of bias, precision and accuracy, and their use in testing the performance of species richness estimators, with a literature review of estimator performance. Ecography, 28(6), 815-829.
  • Watkins, M. W., & Beaujean, A. A. (2014). Bifactor structure of the Wechsler Preschool and Primary Scale of Intelligence—Fourth Edition. School Psychology Quarterly, 29(1), 52.
  • Yang, Y., Song, L., & Xu, T. (2002). Robust estimator for correlated observations based on Bifactor equivalent weights. Journal of Geodesy, 76(6-7), 353-358.
  • Zhang, B. (2008). Application of unidimensional item response models to tests with items sensitive to secondary dimensions. The Journal of Experimental Education, 77(2), 147-166.
  • Zheng, C. (2013). Examination of the parameter estimate bias when violating the orthogonality assumption of the Bifactor model (Doctoral dissertation). University of Kansas.