Çoklu Değerlendirici ve Tanı Testinin Kategorik Olması Durumunda Uyum İstatistiklerinin Karşılaştırılması: Bir Simülasyon Çalışması

Amaç: Değerlendirici sayısının ve tanı testine ait kategori sayısının iki ve daha fazla olduğu durumda, uyum istatistiklerinin, örneklem büyüklüğünden, değerlendirici sayısından ve kullanılan ölçeğin kategori sayısından etkilenme durumlarını ortaya koymaktır. Gereç ve Yöntem: Değerlendiriciler arasında hiç uyumun olmadığı durum ile uyumun 0.90 olduğu durumlara ait AC1 istatistiği, Fleiss Kappa ve Krippendorff Alpha değerleri 1000 simülasyon denemesi için kaydedilmiştir. Bulgular: Değerlendiriciler arasındaki beklenen uyumun 0.90 olduğu durumda; AC1 istatistiği ve Fleiss kappa katsayısı, örneklem büyüklüğü, değerlendirici sayısı ve tanı testine ait kategori sayısı ne olursa olsun tüm kombinasyonlarda benzer sonuçlar vermekte ve beklenen uyum değerine eşit değerler almaktadır. Krippendorff Alpha katsayısı incelendiğinde, örneklem büyüklüğünden etkilenmediği ancak değerlendirici sayısından ve tanı testine ait kategori sayısından etkilenmektedir. Sonuç: Prevelans değeri biliniyor ve çalışma için önem taşıyorsa, Gwet'in AC1 istatistiğinin, eğer çalışmada eksik verilerin varlığı söz konusu ise Krippendorff Alpha katsayısının, bu sözü edilen durumlar dışında Fleiss kappa katsayısının kullanılması önerilmektedir. Anahtar kelimeler: Fleiss Kappa; Gwet'in AC1 Istatistiği; Krippendorff Alpha; Değerlendiriciler Arası Uyum.

Comparison of Agreement Statistics in Case of Multiple-Raters and Diagnostic Test Being Categorical: A Simulation Study

Aim: When the number of raters and the number of categories of diagnostic tests are two or more, put forward agreement statistics' conditions of being affected by the sample size, the number of raters and the number of categories of scale used. Material and Methods: AC1 statistic, Fleiss Kappa and Krippendorff's Alpha values belonging to state where there was no agreement between raters and states where agreement was 0.90 for those combinations were recorded for 1000 simulation study. Results: The expected agreement between raters is 0.90, AC1 statistic and Fleiss Kappa coefficient offer similar results and take equivalent values, to the expected value of agreement in all combinations. When Krippendorff's Alpha coefficient examined, it is not affected by sample size but affected by the number of raters and the number of categories pertaining to diagnostic test. Conclusion: If prevalence value is known and a bear significant for study, use of AC1 statistic is recommended among agreement statistics, if the existence of missing data is the case in study, Krippendorff's Alpha coefficient is the most appropriate agreement statistic, except these cases mentioned, use of Fleiss Kappa coefficient is recommended. Key words: Fleiss Kappa; Gwet's AC1 Statistics; Krippendorff Alpha; Agreement between Raters.

___

  • Gwet K. Computing inter-rater reliability and its variance in the presence of high agreement.Brit J Mathematic Stat Psychol 2008;61:29-48.
  • Gwet K. Kappa statistics is not satisfactory for assessing the extent of agreement between raters.Series: Stat Met Inter- Rater Reliab Asses 2002;1:1-5.
  • Gwet K. Handbook of Inter-Rater Reliability;1st rev ed. USA: STATAXIS Publishing Company; 2001.
  • Krippendorff K. Reliability in content analysis some common misconceptions and recommendations. Hum Commun Res 2004;30:411-33.
  • Hayes AF, Krippendorff K. Answering thecall for a standard reliability measure for coding data.Com Method Measur 2007;1:77-89.
  • Kanık EA, Orekici Temel G, Ersöz Kaya İ. Effect of sample size, the number of raters and the category levels of diagnostic test on Krippendorff Alpha and the Fleiss Kappa statistics for calculating inter-rater agreement: a simulation study. Türkiye Klinikleri J Biostat 2010;2:74-81.
  • Zhou X, Obuchowski N, McClish D. Statistical Methods in Diagnostic Medicine, 1st rev ed; New York: Wiley. 2002.
  • Fleiss JL. Measuring nominal scale agreement among many raters. Psychol Bull 1971;76:378-82.
  • Haley DT, Thomas P, Petre M, Roeck AD. Using a new inter- rater reliability statistics. Technical Report 2008; 15.
  • Blood E, Spratt KF. Disagreement on Agreement: Two Alternative Agreement Coefficients.Statistics and Data Analysis. SAS Global Forum 2007.
  • Dorfman D, Berbaum K, Metz C. Receiver operating characteristic rating analysis: generalization to the population of readers and patients with Jackknife method. Invest Radiol 1992;27:723-31.
  • Obuchowski NA. Sample size tables for receiver operating characteristic studies. AJR Am J Roentgenol 2000;175:603-8.
  • Eye VA, Mair P, Schauerhuber M. Significance tests for the measure Paper.http://epub.wu.ac.at/1336/ 2007. Working
  • Bogartz RS. Interrater agreement and combining Ratings. 2010.http://ebookbrowse.com/interrater-agreement-pdf- d15137096
  • Kanık EA, Erdoğan S, Temel Orekici G. İkili değişkenler için iki değerlendirici arasındaki uyum istatistiklerinin prevelanstan etkilenme durumları. XIII. Ulusal Biyoistatistik Kongresi, 12- 14 Eylül 2011, Ankara-Kızılcahamam.
Turgut Özal Tıp Merkezi Dergisi-Cover
  • ISSN: 1300-1744
  • Başlangıç: 1994
  • Yayıncı: -
Sayıdaki Diğer Makaleler

Pediatrik Hastalarda Eksternal Dakriyosistorinostomi Sonuçları

Abuzer Gündüz, Soner Demirel, Ercan Özsoy, Tongabay Cumurcu

Varis Cerrahisi Erken Dönem Sonuçlarımız

Habib Çakır, Çağatay Tuncel, Hasan Uncu, Gürdeniz Yıldız, Mahmut Çetinoğlu, İbrahim Özsöyler

Atipik Meniere Hastalığı: Ani İşitme Kaybı Olarak Tedavi Edilen Olgu Sunumu

Tuba Bayındır, Erkan Karataş, Zekeriya ÇETİNKAYA

Sıçan İleumunda Meydana Gelen Yaşa Bağlı Değişimlerin Mikroskopik Olarak İncelenmesi

Hülya Elbe, Meltem Kuruş, Alper Kazancı, Ali Otlu

Süleyman Demirel Üniversitesi’ne Başvuran Çocuklarda Pandemik İnfluenza A(H1N1)v Enfeksiyonunun Epidemiyolojik ve Klinik Özellikleri

Metehan Özen, Abdülkerim ELMAS, Harun Tepeli, Barış AKCAN, Aslıhan BOYACI, Ahmet Rıfat ÖRMECİ

Bilateral Tubal Faktör Nedenli Yardımla Üreme Tedavisi Uygulanan İki Kadında Endometriyum Tüberkülozu Tanısı: Olgu Sunumu

Levent ŞAHİN, Mustafa ALBAYRAK, Ebru ÇELİK, Zehra Sema ÖZKAN, Gökhan ARTAŞ, Banu Kumbak AYGÜN

Chiari Tip 1 Malformasyonlu Hastalarda Dördüncü Ventrikül Hacminin ve Herniasyon Uzunluğunun ImageJ Programı ile Hesaplanması

Tolga Ertekin, Niyazi Acer, Ümit Erkan VURDEM, Erdoğan Unur, Mahmut Çay

Sınıflamada Daha Güçlü Bir Yaklaşım Olan Boosting Ağacı: Karpal Tunel Sendromu Uygulaması

Handan Ankaralı, Gülhan Örekici Temel, Bahar Taşdelen, Aynur Özge

Melkersson Rosenthal Sendromu: İki Olgu

Tuba Bayındır, Yüksel Kablan, Mehmet T Çiçek, Tamer Erdem

Motor Güçsüzlükle Başlangıç Gösteren Çölyak Hastalığı

Serpil Demirci, Ersan CENGİZHAN, Nermin KARAHAN