ROC Analizi ve R Yazılımı ile Verilerin Sınıflama Doğruluklarının Karşılaştırılması

ROC analizi, bir tanı testi olarak, bir sınıflandırıcıyı temsil eden sürekli bir değişkenin ayırt edici performansını değerlendirmek için sıkça kullanılır. Verilerin sınıflandırılmasında, kümelenmesinde kullanımı artan bir diğer program ise R Studio ortamıdır. Bu araştırmada her iki istatistiksel analizden yararlanarak, daha önceden var olan kesme puanlarla aynı veri grubu üzerinde aynı özelliği belirlemedeki sınıflandırma doğruluklarının incelenmesi amaçlanmıştır. Programlama diline de uygun olan ve araştırmacı tarafından üretilen simülatif veri üzerinden araştırma yürütülmüştür. Araştırma, 1500 kişilik veri seti üzerinden ROC ve R ortamında gerçekleştirilmiştir. Ayrıca, veri grubundan çekilen 25 kişilik bir yargıcı grubu üzerinden de veriler tekrar ikinci bir analizle incelenmiştir. Yargıcıların sınıflama doğruluklarına Öklid uzaklığı ile bakılmıştır. Araştırma sonucunda AUC=0.73 olarak hesaplanmıştır (p

Comparison of Classification Accuracy of Data with ROC Analysis and R Software

ROC analysis is frequently used as a diagnostic test to evaluate the discriminant performance of a continuous variable representing a classifier. Another program that is increasingly used in the classification and clustering of data is the R Studio environment. In this study, it was aimed to examine the classification accuracies in determining the same feature on the same data group with the previously existing cut-off scores by using both statistical analyzes. The research was carried out on the simulative data produced by the researcher, which is also suitable for the programming language. The research was carried out in the ROC and R environment on the data of 1500 people. In addition, the data were re-examined with a second analysis on a group of 25 judges who were withdrawn from the data group. The classification accuracy of the judges was checked with the Euclidean distance. As a result of the research, it was calculated as AUC=0.73 (p

___

  • Adams, N.M., & Hand, D.J. (1999).Comparing classifiers when the misallocation costs are uncertain. Pattern Recognition, Vol. 32 (7) (1999) pp. 1139-1147.
  • Akpınar, H. (2014), Data: Veri madenciliği, veri analizi. İstanbul: Papatya Yayıncılık. Alpar, R.(2010).Basit doğrusal regresyon çözümlemesi. spor, sağlık ve eğitim bilimlerinden örneklerle uygulamalı istatistik ve geçerlik güvenirlik., Ankara: Detay Yayıncılık, 338-42.