Dengesiz Veri Setli Sağkalım Verilerinde Cox Regresyon ve Rastgele Orman Yöntemlerin Karşılaştırılması

Cox regresyon modeli, temel olarak, hastaların sağkalım süresi ile bir veya daha fazla faktörlerin yaşam süreleri üzerindeki etkilerini incelemek amacıyla yaygın olarak kullanılan bir regresyon modelidir. Yüksek sayıdaki verilerin oluşu, verilerde doğrusal olmayan durum, yüksek derecede etkileşim ve yüksek boyutlu ilişkileri açıklamada kullanılabilecek Cox Regresyon yöntemine alternatif olarak  makine öğrenme yöntemleri kullanılmaya başlanılmıştır. Bu çalışmada, veri seti Ondokuz Mayıs Üniversitesi göğüs hastalıkları servisinde yatmakta olan akut lösemi hastalarından elde edilmiştir. Analizden önce, çıktı değişkenin kategorisindeki dengesizliği düzeltmek için sentetik azınlık aşırı örnekleme (Smote) yöntemi uygulandı.  Daha sonra, her hastanın riskini belirmek için rastgele orman ve Cox Regresyon yöntemleri kullanılmıştır. Bu iki yöntem uyum indeks, roc eğrisinin altında elde edilen alan (AUC) ve hata oranına göre karşılaştırılmıştır. Sonuç olarak, rastgele orman sağkalım  analizinde Cox regresyonuna alternatif bir yöntem olarak kullanabilir.

Comparison of Cox Regression and Random Forest Methods Survival Data with Imbalanced Data Set

The Cox proportional-hazards model is essentially a regression model commonly used statistical in medical research for investigating the association between the survival time of patients and one or more factors . Alternative machine learning methods were introduced to the Cox Regression method, which can be used to explain the high number of data, nonlinear status, higher-order interactions and high dimensional covariates. In this study, patients who have been in Chest diseases service in the Hospital of Ondokuz Mayıs University. Before analysis, the smote sampling method was applied because the categories of the output variable were unbalanced. In this study, Random Forest and Cox Regression were used to determine the risk of each patient in leukemia. These two methods are compared to the C-index, area under the ROC curve (AUC) and error rate. According to the result, it was found that random forest is used as an alternative to Cox regression in survival analysis.

___

  • [1] Kleinbaum, D.G. (1998). Survival analysis, a self‐learning text. Biometrical Journal: Journal of Mathematical Methods in biosciences, 40(1), 107-108.[2] Biau, G. (2012). Analysis of a random forests model. Journal of machine research. 13, 1063-1095.[3] Weathers, B. (2017). Comparision of survival curves between Cox proportional hazards, random forests, and conditional inference forests in survival analysis. Utah State University.[4] Dirican, A. (2004). Kliniğimizde akciğer kanseri tanısı alan hastaların prospektif olarak değerlendirilmesi ve sağkalıma etki eden faktörlerin belirlenmesi, Ondokuz Mayıs University.[5] Chawla, N.V., et al. (2002). Smote: synthetic minority over-sampling technique. Journal of artificial intelligence research. 16, 321-357.[6] Breiman, L. (2001). Random forests. Machine learning, 45(1), 5-32.