Sigorta Hukuk Verisi Üzerinde Karar Ağacı ve Rastgele Orman Algoritmalarının Performans Karşılaştırması

Bu bilimsel çalışmada, sigorta hukuk datası üzerinde karar ağacı ve rastgele orman sınıflandırıcıları kullanarak belirli parametreler özelinde performans analizi yapılması amaçlanmaktadır. Araştırma için özel bir sigorta şirketinin 15.953 adet verisi kullanılmıştır. Her iki ağaç için dallanma aşamasında gain ratio yöntemi seçilmiştir. Aynı eğitim ve test verileri modeller üzerinde ayrı ayrı uygulanmıştır. Hedef sütunun 1/4 oranında “Evet” olacak şekilde dengesiz dağılım olduğu durumda aşırı ezberlemeyi doğru algoritma ile aşabileceğini göstermiştir. Sınıflandırma aşamasında birden fazla ağaç oluşturan rastgele orman algoritması ile tek bir karar ağacı arasındaki doğruluk oranı, Cohen’s Kappa ve F-measure katsayıları karşılaştırılmış olup; rastgele orman algoritmasının 3 değerlendirme parametresi için de daha başarılı olduğu ortaya koyulmuştur. Model seçiminin anlamlı derecede performans farklılığı ortaya çıkarabileceği sonucuna ulaşılmıştır

Performance Comparison of Random Forest and Decision Tree Algorithms on Insurance Legal Data

In this scientific study, it is aimed to perform performance analysis on certain parameters by using decision tree and random forest classifiers on insurance law data. For the research, 15.953 data of a private insurance company were used. For both trees, the gain ratio method was chosen at the branching stage. The same training and test data were applied separately on the models. It has shown that if the target column has an unbalanced distribution with a ratio of 1/4 “Yes”, it can overcome overfitting with the correct algorithm. In the classification phase, the accuracy ratio, Cohen's Kappa and F-measure coefficients between the random forest algorithm that generates more than one tree and a single decision tree were compared; It has been revealed that the random forest algorithm is more successful for all 3 evaluation parameters. It has been concluded that the selection of the model may reveal a significant performance difference

___

  • Dolgun Ö., Balkan C., ve Koç A. A., 2015. Sigortacılık Sektöründe Araç Sigortalarında Suistimal Tespit Sistemi. 2. Ulusal Sigorta ve Aktüerya Kongresi, Karabük, 28-29 Eylül.
  • Orhan U., 2012. Makine Öğrenmesi, http://bmb.cu.edu.tr/uorhan/DersNotu/Ders03.pdf, 06.12.2020.
  • Aydın S., 2007. Veri madenciliği ve Anadolu Üniversitesi uzaktan eğitim sisteminde bir uygulama, Doktora Tezi, Anadolu Üniversitesi Sosyal Bilimler Enstitüsü.
  • Özkan Y., 2008. Veri Madenciliği Yöntemleri, Papatya Yayınları.
  • Larose D. T., 2006. Data Mining Methods and Models, A John Wiley & Sons, Inc., Publication, New Jersey. Özdemir S., 2018. Random Forest Yöntemi kullanılarak potansiyel dağılım modellemesi ve haritalaması: Yukarıgökdere Yöresi örneği, Türkiye Ormancılık Dergisi, 19(1), sf: 51-56.
  • Şimşek H. K., 2018. Makine Öğrenmesi Dersleri 5a: Random Forest (Sınıflandırma), https://medium.com/data-science-tr/makine-%C3%B6%C4%9Frenmesi-dersleri-5-bagging-verandom-forest-2f803cf21e07, Erişim Tarihi: 05.12.2020
  • Sevgen S. C., ve Tanrıvermiş Y. A., 2020. Mass Apprasial With A Machine Learning Algorithm: Random Forest Regression Bilişim Teknolojileri Dergisi, cilt 13, sayı 3, sf: 301-311.,
  • Şahin E. R., Ayvaz S., ve Çalımfidan E., 2020. Sigorta Sektöründe Sahte Hasarların Tahmini İçin Geliştirilen Makine Öğrenmesi Modellerinin Kıyaslanması, Bilişim Teknolojileri Dergisi, cilt 13, sayı 4, sf: 479-489.
  • Aksoy B., 2020. Sigorta Şirketlerinin Derecelendirilmesinde Makine Öğrenmesi Yöntemleri Tahmin Performansının Karşılaştırılması: Türkiye Örneği, Akademik Araştırmalar ve Çalışmalar Dergisi (AKAD), cilt 12, sayı 23, sf: 579–597.
  • Kaynar O., Tuna M. F., Görmez Y., ve Deveci M. A., 2017. Makine öğrenmesi yöntemleriyle müşteri kaybı analizi, Cumhuriyet Üniversitesi İktisadi ve İdari Bilimler Dergisi, cilt:18, sayı:1, sf:1-14
  • Namlı E., Ünlü R., ve Gül E., 2019. Fiyat Tahminlemesinde Makine Öğrenmesi Teknikleri ve Doğrusal Regresyon Yöntemlerinin Kıyaslanması; Türkiye’de SatIlan İkinci El Araç Fiyatlarının Tahminlenmesine Yönelik Bir Vaka Çalışması, Konya Mühendislik Bilimleri Dergisi, cilt 7, sayı 4, sf: 806-821.
  • Akar Ö., ve Güngör O. 2012. Rastgele orman algoritması kullanılarak çok bantlı görüntülerin sınıflandırılması, Jeodezi ve Jeoinformasyon Dergisi, cilt 1 sayı 2, sf: 139-146
  • Breiman L., and Cutler A., 2005. Random forest, http://www.stat. berkeley.edu/~breiman/RandomForests/cc_home.htm, Erişim Tarihi: 04.12.2020
  • Öğündür G. 2019., Doğruluk (Accuracy), Kesinlik (Precision), Duyarlılık (Recall) yada F1 Score?, https://medium.com/@gulcanogundur/do%C4%9Fruluk-accuracy-kesinlik-precisionduyarl%C4%B1l%C4%B1k-recall-ya-da-f1-score-300c925feb38, Erişim Tarihi: 05.10.2020
  • Karacı A. 2020, Fiziksel ve Motor Engelli Çocukların Öz Bakım Problemlerinin Derin Sinir Ağları ile Sınıflandırılması, Politeknik Dergisi, 23(2), sf: 333-341