Metasezgisel yöntemlerle öznitelik sayısını azaltarak diyabetin erken dönemde tespiti

Diyabet dünya çapında yaygın olarak görülen metabolik bir hastalıktır. Dünya genelinde her geçen yıl diyabet hastalığına yakalanan kişi sayısının artması beklenmektedir. Bu da hem kişilerin yaşam konforları hem de sağlık sistemi için olumsuz bir etki demektedir. Bu açıdan hastalığın erken dönemde teşhis edilmesi önem taşımaktadır. Teşhis amacıyla kullanılan verilerin yüksek boyutlu olması hesaplamanın maliyeti ve süresi üzerinde olumsuz etkiye sahiptir. Bunun önüne geçmek için, teşhis için en değerli olan özniteliklerin seçilmesi önem arz etmektedir. Bu çalışmada UCI (UCI Machine Learning Repository) veri deposundaki örnekler kullanılarak, Salp Sürü Algoritması, Yapay Arı Kolonisi Algoritması, Balina Optimizasyon Algoritması ve Karınca Kolonisi Algoritması kullanılarak öznitelik seçimi yapılmıştır. Seçilen özniteliklerin değerlendirilmesi için k-En Yakın Komşuluk (KNN), Naive Bayes (NB), Destek Vektör Makinası (DVM) ve Yapay Sinir Ağları (YSA) yöntemleri kullanılarak doğruluk, duyarlılık ve belirlilik parametreleri hesaplanmıştır. Diyabet hastası olma olasılığı için yapılan hesaplamalarda k-En Yakın Komşuluk yöntemiyle %99.04 doğruluk oranı elde edilmiştir.

Early stage diabetes prediction by features selection with metaheuristic methods

Diabetes is a metabolic disease that is common worldwide. The number of people suffering from diabetes is expected to increase every year around the world. This means a negative impact on both the comfort of life of individuals and the health system. In this respect, it is important to diagnose the disease at an early stage. The high dimensionality of the data used for diagnostic purposes has a negative effect on the cost and time of the calculation. To avoid this, it is important to select the most valuable features for diagnosis. In this study, feature selection was made using Salp Swarm Algorithm, Artificial Bee Colony Algorithm, Whale Optimization Algorithm and Ant Colony Algorithm using the samples in the UCI (UCI Machine Learning Repository) data store. In order to evaluate the selected features, accuracy, sensitivity and specificity parameters were calculated using k-Nearest Neighborhood (KNN), Naive Bayes (NB), Support Vector Machine (SVM) and Artificial Neural Networks (ANN) methods. In the calculations for the probability of having diabetes, an accuracy rate of 99.04% was obtained with the k-Nearest Neighborhood method.

___

  • [1] Le TM, Vo TM, Pham TN, Dao SVT. “A novel wrapper– based feature selection for early diabetes prediction enhanced with a metaheuristic”. IEEE Access, 9, 7869-7884, 2021.
  • [2] Kurt MS, Ensarı T. “Diabet diagnosis with support vector machines and multi layer perceptron”. Electric Electronics, Computer Science, Biomedical Engineerings' Meeting, İstanbul, Turkey, 20-21 April 2017.
  • [3] Sun H, Saeedi P, Karuranga S, Pinkepank M, Ogurtsova K, Duncan BB, Magliano DJ. “IDF diabetes atlas: global, regional and country-level diabetes prevalence estimates for 2021 and projections for 2045”. Diabetes Research and Clinical Practice, 183, 109-119, 2022.
  • [4] International Diabetes Federation. “International Diabetes Federation-Facts & Figures”. https://www.idf.org/ (24.06.2022).
  • [5] Özlüer Başer B, Yangın M, Sarıdaş ES. “Makine öğrenmesi teknikleriyle diyabet hastalığının sınıflandırılması”. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi, 25(1), 112-120, 2021.
  • [6] Akyol K, Karacı A. “Diyabet hastalığının erken aşamada tahmin edilmesi için makine öğrenme algoritmalarının performanslarının karşılaştırılması”. Düzce Üniversitesi Bilim ve Teknoloji Dergisi, 9, 123-134, 2021.
  • [7] Nahzat S. Yağanoğlu M. “Diabetes prediction using machine learning classification algorithms”. Avrupa Bilim ve Teknoloji Dergisi Özel Sayı, 24, 53-59, 2021.
  • [8] Harman G. “Destek vektör makineleri ve naive bayes sınıflandırma algoritmalarını kullanarak diabetes mellitus tahmini”. Avrupa Bilim ve Teknoloji Dergisi, 32, 7-13, 2021.
  • [9] Ergün ÖN, İlhan HO. “Early-stage diabetes prediction using machine learning methods”. European Journal of Science and Technology, 29, 52-57, 2021.
  • [10] Bilgin G. “Makine öğrenmesi algoritmaları kullanarak erken dönemde diyabet hastalığı riskinin araştırılması”. Zeki Sistemler Teori ve Uygulamaları Dergisi, 4(1), 55-64, 2021.
  • [11] Tarik IH, Mazher WJ, Uçan ON, Bayat O. “Feature selection using salp swarm algorithm for real biomedical datasets”. IJCSNS International Journal of Computer Science and Network Security, 17(12), 13-20, 2017.
  • [12] Can C, Kaya Y, Kılıç F. “Salp sürü algoritması ile öznitelik seçimi ve sınıflandırıcı performans değerlendirmesi”. Avrupa Bilim ve Teknoloji Dergisi, 30, 12-16, 2021.
  • [13] Hegazy AhE, Makhlouf MA, El-Tawelb GhS. “Improved salp swarm algorithm for feature selection”. Journal of King Saud University-Computer and Information Sciences, 32(3), 335-344, 2020.
  • [14] Kamel SR, Yaghoubzadeh R. “Feature selection using grasshopper optimization algorithm in diagnosis of diabetes disease”. Informatics in Medicine Unlocked, 26, 1-9, 2021.
  • [15] Lukmanto RB, Nugroho A, Akbar H. “Early detection of diabetes mellitus using feature selection and fuzzy support vector machine”. Procedia Computer Science, 157, 46-54, 2019.
  • [16] García-Ordás MT, Benavides C, Benítez-Andrades JA, Alaiz-Moretón H, García-Rodríguez I. “Diabetes detection using deep learning techniques with oversampling and feature augmentation”. Computer Methods and Programs in Biomedicine, 202, 1-11, 2021.
  • [17] Omisore OM, Ojokoh BA, Babalola AE, Igbe T, Folajimi Y, Nie Z, Wang L. “An affective learning-based system for diagnosis and personalized management of diabetes mellitus”. Future Generation Computer Systems, 117, 273-290, 2021.
  • [18] Vaishali R, Sasikala R, Ramasubbareddy S, Remya S, Nalluri S. “Genetic algorithm based feature selection and MOE Fuzzy classification algorithm on Pima Indians Diabetes dataset”. International Conference on Computing Networking and Informatics (ICCNI), Lagos, Nigeria, 29-31 October 2017.
  • [19] Köse U, Güraksın GE, Deperlioğlu Ö. “Diabetes determination via vortex optimization algorithm based support vector machines”. Medical Technologies National Conference (TIPTEKNO), Bodrum, Turkey, 15-18 October 2015.
  • [20] Bhargava R, Dinesh J. “Deep learning based system design for diabetes prediction”. International Conference on Smart Generation Computing, Communication and Networking (SMART GENCON), Pune, India, 29-30 October 2021.
  • [21] Mirjalili S, Gandomi AH, Mirjalili SZ, Saremi S, Faris H, Mirjalili SM. “Salp Swarm Algorithm: A bio-inspired optimizer for engineering design problems”. Advances in Engineering Software, 114, 163-191, 2017.
  • [22] Karaboğa D. “An idea based on honey bee swarm for numerical optimization”. Kayseri, Turkey, TR06, 2005.
  • [23] Zhao Y, He Y, Chen B, Xue X. “An improved Whale Swarm Algorithm with nonlinear weighting and convergence factor”. 2nd International Conference on Safety Produce Informatization (IICSPI), Chongqing, Çhina, 28-30 November 2019.
  • [24] Doğan C. Balina Optimizasyon Algoritması ve Gri Kurt Optimizasyonu Algoritmaları Kullanılarak Yeni Hibrit Optimizasyon Algoritmalarının Geliştirilmesi. Yüksek Lisans Tezi, Erciyes Üniversitesi, Kayseri, Türkiye, 2019.
  • [25] Ahmetoğlu H, Resul DAŞ. “Makine öğrenmesi yöntemleri kullanarak web uygulama saldırılarının tespitinde genetik öznitelik seçimi yaklaşımı”. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, 14(2), 109-119, 2021.
  • [26] Moesinger L, Dorigo W, de Jeu R, van der Schalie R, Scanlon T, Teubner I, Forkel M. “The global long-term microwave vegetation optical depth climate archive (VODCA)”. Earth System Science Data, 12(1), 177-196, 2020.
  • [27] Söyler H, Keskintürk T. “Karınca kolonisi algoritması ile gezen satıcı probleminin çözümü”. Türkiye Ekonometri ve İstatistik Kongresi, Malatya, Türkiye, 24-25 Mayıs 2007.
  • [28] Hoos HH, Stützle T. SATLIB: An online resource for research on SAT. Editors: Maaren HV, Gent IP, Walsh T. SAT2000, 283-292, Amsterdam, Netherlands, IOS Press, 2000.
  • [29] Cortes C, Vapnik V. “Support-vector networks”. Mach Learn, 20, 273-297, 1995.
  • [30] Ataseven B. “Yapay sinir ağları ile öngörü modellemesi”. Öneri Dergisi, 10(39), 101-115, 2013.
  • [31] Al-Behadili HNK, Ku-Mahamud KR. “Fuzzy unordered rule using greedy hill climbing feature selection method: an application to diabetes classification”. Journal of Information and Communication Technology, 20(3), 391-422, 2021.
  • [32] Özer İ. “Uzun kısa dönem bellek ağlarını kullanarak erken aşama diyabet tahmini". Mühendislik Bilimleri ve Araştırmaları Dergisi, 2(2), 50-57, 2020.
  • [33] Chaves L, Marques G. “Data mining techniques for early diagnosis of diabetes: a comparative study”. Applied Sciences, 11(5), 1-12, 2021.
Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi-Cover
  • ISSN: 1300-7009
  • Yayın Aralığı: 7
  • Başlangıç: 1995
  • Yayıncı: PAMUKKALE ÜNİVERSİTESİ