Metasezgisel yöntemlerle öznitelik sayısını azaltarak diyabetin erken dönemde tespiti

Diyabet dünya çapında yaygın olarak görülen metabolik bir hastalıktır. Dünya genelinde her geçen yıl diyabet hastalığına yakalanan kişi sayısının artması beklenmektedir. Bu da hem kişilerin yaşam konforları hem de sağlık sistemi için olumsuz bir etki demektedir. Bu açıdan hastalığın erken dönemde teşhis edilmesi önem taşımaktadır. Teşhis amacıyla kullanılan verilerin yüksek boyutlu olması hesaplamanın maliyeti ve süresi üzerinde olumsuz etkiye sahiptir. Bunun önüne geçmek için, teşhis için en değerli olan özniteliklerin seçilmesi önem arz etmektedir. Bu çalışmada UCI (UCI Machine Learning Repository) veri deposundaki örnekler kullanılarak, Salp Sürü Algoritması, Yapay Arı Kolonisi Algoritması, Balina Optimizasyon Algoritması ve Karınca Kolonisi Algoritması kullanılarak öznitelik seçimi yapılmıştır. Seçilen özniteliklerin değerlendirilmesi için k-En Yakın Komşuluk (KNN), Naive Bayes (NB), Destek Vektör Makinası (DVM) ve Yapay Sinir Ağları (YSA) yöntemleri kullanılarak doğruluk, duyarlılık ve belirlilik parametreleri hesaplanmıştır. Diyabet hastası olma olasılığı için yapılan hesaplamalarda k-En Yakın Komşuluk yöntemiyle %99.04 doğruluk oranı elde edilmiştir.

Early stage diabetes prediction by features selection with metaheuristic methods

Diabetes is a metabolic disease that is common worldwide. The number of people suffering from diabetes is expected to increase every year around the world. This means a negative impact on both the comfort of life of individuals and the health system. In this respect, it is important to diagnose the disease at an early stage. The high dimensionality of the data used for diagnostic purposes has a negative effect on the cost and time of the calculation. To avoid this, it is important to select the most valuable features for diagnosis. In this study, feature selection was made using Salp Swarm Algorithm, Artificial Bee Colony Algorithm, Whale Optimization Algorithm and Ant Colony Algorithm using the samples in the UCI (UCI Machine Learning Repository) data store. In order to evaluate the selected features, accuracy, sensitivity and specificity parameters were calculated using k-Nearest Neighborhood (KNN), Naive Bayes (NB), Support Vector Machine (SVM) and Artificial Neural Networks (ANN) methods. In the calculations for the probability of having diabetes, an accuracy rate of 99.04% was obtained with the k-Nearest Neighborhood method.


