Otizm Spektrum Bozukluğunda Bulanık Kaba Küme Özellik Seçimi Kullanılarak Lojistik Regresyon ile Sınıflandırılması

Otizm Spektrum Bozukluğu (OSB), doğuştan gelen ve genel olarak sosyal ilişkilerde ve iletişim kurmada sıkıntı yaşama durumudur. Bu durum aslında bazı uzmanlar tarafından nöro gelişimsel bir bozukluk veya psikolojik durum spektrumu olarak da tanımlanabiliyor. Her hastalıkta olduğu gibi bu rahatsızlıkta da erken tanı çok önem arz etmektedir. Bu çalışmanın temel amaçlarından biri, OSB rahatsızlığını, lojistik regresyon algoritmasını kullanarak bireylerde bu bozukluğun olup olmadığını doğruluk oranı yüksek bir şekilde sınıflandıra bilmektir. Diğer amaç ise öne sürülen sınıflandırma modeli ile alanda çalışan doktorlara hata yapmamaları anlamında hem yardımcı olmak hem de teşhis yöntemini daha hızlı hale getirerek zamandan ve maliyetten tasarruf etmektir. Çalışma verileri WEKA programı yardımı ile analiz edilmiştir. Sınıflandırma algoritması olarak lojistik regresyon algoritması kullanılmıştır. Algoritmanın daha hızlı ve doğru çalışması adına bulanık kaba küme yöntemi ile özellik seçimi yapılmıştır. Algoritmanın veri ezberleme durumu ortadan kaldırmak adına 10 döngülü çapraz doğrulama yapılmıştır. Sonuçların değerlendirilmesi için TP ve FP oranları hesaplanmıştır. Hesaplanan sonuçlara göre TP oranı özellik seçimi yapılmadan önce 0,947 iken özellik seçimi yapıldıktan sonra 0,974 olarak hesaplanmıştır. Benzer şekilde FP oranları ise sırasıyla 0,043 ve 0,028 olarak tespit edilmiştir. Bu sonuçlara göre algoritmanın OSB’yi sınıflandırmada başarılı olduğu söylenebilir. Ek olarak özellik seçimi yapılmadan önce ve sonraki sonuçları karşılaştırmak için ROC analizi yapılmıştır. Analiz sonucuna göre ROC eğrisinin altında kalan alanın 0,99 olarak hesaplanmış olması özellik seçimi yapılmasının doğru bir karar olduğunun göstergesidir. Ayrıca özellik seçimi yapıldıktan sonra doğru sınıflandırma oranı %95,205’ten %96,575’e çıkmıştır.

Classification of Autism Spectrum Disorder By Logistıc Regresiıon Using Fuzzy Rough Set Feature Selection

Autism Spectrum Disorder (ASD) is a congenital and general problem in social relations and communication. This condition can actually be defined by some experts as a neurodevelopmental disorder or a spectrum of psychological states. As in any disease, early diagnosis is very important in this disease. One of the main purposes of this study is to classify ASD with a high accuracy rate, using the logistic regression algorithm. The other purpose is to help doctors working in the field not to make mistakes with the proposed classification model, and to save time and cost by making the diagnosis method faster. Study data were analyzed with the help of WEKA program. Logistic regression algorithm was used as classification algorithm. In order for the algorithm to work faster and more accurately, feature selection was made with the fuzzy coarse set method. In order to eliminate the data memorization situation of the algorithm, 10-cycle cross validation was performed. TP and FP ratios were calculated to evaluate the results. According to the calculated results, while the TP ratio was 0.947 before feature selection, it was calculated as 0.974 after feature selection. Similarly, FP rates were determined as 0.043 and 0.028, respectively. According to these results, it can be said that the algorithm is successful in classifying ASD. In addition, ROC analysis was performed to compare the results before and after feature selection. The fact that the area under the ROC curve was calculated as 0.99 according to the analysis result indicates that the feature selection is the right decision. In addition, after the feature selection was made, the correct classification rate increased from 95.205% to 96.575%.

___

  • Altman, D.G. ve Bland, J.M. (1994), Diagnostic tests. 1: Sensitivity and specificity, British Medical Journal, 308, (6943): 1552.
  • Amerikan Psikiyatri Birliği (2013), DSM-V-R Tanı Ölçütleri Başvuru Kitabı, Ertuğrul Köroğlu (çeviri editörü), Ankara: HYB Yayıncılık.
  • Berkson, J. (1944), Application of the logistic function bio-assay, Journal of the American Statistical Association, 39, 35-365.
  • Bodur, Ş. ve Soysal, A.Ş. (2004), Otizmin erken tanısı ve önemi, STED Dergisi, 13, 394-398.
  • Cornfield, J. (1962), Joint dependence of the risk of coronary heart disease on serum cholesterol and sistolic blood pressure: A diskrimant function analysis, Federation Proceedings, 21: 58-61.
  • Cox, D. R. ve Snell, E. S. (1989), Analysis of binary data, London.
  • Halk Sağlığı, (2019), https://lk.tc/rCw7S, Erişim Tarihi: 22.08.2019.
  • Hosmer, D.W. ve Lemeshow, S. (2000), Applied logistic regression, Second edition, A Wiley-Interscience Publication.
  • Kanner, L. (1943), Autistic disturbances of affective contact, Nervous Child, 2,217-250
  • Kumar, M. ve Yadav, N. (2015), Fuzzy rough sets and its application in data mining field, Advances in Computer Science and Information Technology (ACSIT), 2, 237-240.
  • Muhammad, Z.A. ve Amir, A. (2018), Performance evaluation of supervised machine learning classifiers for predicting healthcare operational decisions, Wavy AI Research Foundation: Lahore, Pakistan.
  • Rapin, I. and Katzman, R. (1998), Neurobiology of autism. Ann Neurology, 43, 7–14.
  • Sanjay, M. (2018), https://towardsdatascience.com/why-and-how-to-cross-validate-a-model-d6424b45261f, Erişim Tarihi: 22.08.2019.
  • Takıcı, H. (2018), Improvement of heart attack prediction by the feature selection methods, Turkish Journal of Electrical Engineering Computer Sciences, 26, 1-10.
  • Thabtah F. (2019), Machine learning in autistic spectrum disorder behavioral research: A review and ways forward, Informatics for Health & Social Care, 44, 278–297.
  • Thabtah, F. (2017), Autism spectrum disorder screening: Machine learning adaptation and DSM-5 fulfillment, Proceedings of the 1st International Conference on Medical and Health Informatics 2017, 1-6.
  • Thabtah, F.F. (2017), https://archive.ics.uci.edu/ml/datasets/Autism+Screening+Adult , Erişim Tarihi: 20.07.2019.