Karar Ağaçları ve Yapay Sinir Ağlarının Karşılaştırılması: Kimyasal Verilerin Tahmini Üzerine Bir Örnek Çalışma

Atık suların özelliklerinin belirlenmesinde biyokimyasal oksijen ihtiyacı (BOD5), kimyasal oksijen ihtiyacı (COD), toplam organik karbon (TOC) ve çözünmüş oksijen (DO) miktarlarının tayini atık suyun karakterizasyonu açısından en temel ölçüm kriterleridir. Biyolojik oksijen ihtiyacı (BOD5), atık su arıtma tesislerine gelen ham atık su veya arıtılmış atık sudan alınan örneklerle yapılacak olan asitlik (pH), sıcaklık (T), iletkenlik (C), çözünmüş oksijen (DO), oksijen doygunluğu (SO), tuzluluk (SA), elektriksel iletkenlik (EC), kimyasal oksijen ihtiyacı (COD), askıda katı madde (LSS), toplam azot (TN), toplam fosfor (TP) ile birlikte analiz edilir. BOD5 en az 5 gün sürerken diğer test sonuçları en çok bir günde tamamlanmaktadır. Daha önce yapılan yukarıdaki parametrelerin ölçüldüğü bir çalışmada 334 adet örneğe ilişkin veri setinde veri setinde bulunan bu parametrelerinin karar ağacı yöntemiyle KNIME veri madenciliği paketinden yararlanarak BOD5 parametresine etkileri irdelenmiştir. Böylece BOD5 parametresine etkileri bilinen parametrelerin ağırlıklı etkileri dikkate alınarak sonucu bilinmeyen bir örneğin muhtemel BOD5 değerinin tahminine çalışılmıştır. Bu çerçevede yapılmış olan bu çalışmada da bu veri seti esas alınarak, veri madenciliği yöntemlerinden Karar Ağaçları ve Yapay Sinir Ağları hem yapısal hem de sonuçlar açısından ayrıntılı olarak incelenmiştir. Her iki yöntemin sonuçları karşılaştırıldığında, kutulanmış (Binned) değerlerin bulunduğu sınıflar arasında dağılımların yakın ancak kaymalar içerdiği görülmektedir. Sınıf sayıları arttırıldığında bu kaymaların kısmen de olsa giderilebileceği unutulmamalıdır. Ayrıca bu sonuçlar gelecek çalışmalarda hem (Karar Ağaçları) için gruplama sayısı, kazanç gibi hem de (Yapay Sinir Ağları) için ağ katman sayısı ve kazanç oranı gibi parametreler değiştirilerek optimize edilebilir

Comparison of Decision Trees and Artificial Neural Networks: A Case Study on Prediction of Chemical Data

In determining the properties of wastewater the amounts of biochemical oxygen demand (BOD5), chemical oxygen demand (COD), total organic carbon (TOC) and dissolved oxygen (DO) are the most basic measurement criteria for characterization of wastewater. Biological oxygen demand analysis (BOD5), together with the analysis of acidity (pH), temperature (T), conductivity (C), dissolved oxygen (DO), oxygen saturation (SO), salinity (SA), electrical conductivity (EC), chemical oxygen demand (COD), suspended solids (LSS), total nitrogen (TN) and total phosphorus (TP) made for the samples taken from the raw waste water coming to waste water treatment plants or treated waste water, lasts at least 5 days, as all others less than a day. In a study in which the above parameters were measured before, the effects of these parameters in the data set of 334 samples on the BOD5 parameter were investigated by using the decision tree method by the KNIME data mining package. Thus, taking into account the weighted effects of the parameters whose effects on the BOD5 parameter are known, the probable BOD5 value of an unknown sample has been estimated. In this study, based on this data set, Decision Trees and Artificial Neural Networks, which are among the data mining methods, were examined in detail in terms of both structural and results. When the results of both methods are compared, it could be seen that the distributions among the classes in binned values are close, but except for minor differences. It should be kept in mind that these shifts could be partially eliminated when the number of classes is increased. In addition, these results can be optimized in future studies by changing parameters such as the number of groupings or gain for (Decision Trees), and such as network layer number and gain rate for (Artificial Neural Networks).

___

  • Brereton, R. G., (2016), Chemometrics: Data Driven Extraction for Science, 2nd Edition, Wiley Pub.
  • Doğan, O., (2017), Ücretsiz Veri Madenciliği Araçları ve Türkiyede Bilinirlikleri Üzerine Bir Araştırma, Ege Stratejik Araştırmalar Dergisi Cilt 8, Sayı 1
  • Güller, S., Silahtaroğlu, G., Akpolat, O., (2019), Analysis waste water characteristics via data mining: A Muğla province case and external validation, Communication in Statistics: Case Studies, Data Analysis and Applications, Vol.5, No. 3, 200-213.
  • https://www.muski.gov.tr/aritmaveicmesuyutesislerimiz.aspx,, (2020)
  • https://www.cs.waikato.ac.nz/ml/weka/index.html, (2019)
  • https://erdincuzun.com/makine_ogrenmesi/.../, (2020), Decision Tree (Karar Ağacı): ID3 Algoritması–Classification
  • http://mail.baskent.edu.tr/~20410964/DM_8.pdf, (2020), Karar Ağacı (Decision Karar Ağacı (Decision tree) nedir?
  • Jiawei, H., Kamber, M., Pei, J., (2012), Data Mining; Concepts and Technics, Morgan Kaufmann Publishers, Elsevier Inc., KNIME Anaytics Platforrm, Version 4.3.2, (2021), https://www.knime.com
  • Lübbert, A., Simutis, R., Volk, N., Galvanuskas, V., (2000), Biochemical Process Optimization and Control. Hands-on Course, Martin Luther University, Germany. Özdemir, D., (Eğitmen), Taner, M. S., Ertaş, H.,, (2012), Kemometri Eğitimi Ders Notları, İzmirYüksek teknoloji Enstitüsü, 01-03 Temmuz, Akdeniz Üniversitesi ve Kimya Eğitim Akademisi, Türkiye.
  • Qiao, J., Li, W., Han, H., (2014), Soft Computing of Biochemical Oxygen Demand Using an Improved T–S Fuzzy Neural Network, Chinese Journal of Chemical Engineering, 22, 1254–1259
  • Silahtaroğlu, G., (2016), Veri Madenciliği kavram ve Algoritmaları, II. Baskı, Papatya Yayıncılık
Avrupa Bilim ve Teknoloji Dergisi-Cover
  • Yayın Aralığı: Yılda 4 Sayı
  • Başlangıç: 2013
  • Yayıncı: Osman Sağdıç
Sayıdaki Diğer Makaleler

Fırçasız DC Motorun Denge Optimizasyon Algoritması Tabanlı FOPID Kontrolü

Ali TEMİR, Burhanettin DURMUŞ

İnsansız Hava Araçlarında Dayanıklılık

Ümit CEVHER

Akustik Zorlamanın Propan - Metan Karışımlarının Yanma Etkisine Deneysel Araştırılması

Kuzey Emre ER, Murat TAŞTAN

Salgın Hastalık Süreçlerinde Sağlık Hizmetlerine Yönelik Mekansal İhtiyaçların Belirlenmesi

İbrahim EROL, Burcu BALABAN ÖKTEN

Tomosentez Görüntüleri ile Yapılan Derin Öğrenme Çalışmalarında Kullanılan Görüntü Ön İşleme Yöntemleri Üzerine Bir Literatür Araştırması

Elif AYDINGÖZ, Mert BAL

Sinyalize Kavşaklarda Gecikmeyi Minimize Etmekte Kullanılan Optimizasyon Tekniklerinin Karşılaştırılması: PSO ve GA

Abdullah KARADAĞ, Murat ERGÜN

Kompozit Plakalara Açılan Hafifletme Deliği Etrafındaki Güçlendirmenin Eğme Yüklemesi Altında İncelenmesi

Arif Emre ÖRÜN, Elmas SALAMCI

PVC Kan Torbalarının Antimikrobiyal Özelliklerinin ve Biyouyumluluğunun Fiziksel Adsorpsiyon Tekniği ile Artırılması

Gülşah ARSLAN, Fikret KARADEMİR, Fatma AYHAN

KNN ve Random Forest Algoritmalarının EMG Sinyallerini Sınıflandırmadaki Başarısının Karşılaştırılması

Çağatay ERSİN, Mustafa YAZ

Havalimanı Yolcularının Uluslararası Terminal Bazında Kontuarlara Geliş Paternlerin Tahminleme Çalışması

Merve Gözde SAYIN, Doruk Yarkın AKTAŞ, Mustafa BOLAT, Murat Kerem ÇELENLİ, Boran DURSUN, Gökhan KOÇ, Kami Serdar ÜÇKARDEŞ