Makine Öğrenmesi Algoritmaları ile Hava Kirliliği Tahmini Üzerine Karşılaştırmalı Bir Değerlendirme

Hava kirliliği, günümüzün en büyük sorunlarından birini teşkil etmektedir. Hava kirliliği, nüfusun artması, kentsel gelişme vebüyüme, endüstrinin gelişmesiyle giderek artan bir önem arz etmektedir. Genellikle hava kirleticilerinin insanlara, canlılara veçevreye zararlı etkileri zaman, mekan, etki süresi, konsantrasyon ve diğer karakteristiklerine bağlı olarak karmaşık dağılım şekillerigöstermektedir. Bu karmaşıklık, kirletici örnekleri ve eğilimleri modelleme veya ölçmede, ayrıca insanların maruz kaldığı seviyeleritahmin etmenin zor olduğu anlamına gelmektedir. Hava kirliliğini önleme çalışmaları arasında en önemli adımlardan biri havakirlenmesi olayının bir model içerisinde değerlendirilmesidir. Bu çalışmada Kastamonu ili ele alınarak, meteoroloji ve çevreuygulamalarında oldukça yeni ve başarılı sonuçlar elde edilen çeşitli makine öğrenmesi algoritmaları ile hava kirliliğinin tahmininde,bazı meteorolojik değişkenler kullanılarak hava kirliliği tahmini yapacak modeller geliştirilmiştir. Minimum-Maksimum (Min-Max)normalizasyon tekniği, öğrenme yöntemleri ile birlikte kullanılmıştır. Tahmin modellerinde, Yapay Sinir Ağları (YSA), RastgeleOrman (Random Forest), K-En Yakın Komşu (K-Nearest Neighborhood), Lojistik Regresyon (Logistic Regression), Karar Ağacı(Decision Tree), Lineer Regresyon (Linear Regression) ve Basit Bayes (Naive Bayes) yöntemleri kullanılmıştır. Çalışmada eldeedilen performans değerleri, literatürdeki benzer çalışmalarla kıyaslanarak problemin çözümüne ilişkin en uygun tahmin algoritmasıtespit edilmiştir. Veri setinin %70’i eğitim ve %30’si test verisi olarak ayrılmıştır. Çalışma sonucunda, YSA modeli için doğrutahmin oranı %87 ve diğer makine öğrenmesi modellerinden Rastgele Orman doğruluk oranı %99 ve Karar Ağacı doğruluk oranı%99 değerleri ile tahminlemede en başarılı sonuçları verdiği görülmüştür. Lineer Regresyon yöntemi %30’lık doğruluk oranı ileoldukça kötü performans sergilemektedir. KastamonuDataSet üzerinde kullanılan yöntemlerin performans değerlendirmelerindeAçıklayıcılık Katsayısı ($R^2$), Ortalama Karesel Hata (Mean Squared Error-MSE), Ortalama Hata Kare Kökü (Root Mean SquareError-RMSE) ve Ortalama Mutlak Hata (Mean Absolute Error-MAE) metrikleri bakımından istatistiksel önemli farklılıklarınbulunduğu tespit edilmiştir.

A Comparative Assessment on Air Pollution Estimation by Machine Learning Algorithms

Air pollution is one of the biggest problems of today. Air pollution, population growth, urban development and growth are increasingly important with the development of industry. Generally, the harmful effects of air pollutants on humans, animals and the environment show complex distribution patterns depending on time, space, duration of action, concentration and other characteristics. This complexity means that modeling and measurement of pollutant samples and trends is also difficult to predict the levels of pollution to which people are exposed. One of the most important steps in prevention of air pollution is the evaluation of contamination in a model. In this study, it is aimed to model air pollution by using some meteorological parameters in the estimation of air pollution by various machine learning algorithms which give new and successful results in meteorology and environment applications. Minimum-Max (Min-Max) normalization technique was used with learning methods. The performance values obtained in the study are compared with the similar studies in the literature and the most appropriate classification algorithm for the solution of the problem has been determined. Separate models were designed and analyzed by using methods such as Artificial Neural Networks (ANN), Random Forest, K-Nearest Neighborhood (K-NN), Logistic Regression, Decision Tree, Linear Regression and Naive Bayes. The performance values obtained in the study were compared with similar studies in the literature and the most appropriate estimation algorithm for the solution of the problem was determined. In this case, 70% of the data set is used for training and 30% for testing. As a result of the study, it was seen that the correct estimation rate for the ANN model was 87% and the other machine learning models gave the best results in the estimation with 99% of the Random Forest accuracy rate and 99% of the Decision Tree accuracy rate. The Linear Regression method performs poorly with a 30% accuracy rate. Performance evaluation of methods used on KastamonuDataSet in terms of the Explanatory Coefficient ($R^2$ ), Mean Squared Error (MSE), Root Mean Square Error (RMSE) and Mean Absolute Error (MAE) metrics.

___