MAKİNE ÖĞRENİMİNİN ARAŞTIRMACILARIN VERİ ANALİZİ BAĞLAMINDA POTANSİYEL ÖNEMİ

Bu çalışma, birçok farklı alandaki değişik konularda çalışan uygulamalı araştırmacılar için Makine Öğrenimi hakkında bilgi sağlamayı amaçlamaktadır. Örneğin, ekonomi araştırmacıları tarafından kullanılacak bu tür ham verilerin en yaygın kaynaklarından biri, geliştirme türü verilerdir. Bu tür verilerin en yaygın kaynakları, ilgili kurumlar tarafından ücretsiz ve çevrimiçi olarak sağlanan OECD ve Dünya Bankası veri setleridir. Küresel kurumlar tarafından sağlanan bu tür veri kümeleri ile ilgilenen akademik araştırmacılar, kendi araştırma projelerinde kullanmak için kendi veri kümelerini oluşturmak amacıyla makine öğrenimi tekniklerinin nasıl yardımcı olabileceğini, oluşturdukları kendi veri kümelerinin makine öğreniminde nasıl kullanılabileceğini ve bu veri kümelerini makine öğrenimi teknikleriyle analiz etme konusundaki bilgilerini derinleştirebileceklerdir. Bu amaçla, Dünya Bankası Açık Veri ortamında çevrimiçi olarak sunulan Dünya Gelişim Göstergesi zaman serisi verileri kullanılarak çok değişkenli bir tahmin problemini çözmek için makine öğrenimi teknikleri ile örnek bir vaka geliştirilmiştir. Çoğunlukla doğrusal tekniklere ve yüksek boyutlu verileri işlemek için çok uygun olan diğer bazı yöntemlere odaklanılacaktır. Bu örnek vakada, ilk olarak veriler incelenecek ve makine öğrenimi modellerinin eğitimi için kullanılacak veriler hazırlanacaktır. Daha sonra kullanılacak tahmin modellerine karar verilecek ve son olarak bu modelleri değerlendirip elde edilen sonuçlar tartışılacaktır. Bu kapsamda, Makine Öğrenimini kullanan Zaman Serisi Tahmin örneği, Python ortamı kullanılarak geliştirilmiştir ve geliştirilen Python yazılımı Anaconda bulut ortamından Jupyter Notebook olarak paylaşılmıştır.

THE POTENTIAL IMPORTANCE OF MACHINE LEARNING IN THE CONTEXT OF RESEARCHERS DATA ANALYSIS

This article aims to provide insights on Machine Learning for applied researchers working on topics related to any field. One of the most common sources of such raw data to be used by economic researchers are the development kind of data. The most common sources of such data are OECD and World Bank data sets which are provided by the respective institutions freely and online. The academic researchers in the related fields of such datasets provided by the global institutions may be interested in deepening their knowledge of how machine learning can be useful for the construction of valuable datasets to be used in their research projects and analyze these datasets by machine learning techniques. For this purpose, an example case using machine learning techniques to solve a multivariate forecasting problem is developed by using World Development Indicator time-series data available online at World Bank Open Data environment. The focus will mainly be on linear regularization techniques and some other methods that are well suited for handling high dimensional data. Within this example case, we will initially explore the data and prepare the data to be used for training the machine learning models. Then we will decide the predictive models to be used, and finally evaluate these models and discuss the results obtained. In this context, the Time Series Forecasting example using Machine Learning was developed using the Python environment and the Python software developed was shared as Jupyter Notebook from Anaconda cloud environment.

___

  • Aytekin, H. T. (2021, Şubat 12). Jupyter Notebook. Ankara. https://anaconda.org/hta_65/ufuk-kongre-ybs-sunum-demo/notebook adresinden alındı
  • Efron, B., Hastie, T., Johnstone, I., & Tibshirani, R. (2004). Least Angle Regression. Annals of Statistics, 2(32), s. 407-499. http://statweb.stanford.edu/~tibs/ftp/lars.pdf adresinden alındı
  • Friedman, J. H., Hastie, T., & Tibshirani, R. (2010). Regularization Path For Generalized Linear Models by Coordinate
  • Descent. Journal of Statistical Software(33). https://www.jstatsoft.org/article/view/v033i01 adresinden alındı
  • Géron, A. (2019). Hands-on Machine Learning with Scikit-Learn, Keras, and TensorFlow. O’Reilly Media.
  • Gujarati, N., D., & Madsen, J. B. (1998, February). Basic econometrics. Journal of Applied Econometrics(13), s. 209-212.
  • Hoerl, A. E., & Kennard, a. R. (1970, January). Ridge regression: Biased estimation for nonorthogonal problems. Technometrics(12), s. 55-67. https://www.math.arizona.edu/~hzhang/math574m/Read/RidgeRegressionBiasedEstimationForNonorthogonalProblems.pdf adresinden alındı
  • Hu, J., Niu, H., Carrasco, J., Lennox, B., & Arvin, F. (2020). Voronoi-Based Multi-Robot Autonomous Exploration in Unknown Environments via Deep Reinforcement Learning. IEEE Transactions on Vehicular Technology, 12(69), s. 14413-14423.
  • James, G., Witten, D., Hastie, T., & Tibshirani, R. (2017). An Introduction to Statistical Learning. New York Heidelberg Dordrecht London: Springer.
  • Kratsios, A. (2020). Deep Arbitrage-Free Learning in a Generalized HJM Framework via Arbitrage-Regularization Data. https://www.mdpi.com/2227-9091/8/2/40 adresinden alındı
  • Mitchell, T. (1997). Machine Learning. New York: McGraw Hill.
  • NCSS. (2020). Ridge Regression. NCSS Statistical Software. içinde NCSS Statistical Software. 02 05, 2021 tarihinde https://ncss-wpengine.netdna-ssl.com/wp-content/themes/ncss/pdf/Procedures/NCSS/Ridge_Regression.pdf adresinden alındı
  • Neumaier, A. (1998). Solving ill-conditioned and singular linear systems: A tutorial on regularization. https://www.mat.univie.ac.at/~neum/ms/regtutorial.pdf adresinden alındı
  • Samuel, A. L. (1959, July). Some studies in machine learning using the game of checkers. IBM Journal of Research and Development, s. 211-229. doi:https://doi.org/10.1147/rd.33.0210
  • Scikit-Learn. (2020). Linear Models, 1.1.3. Lasso, scikit-learn 0.23.2, User Guide. Scikit-Learn: https://scikit-learn.org/stable/modules/linear_model.html adresinden alındı
  • Tibshirani, R. (1996). Regularized shrinkage and selection via the lasso. Journal of the Royal Statistical Society(58(1)), s. 267-288.
  • Wikipedia. (2020). Least-angle regression. Wikipedia: https://en.wikipedia.org/wiki/Least-angle_regression adresinden alındı
  • Wikipedia. (2021). Regularization (mathematics). Wikipedia: https://en.wikipedia.org/wiki/Regularization_(mathematics) adresinden alındı
  • World Bank Open Data. (2021). World Bank, Open Data for Online Retrieval. https://data.worldbank.org/ adresinden alındı
  • World Bank, World Development Indicators. (2021). World Development Indicators. http://databank.worldbank.org/data/download/WDI_csv.zip adresinden alındı Zou, H., & Hastie, T. (2005, March 09). Regularization and variable selection via the elastic net. 2(67), 301-320. https://rss.onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x adresinden alındı