Veri Madenciliği Karar Ağaçları Kullanarak Ülkelerin İnovasyon Değerlerinin Tahmini ve Doğrusal Regresyon Modeli ile Karşılaştırmalı Bir Uygulama

Ülkelerin sahip olduğu inovasyon seviyeleri ve kapasiteleri, günümüzde hem rekabet edebilirlik hem de yaşamakta olduğumuz Endüstri 4.0 Devrimi açısından son derece önemlidir. Bu kapsamda bakıldığında, ülkeler açısından kapasite ve seviye göreceli bir kavram olarak kalmaktadır ve küresel karşılaştırmalar açısından ortak bir ölçme sistemine gereksinim vardır. Bu ihtiyacı önemli ölçüde karşılayan Ağ Yapılara Hazır Olma Endeksi (AYHOE) ve Küresel İnovasyon Endeksi (KİE), ülkelerin inovasyon seviyelerinin belirlenmesinde etkili ve kapsamlı endekslerdir. Ayrıca her iki endeks de akademik altyapıya sahiptir ve bu nedenle araştırmacılar için önemli bir veri kaynağıdır. Bu çalışma, KİE değeri ve AYHOE endeksine ait alt endekslerin boyutlarında yer alan göstergeler kullanılarak, denetimli makine öğrenmesi temellerine dayanan bir veri madenciliği tekniği olan regresyon ağacı analizi ve doğrusal regresyon analizi uygulamalarını ve karşılaştırmasını içermektedir. Araştırmanın amacı regresyon ağacı uygulayarak, AYHOE göstergelerinden hareketle KİE tahminlemesi yapmak ve en iyi ayrılmayı sağlayan KİE göstergelerini belirlemektir. Analiz için Sınıflandırma ve Regresyon Ağacı ((SRA) - Clasification and Regression Tree (CART)) algoritması kullanılmıştır. Analiz sonucunda AYHOE kapsamındaki hangi göstergelerin, KİE değerleri tahmininde ve ülke sıralamasında kullanılabileceği belirlenmiştir. Aynı veri seti kullanılarak doğrusal regresyon analizi uygulanmıştır. SRA algoritması ile elde edilen regresyon ağacı sonuçları, doğrusal regresyon modelinden elde edilen çıkarımlar ile karşılaştırılmıştır.

Prediction of Innovation Values of Countries Using Data Mining Decision Trees and a Comparative Application with Linear Regression Model

Innovation levels and capacities of countries are two very important factors for competitiveness as well as the current Industrial 4.0 Revolution. In this context, capacity and level are relative concepts, with a great need for a common measurement system on global-based comparisons. The Network Readiness Index (NRI) and the Global Innovation Index (GII), which meet this need to a significant extent, are globally important indices with an effective and academic infrastructure to determine the innovation levels of countries. This study includes regression tree analysis and linear regression analysis and comparison using the indicators within the dimensions below the subscales of the GII score and NRI index based on supervised machine learning. The regression tree application aimed to make the GII estimation based on the NRI indicators and determine the best discriminating GII indicators. Therefore, the Classification and Regression Tree (CART) algorithm is used for analysis. The analysis result determined the indicators within the scope of NRI that are used in the GII scores and country ranking estimation. Linear regression analysis was performed with the same data set, and the regression tree obtained by the CART algorithm was compared with the linear regression model.

___

  • Agarwal, R., Mittal, M. & Pareek, S. (2016). Loss profit estimation using temporal association rule mining. International Journal of Business Analytics, 3(1), 45-57.
  • Amiri, S. & Woodside, J. M. (2017). Emerging markets: The impact of ICT on the economy and society. Digital Policy, Regulation and Governance, 19(5), 383-396.
  • Andersson, U., Dasi ̀, A ̀., Mudambi, R. & Pedersen, T. (2016). Technology, innovation and knowledge: The importance of ideas and international connectivity. Journal of World Business, 51, 153-162.
  • Berk, R. A. (2016). Statistical learning from a regression perspective, (2nd ed.). Cham, Switzerland: Springer International Publishing.
  • Binz, C. & Truffera, B. (2017). Global innovation systems - A conceptual framework for innovation dynamics in transnational contexts. Research Policy, 46, 1284-1298.
  • Ceyhan, G. (2014). Üniversite öğrencilerinin yansıtıcı düşünme düzeyleri ve araştırmaya yönelik kaygılarının çeşitli değişkenler açısından CART analizi ile incelenmesi. (Yüksek Lisans Tezi). Yüzüncü Yıl Üniversitesi Eğitim Bilimleri Enstitüsü, Van.
  • Cho, J. H. & Kurup, P. U. (2011). Decision tree approach for classification and dimensionality reduction of electronic nose data. Sensors and Actuators B: Chemical, 160, 542-548.
  • Cornell University, INSEAD & WIPO. (2016). The Global Innovation Index 2016: Winning with Global Innovation. Ithaca, Fontainebleau and Geneva.
  • Doğruel Anuşlu, M. ve Fırat, S. Ü. (2019). Endüstri 4.0 ve sürdürülebilirlik etkileşimi: Küresel endesklerle değerlendirmeler. İçinde E. S. Bayrak Meydanoğlu, M. Klein, ve D. Kurt (Edler). Dijital dönüşüm trendleri (ss 56-100). Vefa, İstanbul: Filiz Kitapevi.
  • Fa ́vero, L. P. & Belfiore, P. (2019). Data science for business and decision making. United Kingdom, UK: Academic Press.
  • Fırat, O. Z. ve Fırat, S. Ü. (2017a). Endüstri 4.0 yolculuğunda trendler ve robotlar. Istanbul University Journal of the School of Business, 46-2, 211-223.
  • Fırat, S. Ü. ve Fırat, O. Z. (2017b). Sanayi 4.0 Devrimi üzerine karşılaştırmalı bir inceleme: Kavramlar, küresel gelişmeler ve Türkiye. Toprak İşveren Dergisi, 114, 10-23.
  • Gault, F. (2018). Defining and measuring innovation in all sectors of the economy. Research Policy, 47, 617-622.
  • Guller, M. (2015). Big data analytics with spark: a practitioner’s guide to using spark for large scale data analysis. New York, NY: Apress
  • Khoshgoftaar, T. M., Allen E. B. & Deng, J. (2005). Using regression trees to classify fault-prone software modules. In D. Zhang & J. J. P. Tsai (Eds.), Machine learning application in software engineering (pp. 87-94). 5 Toh Tuck Link, Singapore: World Scientific Publishing Co. Pte. Ltd.
  • Kim, K. & Hong, J. (2017). A hybrid decision tree algorithm for mixed numeric and categorical data in regression analysis. Pattern Recognition Letters, 98, 39-45.
  • Kononova, K. (2015). Some aspects of ICT measurement: Comparative analysis of e-indexes. In Proceedings of the 7th International Conference on Information and Communication Technologies in Agriculture, Food and Environment (HAICTA 2015). Kavala, Greece.
  • Kowal, J & Paliwoda-Pękosz G. (2017). ICT for global competitiveness and economic growth in emerging economies: Economic, cultural, and social innovations for human capital in transition economies. Information Systems Management, 34(10), 304-307.
  • Kuzey, C. (2012). Veri madenciliğinde destek vektör makinaları ve karar ağaçları yöntemlerini kullanarak bilgi çalışanlarının kurum performansı üzerine etkisinin ölçülmesi ve bir uygulama. (Doktora Tezi). İstanbul Üniversitesi İşletme Anabilim Dalı Sayısal Yöntemler Bilim Dalı, İstanbul.
  • Maimon, O. & Rokach, L. (2005). Decision tree. In O. Maimon & L. Rokach (Eds.), The data mining and knowledge discovery handbook (pp. 165-192). New York, NY: Springer Science+Business Media, Inc.
  • Mataradzija, A., Rovcanin, A. & Mataradzija, A. (2013). Innovation and innovative performance in the European Union. In Proceedings of the Management, Knowledge and Learning International Conference. Bangkok, Thailand; Celje, Slovenia; Lublin, Poland: ToKnowPress.
  • Silvestre, B. S. & Ti ̂rca ̆, D. M. (2019). Innovations for sustainable development: Moving toward a sustainable future. Journal of Cleaner Production, (208). 325-332. Organisation For Economic Co-operation and Development (OECD). (2005). Oslo Manual: Guidelines for collecting and interpreting innovation data (3rd ed.). Paris, France: OECD Publishing.
  • Parziale, L., Benke, O., Favero, W., Kumar, R., Lafalce, S., Madera, C. & Muszytowski, S. (2016). Enable real-time analytics on IBM z systems platform. Retrieved from http://www.redbooks.ibm.com/redbooks/pdfs/sg248272.pdf
  • Preda, A., Crișan, D. A., Stănică, J. L. & Samuel, A. N. A. (2016). Transectional analysis between innovation and ICT readiness for the european union countries. Journal of Information Systems & Operations Management, 10(2), 393-403.
  • Purohit, S. K. & Sharma, A. K. (2017), Development of data mining driven software tool to forecast the customer requirement for quality function deployment. International Journal of Business Analytics, (4)(1), 56-86.
  • Putler, D. S. & Krider, R. E. (2015). Customer and business analytics: Applied data mining for business decision making using R. Boca Raton, FL: CRS Press.
  • Rokach, L. & Maimon O. (2015). Data mining with decision trees: Theory and applications, (2nd ed.). 5 Toh Tuck Link, Singapore: World Scientific Publishing Co. Pte. Ltd.
  • Soman, K. P., Diwakar, S. & Ajay, V. (2009). Data mining: Theory and practice. Patparganj Industrial Area, Delhi: PHI Learning Private Limited.
  • Sumathi, S. & Paneerselvam, S. (2010). Computational intelligence paradigms: Theory & applications using MATLAB. Boca Raton, FL: CRS Press.
  • Sutton, C. D. (2005). Classification and regression trees, bagging, and boosting. In C. R. Rao, E. J. Wegman & J. L. Solka (Eds). Data mining and data visualization (pp. 303-328). Amsterdam, The Netherlands: Elsevier B.V.
  • Tutz, G. (2012). Regression for categorical data. New York, NY: Cambridge University Press.
  • World Economic Forum, INSEAD & Cornell University. (2016). The Global Information Technology Report 2016: Innovating in the Digital Economy. Geneva, Fontainebleau and Ithaca.
  • Wu, X., Kumar, V., Ross Quinlan, J., Ghosh, J., Yang, Q. & Motoda, H. (2008). Top 10 algorithms in data mining, Knowl Inf Syst, 14, 1-37.
  • Yang, L., Liu, S., Tsoka, S. & Papageorgiou, L. G. (2017). Regression tree approach using mathematical programming. Expert Systems With Applications, 78, 347-357.
  • Yohannes, Y. & Webb, P. (1999). Classification and regression trees, CART: A user manuel for identifying indicators of vulnerabilty to famine and chronic food insecurity. New York, NY: International Food Policy Research Institute.
  • Zoroja, J. (2016). Impact of ICTs on innovation activities: Indication for selected european countries. Naše gospodarstvo/Our Economy, 62(3), 39-51.