Büyük Veri: Uygulama Alanları, Analitiği ve Güvenlik Boyutu

Dünyadaki veri hacmi ve veri çeşitliliği, insanlık tarihinde daha önce hiçgörülmediği hızda artmaktadır. İnternet teknolojilerinin ve sosyal medyanınhayatımızın her evresine ve hatta cep telefonlarımıza girmesiyle, insanlargünlük faaliyetlerinde bile veri üretir duruma gelmiştir. Dünün manuel olarakçalışan araç gereçleri, bugün akıllı cihazlar olarak anılmakta ve hemen hepsisensörleri vasıtasıyla veri üretmektedir. Bu kadar yoğun ve farklı verinin farklıkaynaklardan giderek artan bir şekilde üretilmesi, yeni bir kavramı ortayaçıkarmıştır: “Büyük Veri”. Büyük veri yüksek hacim, hız ve çeşitlilikte üretilenyapısal, yarı yapısal ve yapısal olmayan veri bütünüdür. Birçok endüstriyel alan,yeni veri üreterek veya mevcut veriyi sayısallaştırarak büyük veriye kaynakoluşturmaktadır. Organizasyonların rekabet avantajı kazanmasında, bilgiönemli bir üretim faktörüdür. Bu noktada büyük verinin bilginin ham maddesiolması ve dolayısıyla karar verme süreçlerini etkilemesi, büyük veri analitiğininönemini artırmaktadır. Büyük veriden ekonomik değer elde edilebilmesi için,doğruluğu sağlanmış verinin ileri analitik yöntemlerle işlenmesi gerekmektedir.Bugün, ekonomik ve ticari faaliyetlerden kamu yönetimine, ulusal güvenliktenbilimsel araştırmalara kadar birçok alanda, büyük veri ve analitiğindenyararlanılmaktadır. Hergün 2,5 eksabayt (1 eksabayt=1.073.741.824 gigabayt)hacminde verinin üretildiği günümüzde, dünün ilişkisel veritabanı ve yapısalsorgulama dilleri ile büyük veri analitiğinin gerçekleştirilmesi mümküngözükmemektedir. Büyük veriyi işlemek adına başta Hadoop, Eşle-İndirge(Map-Reduce) olmak üzere, Hive, Hcatalog, Hbase, MPP (Massively ParallelProcessing), PIG, Mahout, NoSQL ve Cassandra gibi dağıtık dosya sistemleriüzerinde çalışan ileri analitik yöntemlerden yararlanılmaktadır. Büyük verianalitiği, sunmuş olduğu faydaların yanı sıra kişisel bilgilerin mahremiyetinitehlikeye atabilecek güvenlik zafiyetlerini de oluşturabilmektedir. Buçalışmada; büyük veri olgusu, bileşenleri ve kaynakları boyutunda ele alınmış,büyük verinin uygulama alanlarında sağladığı avantajlar üzerinde durulmuş,büyük veri analitiği süreçleri ve ileri analitik yöntemlerden, dağıtık dosyasistemi üzerinde Eşle-İndirge modelini çalıştıran Hadoop yazılım mimarisininişleyişi incelenmiştir. Bununla birlikte büyük verinin sunduğu avantajların yanısıra oluşturduğu güvenlik sorunları da irdelenmiş ve bu kapsamda alınmasıgereken güvenlik önlemleri değerlendirilmiştir.

Big Data: Application Areas, Analytics and Security Dimension

Volume and variety of data have been increasing globally in an unprecedented rate throughout human history. People begin to create data even in their daily activitiesthanks to the advent of internet technologies and social media on every stage of our lives and especially our mobile phones. While operated manually in old days, many devices today are referred as intelligent, and almost all of them produce sensor data. Producing such an intense and different data from various sources reveals a new concept: “Big Data”. Big data is a collection of structured, semi-structured and unstructured data generated in high volume, velocity and variety. Numerousindustrial areas are sources of big data by means of generating new data or digitizing the existing data. Information is an essential production factor of the organizations to gain competitive advantage. In this respect, the fact that big data is an input for information, and therefore affecting decision-making processes, increases the importance of big data analytics. Deriving economic value from big data requires processing validated data by advanced analytical methods. At present, big data and analytics are used in many areas from economic and commercial activities to public administration, from national security to scientific research. In today’s world where 2.5 exabytes (1 exabyte = 1,073,741,824 gigabytes) of data is produced in a day, it deems impossible to perform big data analytics with obsolete relational database and structured query languages. In order to process big data, advanced analytic methods operating on distributed file systems such as Hadoop and Map-Reduce are foremostly used in addition to Hive, Hcatalog, Hbase, MPP (Massively Parallel Processing), PIG, Mahout, NoSQL and Cassandra. Despite it’s benefits, big data analytics can be a reason of some security vulnerabilities jeopardizing the privacy of personal information. In this study; big data phenomenon along with its components and sources has been explained, advantages of big data in some application areas have been focused, big data analytics processes and the operation of Hadoop software architecture, which runs the Map-Reduce model on the distributed file system, have been examined. Furthermore, besides the advantages offered by big data, the security problems it creates have also been examined, and in this context some security measures to be taken have been evaluated.

___

  • Achsas, S. ve Nfaoui, E. H. (2017, 17-19 Nisan). Improving Relational Aggregated Search from Big Data Sources Using Deep Learning. 2017 Intelligent Systems and Computer Vision (ISCV), Morocco, Fez, 1-6.
  • Archenaa, J. ve Anita, E. A. M. (2015). A Survey of Big Data Analytics in Healthcare and Government. Procedia Computer Science, 50, 408-413.
  • Aslam, S. (2018, 01 Ocak). Facebook by the Numbers: Stats, Demographics & Fun Facts. 02 Mart 2018 tarihinde https://www.omnicoreagency.com/facebook-statistics/ adresinden erişildi. Aydınlatılmış Onam Kılavuzu (2013, 19 Kasım). 28 Aralık 2017 tarihinde http://www.ttb.org. tr/mevzuat/index.php?option=com_content&view=article&id=983:onam&catid=26:etik&Itemid= 65 adresinden erişildi.
  • Bakshi, K. (2012, 03-10 Mart). Considerations for Big Data: Architecture and Approach. 2012 IEEE Aerospace Conference, Big Sky, MT, U.S.A., 1-7.
  • Boyd, D. ve Crawford, K. (2011, 21-24 Eylül). Six Provocations for Big Data. A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society, University of Oxford, 1-17.
  • Bradlow, E. T., Gangwar, M., Kopalle, P. ve Voleti, S. (2017). The Role of Big Data and Predictive Analytics in Retailing. Journal of Retailing, 93(1), 79-95.
  • Burnham, K. (2014, 21 Şubat). Facebook’s WhatsApp Buy: 10 Staggering Stats. 02 Mart 2018 tarihinde https://www.informationweek.com/software/social/facebooks-whatsapp-buy-10-stagger ing-stats- /d/d-id/1113927? adresinden erişildi.
  • Chandra, S., Ray, S. ve Goswami, R. T. (2017, 05-07 Ocak). Big Data Security: Survey on Frameworks and Algorithms. 2017 IEEE 7th International Advance Computing Conference (IACC), Hyderabad, India, 48-54.
  • Charney, S. (2012a, 28 Şubat). Trustworthy Computing Next (Version 1.01). Microsoft Corporation Trustworthy Computing.
  • Charney, S. (2012b, 28 Şubat). RSA Conference 2012 Keynote - TwC for Our Computing Centric Society. 04 Ocak 2018 tarihinde https://www.youtube.com/watch?v=pBXN1i4Kob0 adresinden erişildi.
  • Cox, M. ve Ellsworth, D. (1997, 18-24 Ekim). Application-Controlled Demand Paging for Out-of-core Visualization. Proceedings of the 8th Conference on Visualization’97, Phoenix, AZ, U.S.A., 235- 244.
  • Cyganek, B., Graña, M., Krawczyk, B., Kasprzak, A., Porwik, P.,Walkowiak, K. ve Woźniak, M. (2016). A Survey of Big Data Issues in Electronic Health Record Analysis. Applied Artificial Intelligence, 30(6), 497-520.
  • Dean, J. ve Ghemawat, S. (2004, 06-08 Aralık). MapReduce: Simplified Data Processing on Large Clusters. OSDI’04 Proceedings of the 6th conference on Symposium on Operating Systems Design & Implementation, San Francisco, CA, U.S.A., 137-150.
  • Debattista, J., Lange, C., Scerri, S. ve Auer, S. (2015, 07-10 Aralık). Linked ‘Big’ Data: Towards a Manifold Increase in Big Data Value and Veracity. 2015 IEEE/ACM 2nd International Symposium on Big Data Computing (BDC), Limassol, Cyprus, 92-98.
  • Demchenko, Y., Ngo, C. ve Membre, P. (2013, Eylül). Architecture Framework and Components for the Big Data Ecosystem Draft Version 0.2 (SNE Technical Report SNE-UVA-2013-02). System and Network Engineering Group & Universiteit VanAmsterdam.
  • Diebold, F. X. (2013). ‘Big Data’ Dynamic Factor Models for Macroeconomic Measurement and Forecasting. M. Dewatripont, L. P. Hansen ve S. J. Turnovsky (Ed.), Advances in Economics and Econometrics, Theory and Applications, Eighth World Congress of the Econometric Society, Volume III (ss. 115-122) içinde. Cambridge, United Kingdom: Cambridge University Press. Ege, B. (2013). Rastlantının Bittiği Yer Big Data. Bilim ve Teknik, 550, 22-26.
  • Ersöz, S. ve Ersöz, O. Ö. (2015). İşletmelerde Bilgi Sistemleri Uygulamalı Örneklerle. (1. Baskı). Ankara: Nobel Akademik Yayıncılık.
  • Fang, K., Jiang, Y. ve Song, M. (2016). Customer Profitability Forecasting Using Big Data Analytics: A Case Study of the Insurance Industry. Computers & Industrial Engineering, 101, 554-564.
  • Gahi, Y., Guennoun, M. ve Mouftah, H. T. (2016, 27-30 Haziran). Big Data Analytics: Security and Privacy Challenges. 2016 IEEE Symposium on Computers and Communication (ISCC), Messina, Italy, 952-957.
  • Gandomi, A. ve Haider, M. (2015). Beyond the Hype: Big Data Concepts, Methods, and Analytics. International Journal of Information Management, 35(2), 137-144.
  • George, G., Haas, M. R. ve Pentland, A. (2014). From the Editors Big Data and Management. Academy of Management Journal, 57(2), 321-326.
  • Gerhardt, B., Griffin, K. ve Klemann, R. (2012, Haziran). Unlocking Value in the Fragmented World of Big Data Analytics How Information Infomediaries Will Create a New Data Ecosystem. Cisco Internet Business Solutions Group (IBSG).
  • Ghemawat, S., Gobioff, H. ve Leung, S. T. (2003). The Google File System. Operating Systems Review (ACM), 37(5), 29-43.
  • Goes, P. B. (2014). Big Data and IS Research. MIS Quarterly, 38(3), iii-viii. Golov, N. ve Rönnbäck, L. (2017). Big Data Normalization for Massively Parallel Processing Databases. Computer Standards & Interfaces, 54(2), 86-93.
  • Gökçen, H. (2011). Yönetim Bilgi / Bilişim Sistemleri: Analiz ve Tasarım. (2. Baskı). Ankara: Afşar Matbaacılık.
  • Groves, P., Kayyali, B., Knott, D. ve Kuiken, S. V. (2013, Ocak). The “Big Data” Revolution in Healthcare, Accelerating Value and Innovation. Washington, DC, U.S.A.: Center of US Health System Reform Business Technology Office, McKinsey & Company.
  • Hamami, O. (2014). Big Data Security: Understanding the Risks. Business Intelligence Journal, 19(2), 20-26.
  • Kart, A. (2013, 26-28 Haziran). ‘Live Case Demonstration’ ve Aydınlatılmış Onam Bağlamında Kişisel Verilerin Korunması. 3. Uluslararası Bilişim Hukuku Kurultayı, İzmir, 135-141.
  • Katal, A., Wazid, M. ve Goudar, R. H. (2013, 08-10 Ağustos). Big Data: Issues, Challenges, Tools and Good Practices. 2013 Sixth International Conference on Contemporary Computing (IC3), Noida, India, 404-409.
  • Kişisel Verileri Koruma Kurumu. (2018, Mart). Kişisel Verilerin Korunması Kanununa İlişkin Uygulama Rehberi. Ankara: KVKK Yayınları.
  • Kuiler, E. W. (2014). From Big Data to Knowledge: An Ontological Approach to Big Data Analytics. Review of Policy Research, 31(4), 311-318.
  • Leskovec, J., Rajaraman, A. ve Ullman, J. D. (2014). Mining of Massive Datasets. (2nd Edition). Cambridge, United Kingdom: Cambridge University Press.
  • Manca, S., Caviglione, L. ve Raffaghelli, J. E. (2016). Big Data for Social Media Learning Analytics: Potentials and Challenges. Journal of E-Learning and Knowledge Society, 12(2), 27-39.
  • Mantha, B. (2014). Five Guiding Principles for Realizing the Promise of Big Data. Business Intelligence Journal, 19(1), 8-11.
  • Mauro, A. D., Greco, M. ve Grimaldi, M. (2016). A Formal Definition of Big Data Based on Its Essential Features. Library Review, 65(3), 122-135.
  • McNeely, C. L. ve Hahm, J. (2014). The Big (Data) Bang: Policy, Prospects, and Challenges. Review of Policy Research, 31(4), 304-310.
  • Miah, S. J., Vu, H. Q., Gammack, J. ve McGrath, M. (2017). A Big Data Analytics Method for Tourist Behaviour Analysis. Information and Management, 54(6), 771-785.
  • Minelli, M., Chambers, M. ve Dhiraj, A. (2013). Big Data Big Analytics: Emerging Business Intelligence and Analytic Trends for Today’s Businesses. (Volume 578). Hoboken, NJ, U.S.A.: Wiley CIO Series, John Wiley & Sons.
  • Naik, K. ve Joshi, A. (2017, 10-11 Şubat). Role of Big Data in Various Sectors. 2017 International Conference on I-SMAC (IoT in Social, Mobile, Analytics and Cloud), Tirupur, India, 117-122.
  • Narasimhan, R. ve Bhuvaneshwari, T. (2014). Big Data - A Brief Study. International Journal of Scientific & Engineering Research, 5(9), 350-353.
  • Ohlhorst, F. (2013). Big Data Analytics Turning Big Data into Big Money. Hoboken, NJ, U.S.A.: J. Wiley and SAS Business Series, John Wiley & Sons.
  • Press, G. (2017, 20 Ocak). 6 Predictions for the $203 Billion Big Data Analytics Market. 20 Nisan 2018 tarihinde https://www.forbes.com/sites/gilpress/2017/01/20/6-predictions-for-the-203-billio n-bigdata-analytics-market/#6c45dcb20838 adresinden erişildi.
  • Radicati, S. ve Levenstein, J. (2015, Mart). Email Statistics Report, 2015-2019. Palo Alto, CA, U.S.A.: The Radicati Group, Inc.
  • Resmî Gazete. (2016a). 2016/8576 Sayılı Kişisel Verilerin Otomatik İşleme Tabi Tutulması Karşısında Bireylerin Korunması Sözleşmesi’nin İlişik Beyanlarla Birlikte Onaylanması Hakkında Karar. (Karar Tarihi: 29 Şubat 2016). 20 Nisan 2018 tarihinde http://www.resmigazete.gov.tr /eskiler/2016/03/20160317-2.pdf adresinden erişildi.
  • Resmî Gazete. (2016b). 6698 Sayılı Kişisel Verilerin Korunması Kanunu. (Kabul Tarihi: 24 Mart 2016). 24 Nisan 2016 tarihinde http://www.resmigazete.gov.tr/eskiler/2016/04/20160407-8.pdf adresinden erişildi.
  • Richards, N. M. ve King, J. H. (2014). Big Data Ethics. Wake Forest Law Review, 49(2), 393-432.
  • Sağıroğlu, Ş. ve Sinanç, D. (2013, 20-24 Mayıs). Big Data: A Review. 2013 International Conference on Collaboration Technologies and Systems (CTS), San Diego, CA, U.S.A., 42-47.
  • Schneider, R. D. (2012). Hadoop for Dummies. (Special Edition). Mississauga, Canada: John Wiley & Sons.
  • Setty, K. ve Bakhshi, R. (2013). What Is Big Data and What Does It Have to Do with IT Audit?. ISACA Journal, 3, 23-25.
  • Siddesh, G. M., Hiriyannaiah, S. ve Srinivasa, K. G. (2014). Driving Big Data with Hadoop Technologies. P. Raj ve G. C. Deka (Ed.), Handbook of Research on Cloud Infrastructures for Big Data Analytics (ss. 232-262) içinde. Hershey, PA, U.S.A.: Information Science Reference (An Imprint of IGI Global).
  • Singh, S. ve Singh, N. (2012, 19-20 Ekim). Big Data Analytics. 2012 International Conference on Communication, Information & Computing Technology (ICCICT), Mumbai, India, 1-4.
  • Smith, M., Szongott, C., Henne, B. ve Voigt, G. V. (2012, 18-20 Haziran). Big Data Privacy Issues in Public Social Media. 2012 6th IEEE International Conference on Digital Ecosystems and Technologies (DEST), Campione d’Italia, Italy, 1-6.
  • Srivastava, U. ve Gopalkrishnan, S. (2015). Impact of Big Data Analytics on Banking Sector: Learning for Indian Banks. Procedia Computer Science, 50, 643-652.
  • Statista. (2016, Ekim). Share of Big Data and Business Analytics Revenues Worldwide in 2016, by Industry. 20 Nisan 2018 tarihinde https://www.statista.com/statistics/616225/worldwide-big-databusiness-analytics-revenue/ adresinden erişildi.
  • Sun, H. ve Heller, P. (2012, Ağustos). Oracle Information Architecture: An Architect’s Guide to Big Data (An Oracle White Paper in Enterprise Architecture). Redwood Shores, CA, U.S.A.: Oracle.
  • Tang, J. J. ve Karim, K. E. (2017). Big Data in Business Analytics: Implications for the Audit Profession. CPA Journal, 87(6), 34-39.
  • Türkiye Cumhuriyeti Anayasası. (1982). 24 Nisan 2018 tarihinde http://www.mevzuat.gov.tr/ MevzuatMetin/1.5.2709.pdf adresinden erişildi.
  • Twitter Usage Statistics. (t.y.). 26 Aralık 2017 tarihinde http://www.internetlivestats.com/twitterstatistics/ adresinden erişildi.
  • Wan, J., Tang, S., Li, D., Wang, S., Liu, C., Abbas, H. ve Vasilakos, A. V. (2017). A Manufacturing Big Data Solution for Active Preventive Maintenance. IEEE Transactions on Industrial Informatics, 13(4), 2039-2047.
  • Weiss, B. (2018, 17 Mart). Trump-Linked Firm Cambridge Analytica Collected Personal Information from 50 Million Facebook Users without Permission. 20 Nisan 2018 tarihinde http://www.businessinsider.com/cambridge-analytica-trump-firm-facebook-data-50-million-users -2018-3 adresinden erişildi.
  • What Is Big Data?. (t.y.). 25 Ekim 2014 tarihinde http://www-01.ibm.com/software/data/bigdata/ whatis-big-data.html adresinden erişildi.
  • Yavuz, G., Aytekin, S. ve Akçay, M. (2012). Apache Hadoop ve Dağıtık Sistemler Üzerindeki Rolü. Dumlupınar Üniversitesi Fen Bilimleri Enstitüsü Dergisi, 27, 43-54.
  • Yu, S., Yang, D. ve Feng, X. (2017, 09-10 Ekim). A Big Data Analysis Method for Online Education. 2017 10th International Conference on Intelligent Computation Technology and Automation (ICICTA), Changsha, China, 291-294.
  • Zafar, R., Yafi, E., Zuhairi, M. F. ve Dao, H. (2016, 16-17 Mayıs). Big Data: The NoSQL and RDBMS Review. 2016 International Conference on Information and Communication Technology (ICICTM), Kuala Lumpur, Malaysia, 120-126.
  • Zainal, N. Z., Hussin, H. ve Nazri, M. N. M. (2016, 22-24 Kasım). Big Data Initiatives by Governments - Issues and Challenges: A Review. 2016 6th International Conference on Information and Communication Technology for The Muslim World (ICT4M), Jakarta, Indonesia, 304-309.
  • Zeyu, J., Shuiping, Y., Mingduan, Z., Yongqiang, C. ve Yi, L. (2017). Model Study for Intelligent Transportation System with Big Data. Procedia Computer Science, 107, 418-426.
  • Zhou, K., Fu, C. ve Yang, S. (2016). Big Data Driven Smart Energy Management: From Big Data to Big Insights. Renewable and Sustainable Energy Reviews, 56, 215-225.