Kötücül URL Filtreleme için Derin Öğrenme Modeli Tasarımı

Web saldırılarında yeni tekniklerin kullanımı ile birlikte birçok web uygulaması çeşitli güvenlik tehditlerine ve ağ saldırılarına maruz kalmaktadır. URL adresleri de bu güvenlik mimarisinin odak noktasını oluşturmaktadır. Birçok web uygulamasına URL adresleri üzerinden erişim sağlanmaktadır. Bu durum siber korsanların, URL adreslerini suç işlemek için kullanabilecekleri bir araç haline getirmektedir. Son kullanıcıları korumak amacıyla bu adreslerin tespit edilerek nasıl filtreleneceği çözülmesi gereken bir problemdir. Bu çalışmada kötü amaçlı URL adreslerinin tespiti için derin öğrenme ağı(DNN) tasarlanmıştır. Çalışmanın ilk aşamasında URL adresleri metin tabanlı analiz yapılarak işlenmiştir. Sonrasında 1 giriş, 3 gizli ve 1 çıkış katmanından oluşan DNN modeli sınıflandırma için eğitilmiştir. Model ISCX-URL2016 veriseti ile test edilmiş olup deneysel sonuçlar önerilen yapının yüksek hassasiyetli sınıflandırma için uygun olduğunu göstermiştir. Verisetinde iyicil 7781, tahrif edilmiş 7930, kimlik avı 7586, kötü amaçlı yazılım dağıtan 6712 ve spam türünde 6698 örnek bulunmaktadır. Her bir örnek için 79 özellik bulunmaktadır. Deneyler sonucunda 5 sınıftan oluşan problem için %95,4 doğruluk, %95,5 kesinlik, %95,4 duyarlılık ve f skoru değerine ulaşılmıştır. Bu çalışmanın birinci aşamasında Doc2Vec ağı kullanılarak özellikler çıkarılmıştır. Doc2Vec kullanılarak yapılan sınıflandırmada çok sınıflı problem için alınan %88.1 doğruluk değeri, bu çalışmada %95,4’e yükseltilmiştir. Metin tabanlı analizin vektör tabanlı analize göre çoklu sınıflandırma için daha başarılı olduğu gösterilmiştir. Sonuçta, web sitelerini ziyaret edenlerin niyetlerini belirlemek için URL adreslerini kullanmak etkin bir yöntemdir. Derin öğrenme modellerinin kullanılması web araştırmaları için önemli teorik ve bilimsel değere sahiptir ve güvenlik internet ortamı için farklı imkânlar sağlamaktadır.

A Deep Learning Model for Malicious Url Filtering

Many web applications are exposed to various security threats and network attacks with the use of new techniques in web attacks. Url addresses are also the focus of this security architecture. Many web applications are accesses via Url addresses. This makes it a tool that hackers can use to commit crimes. In order to protect the end users, how to detect and filter these addresses is a problem that needs to be solved. In this study, a deep neural network (DNN) is designed for the detection of malicious Urls. In the first stage of the study, Url addresses were processed by making text-based analysis. Afterwards, the DNN model consisting of 1 input, 3 hidden and 1 output layers is trained for classification. The model was tested with the ISCX-URL2016 dataset and the experimental results showed that the proposed structure is suitable for high precision classification. The dataset includes 7781 benign, 7930 defacement, 7586 phishing, 6712 malware and 6698 spam urls. There are 79 features for each sample. As a result of the experiments, 95.4% accuracy, 95.5% precision, 95.4% sensitivity and f-score values were achieved for the problem consisting of 5 classes. In the first stage of this study, features were extracted using the Doc2vec network. In the classification made using Doc2vec, the accuracy value of 88.1% for the multi-class problem was increated to 95,4% in this study. It has been shown that text-based analysis is more successful for multiclass classification then vector-based analysis. After all, using Url addresses is an effective method to determine the intentions of website visitors. The use of deep learning models has important theoretical and scientific value for web research and provides different possibilities for the security internet environment.

___

  • Shen He, Bangling Li, Huaxi Peng, Jun Xin, Erpeng Zhang, “An effective cost-sensitive Xgboot method for malicious URLs detection in imbalanced dataset”, IEEE Access, 9, 1-8, 2021.
  • Malware variety grows by 13.7% in 2019 due to web skimmers, https://www.kaspersky.com/about/press-releases/2019_malware-variety-grows-by-137-in-2019-due-to-web-skimmers, 12/12/2019.
  • Jianting Yuan, Guanxin Chen, Shenwwei Tian, Xinjun Pei, “Malicious URL detecion based on a parallel neural joint model”, IEEE Access, 9, 1-9, 2021.
  • M. Indra Devi, K. Selvakuberan, R. Rajaram, “Fast web page classification without accessing the web page using machine learning techiques”, JIIK, 1(1), 1-10, 2009.
  • Gopinath Palaniappan, Sangeetha S., Balaji Rajendran, Sanjay, Shubham Goyal, Bindhumadhava B S., “Malicious domain detection using machine learning on domain name features, host-based features and web-based features”, 3rd international conference on computing and network communications (CoCoNet’19), 171, 654-661, 2020.
  • Jeff Ebeling, Domain Age as an Internet Filter Criteria, https://www.mcafee.com/blogs/enterprise/cloud-security/domain-age-as-an-internet-filter-criteria/, 17/02/2021.
  • Matija Stevanoviz, Jens Myrup Pedersen, Alessandro D’Aconzo, Stefan Ruehrup, Andread Berger, “On the ground truth problem of malicious DNS traffic analyis”, Computer & Security, 55, 142-158, 2015.
  • Yung-Tsung Hou, Yimeng Chang, Tsuhan Chen, Chi-Sun Laih, “Malicious web content detection by machine learning”, Expert systems with applications 37(1), 55-60, 2010.
  • Yunhua Huang, Tao Li, Lijia Zhang, Beibei Li, Xiaojie Liu, “JSContana: Malicious Javascript detection using adaptable context analysis and key feature extraction”, Computer & Security, 104, 1022018, 2021.
  • Recep Sinan ARSLAN, “Kötücül web sayfalarının tespitinde Doc2Vec modeli ve makine öğrenmesi yaklaşımı”, European Journal of Science and Technology, 2021 (Accepted).
  • Brij B. Gupta, Krishna Yadav, Imran Razzak, Konstantinos Psannis, Arcangelo Castiglione, Xiaojun Chang, “A novel approach for phishing URLs detection using lexical based machine learning in a real-time environment”, Computer Commmunications, 175, 47-57, 2021.
  • Yukun Li, Zhenguo Yang, Xu Chen, Huaping Yuan, Wenyin Liu, “A stacking model using URL and Html features for phishing web page detection”, Future Generation Computer Systems, 94, 27-39, 2019.
  • Özgür Koray Şahingöz, Ebubekir Buber, Önder Demir, Banu Diri, “Machine learning based phishing detection from URLs”, Expert Systems with Applications, 117, 345-357, 2019.
  • Wei Wei, Qiao Ke, Jakub Nowak, Marcin Korytkowski, Rafat Scherer, Marcin Wozniak, “Accurate and fast URL phishing detector: A convolutional neural network approach”, Computer Networks, 178, 107275, 2020.
  • ISCX-URL2016 legitimate and phishing URL Dataset. https://www.unb.ca/cic/datasets/url-2016.html
  • Mohammad Saiful Islam Mamun, Mohammad Ahmad Rathore, Arash Habibi Lashkari, Natalia Stakhanova, Ali A. Ghorbani, “Detecting Malicious URLs Using Lexical Analysis”, Network and System Security, Springer International Publishing, 467-482, 2016.
  • Vinayakumar Ravi, Soman Kp, Prabaharan Pornachandran, “Evaluationg deep learning approaches to characterize and classify malicious URL’s”, Journal of Intelligent and Fuzzy Systems, 34, 1333-1343, 2018.
  • Rupa Chiramdasu, Gautam Srivastava, Sweta Bhattacharya, Praveen Kumar Reddy, Thippa Reddy Gadekallu, “Malicious URL Detection using Logistic Regression”, International Conference on Omni-Layer Intelligent Systems (COINS), 1-6, 2021.
  • Barerem Megueba Mao, Kanlanfei Damnam Bagolibe, “A Contribution to Detect and Prevent a Website Defacement”, 2019 International Conference on Cyberworlds (CW), Kyoto, Japan, 2019.
  • Tariro Manyumwa, Philip Francis Chapita, Hanlu Wu, Shouling Ji, “Towards Fighting Cybercrime: Malicious URL Attack Type Detection using Multiclass Classification” ,IEEE International Conference on Big Data (Big Data), 2020, 1813-1822.