Netflix verileri üzerinde TF-IDF algoritması ve Kosinüs benzerliği ile bir İçerik Öneri Sistemi Uygulaması

Günümüzde kullanıcılar dijital platformlarda kullanılan çevrimiçi içerik sitelerinde bulunan içeriklerde arama yapmak, bulmak ve bunları zaman ve mekan bağımsız olarak tüketmek istemektedirler. İnternet üzerinden yayın yapan bu platformlar arasında dünya çapında en yaygın olanlardan birisi de Netflix’tir. Bu çalışmanın amacı TF-IDF (term frequency–inverse document frequency) algoritması ve Kosinüs benzerliği ile Doğal Dil İşleme (NLP) ile Netflix kullanıcı verileri üzerinde bir içerik öneri sistemi uygulaması geliştirmektir. Bu bağlamda çalışmamızda yapılan analizler ile benzerlik yöntemleri ve uygun eşleşme verilerinin bulunması, böylelikle kullanıcılara kişisel bazda öneri yapılması hedeflenmiştir. Çalışma kapsamında hem Türkçe ve hem de diğer dillerdeki filmler ve diziler üzerinde farklı deneyler yapılmıştır. Yapılan deneyler neticesinde kosinüs benzerliği kullanılarak en yüksek benzerlik başarısı %91, en düşük benzerlik başarısı ise %43 olarak elde edilmiştir. Deneyler aynı veriler üzerinde TF-IDF algoritması ile yapıldığında ise başarı oranı %99 ile %80 arasında elde edilmiştir. Çalışma sonuçları, TF-IDF algoritması ile yapılan deneylerde, kosinüs benzerliği kullanılarak yapılan deneylere nazaran daha yüksek başarı oranının elde edildiğini ortaya koymaktadır. Çalışmamızın benzerlik yöntemleri ve uygun eşleşme verileri kullanılarak kişisel bazda öneri yapmayı hedefleyen içerik tabanlı öneri sistemi uygulamalarının geliştirilmesi bağlamında literatüre katkı sağlayacağı değerlendirilmektedir.

A Content Recommendation System Application with TF-IDF Algorithm and Cosine Similarity on Netflix Data

Today, users want to search, find and consume content on online content sites used on digital platforms, regardless of time and place. Among these platforms that broadcast over the internet, one of the most common worldwide is Netflix. The purpose of this study is to develop a content recommendation system application on Netflix user data with TF-IDF (term frequency–inverse document frequency) algorithm and Natural Language Processing (NLP) with Cosine similarity. In this context, it is aimed to find similarity methods and suitable matching data with the analyzes made in our study, thus making suggestions to the users on a personal basis. Within the scope of the study, different experiments were carried out on films and TV series in both Turkish and other languages. As a result of the experiments, using cosine similarity, the highest similarity success was 91% and the lowest similarity success was 43%. When the experiments were performed with the TF-IDF algorithm on the same data, the success rate was between 99% and 80%. The results of the study reveal that a higher success rate is obtained in the experiments performed with the TF-IDF algorithm compared to the experiments using cosine similarity. It is considered that our study will contribute to the literature in the context of developing content-based recommendation system applications that aim to make suggestions on a personal basis using similarity methods and appropriate matching data.

___

Ahmad, S. (2017). Survey on recommendation system using data mining and clustering techniques. International Journal for Research in Engineering Application and Management (IJREAM), 3(9), 68-72.

Ahmed, H., Traore, I., & Saad, S. (2017). Detection of online fake news using n-gram analysis and machine learning techniques. In International conference on intelligent, secure, and dependable systems in distributed and cloud environments (pp. 127-138). Springer, Cham.

Akay, E. C., Soydan, N. T. Y., & Gacar, B. K. (2020). Makine öğrenmesi ve ekonomi: bibliyometrik analiz. PressAcademia Procedia, 12(1), 104-105.

Albayrak, A. (2020). Doğal Dil İşleme Teknikleri Kullanılarak Disiplinler Arası Lisansüstü Ders İçeriği Hazırlanması. Bilişim Teknolojileri Dergisi, 13(4), 373-383.

Al-Rimy, B. A. S., Maarof, M. A., Alazab, M., Alsolami, F., Shaid, S. Z. M., Ghaleb, F. A., ... & Ali, A. M. (2020). A pseudo feedback-based annotated TF-IDF technique for dynamic crypto-ransomware pre-encryption boundary delineation and features extraction. IEEE Access, 8, 140586-140598.

Amin, D. M., & Garg, A. (2019). Performance Analysis of Data Mining Algorithms. Journal of Computational and Theoretical Nanoscience, 16(9), 3849-3853.

Bansal S., (2021). Netflix Movies and TV Shows, https://www.kaggle.com/shivamb/netflix-shows

Başer, B. Ö., Yangın, M., Sarıdaş, E. S. (2021). Makine Öğrenmesi Teknikleriyle Diyabet Hastalığının Sınıflandırılması. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi, 25(1), 112-120.

Bennett, J., & Lanning, S. (2007). The netflix prize. In Proceedings of KDD cup and workshop (Vol. 2007, p. 35).

Beyaz, S., & Yaylı, Ş. B. (2021). Ortopedi ve Travmatolojide Yapay Zeka Uygulamaları: Artificial Intelligence Applications in Orthopaedics & Traumatology. Sağlık Bilimlerinde Yapay Zeka Dergisi (Journal of Artificial Intelligence in Health Sciences), 1(1), 12-15.

Bulut E. (2020, Kasım 18). Doğal dil işleme nedir? Doğal dil işleme kursları vb. https://turkiyeyapayzeka.com/dogal-dil-isleme/dogal-dil-isleme-nedir-dogal-dil-isleme-kurslari-vb/

Cahyani, D. E., & Patasik, I. (2021). Performance comparison of TF-IDF and Word2Vec models for emotion text classification. Bulletin of Electrical Engineering and Informatics, 10(5), 2780-2788.

Cai, X., Hu, Z., Zhao, P., Zhang, W., & Chen, J. (2020). A hybrid recommendation system with many-objective evolutionary algorithm. Expert Systems with Applications, 159, 113648.

Carrasco, S. S., & Rosillo, R. C. (2021). Word embeddings, cosine similarity and deep learning for identification of professions & occupations in health-related social media. In Proceedings of the Sixth Social Media Mining for Health (# SMM4H) Workshop and Shared Task (pp. 74-76).

Chaipornkaew, P., & Banditwattanawong, T. (2021). A recommendation model based on user behaviors on commercial websites using TF-IDF, KMeans, and Apriori algorithms. In International Conference on Computing and Information Technology (pp. 55-65). Springer, Cham.

Chen, J., Guo, Z., & Hu, J. (2021). Ring-Regularized Cosine Similarity Learning for Fine-Grained Face Verification. Pattern Recognition Letters, 148, 68-74.

El Naqa, I., & Murphy, M. J. (2015). What is machine learning?. In machine learning in radiation oncology (pp. 3-11). Springer, Cham.

Felfernig, A., Tran, T. N. T., & Le, V. M. (2021). Recommender Systems Beyond E-Commerce: Presence and Future. In Consumer Happiness: Multiple Perspectives (pp. 203-230). Springer, Singapore.

Gasparetti, F., Sansonetti, G., & Micarelli, A. (2021). Community detection in social recommender systems: a survey. Applied Intelligence, 51(6), 3975-3995.

Gürsakal, N. (2017). Makine öğrenmesi ve derin öğrenme. Dora Basım Yayın Dağıtım, Bursa.

Jalilifard, A., Caridá, V. F., Mansano, A. F., Cristo, R. S., & da Fonseca, F. P. C. (2021). Semantic sensitive TF-IDF to determine word relevance in documents. In Advances in Computing and Network Communications (pp. 327-337). Springer, Singapore.

Jiang, Z., Gao, B., He, Y., Han, Y., Doyle, P., & Zhu, Q. (2021). Text classification using novel term weighting scheme-based improved TF-IDF for Internet media reports. Mathematical Problems in Engineering, 2021.

Kılıç, I. (2021). Sağlık Bilimlerinde Yapay Zeka Ve Makine Öğrenmesi. https://healthintechno.com/2021/02/22/saglik-bilimlerinde-yapay-zeka-ve-makine-ogrenmesi/

Korkmaz, T., Çetinkaya, A., Aydin, H., & Barışkan, M. A. (2021). Analysis of whether news on the Internet is real or fake by using deep learning methods and the TF-IDF algorithm. International Advanced Researches and Engineering Journal, 5(1), 31-41.

Kumaş, E. (2021). Türkçe Twitter Verilerinden Duygu Analizi Yapılırken Sınıflandırıcıların Karşılaştırılması. Eskişehir Türk Dünyası Uygulama ve Araştırma Merkezi Bilişim Dergisi, 2(2), 1-5.

Liao, J., Huang, Y., Wang, H., & Li, M. (2021, June). Matching Ontologies with Word2Vec Model Based on Cosine Similarity. In The International Conference on Artificial Intelligence and Computer Vision (pp. 367-374). Springer, Cham.

Marcińczuk, M., Gniewkowski, M., Walkowiak, T., & Będkowski, M. (2021). Text document clustering: Wordnet vs. TF-IDF vs. word embeddings. In Proceedings of the 11th Global Wordnet Conference (pp. 207-214).

Martineau, J. C., & Finin, T. (2009). Delta tfidf: An improved feature space for sentiment analysis. In Third international AAAI conference on weblogs and social media.

Mee, A., Homapour, E., Chiclana, F., & Engel, O. (2021). Sentiment analysis using TF-IDF weighting of UK MPs’ tweets on Brexit. Knowledge-Based Systems, 107238.

Meltem, I., & Çamurcu, A. Y. (2011). Web belgeleri kümelemede benzerlik ve uzaklık ölçütleri başarılarının karşılaştırılması. Marmara Fen Bilimleri Dergisi, 20(1), 35-49.

Mohammed, M., & Omar, N. (2020). Question classification based on Bloom’s taxonomy cognitive domain using modified TF-IDF and word2vec. PloS one, 15(3), e0230442.

Monti, D., Rizzo, G., & Morisio, M. (2021). A systematic literature review of multicriteria recommender systems. Artificial Intelligence Review, 54, 427-468.

Nguyen, H. V., & Bai, L. (2010, November). Cosine similarity metric learning for face verification. In Asian conference on computer vision (pp. 709-720). Springer, Berlin, Heidelberg.

NLTK, (2021). Natural Language Toolkit. https://www.nltk.org/

Önden, A., & Çallı, M. K. (2019). İnovatif Ürün Özelliklerinin Tüketicilerin Tutumları Üzerindeki Etkileri: Sosyal Medya Paylaşımları Üzerine Bir Çalışma. AJIT-e: Bilişim Teknolojileri Online Dergisi, 10(36), 53-72.

Öztürk, A., Durak, Ü., & Badıllı, F. (2020). Twitter verilerinden doğal dil işleme ve makine öğrenmesi ile hastalik tespiti. Konya Mühendislik Bilimleri Dergisi, 8(4), 839-852.

Paltoglou, G., & Thelwall, M. (2010). A study of information retrieval weighting schemes for sentiment analysis. In Proceedings of the 48th annual meeting of the association for computational linguistics (pp. 1386-1395).

Polat, H., & Körpe, M. (2018). TBMM Genel Kurul Tutanaklarından Yakın Anlamlı Kavramların Çıkarılması. Bilişim Teknolojileri Dergisi, 11(3), 235-244.

Rani, U., & Bidhan, K. (2021). Comparative assessment of extractive summarization: textrank tf-idf and lda. Journal of Scientific Research, 65(1), 304-311.

Sjarif, N. N. A., Azmi, N. F. M., Chuprat, S., Sarkan, H. M., Yahya, Y., & Sam, S. M. (2019). SMS spam message detection using term frequency-inverse document frequency and random forest algorithm. Procedia Computer Science, 161, 509-515.

Tata, S., & Patel, J. M. (2007). Estimating the selectivity of tf-idf based cosine similarity predicates. ACM Sigmod Record, 36(2), 7-12.

Thakkar, A., & Chaudhari, K. (2020). Predicting stock trend using an integrated term frequency–inverse document frequency-based feature weight matrix with neural networks. Applied Soft Computing, 96, 106684.

Thomas, B., & John, A. K. (2021, February). Machine Learning Techniques for Recommender Systems–A Comparative Case Analysis. In IOP Conference Series: Materials Science and Engineering (Vol. 1085, No. 1, p. 012011). IOP Publishing.

Wang, S., Cao, L., Wang, Y., Sheng, Q. Z., Orgun, M. A., & Lian, D. (2021). A survey on session-based recommender systems. ACM Computing Surveys (CSUR), 54(7), 1-38.

Xia, P., Zhang, L., & Li, F. (2015). Learning similarity with cosine similarity ensemble. Information Sciences, 307, 39-52.

Yücebaş, S. C. (2019). MovieANN: A Hybrid Approach to Movie Recommender Systems Using Multi Layer Artificial Neural Networks. Çanakkale Onsekiz Mart Üniversitesi Fen Bilimleri Enstitüsü Dergisi, 5(2), 214-232.

Yumusak, S., Dogdu, E., & Kodaz, H. (2018). Classification of Linked Data Sources Using Semantic Scoring. Ieice Transactions on Information and Systems, 101(1), 99-107.

Zhang, Q., Lu, J., & Jin, Y. (2021). Artificial intelligence in recommender systems. Complex & Intelligent Systems, 7(1), 439-457.

Zheng, L., Idrissi, K., Garcia, C., Duffner, S., & Baskurt, A. (2015, May). Triangular similarity metric learning for face verification. In 2015 11th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition (FG) (Vol. 1, pp. 1-7). IEEE.