Sosyal Medya Platformu Üzerinde Gizli Anlam Analizi

Günlük hayatımızın vazgeçilmez bir parçası haline gelen Internet ve sosyal medya alanındaki gelişmeler ile birlikte, bilgisayar ve mobilcihaz kullanıcıların farklı mecralardaki yorumlarında büyük artış yaşanmaktadır. Bu büyük veri miktarında artış nedeniyle, kullanıcıpaylaşımlarımda konu başlıklarını ve özelliklerinin doğru ve otomatik olarak çıkarılması önemli bir problem haline gelmiştir. Çeşitliplatformlarda paylaşılan kullanıcı metinleri, ilişkisel olmayan ve düzensiz verilerdir. Bu verileri sınıflandırmak, büyük veri işleme veyapay zekâ çalışma alanlarından biri olan doğal dil işleme için önemli bir konudur. Doğal dil işlemenin kullanım amaçları arasında,ilişkisel olmayan düzensiz metinlerden, anlamlı veriler elde etmek önemli bir çalışma konusudur. Buradan hareketle; iki insanınkarşılıklı anlaştığı doğal bir dili anlayıp, cevap verme, özet çıkarma, gibi doğal bir insan zekasının yapabildiğini çok daha hızlıyapabilmek büyük bir önem taşımaktadır. Doğal dil işlemenin alt çalışma alanlarından biri olan konu modelleme, birçok belgenin hangikonuları içerdiğini ve bu konuların önemli özelliklerini ortaya koyar. Günümüzde birçok içerik sağlayıcılar, takipçilerine, anlıkiçeriklerin önerilmesi işleminde, konu modelleme yapılarını kullanarak, veri akışını doğru kişilere, çok hızlı bir şekildeyönlendirebilirler. Daha önceden etiketlenmiş eğitim setine gerek duymayan Gizli Anlam Analizi (Latent Semantic Indexing - LSI)algoritması bu çalışmada kullanılmıştır. Bu çalışmada, Türkçe kullanıcı girdilerinin yer aldığı Ekşisözlük platformunda, “Apple”,“Samsung” ve “Microsoft” başlıklı tartışmalar elde edilerek ve bu tartışmaların alt konu başlıkları “Gizli Anlam Analizi” yöntemi ilemodellenmiştir. Toplanan verilerden alt konu başlıkları bulunarak, elde edilen konu başlıkları ile kategoriler karşılaştırılmış,karşılaştırma sonucunda F-Score ile doğruluk oranı ölçülmüştür. Elde edilen F-Score değeri, %74 doğruluk oranı ile bu veri seti ve bualgoritma için sınıflandırma yapıldığını göstermiştir.

Latent Semantic Analysis on Social Media Platform

There is a dramatic rise in the number of comments in Internet, which is an indispensable tool for our daily lives. Modelling topics and their features have become more important because of this high volume. Social media users’ texts shared in various social media websites are unstructured and not relational data. Clustering this data is one of the most important study area of Natural Language Processing which is a crucial branch of Artificial Intelligence.The purpose of NLP is to get information from unstructured data and react in proper way just like two human being understand each other via a natural language. NLP can do such these jobs faster than natural intelligence. Topic Modelling produces the results of existing topics and their features from large collection of documents. Content providers may distribute the information to the right people fast by using topic modelling tools. In this study, we use Latent Semantic Indexing (LSI) algorithm since it does not need annotated data to train the model. We collect Turkish entries related to “Apple”, “Samsung” and “Microsoft” in EkşiSözlük and find the subtopics of the discussions. Sub topics were found and the topics were compared with the categories and F-Score was measured for accuracy. The obtained F-Score showed 74% accuracy rate for this data set and this algorithm.

___

  • [1] Aggarwal, CC., Zhai, C., “An Introduction to Text Mining” In: Aggarwal CC, Zhai C, editors. Mining text data, New York: Springer, p. 1-10, 2012.
  • [2] Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., and Harshman, R., “Indexing by Latent Semantic Analysis”. Journal of the American Society for Information Science, 41(6):391–407, 1990.
  • [3] Harris, Z., “Distributional Structure”, Word, 23(10), 146–162, 1954.
  • [4] Landauer, T. K., Dumais, S. T., “A Solution to Plato’s Problem: The Latent Semantic Analysis Theory of Acquisition, Induction, and Representation of Knowledge”, Psychological Review, 104(2), 211–240, 1997.
  • [5] X., Cai, Z., Wiemer-Hastings, P., Graesser, A., McNamara, D., Strengths, “Limitations, and Extensions of LSA”. Handbook of Latent Semantic Analysis, 401–426, 2007.
  • [6] Ekşi Sözlük, 1999. https://eksisozluk.com/
  • [7] Elberrichi, Z. Rahmoun, A. and Bentaallah, M. A., “Using WordNet for Text Categorization”, The International Arab Journal of Information Technology, s. 16- 24, 2008.
  • [8] Liu, H. and Singh, P., “ConceptNet-A Practical Commonsense Reasoning ToolKit”, BT Technology Journal, s. 211-226, 2004.
  • [9] AlSumait, L. Barbará, D. Gentle, J. and Domeniconi, C., Topic Significance Ranking of LDA Generative Models, Machine Learning and Knowledge Discovery in Databases, s. 67-82, 2009.
  • [10] Merchant, K., Pande, Y., 2018. “NLP Based Latent Semantic Analysis for Legal Text Summarization”, International Conference on Advances in Computing, Communications and Informatics (ICACCI), 2018.
  • [11] Altszyler, E., Sigman, M., Ribeiro, S., D. F. Slezak, D. F., “Comparative Study of LSA vs Word2vec Embeddings in Small Corpora: A Case Study in Dreams Database”, arXiv: 1610.01520, 2016.
  • [12] Hatipoğlu, A., Omurca, S., "Türkçe Metı̇ n Özetlemede Melez Modelleme". Dokuz Eylül Üniversitesi Mühendislik Fakültesi Fen ve Mühendislik Dergisi 17: 95-108, 2015.
  • [13] Kherwa, P., Bansal, P., “Latent Semantic Analysis: An Approach to Understand Semantic of Text”, International Conference on Current Trends in Computer, Electrical, Electronics and Communication (ICCTCEEC-2017): 870-874, 2017.
  • [14] Yıldıztepe, E, Uzun, V., “Olasılıksal Yöntemler ile Türkçe Metinlerin Anlamsal Benzerliğinin Belirlenmesi”. Sinop Üniversitesi Fen Bilimleri Dergisi, 3 (2), 66-78, 2018.
  • [15] Ünaldı, İ., Kırıkgöz, Y., “Latent Semantic Analysis: An Analytıcal Tool for Second Language Writing Assessment”. Mustafa Kemal University Journal of Social Sciences Institute, Volume: 8, Issue: 16, s. 487-498, 2011.
  • [16] Gensim, 2009. http://radimrehurek.com/gensim/ models/lsimodel.html
  • [17] WikiPedia, 2001. https://tr.wikipedia.org/wiki/ Ekşi_ Sozlük
  • [18] EkşiSözlük Apple, 1999. https://eksisozluk.com/apple--55201
  • [19] EkşiSözlük Samsung, 1999. https://eksisozluk.com/samsung--90291
  • [20] EkşiSözlük Microsoft, 1999. https://eksisozluk.com/microsoft--31834
  • [21] Python Request, 2001. https://pypi.org/project/requests/