Türkçe Otel Yorumlarıyla E˘gitilen Kelime Vektörü Modellerinin Duygu Analizi ile ˙Incelenmesi

Do˘gal dil i¸slemenin ve metin sınıflandırmanın önemli ara¸stırma alanlarından biri de duygu analizidir. Bu alanda çalı¸smalar hızla büyümektedir. Bu teknik dijital ya¸samın her çe¸sit uygulama alanında kendini göstermektedir. Duygu analizi için geli¸stirilen birçok teknik vardır ancak son zamanlarda do˘gal dil i¸slemenin kelime vektör modeli metotları duygu analizinde yaygın olarak kullanılmaya ba¸slamı¸stır. Word2Vec kelimeleri anlamlı vektörlere dönü¸stürebilen en kullanı¸slı kelime vektör modeli yöntemleri arasındadır. Bu yöntem ile kelime vektörleri olu¸sturabilmek için büyük kelime havuzlarına ihtiyaç vardır. Önceden e˘gitilmi¸s modeller duygu analizinde daha do˘gru sonuçlara ula¸sabilmeyi mümkün kılarlar. Bu çalı¸smada duygu analizinde incelenmek üzere, onaylanmı¸s kullanıcıların Türkçe otel yorumları veri kazıma yöntemleri ile toplanmı¸stır. Elde edilen bu özgün veriler Word2Vec ile e˘gitilerek kelime vektörleri olu¸sturulmu¸stur. Bu vektörler ile tekrarlanan yapay sinir a˘gının bir çe¸sidi olan geçitli tekrarlayan birimler ile bir sınıflandırma modeli geli¸stirilmi¸stir. Daha geni¸s kelime torbalarıyla e˘gitilmi¸s kelime vektörleri ile rastgele de˘gerler atanarak olu¸sturulan vektörler, aynı derin ö˘grenme yöntemiyle yeniden incelenmi¸s ve elde edilen sınıflandırma ba¸sarıları kar¸sıla¸stırılmı¸stır. Elde edilen sonuçlara göre özel alandan ba˘gımsız, daha geni¸s kapsamlı kelime torbalarının sınıflandırma ba¸sarısını arttırdı˘gı gözlemlenmi¸stir.

Investigation of Word Vector Models Trained with Turkish Hotel Comments by Sentiment Analysis

One of the important research areas of Natural Language Processing and text classification is sentiment analysis. Studies in this area are growing rapidly. This technique manifests itself in all kinds of applications of digital life. There are many techniques developed for sentiment analysis, but recently, word embedding methods of natural language processing have become widely used in sentiment analysis. Word2Vec is one of the most useful word embedding methods that can convert words into meaningful vectors. In order to create word vectors with this method, large word pools are needed. Pre-trained models make it possible to achieve more accurate results in sentiment analysis. In this study, Turkish hotel reviews of approved users were collected by data scraping methods for examination of sentiment analysis. Obtained from the original data by training with Word2Vec word vectors were created. With these vectors, a classification model has been developed with Gated Recurrent Unit which is a kind of Recurrent Neural Networks. The vectors formed by assigning random values to wider corpus-trained word vectors were re-examined with the same deep learning method and the obtained classification successes were compared. According to the results, it was observed that the broader corpus independent of the private area increased the success of classification.

___

  • [1] T. Mikolov, I. Sutskever, K. Chen, G. Corrado, and J. Dean, “Distributed representations ofwords and phrases and their compositionality,” in Advances in Neural Information Processing Systems, 2013.
  • [2] Z. Hailong, G.Wenyan, and J. Bo, “Machine learning and lexicon based methods for sentiment classification: A survey,” in Proceedings - 11th Web Information System and Application Conference, WISA 2014, pp. 262–265, 2014.
  • [3] W. Medhat, A. Hassan, and H. Korashy, “Sentiment analysis algorithms and applications: A survey,” Ain Shams Engineering Journal, vol. 5, no. 4, pp. 1093– 1113, 2014.
  • [4] M. Hu and B. Liu, “Mining and summarizing customer reviews,” in KDD-2004 - Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. 168–177, 2004.
  • [5] X. Ding, B. Liu, and P. S. Yu, “A holistic lexiconbased approach to opinion mining,” in WSDM’08 - Proceedings of the 2008 International Conference on Web Search and Data Mining, pp. 231–239, 2008.
  • [6] M. Taboada, J. Brooke, M. Tofiloski, K. Voll, and M. Stede, “Lexicon-basedmethods for sentiment analysis,” Computational Linguistics, vol. 37, no. 2, pp. 267–307, 2011.
  • [7] O. Araque, I. Corcuera-Platas, J. F. Sánchez-Rada, and C. A. Iglesias, “Enhancing deep learning sentiment analysis with ensemble techniques in social applications,” Expert Systems with Applications, vol. 77, pp. 236–246, 2017.
  • [8] D. Tang, F. Wei, N. Yang, M. Zhou, T. Liu, and B. Qin, “Learning sentiment-specific word embedding for twitter sentiment classification,” in 52nd Annual Meeting of the Association for Computational Linguistics, ACL 2014 - Proceedings of the Conference, vol. 1, pp. 1555–1565, 2014.
  • [9] A. Severyn and A. Moschitti, “UNITN: Training Deep Convolutional Neural Network for Twitter Sentiment Classification,” pp. 464–469, the 38th International ACM SIGIR Conference, 2015.
  • [10] X. Fu, W. Liu, Y. Xu, and L. Cui, “Combine HowNet lexicon to train phrase recursive autoencoder for sentence-level sentiment analysis,” Neurocomputing, vol. 241, pp. 18–27, 2017.
  • [11] P. Qin, W. Xu, and J. Guo, “An empirical convolutional neural network approach for semantic relation classification,” Neurocomputing, vol. 190, pp. 1–9, 2016.
  • [12] Y. Kim, “Convolutional neural networks for sentence classification,” in EMNLP 2014 - 2014 Conference on Empirical Methods in Natural Language Processing, Proceedings of the Conference, pp. 1746–1751, 2014.
  • [13] S. M. Rezaeinia, R. Rahmani, A. Ghodsi, and H. Veisi, “Sentiment analysis based on improved pre-trained word embeddings,” Expert Systems with Applications, vol. 117, pp. 139–147, 2019.
  • [14] Y. Wang, M. Huang, xiaoyan Zhu, and L. Zhao, “Attention-based LSTM for Aspect-level Sentiment Classification,” pp. 606–615, 2016.
  • [15] S. Hochreiter and J. Schmidhuber, “Long Short- Term Memory,” Neural Computation, vol. 9, no. 8, pp. 1735–1780, 1997.
  • [16] Beautiful Soup, “Beautiful soup documentation.” https://www.crummy.com/software/BeautifulSoup/ bs4/doc/, 2019. [Online; accessed 12-October-2019].
  • [17] Stokastik, “Understanding word vectors and word2vec.” https://www.stokastik.in/ understanding-word-vectors-and-word2vec/, 2019. [Online; accessed 12-October-2019].
  • [18] H. Ahmeto˘glu and R. Da¸s, “Derin Ö˘grenme ile büyük veri kumelerinden saldırı türlerinin sınıflandırılması,” in 2019 International Artificial Intelligence and Data Processing Symposium (IDAP), pp. 1–9, Sep. 2019.
  • [19] Shervine Amidi-Stanford University, “Recurrent neural networks.” https:// stanford.edu/~shervine/l/en/teaching/cs-230/ cheatsheet-recurrent-neural-networks, 2019. [Online; accessed 12-October-2019].
  • [20] K. Cho, B. Van Merriënboer, C. Gulcehre, D. Bahdanau, F. Bougares, H. Schwenk, and Y. Bengio, “Learning phrase representations using RNN encoder-decoder for statistical machine translation,” in EMNLP 2014 - 2014 Conference on Empirical Methods in Natural Language Processing, Proceedings of the Conference, pp. 1724–1734, 2014.
  • [21] R. Rehurek and P. Sojka, “Software Framework for Topic Modelling with Large Corpora,” in Proceedings of the LREC 2010 Workshop on New Challenges for NLP Frameworks, (Valletta, Malta), pp. 45– 50, ELRA, May 2010. http://is.muni.cz/publication/ 884893/en.
  • [22] L. Van Der Maaten and G. Hinton, “Visualizing data using t-SNE,” Journal of Machine Learning Research, vol. 9, pp. 2579–2625, 2008.
  • [23] F. Chollet et al., “Keras.” https://keras.io, 2015. [Online; accessed 12-October-2019].
  • [24] W. Contributors, “Wikimedia downloads.” https:// dumps.wikimedia.org/, 2019. [Online; accessed 12- October-2019].
Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi-Cover
  • ISSN: 1300-7688
  • Yayın Aralığı: Yılda 3 Sayı
  • Başlangıç: 1995
  • Yayıncı: Süleyman Demirel Üniversitesi
Sayıdaki Diğer Makaleler

En Fazla İki Adet Komşuluk Özdeğeri -1,0 ya da 1,0’dan Farklı Olan Graflar

Hatice TOPCU

Hidrotermal Yöntemle Sentezlenmiş Fe3O4 Nanoparçacıklarının Sulardan Nitrat Gideriminde Kullanımı

Mehmet TÜRKYILMAZ, Sezen KÜÇÜKÇONGAR, İlkay ÖZAYTEKİN

Vakum Fermantasyon Uygulamasının Glutensiz Ekmeğin Kalite Kriterleri Üzerine Etkisinin İncelenmesi

Sezin TUTA ŞİMŞEK

2-Etoksi-6-[(E)-[(2-Hidroksifenil)imino]metil]fenol Türevi Schiff Bazlarının Sentezi ve Teorik Çalışmalar

Halil BERBER, Ayşe AYDOĞDU ERDÖNMEZ, Ülkü Dilek UYSAL

Bağımsız Bileşenler Analizinin İstatistiksel Bakış Açısıyla Değerlendirilmesi ve Temel Bileşenler Analizi ile Karşılaştırılması

NURBANU BURSA, Hüseyin TATLIDİL

Önceden Kaymış Aşırı Konsolide Killi Şevlerin Kesme Mukavemetinin Hızlı Kesme Yöntemi ile Araştırılması

Gültekin KIRIM, Alper CEBECİ

Destek Vektör Makineleri ve Türkiye’deki Enerji Santrallerinde Doğal Gaz Tüketimi Üzerine Bir Uygulama

Gizem MERAL, Sinan SARAÇLI

Elektrokardiyogram Sinyalinin Uyku / Uyanıklık Evreleri için ˙Istatistiksel Olarak ˙Incelenmesi

Muhammed Kürşad UÇAR, MEHMET RECEP BOZKURT, Cahit BİLGİN

Kent Makroformlarının Mekânı Kullanma Verimliliklerinin Fractal Boyut ile İncelenmesi

Gizem ERDOĞAN

Rumex patientia L. Yapraklarının Yağ Asitleri Kompozisyonunun ve Farklı Ekstraktlarının in vitro Antimikrobiyal Aktivitesinin Belirlenmesi

Elife KAYA, Perihan AKBAŞ, Gökhan CEYHAN, Tuğba KARABEKMEZ ERDEM, Hicran ALKAN