TBMM Genel Kurul Tutanaklarından Yakın Anlamlı Kavramların Çıkarılması
Öz Yakın anlamlı kavramların bulunması, kavramın bir derlemdeki semantik anlamını yakalamamızı ve kavramın hangi bağlamda kullanıldığını elde etmemizi sağlar. Kelime Uzayı Modeli; anlamsal olarak benzer kelimeleri, vektör uzayında bir birine yakın dağılımla gösteren bir modeldir. Her bir kelimenin bir vektörle temsil edildiği bu modelde oluşan kelime vektörleri kelime yerleştirme (Word Embeddings) olarak adlandırılır. Kelime vektörleri metin analizi gerçekleştiren özellikle yapay sinir ağlarını temel alan Doğal Dil İşleme (DDİ) sistemlerinde girdi olarak kullanılır. Bu çalışmada, veri seti olarak TBMM Genel Kurul görüşme tutanakları kullanılmış, Word2vec modeli ve GloVe modeli ile kelime vektörleri çıkarılmıştır. Elde edilen kelime vektörleri kullanılarak TBMM Genel Kurul tutanaklarında geçen herhangi bir kavrama en yakın anlamlı kavramlar bulunmuştur. Literatürdeki benzer çalışmalarda iki farklı kelime yerleştirme modellerinin bir kavramı tamamen farklı bağlamda değerlendirdiği duruma rastlanılmamıştır. Bu çalışma sonucunda, Word2vec ve GloVe modellerinin çıktılarının bir kavramın farklı bağlamlarda kullanımını bulmak için değerlendirilebileceği görülmüştür. Çalışmada derleme özgü analojilerin her iki modelde de bulunabildiği görülmüştür. Bu çalışmadan elde edilen sonuçlar TBMM Genel Kurul tutanaklarında arama yaparken benzer kavramların anahtar kelime olarak önerilmesi için kullanılacaktır.
___
- Z. Harris, “Distributional structure”, Word, 23(10), 146–162, 1954.
- Thomas K. Landauer , Susan T. Dumais, “A solution to Plato’s
problem: The latent semantic analysis theory of acquisition,
induction, and representation of knowledge”, Psychological
Review, 104(2), 211–240, 1997.
- X. Hu, Z. Cai, P. Wiemer-Hastings, A. Graesser, D. McNamara,
Strengths, limitations, and extensions of LSA. Handbook of
Latent Semantic Analysis, 401–426, 2007.
- R. Collobert , J. Weston, “A Unified Architecture for Natural
Language Processing: Deep Neural Networks with Multitask
Learning”, Proceedings of the 25th International Conference on
Machine Learning, Helsinki, Finlandiya, 20(1), 160–167, 2008.
- T. Mikolov, K Chen, G Corrado, J Dean, “Efficient estimation of
word representations in vector space”, arXiv:1301.3781,2013.
- Y. Bengio, R. Ducharme, P. Vincent, C. Janvin, “A neural
probabilistic language model”, Journal of Machine Learning
Research, 3, 1137-1155, 2003.
- L. Jianqiang, L. Jing, F. Xianghua, M.A. Masud, J.H. Huang,
“Learning distributed Word representation with multi-contextual
mixed embedding”, Knowledge-Based Systems, 106, 220-230,
2016.
- O. Kaynar, Z. Aydın, Y. Görmez. “Sentiment Analizinde Öznitelik
Düşürme Yöntemlerinin Oto Kodlayıcılı Derin Öğrenme
Makinaları ile Karşılaştırılması”, Bilişim Teknolojileri Dergisi,
10(3), Temmuz 2017.
- J. Penington, R. Socher, C.D. Manning, “GloVe:Global Vectors for
Word Representation”, Emprical Methods in Natural Language
Processing (EMNLP), 1532-1543, 2008.
- E. Altszyler, M. Sigman, S. Ribeiro, D. F. Slezak. “Comparative
study of LSA vs Word2vec embeddings in small corpora: a case
study in dreams database”, arXiv: 1610.01520, 2016.
- L.O,Goldberg, Y,Dagan, “Improving distributional similarity with
lessons learned from Word embeddings”, Transactions of the
Association for Computational Linguistics, 3, 211-225, 2015.
- M. Naili, A. H. Chaibi, H. H. B. Ghezala, “Comparative study of
word embedding methods in topic segmentation”, Procedia
Computer Science, 112, 340-349, 2017.
- M. Faruqui, J. Dodge, S. K. Jauhar, C. Dyer, E. Hovy, N. A. Smith,
“Retrofitting word vectors to semantic lexicons”, In Proceedings
of the 2015 Conference of the North American Chapter of the
Association for Computational Linguistics, Colorado, ABD,
Human Language Technologies, 1606– 1615, 2015.
- G. A. Miller, “Wordnet: a lexical database for english”,
Communications of the ACM, 38(11), 39-41, 1995.
- C. F. Baker, C. J. Fillmore, J. B. Lowe, “The Berkeley FrameNet
Project”, Proceedings of the 17th International Conference on
Computational Linguistics, Volume 1, Montreal, Quebec,
Kanada, 86-90, 1998.
- J. Ganitkevitch, B. Van Durme, C. Burch, “PPDB: The paraphrase
database”, Proceedings of NAACL, 758-764, Haziran, 2013.
- T. Mikolov,I. Sutskever, K. Chen, G. Corrado, J. Dean,
“Distributed Representations of Words and Phrases and their
Compositionality”, Proceedings of the 26th International
Conference on Neural Information Processing Systems,
Volume 2, Nevada, ABD, 3111-3119, 2013.
- X. Rong, “Word2vecParameter
Learning
Explained”, arXiv:1411.2738, 2014.
- T. Mikolov, W. Yih, G. Zweig, “Linguistic Regularities in
Continuous Space Word Representations”, Proceedings of the
2013 Conference of the North American Chapter of the
Association for Computational Linguistics: Human Language
Technologies, 746-751, 2013.