Dede Korkut Kitabı’nın Dresden Nüshası ile Türkistan/Türkmen Sahra Yazmasının Bilgisayar Destekli Benzerlik Karşılaştırması

Dede Korkut Kitabı tarihsel dönemleri bakımından Türk yazı dilinin en önemli eserleri arasında yer almaktadır. Eski Anadolu Türkçesinin yazı dili özellikleri başta olmak üzere döneme ait kültürel birçok ögenin de yer aldığı eserin Dresden ve Vatikan nüshaları üzerinde dilsel özellikleri bakımından birçok çalışma yapılmış ve önemli bilgiler elde edilmiştir. 2019’da bulunan ve Türkistan/Türkmen Sahra yazması olarak adlandırılan eser, bilim dünyasında heyecan yaratmış ve bu metnin çeviri yazıları yayımlanarak metinle ilgili çalışmalar başlamıştır. Bu çalışmada hesaplamalı yöntemler kullanılarak iki metin arasındaki benzerlik oranının çıkarılması amaçlanmıştır. Çalışmanın amacı doğrultusunda Dresden nüshası temel alınarak yeni bulunan yazma arasında elde edilen benzerlik oranları kosinüs için %39, TF-IDF için %28 ve Jaccard içinse %65, %44, %3 ve %1 biçiminde hesaplanmıştır. Bulunan bu oranlara göre iki nüsha arasında biçimsel olarak benzerliğin düşük olduğu gözlenmiştir. Bu bulgular ışığında yeni bulunan yazmanın Dresden nüshasından farklı söz varlığı özellikleri gösterdiği söylenebilir.

Anahtar Kelimeler:

Dede Korkut Kitabı, metin benzerliği, word2vec, dilbilim

The Computational Similarity Comparision Between The Dresden and The Turkestan/Turkmen Sahara Manuscripts of The Book of Dede Qorqut

The Book of Dede Qorqut is one of the most important works of Turkish writing language in terms of historical periods. Many studies have been carried out and important information has been obtained in terms of linguistic features on Dresden and Vatican manuscripts in Old Anatolian Turkish. In this study, it is aimed to find the similarity ratio between the two texts using computational methods. For the purpose of the study, the similarity rates obtained between the newly found manuscript based on the dresden copy were calculated as 39% for cosine, 28% for TF-IDF and 65%, 44%, 3% and 1% for Jaccard. According to these ratios, it was observed that the formal similarity between the two copies was low. In the light of these findings, it can be said that the recently founded manuscript has different vocabulary characteristics than the Dresden manuscript.

Keywords:

The Book of Dede Qorqut, text similarity, word2vec, linguistics,

PDF

___

Eisenstein, J. (2019). Introduction to natural language processing. The Mit Press.
Ekici, M. (2019). Dede Korkut Kitabı Türkistan/Türkmen Sahra nüshası, soylamalar ve 13. boy. İstanbul: Ötüken Neşriyat A.Ş.
Ergin, M. (1994). Dede Korkut kitabı I (3. baskı). Ankara: Türk Dil Kurumu Yayınları.
https://github.com/danielfrg/word2vec, 09.08.2020
https://github.com/machine-learning-projects/document-similarity, 11.12.2020
https://github.com/machine-learning-projects/document-similarity/blob/master/src/cos_dist.py, 07.11.2020
https://github.com/TarunSunkaraneni/Document-Similarity, 10.09.2020
https://github.com/TarunSunkaraneni/Document-similarity/blob/master/Document%20Similarity.ipynb, 10.09.2020
https://medium.com/@aakashchotrani/visualizing-your-own-word-embeddings-using-tensorflow-688b3a7750ee, 05.10.2020
https://projector.tensorflow.org/, 06.10.2020
Huang, A. (2008). Similarity measures for text document clustering, in New Zealand Computer Science Research Student Conference - Proceedings of NZCSRSC, New Zealand.
Karaman, B. İ. (2019). Dilbilimsel otopsi. The Bulletin of Legal Medicine, 24(3), 214-225.
Kaya, M., ve Özel, S. A. (2014). Türkçe dokümanlardaki benzerliklerin tespiti için mevcut yazılımların karşılaştırılması ve Türkçe karakter kullanımı ile kök almanın etkisinin incelenmesi. Çukurova Üniversitesi Mühendislik-Mimarlık Fakültesi Dergisi, 29(2), 115-130.
Sarı, İ. (2020). Dede Korkut Kitabı’nda söylem belirleyiciler. Bilig, (93), 29-52.
Sidorov, G. (2019). Syntactic n-grams in computational linguistics. Springer International Publishing.
Tantuğ, A. C. (2016). Metin sınıflandırma. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, 5(2), 1-12.