LEVENSHTEIN UZAKLIK ÖLÇEĞİNE GÖRE ÇAĞDAŞ TÜRK YAZI DİLLERİNİN FONETİK UZAKLIĞI

Bu çalışmanın temel amacı Oğuz grubu yazı dillerinin birbirlerine karşı fonetik uzaklıklarını tespit etmektir. Çalışmada fonetik uzaklıkların tespiti için bilgisayarlı dil bilim alanında sıkça kullanılan niceliksel ölçüm tekniklerinden Levenshtein uzaklık algoritması kullanılmıştır. Bu bağlamda, çalışmanın Türkiye’deki lehçe bilim araştırmalarında kullanılabilecek bir yöntemi tanıtarak ilgili alanda yeni değerlendirmelerin yapılması adına katkı sunması hedeflenmektedir. Vladimir Levenshtein tarafından geliştirilen ve birçok alanda kullanılan Levenshtein uzaklık algoritması, bir sözcük dizisini diğerine dönüştürürken kullanılabilecek ekleme, çıkarma ve yer değiştirme işlemlerinden matematiksel olarak en az işlem gerektiren sayısal değeri tespit etmede kullanılan bir algoritmadır. Levenshtein uzaklık algoritması, lehçe bilim çalışmalarında ilk olarak Brett Kessler tarafından kullanılmıştır. Bu çalışmadaki ilk denemenin başarılı olmasının ardından birçok lehçe bilimcinin algoritmaya ilgisi artmış, aynı yöntemle birçok dil değişkesinin fonetik uzaklığını ele alan çalışmalar yapılmıştır. Bu çalışmada Türkiye Türkçesi, Azerbaycan Türkçesi, Türkmen Türkçesinin birbirlerine fonetik uzaklığı Levenshtein uzaklık algoritması ile ölçülecektir. Çalışmanın genellenebilir sonuçlar vermesi adına Türkçe Sıklık Sözlüğü’ne göre en sık kullanılan 40 fiil ve 13 tematik başlıktan (hayvan, beden, yiyecek, giyim, ulaşım, aile, madde, zaman, spor, tabiat, hava, meslek ve renk) 216 adet isim olmak üzere toplam 256 Türkçe madde başı sözcük belirlenmiştir. Sözcükler hedef dillere ana dili konuşurları tarafından tercüme edilmiştir. Sözcükler, ana dili konuşurlarına seslettirilmiş ve sözcük telaffuzları uluslararası fonetik alfabeye aktarılmıştır. Kaynak dilden her sözcük ile hedef dildeki karşılığı LUA ile hesaplanarak sözcüklerin fonetik uzaklıkları tespit edilmişir. Örnek setindeki tüm sözcük çiftlerine bu işlem uygulandıktan sonra hesaplanan ortalama değer temel alınarak Oğuz grubu Türk yazı dillerinin birbirlerine olan ortalama fonetik uzaklığı hesaplanmıştır.

PHONETIC DISTANCE OF OGHUZ GROUP TURKIC LANGUAGES BASED ON LEVENSHTEIN DISTANCE ALGORITHM

This study aims to determine the phonetic distances of the written languages of the Oghuz Turkic group. To determine phonetic distances, Levenshtein distance algorithm, which is one of the quantitative measurement techniques frequently used in the field of computational linguistics, will be used. In this context, by introducing a method that can be used in dialectology studies in Turkey, it is aimed that the study will contribute to making new evaluations in the related field. Levenshtein distance algorithm, which was developed by Levenshtein (1966) and has been used in different fields, is a string metric for measuring the difference between two sequences. The main working principle of the algorithm is to determine the numerical value that requires the least mathematical operation from one of the operations-insertion, deletion, substitution-that must be used when converting one string to another. Levenshtein distance algorithm was first used by Brett Kessler in dialectology studies. After the success of the first attempt in Kessler (1995), many dialectologists' interest in the algorithm has increased, and many studies on phonetic distance between different language varieties have been carried out. In this study, the phonetic distance of Turkey Turkish, Azerbaijan Turkish and Turkmen Turkish will be measured by using Levenstein distance algorithm. In order for the study to yield generalizable results a list consisting of the most frequently used 40 verbs and 216 nouns from 13 thematic titles (animal, body, food, clothing, transportation, family, material, time, sports, nature, weather, job and color) will be prepared. After having the list translated into the target languages by native speakers, the words will be transcribed in IPA. Phonetic distance between each words from the source language and its equivalent in the target language will be calculated. After applying this process to all word pairs in the list, the average phonetic distance between Oghuz Turkic languages will be calculated.

___

  • Akkuş, M. (2021). Halaç Türkçesi Ağızlarının Algoritmik Uzaklığı: Levenshtein Uzaklık Algoritması Tabanlı Bir Çözümleme. Çukurova Üniversitesi Türkoloji Araştırmaları Dergisi, 6(1), 247-267.
  • Aksan, Y.; Aksan, M.; Mersinli, Ü. ve Demirhan, U. U. (2017). A Frequency Dictionary of Turkish. Londra, New York: Routledge.
  • Arat, R. R. (1953). Türk Şivelerinin Tasnifi. Türkiyat Mecmuası, X, 59-139.
  • Berezin, İ. N. (1848). Recherches Sur Les Dialectes Musulmans: Système Des Dialectes Turcs. Première partie. Imprimerie de l'Université.
  • Bolognesi, R., & Heeringa, W. (2002). De Invloed Van Dominante Talen Op Het Lexicon En De Fonologie Van Sardische Dialecten. Gramma/TTT: Tijdschrift voor Taalwetenschap, 9(1), 45-84.
  • Çobanzade, B. (1927). Türk-Tatar dialektolojisi. Bakü.
  • Goebl, H. (1982). Dialektometrie: Prinzipien und Methoden des Einsatzes der Numerischen Taxonomie in Bereich der Dialektgeographie. Viyana: Osterreichischen Akademie der Wissenschaften.
  • Goebl, H. (1984). Dialektometrische Studien. Anhand italoromanischer, rätoromanischer und galloromanischer Sprachmaterialien aus AIS und ALF. Tübingen.
  • Gooskens, C. (2007). The contribution of linguistic factors to the intelligibility of closely related languages. Journal of Multilingual and Multicultural Development, 28(6), 445-467.
  • Gooskens, C.; Heeringa, W. & Beijering, K. (2008). Phonetic and lexical predictors ofintelligibility. International Journal of Humanities and Arts Computing (IJHAC), 2(1-2), 63-81.
  • Hautzagers, P.; Nerbonne, J., & Prokić, J. (2010). Quantitative and Traditional Classifications of Bulgarian Dialects Compared. Scando Slavica, 29-54.
  • Heeringa, W. J. (2004). Measuring Dialect Pronunciation Differences using Levenshtein Distance (Yayımlanmamış Doktora Tezi.), (Danışman: Prof. Dr. John Nerbonne). Groningen: Groningen Üniversitesi.
  • İmer, K.; Kocaman, A. ve Özsoy, A. S. (2011). Dilbilim Sözlüğü. İstanbul: Boğaziçi Üniversitesi Yayınevi.
  • Kessler, B. (1995). Computational dialectology in Irish Gaelic. Proceedings of the Seventh Conference of the European Chapter of the Association for Computational Linguistics (s. 60-67). Dublin: EACL. file:///C:/Users/user/Downloads/Computational_dialectology_in_Irish_Gael.pdf adresinden 10.11.2022 tarihinde erişildi.
  • Kruskal, J. B. (1983). An Overview of Sequence Comparison: Time Warps, String edits, and Macromolecules. Society of Industrial and Applied Mathemetics, 25(2), 1-44.
  • Levenshtein, V. (1965). Binary Codes Capable of Correcting Deletions, Insertions and Reversals. Doklady Akademii Nauk SSSR, 163, 845-848.
  • Nerbonne, J., & Kretzschmar, W. (2006). Progress in Dialectometry. Special Issue of Literary and Linguistic Computing, 21(4).
  • Nerbonne, J., & Siedle, C. (2005). Dialektklassikation auf der Grundlage aggregierter Ausspracheunterschiede. Zeitschrift fur Dialektologie und Linguistik, 72(2), 129-147.
  • Nerbonne, J.; Heeringa, W.; van den Hout, E.; van der K.; Otten, S., & van de Vis, W. (1996). Phonetic distance between dutch dialects. (ed. G. Durieux; W. Daelemans ve S. Gillis) CLIN VI, Papers from the sixth CLIN meeting içinde (s. 185-202). Antwerp: University of Antwerp.
  • Osenova, P.; Heeringa, W., & Nerbonne, J. (2007). A quantitative analysis of Bulgarian dialect pronounciation. Zeitschrift Für Slavische Philologie, 66(2), 425–458.
  • Prokić, J.; Nerbonne, J.; Shobov, V.; Osenova, P.; Simov, K.; Zastrow, T., & Hinrichs, E. (2009). The computational analysis of Bulgarian dialect pronounciation. Serdica Journal of Computing, 3, 269-298.
  • Samoyloviç, A. N. (1922). Nekotorıe Dopolneniya k Klassifikatsii Turetskih Yazıkov. Petrograd.
  • Schöning, C. (1999). The Internal Division of Modern Turkic and Its Historical Implications. Acta Orientalia Academiae Scientiarum Hungaricae, 52(1), 63-95.
  • Séguy, J. (1971). La relation entre la distance spatiale et la distance lexieale. Revue de linguistique romane, 35, 335-357.
  • Séguy, J. (1973). La dialectométrie dans l'Atlas linguistique de la Cascogne. Revue de linguistique romane, 37, 1-24.
  • Tekin, T. (1989). Türk dil ve diyalektlerinin yeni bir tasnifi. Erdem, 141-168.