Lemmatizer: Akıllı Türkçe Kök Bulma Yöntemi

Yakın zamanda Türkçe doğal dil işleme alanında çeşitli çalışmalar yapılmıştır. Bu çalışmalar, üretilen akıllı bir sistemin Türkçe soru cevaplama, yazıyı başka bir dile çevirme, yazıyı özetleme,e-postalara otomatik yanıt gönderme gibi kabiliyetlere sahip olmasını öngörmektedir. Bahsedilen kabiliyetlerin temelinde, Türkçe kelimelerin köklerinin doğru şekilde bulunması gereksinimi yatmaktadır. Literatürde çeşitli Türkçe kök bulma yöntemleri verilmiş olsa da, Türkçe kelimelerin kompleks yapılarından dolayı başarı oranları genelde düşük kalmıştır. Bu çalışmada, Türkçe’nin sondan eklemeli yapısı kullanılarak bir kök bulma sistemigeliştirilmiş (Lemmatizer) ve bu konuda daha önce yapılmış olan Zemberek ve Snowball yöntemleriyle karşılaştırması verilmiştir. Lemmatizer sistemi Python ile yazılmıştır ve Türkçe’de en sık kullanılan 130’dan fazla ekive TDK sözlüğünübaz almaktadır. Ayrıca Knime platformu kullanılarak istatistiksel analiz yapılmıştır. Bu çalışma için öncelikle Lemmatizer sistemi çok sayıda Türkçe makale ve kitapla eğitilmiş ve Lemmatizer sistemi dağarcığını sürekli geliştirmiştir. Aynı zamanda, Kalbur isimli Türkçe ek ve kök veritabanıkullanılarak alınan geri beslemeler sayesinde, doğruluk oranı sürekli artmıştır.Lemmatizer sistemisonuçları hem sayı hem doğruluk açısından daha önce yapılmış olan Zemberek ve Snowball yöntemleriyle karşılaştırılmıştır. Karşılaştırmada farklı uzunluklarda Türkçe metinler kullanılmıştır. Lemmatizer yönteminin TDK sözlüğü kullanarak öğrenebilme özelliği sayesinde, Snowball ve Zembere yöntemlerine yakın sonuçlar verdiği ve kullanılan her yeni metinle başarı oranının diğer yöntemlere göre arttığı gösterilmiştir.

Lemmatizer: Smart Root Finder for Turkish Words

Recently, various studies have been conducted in the field of Turkish natural language processing. These studies require a smart system that has the capability of answering Turkish questions, translating articles into another language, summarizing the articles, and sending automatic replies to e-mails. The need to find the correct roots of Turkish words is the basis of the aforementioned capabilities. Although various methods of finding Turkish roots have been given in the literature, success rates are generally low due to the complex structures of Turkish words. In this study, a root finding system (Lemmatizer) has been developed using the agglutinating structure ofTurkish words and its comparison with the Zemberek and Snowball methodsis given. The Lemmatizer system is written in Python and is based on more than 130 most frequently used suffixes and TDK dictionaries in Turkish. In addition, statistical analysis was performed using the Knime platform. For this study, firstly the Lemmatizer system was trained with many Turkish articles and books and ithas continuously improved its repertoire. At the same time, thanks to the feedback received using the Turkish suffix and root database called Kalbur, the accuracy rate has increased continuously. The results ofthe Lemmatizer system were compared with the Zemberek and Snowball methods previously made in terms of both number and accuracy. Turkish texts of different lengths were used for comparison. It has been shown that the Lemmatizer method gives results close to the Snowball and Zembere methods, and the success rate increases with each new text, thanks to its ability to learn using the TDK dictionary.

___

  • Akın, A. A., & Akın, M. D. (2007). Zemberek, an open source nlp framework for turkic languages. Structure, 1-5.
  • Aksoy, A. (2016, 10 29). Kalbur. https://github.com/ahmetax/kalbur
  • Çarkacı, N. (2017, 7 31). TDKDictionaryCrawler. https://github.com/ncarkaci/TDKDictionaryCrawler
  • Demircan, Ö. (1977). Türkiye Türkçesinde Kök-Ek Birleşmeleri.Türk Dil Kurumu Yayınları.
  • Dickson, C. (1945). Kanlı Oyun. Türkiye Yayınevi.
  • Doğuç, Ö. (2020, 05 20). Turkish Lemmatization. https://github.com/ozgedoguc/Turkish- Lemmatization
  • Ethnologue. (2020, 5 1). What are the top 200 most spoken languages?: https://www.ethnologue.com/guides/ethnologue200
  • Gordon, R. G. (2005). Ethnologue: Languages of the World, Fifteenth edition. SIL International.
  • Institute, U. I. (2007, 10 11). Turkish. UCLA Language Materials Project: http://lmp.ucla.edu/Profile.aspx?menu=004&LangID=67
  • Kerimoğlu, C., & Doğan, G. (2015). Türkçede Cinsiyet Görünümleri ve Çağrışımsal Cinsiyet. Türklük Bilimi Araştırmaları, 10.17133.
  • Oflazer, K. (2018). Türkçe Doğal Dil İşleme. Boğaziçi Üniversitesi.
  • Onan, B. (2009). Eklemeli Dil Yapısının Türkçe Öğretiminde Oluşturduğu Bilişsel (Kognitif) Zeminler. Mustafa Kemal Üniversitesi Sosyal Bilimler Enstitüsü Dergisi, 237-264.
  • Özker, U. (2019, 9 23). ZEMBEREK — Doğal Dil İşleme. https://medium.com/@ugrozkr_6539/zemberek-nlp-7add032881e9
  • Porter, M. (1980). An algorithm for suffix stripping. Program, 130-7.
  • Porter, M. (2001). Snowball: A language for stemming algorithms.
  • Turkish language. (2020, 5 1). Omniglot: https://www.omniglot.com/writing/turkish.htm
  • Turkish speaking countries. (2020). WorldInfo: https://www.worlddata.info/languages/turkish.php
Turkish Studies - Information Technologies and Applied Sciences-Cover
  • ISSN: 2667-5633
  • Yayın Aralığı: Yılda 4 Sayı
  • Başlangıç: 2006
  • Yayıncı: ASOS Eğitim Bilişim Danışmanlık Otomasyon Yayıncılık Reklam Sanayi ve Ticaret LTD ŞTİ