Kırgız ve Türkiye Türkçeleri arasında istatistiksel bilgisayarlı çeviri uygulaması ve başarım testi

Bilgisayarlı çeviri, doğal diller arası metin çevirmede kullanılan farklı yöntem ve yazılımları araştırmayı amaçlayan bilgisayarlı dilbilim alt alanıdır. Bilgisayarlı çeviri araçlarının yüksek seviyede sözdizimsel ve anlambilimsel analiz sağlayamamasına rağmen; gelişmiş bilgisayarlı yöntemler uygulanarak yaygın kullanılan diller arası çeviride nispeten kabul edilebilir sonuçlara ulaşılmıştır. Son yıllarda, bilgisayarlı çeviride, büyük veri üzerinde istatistiksel analizle kendi kendini eğitebilen yöntemler geliştirilmiştir. Türkçe dil ailesi üzerine yapılan bilgisayarlı çeviri araştırmalarında, doğal dillerin kurallı yapısı çözümlenerek kural tabanlı yöntemlerin uygulandığı, ancak yaygın olarak araştırılan İstatistiksel Bilgisayarlı Çeviri yöntemlerinin ise sınırlı sayıda ve kısmen uygulandığı görülmektedir. Bu çalışmanın amacı, Kırgız Türkçesi ve Türkiye Türkçesi arasında N-GRAM Tabanlı ve İfade Tabanlı İBÇ sistemlerini uygulamak ve sınırlı paralel korpus üzerinde eğitilen İstatistiksel Bilgisayarlı Çeviri sistemlerinin başarımını çeviri örnekleri üzerinde test etmek ve incelemektir. Sonuçta her iki sistemin çeviri kalitesi BLEU değerlendirme yöntemi ile puanlanmıştır. Değerlendirmeye göre, Kırgız Türkçesi ve Türkiye Türkçesi arasında çeviri kalitesi ortalama 0.1 değerinde elde edilmiştir. Çevrisi hiç bulunmayan, ya da insan çevirisine göre uyumsuz durumlar da gözlemlenmiştir. Daha yüksek çeviri kalitesine ulaşma ve sistemler geliştirme amacıyla çeşitli öneriler sunulmuştur

Anahtar Kelimeler:

N-GRAM , istatistiksel bilgisayarlı çeviri, dil modeli, çeviri modeli, kod çözme, kortej

Statistical machine translation implementation and performance tests between Kyrgyz and Turkish Languages

Bilgisayarlı çeviri, doğal diller arası metin çevirmede kullanılan farklı yöntem ve yazılımları araştırmayı amaçlayan bilgisayarlı dilbilim alt alanıdır. Bilgisayarlı çeviri araçlarının yüksek seviyede sözdizimsel ve anlambilimsel analiz sağlayamamasına rağmen : gelişmiş bilgisayarlı yöntemler uygulanarak yaygın kullanılan diller arası çeviride nispeten kabul edilebilir sonuçlara ulaşılmıştır. Son yıllarda, bilgisayarlı çeviride, büyük veri üzerinde istatistiksel analizle kendi kendini eğitebilen yöntemler geliştirilmiştir. Türkçe dil ailesi üzerine yapılan bilgisayarlı çeviri araştırmalarında, doğal dillerin kurallı yapısı çözümlenerek kural tabanlı yöntemlerin uygulandığı, ancak yaygın olarak araştırılan İstatistiksel Bilgisayarlı Çeviri yöntemlerinin ise sınırlı sayıda ve kısmen uygulandığı görülmektedir. Bu çalışmanın amacı, Kırgız Türkçesi ve Türkiye Türkçesi arasında N-GRAM Tabanlı ve İfade Tabanlı İBÇ sistemlerini uygulamak ve sınırlı paralel korpus üzerinde eğitilen İstatistiksel Bilgisayarlı Çeviri sistemlerinin başarımını çeviri örnekleri üzerinde test etmek ve incelemektir. Sonuçta her iki sistemin çeviri kalitesi BLEU değerlendirme yöntemi ile puanlanmıştır. Değerlendirmeye göre, Kırgız Türkçesi ve Türkiye Türkçesi arasında çeviri kalitesi ortalama 0.1 değerinde elde edilmiştir. Çevrisi hiç bulunmayan, ya da insan çevirisine göre uyumsuz durumlar da gözlemlenmiştir. Daha yüksek çeviri kalitesine ulaşma ve sistemler geliştirme amacıyla çeşitli öneriler sunulmuştur.

Keywords:

N-GRAM , istatistiksel bilgisayarlı çeviri, dil modeli, çeviri modeli, kod çözme, kortej,

PDF

___

[1] Hutchins, W. J. (1986). Machine translation: past, present, future (p. 66). Chichester: Ellis Horwood.
[2] Gökgöz, E., Kurt, A., Kulamshaev, K., & Kara, M. (2011). Two-Level Qazan Tatar Morphology.
[3] Chéragui, M. A. (2012). Theoretical Overview of Machine Translation. Proceedings ICWIT, 160.
[4] Hutchins, W. J., & Somers, H. L. (1992). An introduction to machine translation (Vol. 362). London: Academic Press.
[5] Delavenay, E., & Delavenay, K. M. (1960). An introduction to machine translation. London: Thames and Hudson.
[6] Sadler, L. (1992, July). Rule-Based Translation as Constraint Resolution. In Proc. FGNLP Workshop, S. Ananiadou (ed.) (pp. 1-21).
[7] Lopez, A. (2008). Statistical machine translation. ACM Computing Surveys (CSUR), 40(3), 8.
[8] Och, F. J., & Ney, H. (2003). A systematic comparison of various statistical alignment models. Computational linguistics, 29(1), 19-51.
[9] Vogel, S., Ney, H., & Tillmann, C. (1996, August). HMM-based word alignment in statistical translation. In Proceedings of the 16th conference on Computational linguistics-Volume 2 (pp. 836-841). Association for Computational Linguistics.
[10] Chiang, D. (2007). Hierarchical phrase-based translation. computational linguistics, 33(2), 201-228.
[11] Marcu, D., & Wong, W. (2002, July). A phrase-based, joint probability model for statistical machine translation. In Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10 (pp. 133-139). Association for Computational Linguistics.
[12] Marino, J. B., Banchs, R. E., Crego, J. M., de Gispert, A., Lambert, P., Fonollosa, J. A., & Costa-Jussà, M. R. (2006). N-gram-based machine translation. Computational Linguistics, 32(4), 527-549.
[13] Koehn, P. (2009). Statistical machine translation. Cambridge University Press.
[14] Koehn, P., Och, F. J., & Marcu, D. (2003, May). Statistical phrase-based translation. In Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology-Volume 1 (pp. 48-54). Association for Computational Linguistics.
[15] Dunning, T. (1994). Statistical identification of language (pp. 10-03). Computing Research Laboratory, New Mexico State University.
[16] Slobin, D. I., & Zimmer, K. (Eds.). (1986). Studies in Turkish linguistics (Vol. 8). John Benjamins Publishing.
[17] Abduvaliev, I. (2008). Kyrgyz tilinin morfologiyasy. “Kyrgyz tili jana adabiyaty” adistigi boyuncha jogorku okuu jailardyn studentteri uchun okuu kitepteri. Bishek
[18] Korkmaz, Z. (2003). Türkiye Türkçesi grameri şekil bilgisi. Atatürk Kültür, Dil ve Tarih Yüksek Kurumu, Türk Dil Kurumu, Ankara.
[19] Akunova, A., Raimbekova, M., Karamendeeva, Ch. (2010). Azyrky Kyrgyz tili. Sintaksis. Jogorku okuu jaidyn studentteri uchun. Bishkek.
[20] Lewis, G. L. (1985). Turkish grammar. Oxford University Press, USA.
[21] Heafield, K. (2011, July). KenLM: Faster and smaller language model queries. In Proceedings of the Sixth Workshop on Statistical Machine Translation (pp. 187-197). Association for Computational Linguistics.
[22] Papineni, K., Roukos, S., Ward, T., & Zhu, W. J. (2002, July). BLEU: a method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting on association for computational linguistics (pp. 311-318). Association for Computational Linguistics.
[23] Madnani, N. (2011, September). iBLEU: Interactively debugging and scoring statistical machine translation systems. In Semantic Computing (ICSC), 2011 Fifth IEEE International Conference on (pp. 213-214). IEEE.

ISSN: 1694-7398
Yayın Aralığı: Yılda 2 Sayı
Başlangıç: 2001
Yayıncı: KIRGIZİSTAN-TÜRKİYE MANAS ÜNİVERSİTESİ

Arşiv