Kırgız ve Türkiye Türkçeleri arasında istatistiksel bilgisayarlı çeviri
uygulaması ve başarım testi
Bilgisayarlı çeviri, doğal diller arası metin çevirmede kullanılan farklı yöntem ve yazılımları araştırmayı amaçlayan bilgisayarlı dilbilim alt alanıdır. Bilgisayarlı çeviri araçlarının yüksek seviyede sözdizimsel ve anlambilimsel analiz sağlayamamasına rağmen; gelişmiş bilgisayarlı yöntemler uygulanarak yaygın kullanılan diller arası çeviride nispeten kabul edilebilir sonuçlara ulaşılmıştır. Son yıllarda, bilgisayarlı çeviride, büyük veri üzerinde istatistiksel analizle kendi kendini eğitebilen yöntemler geliştirilmiştir. Türkçe dil ailesi üzerine yapılan bilgisayarlı çeviri araştırmalarında, doğal dillerin kurallı yapısı çözümlenerek kural tabanlı yöntemlerin uygulandığı, ancak yaygın olarak araştırılan İstatistiksel Bilgisayarlı Çeviri yöntemlerinin ise sınırlı sayıda ve kısmen uygulandığı görülmektedir. Bu çalışmanın amacı, Kırgız Türkçesi ve Türkiye Türkçesi arasında N-GRAM Tabanlı ve İfade Tabanlı İBÇ sistemlerini uygulamak ve sınırlı paralel korpus üzerinde eğitilen İstatistiksel Bilgisayarlı Çeviri sistemlerinin başarımını çeviri örnekleri üzerinde test etmek ve incelemektir. Sonuçta her iki sistemin çeviri kalitesi BLEU değerlendirme yöntemi ile puanlanmıştır. Değerlendirmeye göre, Kırgız Türkçesi ve Türkiye Türkçesi arasında çeviri kalitesi ortalama 0.1 değerinde elde edilmiştir. Çevrisi hiç bulunmayan, ya da insan çevirisine göre uyumsuz durumlar da gözlemlenmiştir. Daha yüksek çeviri kalitesine ulaşma ve sistemler geliştirme amacıyla çeşitli öneriler sunulmuştur
Statistical machine translation implementation and performance tests between
Kyrgyz and Turkish Languages
Bilgisayarlı çeviri, doğal diller arası metin çevirmede kullanılan farklı yöntem ve yazılımları araştırmayı amaçlayan bilgisayarlı dilbilim alt alanıdır. Bilgisayarlı çeviri araçlarının yüksek seviyede sözdizimsel ve anlambilimsel analiz sağlayamamasına rağmen : gelişmiş bilgisayarlı yöntemler uygulanarak yaygın kullanılan diller arası çeviride nispeten kabul edilebilir sonuçlara ulaşılmıştır. Son yıllarda, bilgisayarlı çeviride, büyük veri üzerinde istatistiksel analizle kendi kendini eğitebilen yöntemler geliştirilmiştir. Türkçe dil ailesi üzerine yapılan bilgisayarlı çeviri araştırmalarında, doğal dillerin kurallı yapısı çözümlenerek kural tabanlı yöntemlerin uygulandığı, ancak yaygın olarak araştırılan İstatistiksel Bilgisayarlı Çeviri yöntemlerinin ise sınırlı sayıda ve kısmen uygulandığı görülmektedir. Bu çalışmanın amacı, Kırgız Türkçesi ve Türkiye Türkçesi arasında N-GRAM Tabanlı ve İfade Tabanlı İBÇ sistemlerini uygulamak ve sınırlı paralel korpus üzerinde eğitilen İstatistiksel Bilgisayarlı Çeviri sistemlerinin başarımını çeviri örnekleri üzerinde test etmek ve incelemektir. Sonuçta her iki sistemin çeviri kalitesi BLEU değerlendirme yöntemi ile puanlanmıştır. Değerlendirmeye göre, Kırgız Türkçesi ve Türkiye Türkçesi arasında çeviri kalitesi ortalama 0.1 değerinde elde edilmiştir. Çevrisi hiç bulunmayan, ya da insan çevirisine göre uyumsuz durumlar da gözlemlenmiştir. Daha yüksek çeviri kalitesine ulaşma ve sistemler geliştirme amacıyla çeşitli öneriler sunulmuştur.
___
- [1] Hutchins, W. J. (1986). Machine translation: past, present, future (p. 66). Chichester: Ellis Horwood.
- [2] Gökgöz, E., Kurt, A., Kulamshaev, K., & Kara, M. (2011). Two-Level Qazan Tatar Morphology.
- [3] Chéragui, M. A. (2012). Theoretical Overview of Machine Translation. Proceedings ICWIT, 160.
- [4] Hutchins, W. J., & Somers, H. L. (1992). An introduction to machine translation (Vol. 362). London: Academic
Press.
- [5] Delavenay, E., & Delavenay, K. M. (1960). An introduction to machine translation. London: Thames and Hudson.
- [6] Sadler, L. (1992, July). Rule-Based Translation as Constraint Resolution. In Proc. FGNLP Workshop, S. Ananiadou
(ed.) (pp. 1-21).
- [7] Lopez, A. (2008). Statistical machine translation. ACM Computing Surveys (CSUR), 40(3), 8.
- [8] Och, F. J., & Ney, H. (2003). A systematic comparison of various statistical alignment models. Computational
linguistics, 29(1), 19-51.
- [9] Vogel, S., Ney, H., & Tillmann, C. (1996, August). HMM-based word alignment in statistical translation. In
Proceedings of the 16th conference on Computational linguistics-Volume 2 (pp. 836-841). Association for Computational Linguistics.
- [10] Chiang, D. (2007). Hierarchical phrase-based translation. computational linguistics, 33(2), 201-228.
- [11] Marcu, D., & Wong, W. (2002, July). A phrase-based, joint probability model for statistical machine translation. In Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10
(pp. 133-139). Association for Computational Linguistics.
- [12] Marino, J. B., Banchs, R. E., Crego, J. M., de Gispert, A., Lambert, P., Fonollosa, J. A., & Costa-Jussà, M. R. (2006). N-gram-based machine translation. Computational Linguistics, 32(4), 527-549.
- [13] Koehn, P. (2009). Statistical machine translation. Cambridge University Press.
- [14] Koehn, P., Och, F. J., & Marcu, D. (2003, May). Statistical phrase-based translation. In Proceedings of the 2003
Conference of the North American Chapter of the Association for Computational Linguistics on Human
Language Technology-Volume 1 (pp. 48-54). Association for Computational Linguistics.
- [15] Dunning, T. (1994). Statistical identification of language (pp. 10-03). Computing Research Laboratory, New
Mexico State University.
- [16] Slobin, D. I., & Zimmer, K. (Eds.). (1986). Studies in Turkish linguistics (Vol. 8). John Benjamins Publishing.
- [17] Abduvaliev, I. (2008). Kyrgyz tilinin morfologiyasy. “Kyrgyz tili jana adabiyaty” adistigi boyuncha jogorku okuu
jailardyn studentteri uchun okuu kitepteri. Bishek
- [18] Korkmaz, Z. (2003). Türkiye Türkçesi grameri şekil bilgisi. Atatürk Kültür, Dil ve Tarih Yüksek Kurumu, Türk
Dil Kurumu, Ankara.
- [19] Akunova, A., Raimbekova, M., Karamendeeva, Ch. (2010). Azyrky Kyrgyz tili. Sintaksis. Jogorku okuu jaidyn
studentteri uchun. Bishkek.
- [20] Lewis, G. L. (1985). Turkish grammar. Oxford University Press, USA.
- [21] Heafield, K. (2011, July). KenLM: Faster and smaller language model queries. In Proceedings of the Sixth
Workshop on Statistical Machine Translation (pp. 187-197). Association for Computational Linguistics.
- [22] Papineni, K., Roukos, S., Ward, T., & Zhu, W. J. (2002, July). BLEU: a method for automatic evaluation of
machine translation. In Proceedings of the 40th annual meeting on association for computational linguistics
(pp. 311-318). Association for Computational Linguistics.
- [23] Madnani, N. (2011, September). iBLEU: Interactively debugging and scoring statistical machine translation systems. In Semantic Computing (ICSC), 2011 Fifth IEEE International Conference on (pp. 213-214). IEEE.