Güncel Biçimiyle Sözlü Türkçe Derlemi: Teknik ve İstatistiksel Bir Çözümleme

Bu makalenin öncelikli amacı Prof. Dr. Şükriye Ruhi'nin öncülüğündegeliştirilen ODTÜ Sözlü Türkçe Derlemi'nin (STD) oluşturulmasındakullanılan teknolojileri ve iş akışlarını açıklamaktır. STD'ninoluşturulmasında merkezi bir konumda olan Web Tabanlı Derlem YönetimSistemi, kayıtların çeviriyazısı, kontrolü ve yayınlanmasını kolaylaştıran birdizi iş akışını, veri biçimini ve dışa aktarma seçeneklerini barındırmaktadır.Derlem yönetim sistemi, proje araştırmacıları tarafından Python programlamadili kullanılarak geliştirilmiş olup, farklı rollere sahip proje üyelerininçevrimiçi bir arayüzden uzaktan ortaklaşa çalışabilmelerini sağlamaktadır.STD kapsamında 286,391 sözcüklük konuşmanın çeviriyazısı tamamlanmışve kontrolden geçmiş, 79,189 sözcüklük konuşma ise bütünüyle yayına hazırhale getirilmiştir. Makalede derlemdeki bu kayıtlarla ilgili genel istatistiklersunularak STD'nin daha geniş çaplı bir sürümü için yapılması gerekenlertartışılmaktadır.

___

  • Acar, M. G. C. & Eryılmaz, K. (2010). Sözlü Derlem İçin Web Tabanlı Yönetim Sistemi. 24. Ulusal Dilbilim Kurultayı Bildiri Kitabı. 17-18 Mayıs 2010, 437-443.
  • DiPierro, M. (2009). Web2py Enterprise Web Framework. Wiley Publishing.
  • DiPierro, M. (2011). Web2py for scientific applications. Computing in Science & Engineering, 13(2), 64-69.
  • Schmidt, T. (2004). Transcribing and annotating spoken language with EXMARaLDA. In Proceedings of the LREC-Workshop on XML based richly annotated corpora, Lisbon 2004.
  • Ruhi, Ş., Işık-Güler, H., Hatipoğlu, Ç., Eröz-Tuğa, B., & Çokal Karadaş, D. (2010). Achieving representativeness through the parameters of spoken language and discursive features: the case of the Spoken Turkish Corpus. Language Windowing through Corpora. Visualización del lenguaje a través de corpus. Part II. Universidade da Coruna, 789-799.
  • TÜİK. İl, yaş grubu ve cinsiyete göre nüfus. Erişim Adresi: http://www.tuik.gov.tr/PreIstatistikTablo.do?istab_id=945. Erişim tarihi: 26/06/2017.