Türkçe Metinden Konusma Sentezlemede Doğallığın Artırılması İçin Öneriler / Recommendations for Increasing the Naturalness in Turkish Text-to-Speech Synthesis

Özet Metinden konusma sentezleme; yazılı bir metnin gelistirilen sistem tarafından otomatik olarak okunmasıdır. Bu çalısmada, difon tabanlı, eklemeli bir konusma sentezleyici tasarlanmıs ve gerçeklestirilmistir. Birlestirmede PSOLA yöntemi kullanılmaktadır. Genellikle konusma sentezleyicilerin ezgi modeli yoktur veya eksiktir. Bu durum sentezlenen konusmanın dogallıgını olumsuz yönde etkiler. Çalısmamızda bu eksikligin giderilmesi için yeni bir model önerilmistir. Sentezlenen konusmanın dogallıgının artırılması için, konusmanın ezgisi üzerinde süre ve vurgu temelli kurallar tanımlanmıstır. Bu kurallar, hazırlanan ara yüzde yapılan pek çok denemenin sonucunda bulunmustur. Uygulanan kuralların sentezlerin dogallıgındaki basarısı öznel dinleme testleriyle ölçülmüstür. Sonuç olarak, tanımlanan kuralların gelistirilen konusma sentezleyicide uygulanması ile CMOS testi sonucunda 1,86/5,00 puanlık bir artıs elde edilmistir. Bu sonuç, ezgi modelimizin basarılı oldugunu göstermektedir.   Abstract Text to speech synthesis (TTS) is the automatic reading of a text by a system. In this work, a TTS system which concatenates diphones has been designed and implemented. For concatenations, PSOLA method was used. Usually speech synthesizers lack an intonation model. This degrades the naturalness of the synthesized speech. For increasing the naturalness of the synthesized speech, duration and accent based rules were defined in this study for a proper intonation. These rules were determined after an extensive set of experiments performed in the designed testbed. In the end, an improvement of 1.86/5.00 in the CMOS score was obtained by applying the defined rules in the developed synthesis platform. This result shows the success of our intonation model.

___

  • Braille Teknik Ltd. Sti. http://www.brailleteknik.com/jaws.html son erisim: 08/02/2012
  • Loquendo S.p.A., a Telecom Italia Group Company http://www.loquendo.com/en/demo-center/tts-demo/
  • GVZ Ses tanıma ve sentezleme teknolojileri sirketi http://www.gvz.com.tr/index.html son erisim: 08/02/2012
  • DİKTE Yöndata Bilgisayar Ltd. Sti. http://www.dikte.com.tr/konusmatanima.php son erisim: 08/02/2012
  • Google translate http://translate.google.com son erisim: 08/02/2012
  • Dutoit, T., An Introduction to Text-to-Speech Synthesis, Kluwer Academic Publishers, 1997.
  • Tatham, M. and Morton K., Developments in Speech Synthesis, Wiley, 2005.
  • Narayanan, S. and Alwan, A., Text to Speech Synthesis, New Paradigms and Advances, Prentice Hall, 2005.
  • Taylor, P., Text-to-Speech Synthesis, Cambridge University Press, 2009.
  • Uslu, İ. B., “Türkçe metinden konusma sentezlemede bugünkü durum - 2. Bölüm”, EMO Ankara Subesi Haber bülteni, 2010.3.
  • Sayli, Ö., “Duration analysis and modelling for Turkish text-to-speech synthesis”, yüksek lisans tezi, Bogaziçi Üniversitesi Fen Bilimleri Enstitüsü, 2002.
  • Öztürk, Ö., “Modelling phoneme durations and fundamental frequency contours in Turkish speech”, doktora tezi, ODTÜ Fen Bilimleri Enstitüsü, 2005.
  • Oskay, B., Salor, Ö., Özkan, Ö., Demirekler, M. ve Çiloglu T., “Türkçe metinden konusma sentezlemede ezgi belirlenmesi ve uygulanması”, IEEE 9. Sinyal İsleme ve Uygulamaları Kurultayı SİU-2001, 2001, s. 238–243.
  • Külekçi, M. O. ve Oflazer K., “An infrastructure for Turkish prosody generation in text-to-speech synthesis”, TAINN 2006, 15th Turkish Symposium on Artificial Intelligence and Neural Networks, Mugla, Haziran 2006, s. 49–57.
  • Uslu, İ.B. ve İlk, H.G., “Türkçe metinden konusma sentezlemede Fujisaki ezgi modeli, IEEE 17. Sinyal İsleme ve İletisim Uygulamaları Kurultayı, SİU-2009, Antalya, Nisan 2009, s. 844–847.
  • Aydemir T. ve Yılmaz, A. E., “Türkçe fiil çekimlerinde vurgu konumunu belirlemek için bir yazılım kütüphanesi, IEEE 18. Sinyal İsleme ve İletisim Uygulamaları Kurultayı (SİU 2010), 22–24 Nisan 2010, Diyarbakır, Türkiye, s. 696–699.
  • Uslu, İ.B., Yılmaz A.E. ve İlk, H.G., “Türkçe metinden konusma sentezlemede fiil çekimleri için yeni bir ezgi modeli”, IEEE 19. Sinyal İsleme ve İletisim Uygulamaları Kurultayı, SİU-2011, Antalya, Nisan 2011, s. 638–641.
  • Bulut, M., Busso C., Yıldırım, S., Kazemzadeh, A., Lee, C. M., Lee S. and Narayanan S., “Investigating the role of phoneme-level modifications in emotional speech resynthesis”, Proceedings of Interspeech, 2005, s. 801– 804.
  • Burkhardt, F., Audibert, N., Malatesta, L., Türk, O., Arslan, L. and Auberge, V., “Emotional prosody – does culture make a difference?”, Speech Prosody, Dresden Germany, paper no. 207, 2006.
  • Moulines, E., and Charpentier, F., “Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones”, Speech Communication, volume: 9, 1990, s. 453–467.
  • Ergenç, İ., Konusma Dili ve Türkçenin Söyleyis Sözlügü, Multilingual, 2002
  • Salor, Ö., Pellom B, Çiloglu T. and Demirekler M., “On developing new text and audio corpora and speech recognition tools for the Turkish language”, ICSLP-2002: Inter. Conf. On Spoken Language Processing, Denver, Colorado USA, 16–20 Eylül 2002, s. 349–352..
  • http://demo.reformo.net/baran3/index.php son erisim: 08/02/2012
EMO Bilimsel Dergi-Cover
  • ISSN: 1309-5501
  • Yayın Aralığı: Yılda 2 Sayı
  • Başlangıç: 2011
  • Yayıncı: -