Mobil araçlarda Türkçe konuşma tanıma için yeni bir veri tabanı ve bu veri tabanı ile elde edilen ilk konuşma tanıma sonuçları

Konuşma tanıma teknolojisi konuşmanın otomatik olarak metne dönüştürülmesini sağlamaktadır. Bu konuda yapılmış önceki çalışmalar, teknolojinin belli bir olgunluğa ulaşmasını ve pek çok farklı alanda kullanılmasını sağlamıştır. Son zamanlarda akıllı telefon, tablet gibi mobil uygulamaların kullanımında görülen hızlı artış konuşma tanıma teknolojisinin mobil platformlara uyarlanmasını önemli hale getirmiştir. Bu çalışmada mobil platformlar için yüksek başarım ile çalışan Türkçe bir konuşma tanıma sisteminin gerçekleştirilmesi hedeflenmiştir. Bu amaçla farklı akıllı telefonlardan alınmış kayıtlardan oluşan yeni bir ses veri tabanı oluşturulmuştur. Sistemin performansı üç farklı konuşma tanıma uygulaması kullanılarak ölçülmüştür. i) Televizyon kumanda uygulaması, ii) Sesli mesaj uygulaması, iii) Genel metin yazdırma uygulaması. Yaptığımız testlerde tanıma performansının televizyon kumanda uygulaması için %95’in üzerinde olduğu görülmüştür. Sesli mesaj ve genel metin yazdırma uygulamalarında yaklaşık %40 ve %60 başarım oranları elde edilmiştir.

A new database for Turkish speech recognition on mobile devices and initial speech recognition results using the database

The aim of speech recognition is to recognize human speech and convert it to written text. Past works in speech recognition technology leaded to significant improvements and this ensured the use of the technology in various practical applications. Recently, the demand for mobile applications has significantly increased when the smart phones and tablets have been introduced to the market. As a result, the adaptation of speech recognition to mobile devices has been an important issue since the technology has many applications in these devices. In this study, we aim to develop a Turkish speech recognition system for mobile devices. For this purpose, we collected a new database that includes recordings from various different speakers and smart phones. The performance of this system is tested using three speech recognition applications; i) Television control ii) Short message iii) General text dictation. In the experiments, we achieved 95% recognition performance in the grammar based television control application. The performance in short message and general text dictation applications are approximately %40 and %60, respectively.

___

  • Davis SB, Mermelstein P. “Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences”. IEEE Transactions on Acoustics, Speech and Signal Processing, 28(4), 357-366, 1980.
  • Makhoul J. “Linear prediction: A tutorial review”. Proceeding of the IEEE, 63(4), 561-580, 1975.
  • Hermansky H, Morgan N, Bayya A, Kohn P. “RASTA-PLP speech analysis technique”. IEEE International Conference on Acoustics, Speech and Signal Processing 1992, San Francisco, California, USA, 23-26 March 1992.
  • Rabiner LR, Huang BW. Fundamentals of Speech Recognition. Englewood Cliffs, New Jersey, USA, Prentice Hall Inc, 1993.
  • Young S, Evermann G, Gales M, Hain T, Kershaw D, Liu X, Moore G, Odell J, Ollason D, Povey D, Valtchev V, Woodland P. The HTK Book (for HTK Version 3.4). 3th ed. Cambridge, UK, Cambridge University Engineering Department, 2006.
  • Viterbi, AJ. “Error bounds for convolutional codes and an asymptotically optimum decoding algorithm”. IEEE Transactions on Information Theory, 13(2), 260-269, 1967.
  • Carnegie Mellon University Speech Processing Group. “Carnegie Mellon University Sphinx, Open Source Toolkit for Speech Recognition”. http://cmusphinx.sourceforge.net (19.04.2014).
  • Kaldi Project. “Kaldi: A Toolkit for Speech Recognition”. http://kaldi-asr.org/ (05.01.2016).
  • Tan ZH, Lindberg B. “Speech recognition on mobile devices”. Lecture Notes in Computer Science, 5960, 221-237, 2010.
  • Arisoy E. Turkish Dictation System for Radiology and Brodcast News Applications. Msc. Thesis, Bogazici University, Turkey, 2004.
  • Buyuk O. Sub-word Language Modelling for Turkish Speech Recognition. Msc. Thesis, Sabanci University, Turkey, 2005.
  • Carnegie Mellon University Speech Processing Group, CMU. “The CMU Statistical Language Modeling (SLM) Toolkit”. http://www.speech.cs.cmu.edu/SLM_info.html (19.10.2015).
  • Buyuk O, Haznedaroglu A, Arslan LM. “Turkish speech recognition software with adaptable language model”. 15th Signal Processing and Communication Applications Conference, Eskisehir, Turkey, 11-13 June 2007.