Alman Dili Üzerinde Konuşmacı Cinsiyetinin Otomatik Olarak Belirlenmesi

Kişi tanıma sistemleri biyometrik verilerin güvenli bir şekilde iletimini, tasarımını, sınıflandırılmasını gerekli kılmaktadır. Ayrıca konuşmacıların cinsiyeti belirlenerek biyometrik ses işlemlerinde daha başarılı sonuçlar elde edilebilir. Bu çalışmada Almanca ses biçim ve özelliklerine bakılarak konuşmacının cinsiyetinin otomatik olarak tanınması için bir sistem tasarlanması amaçlanmıştır. 50 erkek ve 50 kadından Almanca farklı uzunlukta kelime ve cümle olarak yaklaşık 2658 ses örneği alınmıştır. Bu ses örnekleri tek kelime olduğu gibi birden fazla kelime de içermektedir. Ses örneklerinin öznitelikleri MFCC (Mel Frequency Cepstral Coefficients) kullanılarak elde edilmiştir. Elde edilen ses örneklerinin öznitelik vektörleri Saklı Markov Modelleri(Hidden Markov Models-HMM), Dinamik Zaman Bükmesi(Dynamic Time Warping-DTW) ve Gauss Mixture Models (Gauss Karışım Modeli-GMM) yöntemleri ile eğitilmiştir. Test aşamasında ise eğitilen ses örneklerine bakılarak verilen ses örneğinin cinsiyeti belirlenmeye çalışılmıştır. Ayrıca çalışmada kullanılan tüm sınıflandırma algoritmalarının sonuçları ve performansları karşılaştırılmalı olarak sunulmuştur.

Automatic Determination of the Speaker on the German Language

Authentication systems necessitate transmission, design and classification of biometric data in a secure manner. Moreover, in voice process of biometric can be obtained successful results by determining gender of speaker. In this study, the aim was to designed system taking German sound forms and properties for automatic recognition gender of speaker. Approximately 2658 German voice samples of words and clauses with differing lengths have been collected from 50 males and 50 females. This voice samples includes more than one word as a word. Features of these voice samples have been obtained using MFCC (Mel Frequency Cepstral Coefficients). Feature vectors of the voice samples obtained have been trained with such methods as Hidden Markov Model, Dynamic Time Warping and Gauss Mixture Model. In the test phase, gender of a given voice sample has been identified taking the trained voice samples into consideration. Results and performances of the algorithms employed in the study for classification have been also demonstrated in a comparative manner


  • [1] Q.Jie-Fu, F. Gang, F. Zeng and R. Shannon etc., "Importance of tonal envelope cues in Chinese speech recognition", The Journal of the Acoustical Societct of America, vol.104, no.1, pp.505-510, 1998.
  • [2] K. Tokuda , H. Zen and A. Black, "An HMM-Based Speech Synthesis System Applied to English", Proc.of 2002 IEEE SSW, pp.227-230, 2012.
  • [3] D.Reynold , W. Andrews and J.Campbell etc., "The SuperSID Project: Exploiting High-Level Information for High-Accuracy Speaker Recognition", In.Proc. ICASSP, Hong Kong, pp.784-787, 2003.
  • [4] L.Muda and M.Began, (2010). "Voice Recognition Algorithms using Mel Frequency Cepstral Coefficient (MFCC) and Dynamic Time Warping (DTW) Techniques", Journal Computing, vol.2, issue 3,pp.138-143, ISBN 2151-9617, 2010.
  • [5] E.Trentin and M. Gori, "A survey of hybrid ANN/HMM models for automatic speech recognition", Elsevier Neurocomputing 37, pp.91-126, 2001.
  • [6] S.Oh and C.Suen, "A class-modular feed forward neural network for handwriting recognition", Pattern Recognition, vol.35, issue 1, pp.229-244, 2002.
  • [7] L.Theodore , N.Ralph and H.Daniel, " The acoustic bases for gender identification from children's voices", J. Acoust. Soc. Am. 109 (6), pp.2988-2998, 2001.
  • [8] D.Reynolds , T.Quatieri and R.Dunn, "Speaker Verification using Adapted Gaussian Mixture Models", Digital Signal Processing 10, pp.19-41, 2000.
  • [9] W.Gevaert , G.Tsenov and V.Mladenov, "Neural networks used for speech recognition", Journal of Automatic Control, vol.20, pp.1-7, 2010.
  • [10] L. Muda, M. Begam and I.Elamvazuthi, " Voice Recognition Algorithms using Mel Frequency Cepstral Coefficient (MFCC) and Dynamic Time Warping (DTW) Techniques", Jornal of Computing, vol.2, issue 3, pp.138-143, ISSN 2151-9617, 2010.
  • [11] E. Parris, and M.Carey, "Language Independent Gender Identification", Acoustics, Speech, and Signal Processing, 1996. ICASSP-96. Conference Proceedings., 1996 IEEE International Conference on, vol.2, pp.685-688, 1996.
  • [12] D.A. Reynolds and R.C. Rose, "Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models", IEEE Trans. Speech Audio Proc., 3, (1), pp. 72-83, 1995.