Evrişimsel Sinir Ağları ile Türkçe Videolarda Geçen Küfür Seslerinin Sansürlenmesi

İnternet ortamında ve özellikle sosyal mecralardaki video ve ses dosyalarında toplum ahlakını olumsuz yönde etkileyebilecek çok sayıda içerik bulunmaktadır. Ayrıca bu içeriklerin sayısı her geçen dakika artmaktadır. Bu kadar hızlı artan içerik sayısının kontrolü ve incelenmesi geleneksel yöntemler ile malesef mümkün olmamaktadır. Bu sebeple yapay zeka ve ses işleme yöntemleri kullanılarak bir oto-sansür uygulaması geliştirilmiştir. Çalışmada gelişmiş bir derin öğrenme modeli olan evrişimsel sinir ağı mimarisi kullanılmıştır. Bunun yanında tahmin aşamasında kullanılmak üzere, ses özellikleri çıkarmak için insan işitsel sistemine benzerliği sebebiyle mel-frekansı kepstral katsayıları algoritması tercih edilmiştir.

Censoring the Profanity Sounds in Turkish Videos with Convolutional Neural Networks

There is a large amount of content on the Internet, especially in video and audio files on social media, that can negatively affect public morality. In addition, the number of these contents is increasing every minute. Unfortunately, it is not possible to control and examine the number of content that increases so rapidly with traditional methods. For this reason, a self-censorship prototype was developed using artificial intelligence and voice processing methods. Convolutional neural network architecture, which is an advanced deep learning model, was used in the study. In addition, the MFCC algorithm was preferred because of its similarity to the human auditory system to extract sound features to be used in the estimation phase.

___

  • A. . S. B. Wazir, H. A. Karim, M. H. L. Abdullah, S. Mansor, N. AlDahoul, M. . F. A. Fauzi ve J. See, SPECTROGRAM-BASED CLASSIFICATION OF SPOKEN FOUL LANGUAGE USING DEEP CNN, 2020.
  • Y. R. Pandeya ve J. Lee, Domestic Cat Sound Classification Using Transfer Learning, International Journal of Fuzzy Logic and Intelligent Systems, pp. 154-160, 2018.
  • N. Sengupta, M. Sahidullah ve G. Saha, Lung sound classification using cepstral-based statistical features, Computers in Biology and Medicine, 2016.
  • H. Purwins, B. Li, T. Virtanen, J. Schlüter, S.-y. Chang ve T. Sainath, Deep Learning for Audio Signal Processing, JOURNAL OF SELECTED TOPICS OF SIGNAL PROCESSING, pp. 206-219, 2019.
  • A. Şeker, B. Diri ve H. H. Balık, Derin Öğrenme Yöntemleri ve Uygulamaları Hakkında Bir İnceleme, Gazi Mühendislik Bilimleri Dergisi, pp. 47-64, 2017.
  • S. Albawi, T. A. Mohammed ve S. Al-Zawi, Understanding of a convolutional neural network, IEEE, Antalya, 2017.
  • R. N. Tak, D. Agrawal ve H. Patil, Novel Phase Encoded Mel Filterbank Energies for Environmental Sound Classification, International Conference on Pattern Recognition and Machine Intelligence, 2017.
  • Prabhu, Understanding of Convolutional Neural Network (CNN) — Deep Learning. Available: https://medium.com/@RaghavPrabhu/understanding-of-convolutional-neural-network-cnn-deep-learning-99760835f148. [Erişildi: 2021].
  • Q. Developer, Deep Learning and Convolutional Neural Networks for Computer Vision, Qualcomm. Available: https://developer.qualcomm.com/software/qualcomm-neural-processing-sdk/learning-resources/cnn-architectures/deep-learning-convolutional-neural-networks-computer-vision. [Erişildi: 2021].
  • U. Kiran, MFCC Technique for Speech Recognition, Analytics Vidhya. Available: https://www.analyticsvidhya.com/blog/2021/06/mfcc-technique-for-speech-recognition/. [Erişildi: 2021].
  • M. Jenhi, A. Roukhe ve L. Hlou, Analysis of Speaker’s Voice in Cepstral Domain Using MFCC Based Feature Extraction and VQ Technique for Speaker Identification System, pp. 857-868, 2019.
  • S. SHARMA, Activation Functions in Neural Networks. Available: https://towardsdatascience.com/activation-functions-neural-networks-1cbd9f8d91d6. [Erişildi: 2021].
  • S. Albawi, T. A. Mohammed ve S. Al-Zawi, Understanding of a convolutional neural network, International Conference on Engineering and Technology (ICET), Antalya, 2017.