Farklı Derin Sinir Ağı Modellerinin Duygu Tanımadaki Performanslarının Karşılaştırılması

Teknolojinin geliştirilmesi ile insan ve makine etkileşimi her geçen gün artmaktadır. Bilim insanları bu etkileşim nedeniyle oluşan iletişimin dolayısıyla bilgi alışverişinin güçlendirilmesini amaçlamaktadırlar. Son yıllarda güçlendirme için insan sesinin ve yüz ifadelerinin analiz edilerek insan duygularının otomatik olarak tanınmasını sağlayan çalışmaların sayısında artış yaşanmaktadır. Ses sinyalinde duygu tanıma özelikle, görsel bilginin kısıtlı ya da hiç olmadığı durumlarda oldukça önemlidir. Bu çalışmada da insan sesinin analiz edilerek duyguların otomatik olarak tanımlanması üzerine kayda alınmış RAVDESS (The Ryerson Audio-Visual Database of Emotional Speech and Song) ve TESS (Toronto Emotional Speech Set) ses kayıtları veri seti olarak kullanılmış, makine öğrenmesi sınıflandırıcıları ve derin öğrenme algoritmaları kullanılarak modellerin iyi tahminler üretip üretmediğine bakılmış, algoritmalar ve yöntemler kıyaslanmıştır. Bunların yanı sıra Alexnet, Resnet50 ve SqueezeNet ağları da kıyaslamaya dahil edilmiştir. RAVDESS ve TESS veri setleriyle Alexnet ağında Karar Ağacı %44, SVM %29 isabetli sonuç elde edilirken, RAVDESS veri setine TESS eklendiğinde sonuçlar %64 ve %55 isabet oranına yükselmiştir. Ağlar arasında en iyi sonuç Squeezenet’le 100 adımdan henüz 70 adım gerçekleştiğinde tam başarım elde edilirken en kötü sonuç MobileNet’te %15 isabette kalmıştır. Evrişimsel sinir ağı derin öğrenme algoritmalarının bütün ağlarda %15-17 civarı isabetli sonuçlar verdiği gözlemlenmiştir.

___

  • Aziz A. İletişime Giriş, Hiperlink Yayınları, pp.4-256, 2016.
  • Akleylek S., Kılıç E., Söylemez B., Ergun A. R. U. K., Aksaç C. Nesnelerin interneti tabanlı sağlık izleme sistemleri üzerine bir çalışma, Mühendislik Bilimleri ve Tasarım Dergisi, 8(5), 80-89, 2020.
  • El Ayadi M., Kamel M. S., Karray F. Survey on speech emotion recognition: Features, classification schemes, and databases, Pattern Recognition, 44 (3), 572-587, 2011.
  • Hızlısoy S., Tüfekci Z. Türkçe müzikten duygu tanıma, Avrupa Bilim ve Teknoloji Dergisi, 6-12, 2020.
  • De Pinto M. G., Polignano M., Lops P., Semeraro G. Emotions understanding model from spoken language using deep neural networks and mel-frequency cepstral coefficients, In 2020 IEEE Conference on Evolving and Adaptive Intelligent Systems (EAIS),pp. 1-5, IEEE, 2020.
  • Tarantino L., Garner P. N., Lazaridis, A. Self-attention for speech emotion recognition, In Interspeech, 2578-2582, 2019.
  • Triantafyllopoulos A., Keren G., Wagner J., Steiner I., Schuller B. W. Towards robust speech emotion recognition using deep residual networks for speech enhancement, In Interspeech, 1691-1695, 2019.
  • Zhao J., Mao X., Chen L. Speech emotion recognition using deep 1D & 2D CNN LSTM networks, Biomedical Signal Processing and Control, 47, 312-323, 2019.
  • Chatziagapi A., Paraskevopoulos G., Sgouropoulos D., Pantazopoulos G., Nikandrou M., Giannakopoulos T., Katsamanis A., Potamianos A., Narayanan S. Data augmentation using gans for speech emotion recognition, In Interspeech 171-175, 2019.
  • Hossain M. S., Muhammad G. Emotion recognition using deep learning approach from audio–visual emotional big data, Information Fusion, 49, 69-78, 2019.
  • Iqbal A., Barua K. A real-time emotion recognition from speech using gradient boosting, In 2019 International Conference on Electrical, Computer and Communication Engineering (ECCE), IEEE, pp. 1–5, 2019.
  • Salur M. U., Aydın İ. Sentiment classification based on deep learning, In 2018 26th Signal Processing and Communications Applications Conference (SIU), pp. 1-4, IEEE, 2018.
  • Salur M. U., Aydın İ. A novel hybrid deep learning model for sentiment classificatio,. IEEE Access, 8, 58080-58093, 2020.
  • https://zenodo.org/record/1188976, Erişim Tarihi: 25 Aralık 2020.
  • https://tspace.library.utoronto.ca/handle/1807/24487 , Erişim Tarihi: 25 Aralık 2020.
  • Krizhevsky A., Sutskever I., Hinton G. E. Imagenet classification with deep convolutional neural networks, In Advances In Neural Information Processing Systems, 2012.
  • He K., Zhang X., Ren S., Sun J. Deep residual learning for image recognition, In Proceedings of The IEEE Conference on Computer Vision and Pattern Recognition, pp. 770-778, 2016.
  • Howard A. G., Zhu M., Chen B., Kalenichenko D., Wang W., Weyand T., Andreetto M., Adam H. MobileNets: Efficient convolutional neural networks for mobile vision applications, 2017.
  • Zavan F.H.D.B., Bellon O.R.P., Silva L., Medioni G.G. Benchmarking parts based face processing in-the-wild for gender recognition and head pose estimation, Pattern Recognition Letters,123,104-110, 2019.
  • Iandola F.N., Han S., Moskewicz M.W., Ashraf K., Dally W.J., Keutzer K. SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and< 0.5 MB model size, 3th International Conference on Learning Representations. Toulon: ICLR;2016. pp.1-13, 2016.
  • Özyurt F., Sert E., Avcı D. An expert system for brain tumor detection: Fuzzy C-means with super resolution and convolutional neural network with extreme learning machine, Medical Hypotheses,134,1-8, 2020.
  • Pathak D., El-Sharkawy M. ReducedSqNet: A shallow architecture for CIFAR-10, In 2018 International Conference on Computational Science and Computational Intelligence (CSCI), Las Vegas:IEEE,pp. 380-385, 2018.
  • Mateen M., Wen J., Song S.N., Huang Z. Fundus image classification using VGG-19 architecture with PCA and SVD, Symmetry, 2019.
  • Krizhevsky A., Hinton G. E. Using very deep autoencoders for content-based image retrieval, In ESANN, 1, pp. 2, 2011.
  • Şeker A., Yüksek A.G. Stacked autoencoder method for fabric defect detection, Cumhuriyet Üniversitesi Fen-Edebiyat Fakültesi Fen Bilimleri Dergisi, 38(2), 342-354, 2017.
  • https://www.mdpi.com/1424-8220/21/4/1249 , Erişim Tarihi: 10 Şubat 2021.
  • Lyudchik O. Outlier detection using autoencoders, 2016.
  • Yadav S. Subramanian S. Detection of application layer DDoS attack by feature learning using stacked autoencoder, In 2016 International Conference on Computational Techniques in Information and Communication Technologies (ICCTICT), pp. 361-366, IEEE, 2016.
  • Canchumuni S. W., Emerick A. A., Pacheco M. A. C. Towards a robust parameterization for conditioning facies models using deep variational autoencoders and ensemble smoother, Computers & Geosciences, 128, 87-102, 2019.
  • https://medium.com/@k.ulgen90/makine-%C3%B6%C4%9Frenimi-b%C3%B6l%C3%BCm-5-karar-a%C4%9Fa%C3%A7lar%C4%B1-c90bd7593010, Erişim Tarihi: 15 Şubat 2021.
  • https://medium.com/deep-learning-turkiye/nedir-bu-destek-vekt%C3%B6r-makineleri-makine-%C3%B6%C4%9Frenmesi-serisi-2-94e576e4223e, Erişim Tarihi: 15 Şubat 2021.