GloVe Kelime Gömmeleri ve Sinir Ağları ile Haber Metinlerinin Sınıflandırılması

Dijital haberlerin artan miktarları, istenilen türdeki haberlere doğru ve hızlı bir şekilde erişim için haber metinlerinin kategorilere ayrılmasını gerektirmektedir. Bu çalışmada, ön-eğitimli kelime gömülmelerinin, Uzun Ömürlü Kısa Dönem Bellek Ağı (Long-Short Term Memory, LSTM) ve Evrişimsel Sinir Ağları (Convolutional Neural Network, CNN) gibi derin öğrenme modelleri üzerindeki etkisi araştırılmaktadır. Global Vektör (GloVe) kelime gömülmelerinden alınan bağlamsal temsilleri girdi olarak alan LSTM ve CNN ağları kullanılarak haber metinleri sınıflandırılmıştır. Kapsamlı ve karşılaştırmalı araştırmaların eksikliği nedeniyle GloVe gömme katmanı tarafından sağlanan bağlamsal temsiller farklı sınıflandırıcılar ve veri setleri üzerinde test edilmektedir. Deneysel süreçler boyunca Türkçe Haber başlıklarından oluşan Turkish Headlines veri seti ve BBC News Classification veri setleri kullanılmıştır. Kelime gömülmelerinin ağlar üzerindeki etkisini ortaya koymak için deneysel süreçler aynı parametreler ile tekrarlanmıştır. LSTM modelinde Glove kelime gömülme yöntemi kullanıldığında modelin başarısının %81’den %91’e çıktığı gözlemlenmektedir. CNN modelinde ise Glove kelime gömülmelerinin modelin başarısının olumlu yansımadığı görülmektedir.

Classification of News Texts with GloVe Word Embeddings and Neural Networks

Dijital haberlerin artan miktarları, istenilen türdeki haberlere doğru ve hızlı bir şekilde erişim için haber metinlerinin kategorilere ayrılmasını gerektirmektedir. Bu çalışmada, ön-eğitimli kelime gömülmelerinin, Uzun Ömürlü Kısa Dönem Bellek Ağı (Long-Short Term Memory, LSTM) ve Evrişimsel Sinir Ağları (Convolutional Neural Network, CNN) gibi derin öğrenme modelleri üzerindeki etkisi araştırılmaktadır. Global Vektör (GloVe) kelime gömülmelerinden alınan bağlamsal temsilleri girdi olarak alan LSTM ve CNN ağları kullanılarak haber metinleri sınıflandırılmıştır. Kapsamlı ve karşılaştırmalı araştırmaların eksikliği nedeniyle GloVe gömme katmanı tarafından sağlanan bağlamsal temsiller farklı sınıflandırıcılar ve veri setleri üzerinde test edilmektedir. Deneysel süreçler boyunca Türkçe Haber başlıklarından oluşan Turkish Headlines veri seti ve BBC News Classification veri setleri kullanılmıştır. Kelime gömülmelerinin ağlar üzerindeki etkisini ortaya koymak için deneysel süreçler aynı parametreler ile tekrarlanmıştır. LSTM modelinde Glove kelime gömülme yöntemi kullanıldığında modelin başarısının %81’den %91’e çıktığı gözlemlenmektedir. CNN modelinde ise Glove kelime gömülmelerinin modelin başarısının olumlu yansımadığı görülmektedir.

___

  • Aci, Ç. & Çirak, A. (2019). Türkçe Haber Metinlerinin Konvolüsyonel Sinir Ağları ve Word2Vec Kullanılarak Sınıflandırılması. Bilişim Teknolojileri Dergisi, 12(3), 219-228. DOI: 10.17671/gazibtd.457917.
  • Adalı, E. (2016). Doğal Dil İşleme . Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi , 5 (2) , . Retrieved from https://dergipark.org.tr/tr/pub/tbbmd/issue/22245/238797.
  • Amasyalı, M. F., Diri, B. and Türkoğlu, F. (2006). “Farklı Özellik Vektörleri ile Türkçe Dokümanların Yazarlarının Belirlenmesi”, 15th Turkish Symposium on Artificial Intelligence and Neural Network, Muğla, Türkiye.
  • Aydoğan, M. & Karci, A.(2019a). "Turkish Text Classification with Machine Learning and Transfer Learning," 2019 International Artificial Intelligence and Data Processing Symposium (IDAP), Malatya, Turkey, pp. 1-6, doi: 10.1109/IDAP.2019.8875919.
  • Aydoğan, M. & Karcı, A. (2019b). Kelime temsil yöntemleri ile kelime benzerliklerinin incelenmesi. Çukurova Üniversitesi Mühendislik-Mimarlık Fakültesi Dergisi, 34(2), 181-196.
  • Bose, B. (2019). BBC News Classification. Kaggle. https://kaggle.com/competitions/learn-ai-bbc
  • Darbaş, H. & Karci, A. (2020). Graf Benzerliği İle Metin Kıyaslama. Computer Science , 5 (2), 114-125 . Retrieved from https://dergipark.org.tr/tr/pub/bbd/issue/57870/743751.
  • Diri, B. & Amasyalı, M.F. (2003). Automatic Author Detection for Turkish Texts, Artificial Neural Networks and Neural Information Processing, 138-141.
  • Doğan, S. & Diri, B. (2010). Türkçe Dokümanlar İçin N-gram Tabanlı Yeni Bir Sınıflandırma(Ng-ind): Yazar, Tür ve Cinsiyet” Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, 3, 11–20.
  • Hark, C. (2022). Sahte Haber Tespiti için Derin Bağlamsal Kelime Gömülmeleri ve Sinirsel Ağların Performans Değerlendirmesi. Fırat Üniversitesi Müh. Bil. Dergisi, 34(2), 733-742.
  • Karakurt, M. (2019). Patoloji Görüntülerinin Derin Öğrenme Yöntemleri İle Sınıflandırılması. Yüksek Lisans Tezi, Ondokuz Mayıs Üniversitesi, Samsun.
  • Karakurt, M. & İşeri, İ. (2022). Patoloji Görüntülerinin Derin Öğrenme Yöntemleri İle Sınıflandırılması. Avrupa Bilim ve Teknoloji Dergisi, (33), 192-206.
  • Karakurt, M., Oymak, E.A., Hark, H., Erdoğan, M.C. & Karcı, A. (2022). "Karcı Sinir Ağlarının Uygulaması ve Performans Analizi". Computer Science, Vol:7, 68-80.
  • LeCun, Y., Boser, B., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W. and Jackel, L. D. 1989. Backpropagation applied to handwritten zip code recognition. Neural computation, 1:4, 541-551.
  • LeCun, Y., Bottou, L., Bengio, Y. and Haffner, P. 1998. Gradientbased learning applied to document recognition. Proceedings of the IEEE, 86:11, 2278-2324.
  • Levent, V. & Diri, B., (2014). Türkçe Dokümanlarda Yapay Sinir ağları ile Yazar Tanıma . Akademik Bilişim (pp.1-5). Mersin, Türkiye.
  • McCulloch, W. S. and Pitts, W. 1943. A Logical Calculus of the İdeas İmmanent in Nervous Activity. The Bulletin of Mathematical Biophysics, 5:4, 115-133.
  • Mikolov T., Chen K., Corrado G. and Dean J. (2013). Efficient estimation of word representations in vector space. Proceedings of Workshop at ICLR. Scottsdale, Arizona.
  • Rosenblatt, F. 1958. The Perceptron: A Probabilistic Model for Information Storage And Organization in the Brain. Psychological review, 65:6, 386.
  • Süzen, A.A., (2019). LSTM Derin Sinir Ağları İle Üniversite Giriş Sınavındaki Matematik Soru Sayılarının Konulara Göre Tahmini, Engineering Sciences (NWSAENS), 14(3):112-118, DOI: 10.12739/NWSA.2019.14.3.1A0436.
  • Şeker, S.E., (2015), Doğal Dil İşleme (Natural Language Processing), YBS Ansiklopedi, 2(4), 2015.
  • UCI Machine Learning Repository: Turkish Headlines Dataset Data Set. (2021). Retrieved July 6, 2022, from https://archive.ics.uci.edu/ml/datasets/Turkish+Headlines+Dataset
  • Uçkan, T., Hark, C., Seyyarer E. & Karcı A. (2019). Ağırlıklandırılmış Çizgelerde Tf-Idf ve Eigen Ayrışımı Kullanarak Metin Sınıflandırma. Bitlis Eren Üniversitesi Fen Bilimleri Dergisi, 8(4):1349-1362, doi:10.17798/bitlisfen.53122.
International Journal of Pure and Applied Sciences-Cover
  • ISSN: 2149-0910
  • Yayın Aralığı: Yılda 2 Sayı
  • Başlangıç: 2015
  • Yayıncı: Munzur Üniersitesi
Sayıdaki Diğer Makaleler

Celtis tournefortii Lam Yaprak Özütünün Bileşenlerinin LC-MS/MS Aracılığıyla Belirlenmesi, Enzim İnhibisyonunun, Antimikrobiyal ve Antikanser Etkilerinin Araştırılması

Ayşe BARAN, Cumali KESKİN

Kirlenmiş Bir Alanda Olgun ve Olgunlaşmamış Domateslerdeki Kritik Hammadde Grubundan Toksik Elementler: Birikim ve Potansiyel Sağlık Riski Değerlendirmesi

Murat TOPAL, Emine Işıl ARSLAN TOPAL, Erdal ÖBEK

Bulanık Anahtarlama Algoritması ile DTC Kontrollü Asenkron Makine için İyileştirilmiş Tork ve Hız Performansları

Göksu GÖREL, Wahib HİLOUAN MOHAMED

Yanal Yüzeylerinden Çentik Kanal Açılan Sandviç Kompozitlerin Eksenel Darbe Sonrası Mekanik Özelliklerinin İncelenmesi

Sermet DEMİR, Uğur KEMİKLİOĞLU

Limon Kabuğu Tozundan Farklı Asit Türleri Kullanılarak Ohmik Isıtma Destekli Ekstraksiyon Yöntemi ile Pektin Üretiminin İncelenmesi

Mutlu ÇEVİK, Serdal SABANCI, Ali GÖKSU

Tek Fazlı Z-Kaynaklı Matris Dönüştürücü Modellenmesi ve Simülasyonu

Zeynep Bala DURANAY, Hanifi GÜLDEMİR

Konu Modelleme ile Çalışan Önerileri Madenciliği: Bir Otomotiv Endüstrisi Vakası

Mine BOZAN, Koray ALTUN

RbH Molekülünün X^1 Σ^+ Durumu için Dönme-Titreşim Enerji Seviyeleri

Hilmi YANAR

Optimizasyon Algoritmaları ile Üretilen Kriptolojik Anahtarları Temel Alan Görüntü Şifreleme Algoritması

Eyüp ERÖZ, Erkan TANYILDIZI

Fındık Küspesi ve Zeolitin Gökkuşağı Alabalığı (Oncorhynchus mykiss) Diyetlerinde Kullanım Düzeylerinin Araştırılması

Emine ÖZPOLAT, Gürel ÖRNEKÇİ, Gülüzar TUNA KELEŞTEMUR, Durali DANABAŞ, Ali Atilla USLU