KONUYA ÖZEL WEB KAYNAKLI İNGİLİZCE OTOMATİK SÖZLÜK OLUŞTURMA

Dil sözlüğü alanındaki çalışmalar, otomatik sözlük oluşturma konusuna yoğunlaşmış durumdadır. Bu makalede başlangıç olarak verilen bir İngilizce kelime referans alınarak, makale konusuna ait sözlüğün otomatik oluşturulması sağlanmıştır. İlk sözlük kelimesi, sisteme başlangıç olarak verilen bu İngilizce kelimeden elde edilmektedir. Sözlüğe eklenen ilk tohum kelime ile daha sonra Azure Web Cognitive Web Search sisteminde Web araması yapılmaktadır. Arama sonucu gelen ilk dokümanın, referans dokümanına da uygulandığı üzere Helmholtz Prensibi ile anlamlı kelimeleri bulunmaktadır. Bulunan bu anlamlı kelimeler arasından, anlam değeri en yüksek olan kelime sözlüğe eklenmektedir. Böylece Web’ten elde edilen bir dokümanın işlenmesi sonucu, o dokümana ait sadece en anlamlı kelime sözlüğe eklenmektedir. Daha sonra sözlüğe eklenen bu kelime, Web'te arama işlemine tabi tutulmaktadır. Web araması sonucu elde edilen dokümanlar tekrardan sisteme sokularak, bu dokümanlara ait anlamlı kelimelerin hesaplanması sağlanmaktadır. Web’te arama döngüsü bu şekilde tekrarlanmakta, nihai olarak sözlük için istenilen kelime sayısına ulaşıldığında ise sonlanmaktadır

Topic Special Web Resourcing Creating English Automatic Dictionary

Studies in the area of language dictionary are focused on automatic dictionary creation. In this article, an English word is given as a reference and an automatic creation of the dictionary of the article subject is provided. The first dictionary word is derived from this English word which is given as a starting point for the system. Web search is then performed in the Azure Web Cognitive Web Search system by using the first seed word added to the dictionary. The first document from the search result has meaningful words with the Helmholtz Principle as applied to the reference document. Among the meaningful words found, the word with the highest value is added to the dictionary. Thus, as a result of processing a document obtained from the Web, the most meaningful word for that document is added to the dictionary only. Then, the word added to the dictionary is searched on the Web. The documents obtained as a result of web search are put into the system and the meaningful words of these documents are calculated. The search cycle on the web is repeated in this way and finally ends when the desired number of words for the dictionary is reached.

___

  • Aktaş, Y., İnce, E.Y., Çakır, A., & Kutlu, A. (2016.) Wordnet ve Bilgisayar Ağ Terimleri Sözlüğünün Oluşturulması. Akademik Bilişim 2016, Adnan Menderes Üniversitesi.
  • Balinsky, H., Balinsky, A., & Simske, S.J. (2011). Document sentences as a small world. 2011 IEEE International Conference on Systems, Man, and Cybernetics, 2583-2588.
  • Chitraa, V., & Davamani, A.S. (2010). A Survey on Preprocessing Methods for Web Usage Data. CoRR, abs/1004.1257.
  • Dadachev, B., Balinsky, A., Balinsky, H., & Simske, S.J. (2012). On the Helmholtz Principle for Data Mining. 2012 Third International Conference on Emerging Security Technologies, 99-102.
  • Desolneux, A., Moisan, L., & Morel, J. (2001). Edge Detection by Helmholtz Principle. Journal of Mathematical Imaging and Vision, 14, 271-284.
  • Feldman, R., & Sanger, J. (2006). The Text Mining Handbook - Advanced Approaches in Analyzing Unstructured Data.
  • Jiang, Q., & Sun, M. (2011). Semi-Supervised SimHash for Efficient Document Similarity Search. ACL, 93-101.
  • Kepuska, V., & Rojanasthien, P. (2011). Speech Corpus Generation from DVDs of Movies and TV Series.
  • Khoury, R., Shi, L., & Hamou-Lhadj, A. (2016). Key Elements Extraction and Traces Comprehension Using Gestalt Theory and the Helmholtz Principle. 2016 IEEE International Conference on Software Maintenance and Evolution (ICSME), 478-482.
  • Moral, C., Jiménez, A.D., Imbert, R., & Ramírez, J. (2014). A survey of stemming algorithms in information retrieval. Inf. Res., 19.
  • Omurca, S., Duru, N., Karagöz, Ş., & Sağır, M. (2008). Mühendislik & Bilgisayar, Fakültesi & Bölümü, Mühendisliği & Üniversitesi, Kocaeli. Metin Madenciliği ile Soru Cevaplama Sistemi.
  • Ögtelik, S., Turan, M. (2018), İngilizce Dokümanlarda Tema ve Alt Kavramlar Tespit Modeli, Düzce Üniversitesi Bilim ve Teknoloji Dergisi, 6(4), 754-764
  • Pi, B., Fu, S., Wang, W., & Han, S. (2009). SimHash-based Effective and Efficient Detecting of Near-Duplicate Short Messages.
  • Riloff, E. (1993). Automatically Constructing a Dictionary for Information Extraction Tasks. AAAI, 811–816.
  • Silverman, K.E., Anderson, V., Bellegarda, J.R., Lenzo, K.A., & Naik, D. (1999). Design And Collection Of a Corpus Of Polyphones and Prosodic Contexts For Speech Synthesis research and Development.
  • Tanasa, D., & Trousse, B. (2004). Advanced data preprocessing for intersites Web usage mining. IEEE Intelligent Systems, 19, 59-65.
  • Vijay, D., Bohra, A., Singh, V., Akhtar, S.S., & Shrivastava, M. (2018). Corpus Creation and Emotion Prediction for Hindi-English Code-Mixed Social Media Text. NAACL-HLT.
  • Vijayarani, S., Ilamathi, M., & Nithya, M. (2015). Preprocessing Techniques for Text Mining-An Overview Dr.
  • Vorapatratorn, S., Suchato, A., & Punyabukkana, P. (2012). Automatic online text selection for constructing text corpus with custom phonetic distribution. 2012 Ninth International Conference on Computer Science and Software Engineering (JCSSE), 6-11.