Makine Öğrenmesi ile Ürün Kategorisi Sınıflandırma

Teknolojinin ilerlemesi ve internetin gelişmesi ile beraber günümüzde bilginin gücü de ön plana çıkmıştır. Bununla beraber internet dünyasında bilgi kirliliği ve karmaşası ortaya çıkmaya başlamıştır. Bu karmaşadan anlamlı verilerin çıkartılması ve yorumlanabilmesi için makine öğrenmesi algoritmalarından yararlanılabilir. Bu çalışmada yazı formunda girilen açıklamanın kategori bilgisine ulaşılması amaçlanmıştır. Bir e-ticaret sitesinden ürün bilgileri etiketlenerek veri seti elde edilmiştir. Toplanan bu veri seti makine öğrenmesi algoritmalarıyla model eğitimi gerçekleştirilmiş ve 9 farklı katagoriye ayırmak için doğru tahminleme yapması amaçlanmıştır. Bu eğitim sırasında Random Forest, Karar Ağacı, Multinominal Naive Bayes (Multinominal NB), Lojistik Regresyon, Destek Vektör Makineleri (DVM) ve Yapay Sinir Ağları (YSA) sınıflandırıcıları kullanılmış ve çıkan sonuçlar hata matrisleri gösterilerek tablolarla karşılaştırılmıştır.

Product Category Classification with Machine Learning

With the advancement of technology and the development of the internet, the power of knowledge has come to the fore. However, in the internet world, information pollution and chaos started to emerge. Machine learning algorithms can be used to extract and interpret meaningful data from this complex. In this study, it is aimed to reach the category information of the explanation entered in the form of text. Product information from an ecommerce site was obtained by labeling the data set. This data set is modeled by machine learning algorithms and it is aimed to make accurate estimation to divide into 9 different categories. During this training, Random Forest, Decision Tree, Multinominal Naive Bayes (Multinominal NB), Logistic Regression, Support Vector Machines (SVM) and Artificial Neural Networks (ANN) classifiers were used and the results were compared with the tables by showing the confussion matrix.

___

[1] A. H. Aliwy ve E. H. Abdul Ameer, “Comparative Study of Five Text Classification Algorithms with their Improvements”, International Journal of Applied Engineering Research, 2017.

[2] H. Alshalabi, S. Tiun, N. Omar, M. Albared, “Experiments on the Use of Feature Selection and Machine Learning Methods in Automatic Malay Text Categorization”, Science Direct, Procedia Technology, Elsevier, 2013.

[3] I. Hmeidi, M. Al-Ayyoub, N. A. Abdulla, A. A. Almodawar, R. Abooraig, N. A. Mahyoub, “Automatic Arabic Text Categorisation: A Comprehensive Comparative Study”, Journal of Information Science, 2015.

[4] C. C. Aggarwal ve C. X. Zhai, “A Survey Of Text Classification Algorithms”, Mining Text Data, Chapter 6, 2012.

[5] H. Deng, Y. Sun, Y. Chang, J. Han, “Probabilistic Models for Classification” C.C. Aggarwal (Eds.), Data Classification Algorithms and Applications (pp. 67-70), CRC Press, New York, USA, 2015.

[6] J. D. Rennie, L. Shih, J. Teevan, D. Karger, “Tackling the poor assumptions of naive bayes text classifiers” Proceedings of the Twentieth International Conference on Machine Learning (ICML- 2003), Washington DC, 2003.

[7] D. G. Kleinbaum, ve M. Klein, “Logistic Regression: A Self-Learning Text (Statistics for Biology and Health)”, Third Edition. New York: Springer 2010.

[8] G. Louppe, “Understanding Random Forest”, doktora tezi, University of Liege, 2015.

[9] S. C. Albright, W. L. Winston, ve C. Zappe, “Data Analysis & Decision Making”, Üçüncü Baskı, Australia: Thomson South-Western, 2006.

[10] S. R. Gunn, “Support vector machines for classification and regression”, Technical Report, Faculty of Engineering, Science and Mathematics, School of Electronics and computer Science, 1998.

[11] J.M. Zurada, “Introduction to Artificial Neural Systems”, West Publishing Company, 1992.