Mikro-dizilim Veri Sınıflandırmasında Öznitelik Seçme Algoritmalarının Karşılaştırılması

Mikro-dizilim verileri son zamanlarda kanser hastalığı teşhisinde sıklıkla kullanılmaktadır. Mikro-dizilim verilerinin makina öğrenme algoritmalarında eğitilmesi ve modellenmesi nitelik sayısının fazlalığından ve örnek sayısının azlığından dolayı oldukça zordur. Bu yüzden mikro-dizilim verilerinin değerlendirilmesinde öznitelik seçme algoritmaları büyük önem kazanmaktadır. nitelik seçme algoritmaları genel olarak filtre, sarmal ve gömülü olmak üzere üç ana başlıkta incelenmektedir. Bu çalışmada mikro-dizilim verilerini sınıflandırmada filtre modelli öznitelik seçme algoritmaları, sınıflandırma başarı oranı ve uygulanma süreleri bakımından karşılaştırılmıştır. Bu bağlamda 5 farklı filtre modelli öznitelik seçme algoritması, 11 farklı mikro-dizilim veri setine uygulanmıştır. Makina öğrenme algoritması olarak k-NN sınıflandırma algoritması uygulanmış ve 10-katlamalı çapraz yöntemi ile doğrulanmıştır.

Comparison of Feature Selection Algorithms on Microarray Data Classification

Recently, microarray data sets are often used in cancer diagnosis. Training and modeling of microarray data sets is quite hard process because of high number of feature and low number of sample. For this reason feature selection is a pre-processing technique with great importance in microarray classification. In the literature, feature selection techniques in terms of classification can be examined under three titles as Filter, Wrapper, Embeed. In this study, filter model feature selection algorithms are compared in terms of classification success rate and processing time on microarray data classification. In this context, 5 different filter model feature selection algorithms are applied to 11 different microarray datasets. The results are tested with k-fold cross validation by using k-nearest neighbor (k-NN) method.