Özellik seçim algoritmaları ve derin öğrenme tabanlı mimarilerin hibrit kullanımıyla akut lösemilerin sınıflandırılması

Tıp ve biyoloji alanlarında tercih edilen mikrodizi teknolojisi, kantitatif veya niteliksel veriler üreten bir analiz yöntemidir. Genler arasındaki örüntülerin açığa çıkartılarak yorumlanabilmesi için güçlü bir potansiyel barındırmaktadır. Bu potansiyeli ortaya çıkarmak için genler ile ilişkili kanser hastalıkları üzerinde moleküler değerlendirme sağlamak mümkündür. Ancak mikrodizi veri kümeleri, yüksek boyutlu bir yapıya sahiptir. Bu durum makine öğrenmesinde boyutluluğun laneti olarak bilinmektedir. Mikrodizi veri kümeleri üzerinde değerlendirme sürecinin kolaylaştırılması için bilgisayar destekli sistemler kullanılarak uzmanlara yardımcı bir fikir verilmesi temel amaçtır. Bu çalışmada akut lösemilerin sınıflandırılabilmesi için yüksek boyut sunan mikrodizi veri kümesi analiz edilmiştir. Çalışmanın ilk aşamasında, hastalıkla ilişkili genlerin veri kümesinden seçilebilmesi için karınca kolonisi, balina ve parçacık sürü optimizasyon algoritmaları kullanılmıştır. Seçilen potansiyel genler klasik makine öğrenmesi algoritmaları ile değerlendirilmiştir. Çalışmanın ikinci aşamasında elde edilen bu genler, dalgacık dönüşümü yöntemi ile spektrogramlar olarak ifade edilmiştir. Çalışmanın üçüncü aşamasında, spektrogramlardaki yerel kontrastın iyileştirilmesi için CLAHE yöntemi kullanılmıştır. Son olarak elde edilen iyileştirilmiş spektrogramlar; aktarım öğrenme mimarileri ve DGCNN(derin graf evrişimsel sinir ağı) yaklaşımı ile sınıflandırılmıştır. Karınca, parçacık sürü ve balina özellik seçim algoritmaları kullanılarak seçilen genlerin spektral yoğunluk bilgisinin ifade edildiği spektrogramların DGCNN yaklaşımı ile sınıflandırılmasının sonucunda elde edilen maksimum başarı oranları sırasıyla %93.33, %86.6 ve %86.6 olarak bulunmuştur.

Classification of acute leukaemias with a hybrid use of feature selection algorithms and deep learning-based architectures

The microarray technology which is preferred in the fields of medicine and biology is an analysis method that produces quantitative or qualitative data. It has a strong potential for revealing and interpreting patterns between genes. To reveal this potential, it is possible to provide a molecular evaluation of cancer diseases associated with genes. However, microarray datasets have a high dimensional structure. This is known as the curse of dimensionality in machine learning. The main aim is to give a helpful idea to the experts by using computer-aided systems to facilitate the evaluation process on microarray datasets. In this study, a high-dimensional microarray dataset is analyzed for the classification of acute leukaemias. In the first phase of the study, ant colony, whale and particle swarm optimization algorithms are used to select disease-related genes from the dataset. Selected potential genes were evaluated with classical machine learning algorithms. These genes obtained in the second stage of the study were expressed as spectrograms by the wavelet transform method. In the third stage of the study, the CLAHE method is used to improve the local contrast in the spectrograms. Finally, the obtained improved spectrograms are classified by transfer learning architectures and DGCNN (deep graph convolutional neural network) approach. The maximum success rates obtained as a result of the classification of the spectral density information of the selected genes using the ant, particle swarm and whale feature selection algorithms with the DGCNN approach are found to be 93.33%, 86.6% and 86.6%, respectively.

___

  • [1] Kocabıyık VB. ALL ve KML'li Hastalarda BCR ve ABL Genlerindeki Mutasyonların İncelenmesi, Yüksek Lisans Tezi, Selçuk Üniversitesi, Konya, Türkiye, 2011.
  • [2] Jauhari S, Rizvi SAM. "Mining gene expression data focusing cancer therapeutics: A digest". IEEE/ACM Transactions on Computational Biology and Bioinformatics Bioinforma, 11(3), 533-547, 2014.
  • [3] Begum S, Sarkar R, Chakraborty D, Sen S, Maulik U. "Application of active learning in DNA microarray data for cancerous gene identification". Expert Systems with Applications, 177, 1-8, 2021.
  • [4] Yang R, Paparini A, Monis P, Ryan U. "Comparison of nextgeneration droplet digital PCR (ddPCR) with quantitative PCR (qPCR) for enumeration of Cryptosporidium oocysts in faecal samples". International Journal for Parasitology, 44(14), 1105-1113, 2014.
  • [5] Wang X, Simon R. "Microarray-based cancer prediction using single genes". BMC Bioinformatics, 12, 1-9, 2011.
  • [6] Khorshed T, Moustafa MN, Rafea A. "Learning visualizing genomic signatures of cancer tumors using deep neural networks". Proceedings of the International Joint Conference on Neural Networks, Glasgow, UK, 19-24 July, 2020.
  • [7] Xu R, Anagnostopoulos GC, Wunsch DC. "Multiclass cancer classification using semisupervised ellipsoid ARTMAP and particle swarm optimization with gene expression data". IEEE/ACM Transactions on Computational Biology and Bioinformatics, 4(1), 65-77, 2007.
  • [8] Peng S, Xu Q, Ling XB, Peng X, Du W, Chen L. "Molecular classification of cancer types from microarray data using the combination of genetic algorithms and support vector machines". FEBS Letters, 555(2), 358-362, 2003.
  • [9] Ocampo-Vega R, Sanchez-Ante G, De Luna MA, Vega R, Falcón-Morales LE, Sossa H. "Improving pattern classification of DNA microarray data by using PCA and logistic regression". Intelligent Data Analysis, 20, 53-67, 2016.
  • [10] Chen AH, Tsau YW, Lin CH. "Novel methods to identify biologically relevant genes for leukemia and prostate cancer from gene expression profiles". BMC Genomics, 11, 1-21, 2010.
  • [11] Chakraborty D, Maulik U. "Identifying cancer biomarkers from microarray data using feature selection and semisupervised learning". IEEE Journal of Translational Engineering in Health and Medicine, 2, 1-11, 2014.
  • [12] Mukhopadhyay A, Maulik U, Bandyopadhyay S. "Gene expression data analysis using multiobjective clustering improved with SVM based ensemble". In Silico Biology, 11, 19-27, 2011.
  • [13] Chen Y, Zhao Y. "A novel ensemble of classifiers for microarray data classification". Applied Soft Computing Journal, 8(4), 1664-1669, 2008.
  • [14] Wang X, Gotoh O. "A robust gene selection method for microarray-based cancer classification". Cancer Informatics, 9, 15-30, 2010.
  • [15] Dagliyan O, Uney-Yuksektepe F, Kavakli IH, Turkay M. "Optimization based tumor classification from microarray gene expression data". PLoS One, 6(2), 1-10, 2011.
  • [16] Golub T, Slonim DK, Tamayo P, Huard C, Gaasenbeek M, Mesirov JP, Coller H, Loh ML, Downing JR, Caligiuri MA, Bloomfield CD, Lander ES. "Molecular classification of cancer: class discovery". Science, 286, 531-537, 1999.
  • [17] Doğan C. Balina Optimizasyon Algoritması ve Gri Kurt Optimizasyonu Algoritmaları Kullanılarak Yeni Hibrit Optimizasyon Algoritmalarının Geliştirilmesi, Yüksek Lisans Tezi, Erciyes Üniversitesi, Kayseri, Türkiye, 2019.
  • [18] Fidan H. Dalgacık Dönüşümü Tekniği ile Motor Arıza Tespiti, Yüksek Lisans Tezi, Süleyman Demirel Üniversitesi, Isparta, Türkiye, 2006.
  • [19] Öner İV, Yeşilyurt K, Yılmaz EÇ. "Wavelet analiz tekniği ve uygulama alanları". Ordu Üniversitesi Bilim ve Teknoloji Dergisi, 7(1), 42-56, 2017.
  • [20] Aktürk SM. Grabcut Etkileşimli Bölütleme Yöntemi Üzerinde İyileştirme Çalışmaları, Yüksek Lisans Tezi, Karadeniz Teknik Üniversitesi, Trabzon, Türkiye, 2018.
  • [21] Akalın F, Yumuşak N. "DNA genom dizilimi üzerinde dijital sinyal işleme teknikleri kullanılarak elde edilen ekson ve intron bölgelerinin EfficientNetB7 mimarisi ile sınıflandırılması". Journal of the Faculty of Engineering and Architecture of Gazi University, 37(3), 1355-1372, 2022.
  • [22] Cancer Gene Expression Data Sets and Their Visualizations. “Data Set Name: Leukemia” https://file.biolab.si/biolab/supp/bicancer/projections/ (2022).
  • [23] Dias R, Torkamani A. "Artificial intelligence in clinical and genomic diagnostics". Genome Medicine, 11(1), 1-12, 2019.
  • [24] El Mrabet MA, El Makkaoui K, Faize A, "Supervised machine learning: a survey". Proceedings 4th International Conference on Advanced Communication Technologies and Networking, CommNet 2021, Rabat, Morocco, 03-05 December, 2021.
  • [25] Atila Ü, Uçar M, Akyol K, Uçar E. "Plant leaf disease classification using EfficientNet deep learning model". Ecological Informatics, 61, 1-13, 2021.
  • [26] Karahan T, Nabiyev V. "Plant identification with convolutional neural networks and transfer learning". Pamukkale University Journal of Engineering Sciences, 27(5), 638-645, 2021.
  • [27] Elmas B. "Identifying species of trees through bark images by convolutional neural networks with transfer learning method". Journal of the Faculty of Engineering and Architecture of Gazi University, 36(3), 1253-1269, 2021.
  • [28] Sreng S, Maneerat N, Hamamoto K, Win KY. "Deep learning for optic disc segmentation and glaucoma diagnosis on retinal images". Applied Sciences, 10(14), 1-19, 2020.
  • [29] Zhang M, Cui Z, Neumann M, Chen Y. "An end-to-end deep learning architecture for graph classification". The ThirtySecond AAAI Conference on Artificial Intelligence, 32(1), 4438-4445, 2018.
  • [30] Wu Z, Pan S, Chen F, Long G, Zhang C, Yu PS. "A Comprehensive Survey on Graph Neural Networks". IEEE Transactions on Neural Networks and Learning Systems, 32(1), 4-24, 2021.
  • [31] Xu R, Anagnostopoulos GC, Wunsch DC. "Multi-class cancer classification by semi-supervised ellipsoid ARTMAP with gene expression data". The 26th Annual International Conference of the IEEE Engineering in Medicine and Biology Society, San Francisco, CA, USA, 01-05 September, 2004.
  • [32] Wang X, Gotoh O. "Cancer classification using single genes". Genome Informatics, 23(1), 179-188, 2009.
  • [33] Ghorai S, Mukherjee A, Dutta PK. "Gene expression data classification by VVRKFA". Procedia Technology, 4, 330-335, 2014.
  • [34] Maulik U, Chakraborty D. "Fuzzy preference based feature selection and semisupervised SVM for cancer classification". IEEE Transactions on Nanobioscience, 13(2), 152-160, 2014.