Veri Madenciliği İle Kalp Hastalığı Teşhisi

Gelişen ve değişen çevre koşulları, sınırların kalkması ile küreselleşen dünya, farklı pazarlama ve ar-ge (araştırma geliştirme)yöntemleri “veri”nin değil “bilgi”nin önemini her geçen gün daha da artacak şekilde ortaya koymaktadır. İnternetin yaygınlaşması vekolaylaşması ar-ge ekiplerinin “bilgi”ye erişmelerini zorlaştırmaktadır. İnternette arama motorları kullanılarak yapılan araştırmalarçoğu zaman istenilenden farklı bir şekilde sonuçlanmaktadır. Büyük bir perakendecinin, fatura bilgilerinden müşteri eğilimlerinibelirleyip ona göre pazarlama taktikleri üretebilmesi, rakiplerinin önüne geçmesini sağlayacaktır. Verilen örneklere dikkat edilirse,“veri”nin “bilgi”ye dönüşme işleminin vurgulandığı görülecektir. Veri madenciliği, büyük ölçekli veriler arasından bilgiye ulaşma,bilgiyi madenleme işidir. Ya da bir anlamda büyük veri yığınları içerisinden gelecek ile ilgili tahminde bulunabilmemizisağlayabilecek bağıntıların bilgisayar programı kullanarak aranmasıdır. Veri madenciliği, eldeki verilerden üstü kapalı, çok netolmayan, önceden bilinmeyen ancak potansiyel olarak kullanışlı bilginin çıkarılmasıdır. Veri madenciliği sürecinin çeşitliaşamalarında; istatistiksel yöntemler, bellek tabanlı yöntemler, genetik algoritmalar, yapay sinir ağları ve karar ağaçları gibialgoritmalar kullanılabilmektedir.Kalp hastalıkları (kardiyovasküler hastalıklar) bugün dünyanın en yaygın hastalıklarından biridir. Küresel ölçekte kardiyovaskülerhastalıkların uzun süre bir numaralı ölüm nedeni olmaya devam edeceği tahmin edilmektedir. Gelişmiş batı ülkelerindekikardiyovasküler hastalık ölümleri gelişmekte olan ülkelere göre azalma eğilimi göstermektedir. Dünyadaki ölüm oranlarındaki pozitiffaktör, kardiyovasküler hastalıklar açısından büyük ölçüde önlenebilir olmalarıdır. Bu nedenle, kalp hastalığı tanısı alan hastalarınverilerine dayanarak, metin madenciliği ve algoritmalar kullanılarak kalp-öncesi hastalığı tahmin etmek için çalışma yapılmıştır. Buçalışma veri madenciliğinin büyük veri setlerinin incelenmesi üzerinde ne kadar büyük bir öneme ve yere sahip olduğunu göstermekiçin yapılmıştır. Yüzlerce bilginin bulunduğu kalp veri setinden, WEKA programı kullanılarak, çeşitli algoritmalar uygulayarakkişilere kalp hastalığı teşhisi koyma çalışması yapılmıştır.Kalp hastalığının kesin tanısı ve hastalık şiddetinin saptanması için çeşitli uygulamalar ve yöntemler vardır. Bu çalışmada, daha ucuzve daha etkili bir yaklaşım sağlayabilecek veri madenciliğinin kullanımı incelenmiştir. Bu çalışmada sınıflandırma yöntemleri vedoğru sınıflandırma oranları ile elde edilen sonuçlar karşılaştırılmıştır. Gerekli hesaplamaları ve modelleri elde etmek için ZeroR,OneR, Naive Bayes, J48 Karar Ağacı, Rastgele Orman, Çoklu Algılayıcılar, k-en yakın komşu (k-Nearest Neighbour - k-NN),Lojistik Regresyon, destek vektör makinesi (Support Vector Machine - SVM) gibi sınıflandırma algoritmaları, Weka programındauygulanmıştır. Uygulamanın sonucu olarak kalp hastalığı teşhisinde en iyi sonuçu veren algoritma tespit edilmeye çalışılmıştır. Verimadenciliği algoritmaları ile kalp hastalığını belirleyen birçok farklı çalışma vardır. Ancak yaptığımız incelemelerde, veri setine 9farklı algoritma uygulayan bir çalışmaya rastlanmamıştır ve bu çerçevede bu çalışma ilk kez bu kadar çok algoritmanın kullanıldığıçalışma olacaktır.

Developing and changing environmental conditions, the globalization of the borders and the globalization of the world, different marketing and R&D (research and development) methods reveal the importance of "information" rather than "data". The widespread and easing of the Internet makes it difficult for R&D teams to access “information”. Research on the internet using search engines often results in a different way than desired. The ability of a large retailer to identify customer trends from the invoice information and produce marketing tactics accordingly will prevent them from getting ahead of their competitors. If attention is given to the examples given, it will be seen that the process of turning “data” into “information” is emphasized. Data mining is the business of accessing and mining information among large-scale data. Or, in a sense, it is the search for the relations that can enable us to make predictions about the future from large data stacks using a computer program. Data mining is the extraction of implicit, unclear, previously unknown but potentially useful information from the available data. At various stages of the data mining process; Algorithms such as statistical methods, memory-based methods, genetic algorithms, neural networks and decision trees can be used. Heart diseases (cardiovascular diseases) are one of the most common diseases in the world today. It is estimated that cardiovascular diseases will continue to be the number one cause of death for a long time on a global scale. Cardiovascular disease deaths in developed western countries show a decreasing tendency in developing countries. The positive factor in mortality rates in the world is that they are largely preventable in terms of cardiovascular diseases. Therefore, based on the data of patients diagnosed with heart disease, the study was carried out to predict pre-cardiac disease by using text mining and algorithms. This study was conducted to show how much importance and place data mining has on the study of big data sets. From the heart data set containing hundreds of information, by using WEKA program, by applying various algorithms, the study was made to diagnose people with heart disease. There are various applications and methods for the definitive diagnosis of heart disease and detection of disease severity. In this study, the use of data mining, which could provide a cheaper and more effective approach, was studied. In this study, the results obtained by classification methods and correct classification rates were compared. In order to obtain the necessary calculations and models, classification algorithms such as ZeroR, OneR, Naive Bayes, J48 Decision Tree, Random Forest, Multiplayer Perceptrons, k-nearest neighbor (k-NN), Logistic Regression, support vector machine (SVM), have been applied in Weka packet program. As a result of the application of the best results in the determination of heart disease algorithm has been tried to be determined. There are many different studies that determine heart disease by data mining algorithms. But there is no study that implements 9 different algorithms to the data set and this paper will be the first one.

___

  • [1] W.J. Frawley, G. Piatetsky-Shapiro, Knowledge Discovery in Databases: An Overview. The AAAI/MIT Press, 1996.
  • [2] D. Wood, G. De Backer, O. Faergeman, I. Graham, G. Mancia, K. Pyörälä, Prevention of coronary heart disease in clinical practice: recommendations of the Second Joint Task Force of European and other Societies on Coronary Prevention. Atherosclerosis, 140 (1998) 199– 270.
  • [3] J. Soni, U. Ansari, D. Sharma, S. Soni, Predictive Data Mining for Medical Diagnosis: An Overview of Heart Disease Prediction, International Journal of Computer Applications, 17 (2011) 43-48.
  • [4] C.S. Dangare, S.S. Apte, Improved Study of Heart Disease Prediction System using Data Mining Classification Techniques, International Journal of Computer Applications, 47 (2012) 44-48.
  • [5] R. Alizadehsani, J. Habibi, M.J. Hosseini, H. Mashayekhi, R. Boghrati, A. Ghandeharioun, B. Bahadorian, Z.A. Sani, A data mining approach for diagnosis of coronary artery disease, computer methods and programsin biomedicine, 111 (2013) 52-61.
  • [6] A. Rajkumar, G.S. Reena, Diagnosis Of Heart Disease Using Datamining Algorithm, 10 (2010) 38-43.
  • [7] J. Nahar, T. Imam, K. S. Tickle, Y.P. Chen, Computational intelligence for heart disease diagnosis: A medical knowledge driven approach, Expert Systems with Applications, 40 (2013) 96-104.
  • [8] Y. Xing, J. Wang, Z. Zhao, Y. Gao, Combination data mining methods with new medical data to predicting outcome of Coronary Heart Disease, International Conference on Convergence Information Technology, 2007.
  • [9] N. Bhatla, K. Jyoti, An Analysis of Heart Disease Prediction using Different Data Mining Techniques, International Journal of Engineering Research & Technology, 1 (2012) 1-4.
  • [10] D. Yeh, C. Cheng, Y. Chen, A predictive model for cerebrovascular disease using data mining, Expert Systems with Applications, 38 (2011) 8970-8977.
  • [11] S.U. Amin, K. Agarwal, R. Beg, Genetic Neural Network Based Data Mining in Prediction of Heart Disease Using Risk Factors, IEEE Conference on Information and Communication Technologies, 2013.
  • [12] K. Srinivas, G. Raghavendra Rao, A. Govardhan, Analysis of Coronary Heart Disease and Prediction of Heart Attack in Coal Mining Regions Using Data Mining Techniques, International Conference on Computer Science & Education, 2010.
  • [13] T.J. Peter, K. Somasundaram, An Empirical Study On Prediction Of Heart Disease Using Classification Data Mining Techniques, IEEE-International Conference On Advances In Engineering, Science And Management, 2012.
  • [14] H.D. Masethe, M. A. Masethe, Prediction of Heart Disease using Classification Algorithms, World Congress on Engineering and Computer Science, 2014.
  • [15] B. Bahrami, M.H. Shirvani, Prediction and Diagnosis of Heart Disease by Data Mining Techniques, Journal of Multidisciplinary Engineering Science and Technology, 2 (2015) 164-168.
  • [16] J. Kim, J. Lee, Y. Lee, Data-Mining-Based Coronary Heart Disease Risk Prediction Model Using Fuzzy Logic and Decision Tree, Healthcare Informatics Research, 21 (2015) 167-174.
  • [17] K. R. Lakshmi, M. Veera Krishna, S. Prem Kumar, Performance Comparisonof Data Mining Techniques for Predicting of Heart Disease Survivability, International Journal of Scientific and Research Publications, 3 (2013) 1-10.
  • [18] S. B. Patel, P. K. Yadav, D. P. Shukla, Predict the Diagnosis of Heart Disease Patients Using Classification Mining Techniques, IOSR Journal of Agriculture and Veterinary Science, 4 (2013) 61-64.
  • [19] N. Bhatla, K. Jyoti, A Novel Approach for Heart Disease Diagnosis using Data Mining and Fuzzy Logic, International Journal of Computer Applications, 54 (17), 2012.
  • [20] M.G. Tsipouras, D.I. Fotiadis, Automated Diagnosis of Coronary Artery Disease Based on Data Mining and Fuzzy Modeling, IEEE Transactions on Information Technology In Biomedicine, 12(4), 2008.
  • [21] B. Venkatalakshmi, M.V. Shivsankar, Heart Disease Diagnosis Using Predictive Data mining, International Journal of Innovative Research in Science, Engineering and Technology, 3(3), 2014.
  • [22] M.A. Jabbar, B.L Deekshatulu, P. Chandra, Classification of Heart Disease Using K- Nearest Neighbor and Genetic Algorithm, International Conference on Computational Intelligence: Modeling Techniques and Applications (CIMTA) 2013.
  • [23] I.A. Zriqat, A.M. Altamimi, M. Azzeh, A Comparative Study for Predicting Heart Diseases Using Data Mining Classification Methods, International Journal of Computer Science and Information Security (IJCSIS), 14(12), 2016.
  • [24] S. Sharmila, M.P. Indra Gandhi, Analysis of Heart Disease Prediction Using Data Mining Techniques, International Journal of Advanced Networking & Applications (IJANA), 8(5) (2017), 93-95.
  • [25] M. Sharma, F. Khan, V. Ravichandran, Comparing Data Mining Techniques Used For Heart Disease Prediction, International Research Journal of Engineering and Technology (IRJET), 4(6) (2017).
  • [26] M. Abdar, S.R.N. Kalhori, T. Sutikno, I.M.I. Subroto, G. Arji, Comparing Performance of Data Mining Algorithms in Prediction Heart Diseases, International Journal of Electrical and Computer Engineering (IJECE), 5(6) (2015) 1569-1576.
  • [27] S. Aydin, M. Ahanpanjeh, S. Mohabbatiyan, Comparison And Evaluation Data Mining Techniques In The Diagnosis Of Heart Disease, International Journal on Computational Science & Applications (IJCSA), 6(1) (2016).
  • [28] T.K. Keerthana, Heart Disease Prediction System using Data Mining Method, International Journal of Engineering Trends and Technology (IJETT), 47(6) (2017).
  • [29] H.B.F. David, S.A. Belcy, Heart Disease Prediction Using Data Mining Techniques, ICTACT Journal On Soft Computing, 9(1) (2018).
  • [30] S. Cihan, B. Karabulut, G. Arslan, G. Cihan, Identification of Coronary Artery Disease Risk Using Data Mining Techniques, International Journal of Engineering Research and Development, 10(1), (2018) 85-93.
  • [31] F. Rabbi, P. Uddin, A. Ali, F. Kibria, M.I. Afjal, S. Islam, A.M. Nitu, Performance Evaluation of Data Mining Classification Techniques for Heart Disease Prediction, American Journal of Engineering Research (AJER), 7(2) (2018), 278-283.
  • [32] S. Joshi, A. Sasanapuri, S. Anand, S. Nandi, V. Nemade, Predictive Analysis using Data Mining Techniques for Heart Disease Diagnosis, International Journal of Engineering & Technology, 7(3) (2018) 166-170.