Veri Madenciliğinde Cart ve Lojistik Regresyon Analizinin Yeri: İlaç Provizyon Sistemi Verileri Üzerinde Örnek Bir Uygulama

Bilimsel çalışmalarda kullanılan veri setleri zaman zaman karmaşıkbir yapı teşkil etmektedir. Bu noktada veri madenciliği, büyük veritabanlarından faydalı bilgileri ortaya çıkararak hizmet kalitesininartırılması bakımından büyük katkılar sağlamaktadır. Genelliklearaştırmalarda büyük veri kümelerini sınıflandırarak önemli verisınıflarını ortaya koyan veya gelecek veri eğilimlerini tahmin etmedefaydalanılan yöntemlerden, veri madenciliği teknikleri içerisinde enyaygın kullanıma sahip olanlarından bir tanesi sınıflama ve regresyonmodelleridir. Bu çalışmada veri madenciliği metotları içerisinde,sınıflama ve regresyon modellerinden en çok kullanılan karar ağacıalgoritmalarından biri olan sınıflama ve regresyon ağaçları (CART)algoritması ile lojistik regresyonun sınıflama özellikleri karşılaştırılarakgerçek bir veri seti üzerinde uygulama yapılmış ve söz konusu ikiyöntemin başarısını göstermek amaçlanmıştır. Bu sayede mevcutveriler ile yapılan analiz sonuçlarına göre; aynı özellikte verilerleyapılacak ileriki çalışmalarda genel geçer kurallar tanımlanmasında, sözkonusu analizleri kullanmanın uygun olacağı gösterilmek istenmiştir.Bu kapsamda, penisilin grubu antibiyotik kullanan hastaların profilinibelirlemek amacıyla bir uygulama yapılmış ve çalışmaya alınan veri setiiçin CART analizinin lojistik regresyon analizine göre daha iyi bir doğrusınıflandırma oranına sahip olduğu görülmüştür.

The data sets used in scientific studies pose a very complex structure from time to time. At this point, data mining is making a big contribution in terms of improving the quality of services by revealing useful information from large databases. Generally on studies, to predict future data trends utilization of the methods, data mining techniques in one of the most widely used are classification and regression models. In this study, among data mining methods, classification and regression models most commonly used ones are decision tree algorithms. By comparing Classification and Regression Trees (CART) algorithm which belongs to decision trees and logistic regression shows classification characteristics on real data set and success rates of these two methods. In this context, taken by the Social Security Administration pharmacy provision system, from the respiratory disease which is one of 11 diagnoses for 6,772,313 entries in the prescribed antibiotics in the penicillin group was used to analyze that profiling the patients and the analysis found the CART analysis has better classification success than logistic regression analysis

Kaynakça

Ahmad, I., “Data Warehousing in Construction Organizations”, Construction Congress VI, Florida, 194–203 (2000).

Akpınar H., “Veri Tabanlarında bilgi keşfi ve Veri Madenciliği”, İ.Ü. İşletme Fakültesi Dergisi, 29 (1), 1-22 (2000).

Allison, D. P., “Logistic Regression Using The SAS System 2nd ed.”, SAS Institute, (2000).

Ayık Y. Z., Özdemir A., Yavuz U., “Lise Türü Ve Lise Mezuniyet Başarısının, Kazanılan Fakülte İle İlişkisinin Veri Madenciliği Tekniği İle Analizi”, Atatürk Üniversitesi Sosyal Bilimler Enstitüsü Dergisi, 10(2): 441-454 (2007).

Berry, M. J., Linoff, G. S., “Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management 2nd ed.”, Wiley, USA, (2004).

Bigus, J. P., “Data Mining With Neural Networks: Solving Business Problems from Application Development to Decision Support”, McGraw Hill, (1996).

Collet, D., “Modelling Binary Data”, Chapman & Hall, Florida, (2003).

Deconinck, E., Hancock, T., Coomans, D., Massart, D.L., Heyden, Y.V., “Classification of drugs in absorption classes using the classification and regression trees (CART) methodology”, Journal of Pharmaceutical and Biomedical Analysis, 39 : 91–103 (2005).

Fayyad, U., Piatetsky-Shapiro, G., Smyth, P., “The KDD Process for Extracting Useful Knowledge From Volumes of Data”, Communications of the ACM, 39 (11): 27-34 (1996).

Hosmer, D. W., Lemeshow, S., “Applied Logistic Regression”, John Wiley & Sons, New York, 5-50 (1989).

Kecman, V., “Learning and Soft Computing: Support Vector Machines, Neural Networks, and Fuzzy Logic Models”, The MIT Pres, Cambridge, MA, 1-4 (2001).

Kim, M., “Two-stage Logistic Regression Model”, Expert Systems with Applications, 36: 6727–6734 (2009).

Kleinbaum,G., D., “A Self-learning Text Logistic Regression”, Springer, Atlanta, (1994).

Köktürk, F., Ankaralı, H., Sümbüloğlu, V., “Veri Madenciliği Yöntemlerine Genel Bakış”, Türkiye Klinikleri Journal of Biostatistics, 1 (1): 20-25 (2009).

Kurt, I., Ture, M., Kurum, A. T., “Comparing Performances of Logistic Regression, Classification and Regression Tree, and Neural Networks for Predicting Coronary Artery Disease”, Expert Systems with Applications, 34 : 366–374 (2008).

Masseglia, F., Poncelet, P., Teisseire, M., “Using Data Mining Techniques on Web Access Logs to Dynamically Improve Hypertext Structure”, ACM Sigweb Newsletter, 8 (3): 1-19 (1999).

Özkan, Y., “Veri Madenciliği Yöntemleri”, Papatya Yayıncılık Eğitim, İstanbul, 106-113 (2008).

Pehlivan, G., “Chaid Analizi ve Bir Uygulama”, Yüksek Lisans Tezi, Yıldız Teknik Üniversitesi Fen Bilimleri Enstitüsü, İstanbul, 17 (2006).

Silahtaroğlu, G., “Kavram ve Algoritmalarıyla Temel Veri Madenciliği”, Papatya Yayıncılık Eğitim, İstanbul, 33, 45-47, 58 (2008).

Tatlıdil, H., “Uygulamalı Çok Değişkenli İstatistiksel Analiz”, Cem Web Ofset, Ankara, (1996).

Temel, G. O., Çamdeviren, H., Akkuş, Z., “Sınıflama Ağaçları Yardımıyla Restless Legs Syndrome (RLS) Hastalarına Tanı Koyma”, İnönü Üniversitesi Tıp Fakültesi Dergisi, 12 (2): 111-117 (2005).

Teng, J., Lin, K., Ho, B., “Application of Classification Tree and Logistic Regression for The Management and Health İntervention Plans in A Community-Based Study”, Journal of Evaluation in Clinical Practice, 13 : 741-748 (2007)

Thomas, Lyn. C., “A Survey of Credit and Behavioral Scoring: Forecasting Financial Risk of Lending to Consumer”, International Journal of Forecasting, 16 (2): 149–172 (2000).

Zhou, Z., “Three Perspectives of Data Mining”, Artificial Intelligence, 143 (1): 139-146 (2003).