Breiman Algoritması Kullanılarak Homojen Alt Grupların Belirlenmesi: Bir Uygulama

– Breiman, birçok verinin birbirine yakın olarak toplandığı “yüksek yoğunluklu” alanları bularak verilerin kümelenebileceğini söylemiştir. Bu çalışmada, Breiman’ın kümeleme algoritmasının işleyiş adımları tanıtılarak bir veri seti üzerinde uygulama adımlarının gösterilmesi ve sonuçlarının yorumlanması amaçlanmıştır. Uygulama bölümünde, hastaneye gece yeme sendromu şikâyetiyle başvuran 433 kişiye ilişkin sosyo-demografik ve klinik özellikler kullanılmıştır. Veri setinde olabilecek kümelerin ortaya konmasında, CART algoritmasından yararlanılmıştır. Elde edilen optimum ağaçta toplam 31 karar noktası bulunmuş ancak bunların 14’ ünde yer alan deneklerin kendi içinde kümelenme gösterdiği belirlenmiştir. Çalışmaya alınan kişilerin 350’si oluşturulan 14 küme içine girmiş ve bunların 273 (%78)’ü klinik olarak gece yeme alışkanlığı yoktur tanısı almıştır. Elde edilen 14 kümenin 12’sinde yer alan kişilerin ağırlıklı olarak gece yeme alışkanlığı yok tanısı alanlardan oluştuğu ve bu sonuca göre, bu veri setinden elde edilen kümelerin, genel olarak gece yeme alışkanlığı olmayan bireyleri ayırt edebildiği söylenebilir. Sonuç olarak, hedef veya bağımlı değişkenin bilinmediği durumlarda, veri setinde var olan homojen alt grupların belirlenmesinde, danışmansız öğrenme yöntemlerinden biri olan kümeleme analizinin uygulanması için değişkenlerin dağılım şekli ve tipinden etkilenmeyen Breiman algoritması etkin bir şekilde kullanılabilir.

Breiman Algoritması Kullanılarak Homojen Alt Grupların Belirlenmesi: Bir Uygulama

 Breiman, birçok verinin birbirine yakın olarak toplandığı “yüksek yoğunluklu” alanları bularak verilerin kümelenebileceğini söylemiştir. Bu çalışmada, Breiman'ın kümeleme algoritmasının işleyiş adımları tanıtılarak bir veri seti üzerinde uygulama adımlarının gösterilmesi ve sonuçlarının yorumlanması amaçlanmıştır. Uygulama bölümünde, hastaneye gece yeme sendromu şikâyetiyle başvuran 433 kişiye ilişkin sosyo-demografik ve klinik özellikler kullanılmıştır. Veri setinde olabilecek kümelerin ortaya konmasında,  CART algoritmasından yararlanılmıştır. Elde edilen optimum ağaçta toplam 31 karar noktası bulunmuş ancak bunların 14' ünde yer alan deneklerin kendi içinde kümelenme gösterdiği belirlenmiştir. Çalışmaya alınan kişilerin 350'si oluşturulan 14 küme içine girmiş ve bunların 273 (%78)'ü klinik olarak gece yeme alışkanlığı yoktur tanısı almıştır. Elde edilen 14 kümenin 12'sinde yer alan kişilerin ağırlıklı olarak gece yeme alışkanlığı yok tanısı alanlardan oluştuğu ve bu sonuca göre, bu veri setinden elde edilen kümelerin, genel olarak gece yeme alışkanlığı olmayan bireyleri ayırt edebildiği söylenebilir. Sonuç olarak, hedef veya bağımlı değişkenin bilinmediği durumlarda, veri setinde var olan homojen alt grupların belirlenmesinde, danışmansız öğrenme yöntemlerinden biri olan kümeleme analizinin uygulanması için değişkenlerin dağılım şekli ve tipinden etkilenmeyen Breiman algoritması etkin bir şekilde kullanılabilir. 

___

  • [1] Ş. Koltan Yılmaz ve S. Patır, "Kümeleme Analizi ve Pazarlamada Kullanımı", Akademik Yaklaşımlar Dergisi, 2(1), 91-113, 2011.
  • [2] L. Breiman ve A. Cutler, RFtools--for Predicting and Understanding Data, Interface WorkshopApril 2004.
  • [3] Ç. Taşkın ve GG. Emel, "Veri Madenciliğinde Kümeleme Yaklaşımları ve Kohonen Ağları ile Perakendecilik Sektöründe Bir Uygulama", Süleyman Demirel Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi, 15(3), 395-409, 2010.
  • [4] Ö. Terzi, EU. Küçüksille, G. Ergin ve A. İlker, "Veri Madenciliği Süreci Kullanılarak Güneş Işınımı Tahmini", SDU International Technologic Science, (3)2, 29-37, 2011.
  • [5] YZ. Ayık, A. Özdemir ve U. Yavuz, "Lise Türü ve Lise Mezuniyet Başarısının, Kazanılan Fakülte İle İlişkisinin Veri Madenciliği Tekniği ile Analizi", Sosyal Bilimler Enstitüsü Dergisi, 10(2), 441-454, 2007.
  • [6] Y. Özkan, Veri Madenciliği Yöntemleri, Papatya Yayıncılık, 2008.
  • [7] İnternet: Notes On Setting Up, Using, And Understanding Random Forests, http://www.stat.berkeley.edu/~breiman/notes_on _random_forests_v2.pdf, 30.05.2013.
  • [8] İnternet: Salford Systems Predictive Modeler Unsupervised Learning, http://1.salfordsystems.com/Portals/160602/docs/Unsupervised_ Learning_slides.pdf, 22.05.2013.
  • [9] İnternet: Unsupervised Learning and Cluster Analysis with CART, http://www.salfordsystems.com/blog/dan-steinberg/item/572- unsupervised-learning-and-cluster-analysis-withcart, 02.06.2013.
  • [10] H. Çamdeviren Ankaralı, AC. Yazıcı, Z. Akkus, R. Bugdayci ve MA.Sungur, "Comparison of logistic regression model and classification tree: An application to postpartum depression data", Expert Systems with Applications, 32(4), 987-994, 2007.
  • [11] LF. Handfield, YT. Chong, J. Simmons, BJ. Andrews ve AM. Moses, "Unsupervised Clustering of Subcellular Protein Expression Patterns in HighThroughput Microscopy Images Reveals Protein Complexes and Functional Relationships Between Proteins", PLoS Comput Biol., 9(6), 2013, doi: 10.1371/journal.pcbi.1003085.
  • [12] MJ. Overman, J. Zhang, S. Kopetz, M. Davies, J. Zhi-Qin, K. Stemke-Hale, P. Rümmele, C. Pilarsky, R. Grützmann, S. Hamilton, R. Hwang, JL. Abbruzzese, G. Varadhachary, B. Broom ve H. Wang, "Gene Expression Profiling of Ampullary Carcinomas Classifies Ampullary Carcinomas in to Biliary-Like and Intestinal-Like Subtypes That are Prognostic of Outcome", PLoS One, 8(6), 2013, doi: 10.1371/journal.pone.0065144.
  • [13] P. Stegmaier, A. Kel, E. Wingender ve J. Borlak, "A Discriminative Approach for Unsupervised Clustering of DNA Sequence Motifs", PLoS Comput Biol., 2013, doi: 10.1371/journal.pcbi.1002958. [14] T. Shi, S. Horvath, "Unsupervised Learning With Random Forest Predictors", Journal of Computational and Graphical Statistics, 15(1), 118- 138, 2006.
  • [15] T. Shi, D. Seligson, AS. Belldegrun, A. Palotie ve S. Horvath, "Tumor Classification by Tissue Microarray Profiling: Random Forest Clustering Applied to Renal Cell Carcinoma", Mod Pathol., 18(4), 547-57, 2005.
  • [16] L. Breiman, "Random forests", Machine Learning, 45(1), 5-32, 2001.