Abdullah YEŞİLOVA, Hayrettin OKUT, Barış KAKİ

Kategorik Veriler için Karışımlı Poisson ve Karışımlı Lojistik Regresyon Yöntemlerin Teorik Özelliklerinin İncelenmesi

Karışımlı model yaklaşımı veri kümesinin heterojen bir yapı gösterdiğini varsaymaktadır. Söz konusu heterojenlikten dolayı veri kümesinde ekstra-varyasyon meydana gelmektedir. Veri kümesi kendi içerisinde homojen alt populasyonlara bölünerek, heterojenlik giderilmektedir. Böylece alt populasyonlar içi homojenlik sağlanırken, alt populasyanlar arası heterojenlik ortaya konmaya çalışılır. Kategorik veriler için Karışımlı Poisson ve lojistik regresyon modelleri kullanılmaktadır. Karışımlı Poisson regresyon sayıma dayalı olarak elde edilen verilerin analizinde, karışımlı lojistik regresyon ise binary, sıralayıcı ve sınıflayıcı verilerin analizinde kullanılmaktadır. Karışımlı Poisson ve lojistik regresyon modellerinde parametre tahminleri, EM algoritması kullanılarak en yüksek olabilirlik yöntemi ile elde edilmektedir. EM algoritmasının, E aşamasında bilinmeyen alt populasyon sayısı eksik gözlem olarak kabul edilip, bunların sayısı tahmin edilir, M aşamasında ise olabilirlik fonksiyonu maksimize edilip bilinmeyen parametreler en yüksek olabilirlik yöntemi ile elde edilir.

Anahtar Kelimeler:

Aşırı yayılım, EM algoritması, en yüksek olabilirlik, sayıma dayalı veriler

Investigation of Theoretical Properties of Mixture Poisson and Logistic Regressions for Categorical Data

Mixture model approach assumes that data set has heterogeneous variation. Extra variation occurs in data set due to this mentioned heterogeneily. The heterogeneity is solved by dividing the data set into homogeneous subpopulations. By doing thiş, homogeneity is obtained in sub-populations and heterogeneity is situated among subpopulationş. Mixture Poisson and logistic regression models are used for categorical data. Mixture Poisson regression is used for the analysis of based count data, whereas mixture logistic regression is used for the analysis of binary, ordinal and nominal data. Parameter estimations of Mixture Poisson and mixture logistic regression models are obtained by maximum likelihood method using expectation and maximization (EM) algoritms. In E step of EM algorithm, the number of unknown sub-populations is considered as missing observation, and their numbers are eslimated. In M slep, maximum likelihood estimations of unknown parameters are obtained by maximizing log-likelihood function.

Keywords: