Tabaka Sınırlarının Belirlenmesinde, Kümeleme Analiz Yöntemleri ve Tabaka Sınırı Belirleme Yöntemlerinin Karşılaştırılması

Tabakalı örneklemede örnekleme çerçevesi birbiriyle örtüşmeyen tabakalara bölünür. Bu bölünme çoğu pratik durumda coğrafi bölgeler, cinsiyet, yaş gibi doğal durumu yansıtacak şekilde kendiliğinden oluşur. Bu şekilde kendiliğinden oluşan tabakalar araştırma değişkenine göre içsel olarak homojen olmayabilir. Fakat araştırma değişkeninin tabaka sınırları katı bir şekilde önceden belirlenmemişse tabakaların içsel olarak homojenliği sağlanabilir. Bu yolla araştırma değişkenine göre içsel olarak homojen tabakalar oluşturulur ve tahmin hassasiyeti en üst düzeye çıkarılmış olur. Bu amaçla bu çalışmada tabaka-içi homojenliği sağlamak için Kümeleme Analiz Yöntemleri ve Tabaka Sınırı Belirleme Yöntemleri karşılaştırılmıştır. Bu karşılaştırma için beş farklı çarpıklık değerine sahip veri setleri türetilmiş ve her veri seti için ayrıştırma yöntemlerine göre tabaka sınırları belirlenmiştir. Tahminlerin güvenilirliğini arttırmak için her yöntemden 1000 kez bağımsız örnek seçilmiştir. Böylece her yöntemden elde edilen ortalama tahmin edicisine ilişkin Kök Hata Kareler Ortalamaları (KHKO) hesaplanmış ve en küçük KHKO değerini veren yöntemin tabaka sınırlarının optimum sınırlar olduğu sonucuna ulaşılmıştır. Analizler R programında yer alan “NbClust” ve “Stratification” paketleri ile yapılmıştır. Çalışmada elde edilen sonuçlara göre en küçük üç çarpıklık değerine sahip simülasyonlar için “Lavallee-Hidiroglou”, dördüncü simülasyon için “Ortalama Kümeleme” ve en büyük çarpıklık değerine sahip simülasyon için ise “K-Ortalamalar Kümeleme” yöntemleri ile elde edilen tabaka sınırları, optimum tabaka sınırları olarak belirlenmiştir.

Comparison of Cluster Analysis Methods and Strata Boundary Determination Methods for Determination of Strata Boundaries

In stratified sampling, the sampling frame is divided into non-overlapping strata. In most practical cases, this division occurs spontaneously, reflecting the natural state such as geographical regions, gender and age. Self-forming strata formed in this way may not be internally homogeneous according to the research variable. However, internal homogeneity of the strata can be achieved if the strata boundaries of the research variable are not strictly predetermined. Thus, internally homogeneous strata are formed according to the research variable and precision of an estimate is maximized. For this purpose, in this study, Cluster Analysis Methods and Optimum Strata Boundary Determination Methods were compared to ensure intra-stratum homogeneity. For this comparison, data sets with five different skewness values were derived. For each data set, strata boundaries were determined according to the decomposition methods. In order to increase the reliability of the estimations, independent samples were selected from each method for 1000 times. Thus, the Root Mean Squares Error (RMSE) of the mean estimator obtained from each method was calculated and it was concluded that the method with the smallest RMSE value had the optimum strata boundaries. Analyzes were made with the "NbClust" and "Stratification" packages in the R program. According to the results obtained in the study the strata boundaries obtained by the “Lavallee-Hidiroglou” Method for the simulations with the 3 lowest skewness values; “Average Clustering” Method for the fourth simulation; and “K-Means Clustering” Method for the simulation with the largest skewness value were determined as the optimum strata boundaries.

___

  • Ballin , M., & Barcaroli, G. (2013). Joint determination of Optimal Stratification and Sample Allocation Using Genetic Algorithm. Survey Methodology, 369-393.
  • Benedetti, R., Bee, M., & Espa, G. (2010). A Framework for Cut-Off Sampling in Business Survey Design. Journal of Official Statistics, 651-671.
  • Brito, J., Ochi, L., Montenegro, F., & Maculan, N. (2010). An Iterative Local Search Approach Applied to the Optimal Stratification Problem. Int. Trans. Oper. Res., 753-764.
  • Charrad, M., Ghazzali, N., Boiteau, V., & Niknafs, A. (2014). NbClust: An R Package for Determining the Relevant Number of Clusters in a Data Set. Journal of Statistical Software, 1-36.
  • Dalenius, T., & Hodges, J. (1957). The Choice of Stratification Points. Scand. Actuar. Journal, 198-203.
  • Ekman, G. (1959). An Approximation Useful in Univariate Stratificaiton. Ann. Math. Stat., 219-229.
  • Erişoğlu, M. (2011). Uzaklık Ölçülerinin Kümeleme Analizine Olan Etkilerinin İncelenmesi ve Geliştirilmesi.
  • Florek, K., Lukaszewicz, J., Steinhaus, H., & Zubrzycki, S. (1951). Sur la liaison et la division des points d’un ensemble fini. Colloquium Mathematicum, 282-285.
  • Gunning, P., & Horgan, J. (2004). A New Algorithm for the Construction of Stratum Boundaries in Skewed Populations. Survey Methodology, 159-166.
  • Hidiroglou, M., & Kozak, M. (2017). Stratification of Skewed Populations: A Comparison of Optimisation-based Versus Approximate Methods. International Statistics Review, 1-19.
  • Hidiroglou, M., & Srinath, K. (1993). Problems Associated with Designing Subannual Business Surveys. Journal of Business & Economic Statistics, 397-405.
  • Kennedy, D. (1988). A Note On Stochastıc Search Methods For Global Optimization. Advances in Applied Probability, 476-478.
  • Keskintürk, T., & Er, S. (2007). A Genetic Algorithm Approach to Determine Stratum Boundaries and Sample Sizes of Each Stratum in Stratified Sampling. Comput. Stat. Data Anal., 53-67.
  • Khan, M. G., Reddy, K. G., & Rao, D. (2015). Designing Stratified Sampling in Economic and Business Surveys. Journal of Applied Statistics, 1-20.
  • Kozak, M. (2004). Optimal Stratification Using Random Search Method in Agricultural Surveys. Stat. Transition, 797-806.
  • Lavallee, P., & Hidiroglou, M. A. (1988). On the Stratification of Skewed Populations. Survey Methodology, 33-43.
  • Lednicki, B., & Wieczorkowski, R. (2003). Optimal Stratification and Sample Allocation Between Subpopulations and Strata. Stat. Transition, 287-306.
  • Mahalanobis, P. (1952). Some Aspects of the Design of Sample Surveys. The Indian Journal of Statistics, 1-7.
  • Rivest, L. (2002). A Generalization of the Lavallee and Hidiroglou Algorithm for Stratification in Business Surveys. Survey Methodology, 191-198.
  • Servi, T. (2009). Çok Değişkenli Karma Dağılım Modeline Dayalı Kümeleme Analizi.
  • Sethi, V. (1963). A Note on the Optimum Stratification of Populaitons for Estimating the Population Means. Australian J. Stat., 20-33.
  • Singh, R. (1971). Approximately Optimum Stratification on the Auxiliary Variable. J. Am. Stat. Assoc., 829-833.
  • Slanta, J., & Krenzke, T. (1996). Applying the Lavallée and Hidiroglou Method to Obtain Stratification Boundaries for the Census Bureau’s Annual Capital Expenditure Survey. Survey Methodology, 65-75.
  • Sorensen, T. (1948). A method of establishing groups of equal amplitude in plant sociology based on similarity of species content and its application to analyses of the vegetation on Danish commons. Biologiske Skrifter, 1-34.
  • Sweet, E., & Sigman, R. (1995). Evaluation of Model-Assisted Procedures for Stratifying Skewed Populaitons Using Auxiliary Data. U.S. Bureau of the Census, 1-9.
  • Thomsen, I. (1976). A Comparison of Approximately Optimal Stratification Given Proportional Allocaiton with Other Methods of Stratification and Allocaiton. Metrika, 15-25.
  • Verma, M. R., Kozak, M., & Zielinski, A. (2007). Modern Approach to Optimum Stratification. Review and Perspectives, 223-250.
  • Ward, J. (1963). Hierarchical Grouping to Optimize an Objective Function. Journal of the American Statistical Association, 236-244.