خوشه بندی فازی چندهسته ای کلان داده ها در چارچوب نگاشت کاهش هدوپ
الموضوعات :سیدامید آذرکسب 1 , سید حسین خواسته 2 , مصطفی امیری 3
1 - دانشگاه خواجه نصیرالدین طوسی
2 - دانشگاه صنعتی خواجه نصیرالدین طوسی
3 - دانشگاه خواجه نصیرالدین طوسی
الکلمات المفتاحية: دادههاي کلان, خوشهبندي, منطق فازي, یادگیري چندهستهاي, هدوپ, نگاشتکاهش,
ملخص المقالة :
یک راهحل منطقي براي لحاظکردن همپوشاني خوشهها، انتساب مجموعهاي از درجه عضویت به هر داده است. بهدلیل کمشدن افرازها و کوچکشدن فضايجستجو، خوشهبندي فازي عموما داراي سربار محاسباتي کمتري بوده، تشخیص و مدیریت دادههاي مبهم، نویزدار و دادههايپرت نیز در آن بهسهولت انجام ميگیرد. ازاینرو خوشهبندي فازي از نوع پیشرفته روشهاي خوشهبندي به شمار ميرود. اما روشهاي خوشهبندي فازي در مواجه با روابط غیرخطي دادهها ناتوانند. روش پیشنهادي این مقاله ميکوشد تا مبتني بر ایدههاي امکان پذیري، از یادگیري چندهستهاي در چارچوب نگاشتکاهش هدوپ براي تشخیص خوشههاي خطيجدایيناپذیر با ساختار کلاندادههاي پیچیده، استفاده کند. مدل یادگیري چندهستهاي قادر به کشف روابط پیچیده بین دادهاي بوده و در عین حال هدوپ ما را قادر خواهد ساخت تا به جاي تعامل با سیستم عامل و پردازنده، با یک کلاستر منطقي از پردازشها و گرههاي انباره داده تعامل داشته باشیم و عمده کار را بر عهده فریمورک بیندازیم. به طور خلاصه مدلسازي روابط غیرخطي دادهها با استفاده از مدل یادگیري چندهستهاي، تعیین مقادیر مناسب براي پارامترهاي فازيسازي و امکانپذیري، و ارائه الگوریتم در مدل نگاشتکاهش هدوپ از دستاوردهاي کلیدي مقاله حاضر ميباشد. آزمایشها برروي یکي از مجموعه دادههاي پر استفاده مخزن یادگیري UCI و همچنین برروي دیتاست شبیهساز CloudSim پیاده سازي شده است و نتایج قابل قبولي به دست آمده است. طبق مطالعات منتشر شده، مخزن یادگیري UCI براي مقاصد رگرسیون و خوشهبندي کلان داده، و مجموعه داده CloudSim براي شبیهسازي موارد مربوط به رایانش ابري، محاسبه تأخیرهاي زماني و زمانبندي انجام وظایف معرفي شدهاند.
.
[1] S.M. Razavi, M. Kashani, S. Paydar, "Big Data Fuzzy C-Means Algorithm based on Bee Colony Optimization using an Apache Hbase", Journal of Big Data, Vol. 8, Article Number: 64, 2021.
[2] X. Liu, X. Zhu, M. Li, L. Wang, E. zhu, T. Liu, M. Kloft, D. Shen, J. Yin, W. Gao, “Multiple Kernel k-Means with Incomplete Kernels”, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 42, No. 5, pp.1191-1204, 2020.
[3] R. K. Sanodiya, S. Saha, J. Mathew, “A Kernel Semi-Supervised Distance Metric Learning with Relative Distance: Integration with a MOO Approach”, Expert Systems with Applications, Elsevier, Vol. 125, pp. 233-248, 2019.
[4] M. Soleymani Baghshah, S. Bagheri Shouraki, “Efficient Kernel Learning from Constraints and Unlabeled Data”, 20th International Conference on Pattern Recognition, Istanbul, Turkey, pp. 3364-3367, 2010.
[5] S. Zhu, D. Wang, T. Li, “Data Clustering with Size Constraints”, Knowledge-Based Systems, Elsevier, Vol. 23, pp. 883-889, 2010.
[6] L. A. Maraziotis, “A Semi-Supervised Fuzzy Clustering Algorithm Applied to Gene Expression Data”, Pattern Recognition, Elsevier, Vol. 45, pp. 637-648, 2014.
[7] J. Bezdek, R. Ehrlich, W. Full, “FCM: the Fuzzy C-Means Clustering Algorithm”, Computers & Geosciences, Elsevier Vol. 10, Issue. 2-3, pp. 191-203, 1984.
[8] O. Ozdemir, A. Kaya, “Comparison of FCM, PCM, FPCM and PFCM Algorithms in Clustering Methods”, Afyon Kocatepe University Journal of Science and Engineering, pp. 92-102, 2019.
[9] M. A. Lopez Felip, T. J. Davis, T. D. Frank, J.A. Dixon, “A Cluster Phase Analysis for Collective Behavior in Team Sports”, Human Movement Science, Elsevier, Vol. 59, pp. 96-111, 2018.
[10] F. Hai Jun, W. Xiao Hong, M. Han Ping, W. Bin, “Fuzzy Entropy Clustering using Possibilistic Approach”, Advanced in Control Engineering and Information Science, Elsevier, Procedia Engineering Vol. 15, pp.1993-1997, 2011.
[11] M. Bouzbida, L. Hassine, A. Chaari, “Robust Kernel Clustering Algorithm for Nonlinear System Identification” Hindawi, Mathematical Problems in Engineering, pp. 1-11, 2017.
[12] J. Dean, S. Ghemawat, "MapReduce: Simplified Data Processing on Large Clusters", Sixth Symposium on Operating System Design and Implementation, San Francisco, CA, pp. 137-150, 2004.
[13] L. Jiamin and F. Jun, "A Survey of MapReduce based Parallel Processing Technologies", China Communications, Vol. 11, Issue. 14, pp. 146–155, 2014.
[14] W. Zhao, H. Ma, Q. He, "Parallel K-Means Clustering based on MapReduce, in Cloud Computing", IEEE International Conference on Cloud Computing, pp. 674-679, Part of the Lecture Notes in Computer Science book series (LNCS, volume 5931), 2009.
[15] H. Bei, Y. Mao, W. Wang, X. Zhang, "Fuzzy Clustering Method Based on Improved Weighted Distance", Mathematical Problem in Engineering, Vol. 5, Hindawi, 2021.
[16] S.A.Ludwig, "MapReduce-based Fuzzy C-Means Clustering Algorithm: Implementation and Scalability", International Journal of Machine Learning and Cybernetics, pp.923-934, Copyright owner: Springer-Verlag Berlin Heidelberg, 2015.
[17] J. Ramisingh, V. Bhuvaneswari, "An Integrated Multi-Node Hadoop Framework to Predict High-Risk Factors of Diabetes Mellitus using a Multilevel MapReduce based Fuzzy Classifier (MMR-FC) and Modified DBSCAN Algorithm", Applied Soft Computing, Vol. 108, 2021.
[18] A. A. Abin, H. Beigy “Active Constrained Fuzzy Clustering: A Multiple Kernels Learning Approach”, Pattern Recognition, Elsevier, Vol. 48, Issue. 3, pp. 935-967, 2015.
[19] UCI, Machine Learning Repository, Center for Machine Learning and Intelligent Systems, https://archive.ics.uci.edu/ml/index.php, site visit: 2021.