خوشه بندی فازی چندهسته ای کلان داده ها در چارچوب نگاشت کاهش هدوپ
محورهای موضوعی : فناوری اطلاعات و ارتباطات
سیدامید آذرکسب
1
,
سید حسین خواسته
2
,
مصطفی امیری
3
1 - دانشگاه خواجه نصیرالدین طوسی
2 - دانشگاه صنعتی خواجه نصیرالدین طوسی
3 - دانشگاه خواجه نصیرالدین طوسی
کلید واژه: دادههاي کلان, خوشهبندي, منطق فازي, یادگیري چندهستهاي, هدوپ, نگاشتکاهش,
چکیده مقاله :
یک راهحل منطقي براي لحاظکردن همپوشاني خوشهها، انتساب مجموعهاي از درجه عضویت به هر داده است. بهدلیل کمشدن افرازها و کوچکشدن فضايجستجو، خوشهبندي فازي عموما داراي سربار محاسباتي کمتري بوده، تشخیص و مدیریت دادههاي مبهم، نویزدار و دادههايپرت نیز در آن بهسهولت انجام ميگیرد. ازاینرو خوشهبندي فازي از نوع پیشرفته روشهاي خوشهبندي به شمار ميرود. اما روشهاي خوشهبندي فازي در مواجه با روابط غیرخطي دادهها ناتوانند. روش پیشنهادي این مقاله ميکوشد تا مبتني بر ایدههاي امکان پذیري، از یادگیري چندهستهاي در چارچوب نگاشتکاهش هدوپ براي تشخیص خوشههاي خطيجدایيناپذیر با ساختار کلاندادههاي پیچیده، استفاده کند. مدل یادگیري چندهستهاي قادر به کشف روابط پیچیده بین دادهاي بوده و در عین حال هدوپ ما را قادر خواهد ساخت تا به جاي تعامل با سیستم عامل و پردازنده، با یک کلاستر منطقي از پردازشها و گرههاي انباره داده تعامل داشته باشیم و عمده کار را بر عهده فریمورک بیندازیم. به طور خلاصه مدلسازي روابط غیرخطي دادهها با استفاده از مدل یادگیري چندهستهاي، تعیین مقادیر مناسب براي پارامترهاي فازيسازي و امکانپذیري، و ارائه الگوریتم در مدل نگاشتکاهش هدوپ از دستاوردهاي کلیدي مقاله حاضر ميباشد. آزمایشها برروي یکي از مجموعه دادههاي پر استفاده مخزن یادگیري UCI و همچنین برروي دیتاست شبیهساز CloudSim پیاده سازي شده است و نتایج قابل قبولي به دست آمده است. طبق مطالعات منتشر شده، مخزن یادگیري UCI براي مقاصد رگرسیون و خوشهبندي کلان داده، و مجموعه داده CloudSim براي شبیهسازي موارد مربوط به رایانش ابري، محاسبه تأخیرهاي زماني و زمانبندي انجام وظایف معرفي شدهاند.
A logical solution to consider the overlap of clusters is assigning a set of membership degrees to each data point. Fuzzy clustering, due to its reduced partitions and decreased search space, generally incurs lower computational overhead and easily handles ambiguous, noisy, and outlier data. Thus, fuzzy clustering is considered an advanced clustering method. However, fuzzy clustering methods often struggle with non-linear data relationships. This paper proposes a method based on feasible ideas that utilizes multicore learning within the Hadoop map reduce framework to identify inseparable linear clusters in complex big data structures. The multicore learning model is capable of capturing complex relationships among data, while Hadoop enables us to interact with a logical cluster of processing and data storage nodes instead of interacting with individual operating systems and processors. In summary, the paper presents the modeling of non-linear data relationships using multicore learning, determination of appropriate values for fuzzy parameterization and feasibility, and the provision of an algorithm within the Hadoop map reduce model. The experiments were conducted on one of the commonly used datasets from the UCI Machine Learning Repository, as well as on the implemented CloudSim dataset simulator, and satisfactory results were obtained.According to published studies, the UCI Machine Learning Repository is suitable for regression and clustering purposes in analyzing large-scale datasets, while the CloudSim dataset is specifically designed for simulating cloud computing scenarios, calculating time delays, and task scheduling.
