Applying data mining techniques to regions segmentation for entrance exams to governmental universities
Subject Areas : Specialنرجس سرعتی آَشتیانی 1 , somayyeh alizadeh 2 , علی مبصّـری 3
1 -
2 -
3 -
Keywords: Data mining, cluster analysis, prediction, level of development, regions segmentation,
Abstract :
The large numbers of Iranian high school graduates are willing to enter in governmental and popular colleges and compete for it. On the other hand, these graduate students are from various regions with different levels of access to facilities. In opinion of directors of relevant agencies, the quota allocation solves this problem and they are looking to use the knowledge hidden in the data are available in this area.By this way volunteers from each region are compared together and managers are helped to allocate proper quota to related students in regions of each segment. In recent years, quota allocation was determined by Taxonomy that its result is a kind of ranking that does not allow group analyzing and identifies number of region theoretically. To solve this problem clustering is a good strategy. This study is carried out by using data mining techniques and Crisp methods on related dataset from education ministry, interior ministry, ministry of health, and center of statistic and evaluation organization for the first time. After extracting of effective attributes in this area, data preparation, data reduction and combination of attributes using Factor Analysis have done.in next step, by using K-means algorithm, similar items assign in to a cluster that has the minimum distance with centroid mean and then by using neural networks and decision trees, new item can be devoted to each cluster. Finally for assessing created models, accuracy of outputs compared with other methods. Outcomes of this research are: determining the optimal number of sectors, segmenting regions, analyzing each section, extracting decision rules, predicting class labels for new areas faster and more accurately, allowing the appropriate strategies formulation for each section
ارتقای روابط صنعت و دانشگاه با نگرشي بر شاخص هاي توسعه يافتگي در سهميه بندي كنكور
( كاربرد تكنيك داده كاوي)
* نرجس سرعتي آشتياني ** سمیّه علیزاده *** علی مبصّـری
* موسسه مطالعات بين المللي انرژي، دانشجوي دكتراي مديريت منابع انساني دانشگاه تهران
** عضو هیئت علمی دانشکده صنایع، دانشگاه خواجه نصیرالدّین طوسی، تهران
*** دانش آموخته کارشناسی ارشد مهندسی صنایع، دانشگاه علم وصنعت ایران، تهران
تاریخ دریافت: 3/4/1393 تاریخ پذیرش: 2/10/1394
چکیده
تعداد زیادی از فارغالتحصیلان دبیرستانها در سیستم آموزشی ایران خواهان ورود به دانشگاهها میباشند و رقابت اصلی برای ورود به مراکز دانشگاهی معتبر میباشد. از سویی دیگر تسهیلات آموزشی، بهداشتی و ... در تمامی شهرها توزیعی مناسب ندارند. مدیران سازمانهای ذیربط، تخصیص سهمیه را راهکاری مناسب برای حل این مسأله میدانند و به دنبال استفاده از دانش نهفته در دادههای موجود در این حوزه هستند. با منطقهبندی کلیه بخشهای کشور، داوطلبان هر منطقه با هم مقایسه میشوند و در واقع با این روش از اینکه درصد پذیرفتهشدگان یک شهر چند برابر شهر دیگری باشد، جلوگیری میشود. تعيين ميزان سهميه کنکور براي بخشهاي کشور در سال هاي اخير، برمبناي ميزان توسعهيافتگي مناطق با استفاده از روش تاكسونومي صورت گرفته است که خروجی حاصل از این روش نوعی رتبهبندی مناطق میباشد که در آن امکان تحلیل گروهی مناطق وجود ندارد، همچنین تعداد مناطق بصورت نظری تعیین مي شود. برای رفع این مسائل بخشبندی میتواند به عنوان یک راهكار مناسب مورد استفاده قرار گیرد. تحقيق حاضر براي اولين بار در حوزه توسعهیافتگی، با استفاده از تکنیکهای دادهکاوي و روش كريسپ و در قالب متدولوژی پیشنهادی، بر روي دادههاي مرتبط، در وزارت آموزش و پرورش، وزارت کشور، وزارت بهداشت و درمان، مرکز آمار و سازمان سنجش، صورت گرفته است.
پس از شناسایی استانداردها و شاخصهای اثرگذار در این زمینه، آمادهسازی دادهها انجام شده و به ساخت انبارهداده و ترکیب شاخصها جهت استخراج عوامل جدید پرداخته شده است. در گام بعدی با بکارگیری الگوریتم K-means بخشهای شبیه به هم در خوشههای مربوطه قرار گرفته و سپس با استفاده از روش پیشبینی شبکه های عصبی و درخت تصمیم امکان اختصاص بخشهای جدید به هر کلاس (خوشههای ایجاد شده) فراهم شده و جهت ارزیابی مدلهای ایجاد شده، دقت خروجی با سایر روشها مقایسه شده است. دستاوردهای این تحقیق عبارتند از: تعیین تعداد بهینه بخشها، بخشبندی مناطق، تحلیل هر بخش، استخراج قواعد تصمیمگیری، امکان پیشبینی سریعتر و دقیقتر برچسب کلاس برای مناطق جدید، فراهم نمودن امکان تدوین راهبردهای مناسب برای هر بخش.
واژههای کلیدی: فرهنگ سازمانی، مدیریت منابع انسانی استراتژیک، رفتار شهروندی سازمانی، مدل معادلات ساختاری
نویسندة عهدهدار مکاتبات: نرجس سرعتي آشتياني nara.sorati@yahoo.com
|
مقدمه
امروزه شناخت و درک صحيح تواناييها، نيازها و خواستههاي خدمتگيرندگان يا مشتريان هر سازمان از موارد قابل تأمل ميباشد و سازمانها ميبايد به اين موارد آگاه بوده و حتي آنها را پيشبيني کنند و با تجهيز شدن به اين اطلاعات و دانش سلامت کاري خود را بهبود داده، امکان اتخاذ تصمیم درست را فراهم نمایند. باتوجه به اهمّيت كليدي موضوع آموزش، بسترهاي مورد نياز آن و نحوهی توزيع تسهيلات و سهميههاي مرتبط با آن در هر کشوري، بررسي و تحقيق در اين حوزه بسيار حياتي مي باشد.
فنآوری دادهکاوی امروزه به موضوعی داغ برای تصمیمگیران تبدیل شده است، زیرا دادهکاوی کسب و کارهای مخفی و باارزش را از مقادیر بزرگی از دادههای تاریخی ارائه میدهد. اساساً دادهکاوی فنآوری جدیدی نیست، موضوع استخراج اطلاعات و دانش از رکوردهای داده مفهومی کاملاً جاافتاده است، آنچهکه جدید محسوب میگردد، تجمّع و پکپارچگی چندین رشته و فنآوری مرتبط میباشد که فرصتی یکتا برای کاوش دادهها در فضایی علمی و واحد را خلق نموده است .)كانتراتزيك 2003)
اين تحقيق سعي داشته است تا با استفاده از مفاهيمي همچون بخشبندي مناطق (بخشهاي تقسيمات کشوري، بهعنوان خدمتگيرندگان سازمان سنجش) با استفاده از دادهکاوي و نيز استانداردهاي موجود در راستاي توسعهيافتگي، ويژگيهاي مؤثر در اين زمينه را انتخاب کند و پس از آن تعداد بهينه مناطق شبيه را تعيين نموده و مناطق شبيه را در خوشههاي مربوطه قرار دهد، تا شناخت بهتري از مناطق ايجاد گردد. همچنین با استفاده از الگوریتمهای پیشبینی امکان تحلیل بهتر بخشها و تعیین کلاس بخشهای جدید را فراهم نموده است.
مبانی نظری پژوهش
الف ) شاخصهای توسعهیافتگی
توسعه به مفهوم ارتقاء مستمر كل جامعه و نظام اجتماعي به سوي زندگي بهتر و يا انساني تر با استفاده بهينه از منابع موجود است (تودارو، 1370) توسعه به هدف و وسيله تغييرات اشاره داشته و به طور همزمان دور نماي نوعي زندگي بهتر كه از نظر مادي مرفهتر، جديد تر، داراي غناي معنوي بيشتر و از نظر تكنولوژيكي ”كاراتر“ است را بصورت مجموعه اي از وسايل لازم براي رسيدن به اين دورنما، ترسيم ميكند. به طور كلي بايد اذعان داشت توسعه فرايندي پيچيده و چند بعدي است كه مستلزم تغيير در ساخت اجتماعي، طرز تلقي مردم و نهادهاي ملي و نيز تسريع رشد اقتصادي، كاهش نابرابري و ريشه كن كردن فقر و برقراري عدالت اجتماعي و پايداري محيط مي باشد. (توداور، 1378)
توسعه و توسعه نيافتگي مناطق از جمله مباحث توسعه بوده كه در بين اقتصادانان و برنامه ريزان مطرح است. در همين راستا وجود نابرابريها و تفاوت هاي منطقهاي كه علاوه بر ويژگيهاي طبيعي، اقتصادي، اجتماعي، متاثر از سياستها و برنامهريزيهاي گذشته، حال و آينده است، برنامه ريزان را بر آن داشته كه تكنيكها و روشهايي را ابداع كنند تا از طريق تعيين درجه توسعه يافتگي و رتبه بندي مناطق بتوانند به شناخت و تحليل علل يا عوامل نابرابريها و تفاوتهاي منطقهاي دست يابند. تعيين شاخصهاي توسعه خاصه شاخصهاي مرتبط با توسعه همه جانبه مهمترين قدم در مطالعات توسعه منطقهاي است. شاخصهاي توسعه در واقع بيان آماري پديدههاي موجود در منطقه بوده و براي بيان اهميت شاخصهاي توسعه و نقش آن در بيان آماري پديدهها، ضروري است تا مفاهيم مربوط به متغير و شاخص بطور عميقتر بررسي قرار گرفته و تفاوت بين آنها مشخص شود.
الف-1) شاخصهای توسعه انسانی
شاخص توسعه انسانی یک سنجه خلاصه برای توسعه انسانی است. این شاخص متوسط دستاوردهای یک کشور را در سه بعد از توسعه انسانی محاسبه میکند:
· زندگی طولانی و سالم، که بر اساس امید به زنگی در بدو تولد محاسبه میشود.
· دانش، که بر اساس نرخ باسوادی بزرگسالان (با ضریب دوسوم) و نسبت ترکیبی ثبتنام در مدارس ابتدایی، متوسطه و عالی (با ضریب یک سوم) محاسبه میشود.
· استاندارد شایسته زندگی، که بر اساس سرانه تولید ناخالص داخلی (برحسب برابری قدرت خرید دلار آمریکا) محاسبه میگردد.
الف-2) شاخص فقر انسانی1 برای کشورهای در حال توسعه
در حالیکه، شاخص توسعه انسانی، متوسط دستاوردها را محاسبه میکند، شاخص فقر انسانی، محرومیتها را در سه بعد از ابعاد توسعه انسانی اندازهگیری میکند و در دوحالت، برای کشورهای در حال توسعه و کشورهای پردرآمد بطور مجزا محاسبه میشود.
· زندگی طولانی و سالم: آسیبپذیری در برابر مرگ در سنین نسبتاً پایین، که بر اساس احتمال نرسیدن به سن 40 سالگی (در بدو تولد) محاسبه میشود.
· دانش: محرومیت از دنیای ارتباطات و خواندنیها که بر اساس نرخ بیسوادی بزرگسالان محاسبه میشود.
· استاندارد شایسته زندگی: عدم دسترسی به تسهیلات اقتصادی که بر اساس متوسط دو معیار محاسبه میشود، درصدی از جمعیت که به منابع آب سالم، دسترسی دائمی ندارند و درصدی از کودکان که نسبت به سنشان کموزن هستند.(وانتزكينز2008)
ب) دادهکاوی
اساساً دادهکاوی فنآوری جدیدی نیست، دادهکاوی دستیابی به اطلاعات و دانش، و کشف مدلها و الگوهای پنهان از بانکهای اطلاعاتی حجیم و پیچیده میباشد. این فنآوری شامل حوزههای متنوعی از علوم پایگاه دادهها، آمار، بصریسازی، علوم اطلاعاتی، یادگیری ماشین، تشخیص الگو، بازیابی اطلاعات، هوش مصنوعی و بعضی علوم دیگر میباشد.(هان، 2006)
در دادهکاوی معمولاً به کشف الگوهای مفید از میان دادهها اشاره میشود، منظور از الگوی مفید، مدلی در دادههاست که ارتباط میان یک زیر مجموعه از دادهها را توصیف میکند و معتبر، ساده، قابل فهم و جدید است.(هند،1998)روشهای مورد استفاده برای انجام دادهکاوی به صورت زیر هستند:
· دستهبندی2: این مدل یک قلم داده را به یکی از چند طبقه موجود تخصیص میدهد. از جمله تکنیکهای دستهبندی، پسانتشار3 ،تکنیک شبکه عصبی4، دستهبندهای درخت تصمیم5 و دستهبندهای بیزین6 میباشند.
· رگرسیون7:هدف این تابع مدل، نگاشت یک قلم داده به یک متغیر پیشبینی، با ارزش حقیقی یا پیوسته است.
· خوشهبندی8: این مدل، یک قلم داده را به یکی از چند خوشه موجود، نگاشت میکند، جائیکه خوشهها گروههای طبیعی از قلمهای داده بر اساس استانداردهای شباهت یا مدلهای تراکم احتمالی هستند.
· تولید قوانین9: این روش قوانینی را در دادهها کاوش میکند. قواعد انجمنی که بدنبال کشف ارتباطات در میان ویژگیهای مختلف هستند، زیرمجموعه این حوزه میباشند.
· خلاصهسازی و چگالش10: این تابع، توصیفی فشرده برای یک زیرمجموعه از دادهها را فراهم میکند و نقشی مهم در فشردهسازی دادهها بهویژه دادههای چندرسانهای، با کاهش تعداد بیتها و افزایش پهنای باند حافظه، ایفا میکند.
· تحلیل توالی11: این روش الگوهای متوالی، همچون تحلیل سریهای زمانی و ترتیب ژنها، را مدل میکند و هدف آن مدل نمودن مراحل فرایند تولید توالی و یا استخراج و گزارش انحرافها در طول زمان میباشد( بري 2004 و چيو 2009)
ب-1)روش کریسپ برای دادهکاوی
روش 12 CRISP-DM که توسط کمیته اروپایی ارائه شده، ازجمله متدولوژیهای مطرح برای انجام پروژههای دادهکاوی است كه چارچوب واحدی را پیشنهاد میکند تا کیفیت نتایج همراه با کاهش هزینه و زمان تضمین گردد.(هيل دبرانت، 2008) این روش چشماندازی از چرخه زندگی یک پروژه دادهکاوی را ارائه میکند و شامل فازهای یک پروژه، وظایف مربوط به هر فاز و ارتباط میان این وظایف میباشد. تعیین دقیق روابط میان وظایف امکانپذیر نیست و بطور خاص، روابط وابسته به اهداف، پیشزمینه، علایق کاربران و بهویژه براساس دادهها میباشد. راهحل دادهکاوی13 همیشه به مرحله استقرار نمیرسد، بلکه درسهای آموخته شده14 از هر فاز خود میتوانند برای سؤالات سازمان مفید واقع شوند.(ميلوتينوي 2002) گامهای این متدولوژی عبارتند از: درک محیط کسب وکار، درک دادهها، آمادهسازی دادهها، مدلسازی، ارزیابی و جاریسازی(هيل دبرانت 2008)
ب-2) الگوریتم k-means
K-means یکی از معروفترین الگوریتمها برای خوشهبندی مییاشد و در اصل بعنوان روش فورجی شناخته میشود و در بسیاری از حوزههای مختلف شامل دادهکاوی، تحلیل آماری دادهها و دیگر کاربردهای کسب و کار استفاده شده است. (MacQueen, 1967) واژه K-means را برای این الگوریتم که هر قلم داده را به خوشهای تخصیص میدهد که دارای نزدیکترین فاصله به مرکز ثقل (میانگین) آن خوشه باشد، پیشنهاد نمود.(چنگ 2009)
یک شبکه عصبی از یک شبکه لایهای شده، پیشرو و نرونهای (نودهای) کاملاً متصل تشکیل شده است. ماهیت پیشرو بودن شبکه مانع بوجود آمدن حلقه و اتصالات تکی میگردد. این شبکه متشکل از سه لایه ورودی، پنهان و خروجی میباشد که لایه مخفی ممکن است بیشتر از یکی باشد. شبکه کاملاً متصل شبکهای است که در آن تمامی نودهای یک لایه به کلیه نودهای لایه بعدی متصلند و هر اتصال دارای وزن مربوط به خود میباشد. در ابتدا این وزنها بطور تصادفی و در فاصله 0 و 1 به نرونها منصوب میشوند. نودهای ورودی معرف ویژگیها در مجموعه داده هستند. تعداد لایههای مخفی و تعداد نودهای آنها توسط کاربر قابل پیکربندی بوده و در لایه خروجی ممکن است تعداد نودها بیشتر از یکی باشد.
(1) |
(2) |
در مرحله بعد مقدار نت محاسبه شده برای هر نود بعنوان x وارد تابع سیگموید15 میشود که معروفترین تابع فعالسازی16 میباشد و فرمول آن بصورت ذیل میباشد:
خروجی این تابع بهعنوان ورودی نرونها درلایه(های) بعدی میباشد. برای یادگیری شبکه باید از الگوریتم پسانتشار خطا استفاده نمود.(لاروس 2005)
در دادهکاوی درخت تصمیم، مدلی است که میتواند برای هر دو منظور پیشبینی و دستهبندی مورد استفاده قرار گیرد. از سوی دیگر تصمیمگیران از این درخت برای تعیین راهبردی که به هدف موردنظرشان منتهی میشود، استفاده میکنند. درخت تصمیم دستهبندی برای دستهبندی نمودن یک شیء یا نمونه (نظیر بیمه) به مجموعه دستههای از قبل تعریف شده (نظیر پرریسک و کم ریسک)، بر اساس ویژگیها (نظیر سن و جنسیّت) بکار میرود. درخت تصمیم درختی است مستقیم با گرهای بنام ریشه که این گره17 دارای یالهای ورودی نمیباشد و تمامی گرههای دیگر دارای یک یال ورودی هستند، هر گرهای که دارای یالهای خروجی است، گره داخلی یا تست نامیده میشود. گرههای باقیمانده در انتهای مسیر برگها هستندکه به عنوان پایانه یا تصمیم نیز شناخته میشوند. هر مسیر از ریشه یک درخت تصمیم تا هر یک از برگهای آن با در نظر گرفتن گرههای تست، بعنوان مسیر میانی به صورت یک قانون ترجمه میشود. (روكاخ 2008)برای انتخاب نقطه انشعاب18 معیارهای متعددی وجود دارد که از جمله معروفترین آنها، شاخص جینی19 میباشد که جزء روشهای مبتنی بر ناخالصی20 بوده و برای انشعاب دودویی بکار میرود، نحوه محاسبه شاخص جینی بهصورت زیر است:
که در آن:
n: تعداد رکوردهای موجود در مجوعه S m: تعداد کلاسها
i C: تعداد رکوردهای متعلق به کلاس I
و S به دو زیرمجموعه S1 و S2 با تعداد رکوردهای n1 و n2 تقسیم میشود. به ازای تمامی متغیرهای گرهها، این شاخص را محاسبه و کمترین مقدار بهعنوان نقطه انشعاب، انتخاب میشود.(ليو،2001)
روش شناسي
پژوهش حاضر به لحاظ هدف در زمرهی تحقيقات کاربردي بوده و هدف آن توسعهی دانش کاربردي در زمينه ميزان توسعهيافتگي ميباشد. افزون بر اين، از لحاظ تقسيم بندي هاي روش شناسي، روش به كار رفته در پژوهش توصيفي و از نوع مطالعه موردي و از نظر سطح و قلمرو بررسي نيز در محدوده كشور جمهوري اسلامي ايران ميباشد.
جامعه آماري و نمونه آماري
با توجه به عنوان پژوهش، پيداست كه جامعه مورد پژوهش داده هاي مرتبط با شاخص هاي توسعه يافتگي است. در پژوهش حاضر با توجه به گستردگي و عدم امكان بررسي تمامي شاخص هاي جهاني مربوط به توسعهيافتگي که سالانه توسط سازمان ملل جهت تعيين ميزان توسعهيافتگي مورد استفاده قرار ميگيرد، بر اساس مصاحبه با صاحبنظران و مطالعه مدارک سازمانهاي داخلي مرتبط،و نيز دادههاي موجود در کشور، شاخصهاي بومي در اين زمينه استخراج گرديدند. این دادهها مربوط به وزارت آموزش و پرورش، وزارت کشور، وزارت بهداشت و درمان، مرکز آمار و سازمان سنجش و در بازه زمانی سالهای 1384 تا 1386 میباشند.
مدل مفهومي پژوهش
در این بخش فرایند پیشنهادی تشریح گردیده است که گامهای آن مطابق مدل ارائه شده در شکل (2) میباشد:
1- استخراج شاخصهاي مؤثر بهروش مصاحبه و مطالعه منابع
با در نظر گرفتن شاخصهای توسعه انسان سازمان ملل و پس از مطالعه اولیه مستندات سازمانهایی که در این حوزه فعالند، همچنین مصاحبه با افراد خبره و دادههای در دسترس تعداد 40 شاخص طبق جدول (1) حاصل شد:
2- آمادهسازی دادهها
نرمالسازي دادهها با روش Min-Max
در الگوريتمهايي كه از سنجههاي تعيين فاصله، مانند فاصله اقليدسي استفاده ميکنند، ممکن است دادههايي که داراي مقياس بزرگ هستند نتايج را بسوي خود منحرف کنند، براي جلوگيري از اين مسأله و بهبود کارايي و دقّت، دادهها را قبل از استفاده نرمــال مينماييم. در روش Min-Max يک تبديل خطي روي دادههاي اصلي انجام ميشود که اين تبديل طبق رايطه زير صورت ميگيرد:
در اين پژوهش ابتدا دادههای مربوط به شاخصهای جدول 1 جمعآوری و مورد پیشپردازش قرار گرفتند، که این پیشپردازش شامل، حذف نقاط مغشوش، حذف نقاط پرت، حذف دادههای ناسازگار، تچمیع دادهها و ساخت انبارهداده میباشد که در نتیجه 719 رکورد دادههای بخشهای تقسیمات کشوری مربوط به 40 شاخص آماده گردید. سپس دادههای که معرف شاخصهایی دارای ماهیت هزینه بودند، مانند نرخ بیکاری، معکوس شده تا به جنس سود تبدیل شوند. دادههای بدست آمده باتوجه به فرمول ارائه شده در گام قبل در بازه [0,1] نرمال گردیدند.
کاهش بعد و ترکیب شاخصها با استفاده از روش تحلیل عاملی
عامل متغیر جدیدی است که شامل ترکیب خطی مقادیر مشاهده شده متغیرها، مطابق معادله زیر است
[1] . The Poverty Human Index (HPI)
[12] 3. CRoss-Industry Standard Process for Data Mining
[13] . Data mining solution
[14] . Lessons learned
[15] . Sigmoid
[16] . Activation Function
[17] . Node
[18] . Split selection
[19] . Gini index
[20] . Impurity based
کد شاخص | عنوان شاخص | کد شاخص | عنوان شاخص |
---|---|---|---|
1,5,9, 13,17 | میانگین نمرات دروس عمومی شرکتکنندگان گروههای آزمایشی A،B ، C، D و E (5 شاخص) | 29 | فاصله مرکز بخش از مرکز شهرستان |
2,6,10, 14,18 | میانگین نمرات دروس اختصاصی شرکتکنندگان گروههای آزمایشی A،B ، C، D و E (5 شاخص) | 30 | فاصله مرکز بخش از مرکز استان |
3,7,11, 15,19 | میانگین نمرات دروس عمومی پذیرفتهشدگان گروههای آزمایشی A،B ، C، D و E (5 شاخص) | 31 | فاصله مرکز بخش از اولين ايستگاه راه آهن |
4,8,12, 16,20 | میانگین نمرات دروس اختصاصی پذیرفتهشدگان گروههای آزمایشی A،B ، C، D و E (5 شاخص) | 32 | تراكم خانواردر واحد مسكوني |
21 | درصد قبولي کل | 33 | نسبت مراكز بهداشتي درماني به تعداد نقاط جمعيتي(شهر+روستا) |
22 | درصد قبولي روزانه | 34 | نسبت پزشك به تعداد نقاط جمعيتي(شهر+روستا) |
23 | نسبت قبولي روزانه و شبانه به کل شرکت کنندگان | 35 | نسبت مدرسه راهنمايي به تعداد نقاط جمعيتي(شهر+روستا) |
24 | تعداد پذيرفته شده | 36 | نسبت دبيرستان و هنرستان به تعداد نقاط جمعيتي(شهر+روستا |
25 | تعداد شرکت کننده | 37 | نسبت كتابخانه و كانون پرورش فكري كودكان به تعداد نقاط جمعيتي(شهر+روستا) |
26 | نرخ بیسوادي | 38 | نسبت تاسيسات ورزشي به تعداد نقاط جمعيتي(شهر+روستا) |
27 | نرخ بیکاری | 39 | نسبت شعب بانك به تعداد نقاط جمعيتي(شهر+روستا) |
28 | نسبت تعداد شرکت کننده به جمعيت بالاي 6 سال | 40 | جمعيت
|
در اين رابطه بيانگر متغير i ام، ضريب نمره عاملي متغير i ام و از نظر عامل j ام، p تعداد متغيرها و Fj عامل j است.
پس از ورود دادهها جهت بررسی کفایت تعداد دادهها، بايد مقدار شاخص KMO از رابطه زیر محاسبه ميشود که در آن ضريب همبستگي بين متغيرهاي i و j و aij ضريب همبستگي جزئي بين آنهاست.
در پژوهش حاضر با توجه به اینکه تفسیر و تحلیل 40 شاخص دشوار بوده و دارای پیچیدگی میباشد، با استفاده از روش تحلیل عاملی و محاسبه مقدار معیار KMO، همچنین ساخت ماتریسهای مربوطه با استفاده از نرمافزار SPSS، پس از انجام 10 مرتبه تکرار و حذف 9 شاخص که دارای تأثیرگذاری کمتری بودند، نهایتاً 8 عامل که نمایانگر 31 شاخص باقیمانده بود، با دقت تبیین 83% باقی ماند که در جدول (2) ارائه شدهاند:
تعيين وزن عوامل با استفاده از روش انتروپي
با توجه به اينکه همه عوامل داراي اهميت يکساني نميباشند و برخي داراي اهميت بيشتري نسبت به ديگر عوامل ميباشد، ميتوان با استفاده از روش انتروپی ميزان وزن عوامل را تعيين نمود( ماكويي،2007)
با فرض اینکه D ماتریس تصمیمگیری باشد، ستونها معرف ویژگیها و سطرها معرف اشیاء میباشند، بهترتیب با محاسبه P، K، E، d و W طبق روابط زیر وزن هریک از عوامل بدست خواهد آمد.
در اين پژوهش برای محاسبه میزان اهمیت هر یک از عوامل ، با استفاده از Oracle forms builder 10g بسته نرم افزاری ایجاد گردید که مقادیر Pij، K، Ej، djو Wj توسط
این بسته محاسبه و در نتیجه وزن عوامل مطابق جدول (3) بدست آمد. همچنین پس از ضرب نمودن وزن در مقادیر هر یک از عوامل، عوامل وزندار حاصل گردید که بازه آنها مطابق جدول (4) است.
3- مدلسازی
تعيين تعداد بهينه خوشهها با استفاده از شاخص بولدين- ديويس
اين شاخص براي يافتن تعداد بهينه خوشهها در الگوریتمهایی که برای بخشبندی نیازمند تعیین تعداد اولیه خوشهها میباشند مورد استفاده قرار میگیرد و از اين منطق استفاده ميکند که خوشهبندي مناسب، اولاً در آن ميانگين فاصله عناصر درون هر خوشه از مرکز آن خوشه حداقل بوده و ثانياً فاصله مراکز خوشهها از يکديگر حداکثر باشند که براي پياده شدن اين مفهوم از روابط زیر استفاده ميشود(ديوايس،1997)
تعيين وزن عوامل با استفاده از روش انتروپي
با توجه به اينکه همه عوامل داراي اهميت يکساني نميباشند و برخي داراي اهميت بيشتري نسبت به ديگر عوامل ميباشد، ميتوان با استفاده از روش انتروپی ميزان وزن عوامل را تعيين نمود( ماكويي،2007)
با فرض اینکه D ماتریس تصمیمگیری باشد، ستونها معرف ویژگیها و سطرها معرف اشیاء میباشند، بهترتیب با محاسبه P، K، E، d و W طبق روابط زیر وزن هریک از عوامل بدست خواهد آمد.
در اين پژوهش برای محاسبه میزان اهمیت هر یک از عوامل ، با استفاده از Oracle forms builder 10g بسته نرمافزاری ایجاد گردید که مقادیر Pij، K، Ej، djو Wj توسط این بسته محاسبه و در نتیجه وزن عوامل مطابق جدول (3) بدست آمد. همچنین پس از ضرب نمودن وزن در مقادیر هر یک از عوامل، عوامل وزندار حاصل گردید که بازه آنها مطابق جدول (4) میباشد.
3- مدلسازی
تعيين تعداد بهينه خوشهها با استفاده از شاخص بولدين- ديويس
جدول(2): عوامل، نامهای پیشنهادی و شاخصهای متعلق به هر عامل | |||||
---|---|---|---|---|---|
شناسه عامل | نام عامل | کد شاخصها | شناسه عامل | نام عامل | کد شاخصها |
F1 | ميزان برخورداري از تسهيلات | 61,63,64, 65,66,67 | F5 | نمرات گروه D و E در کنکور | 15,16,19, 20 |
F2 | نمرات گروه A در کنکور | 1,2,3,4 | F6 | ميزان جذب جمعيت | 24,25,70 |
F3 | نمرات گروه B در کنکور و نرخ باسوادي | 5,6,7,8, 27,29 | F7 | درصد قبولي در کنکور | 21,22,23 |
F4 | نمرات گروه C در کنکور | 9,10,11,12 | F8 | نزديکي مرکز بخش به مرکز استان | 30 |
جدول(3): وزن عوامل | ||||||||
---|---|---|---|---|---|---|---|---|
شناسه عامل | F1 | F2 | F3 | F4 | F5 | F6 | F7 | F8 |
وزن | 0.071 | 0-656 | 0.008 | 0.003 | 0.103 | 0.121 | 0.005 | 0.033 |
جدول(4) بازه عوامل وزندار | ||||||||
---|---|---|---|---|---|---|---|---|
شناسه عامل | F1 | F2 | F3 | F4 | F5 | F6 | F7 | F8 |
بازه | 0-68 | 0-656 | 0-8 | 0-3 | 0-103 | 0-121 | 0-5 | 0-33 |
جدول(5): تعداد نمونهها در هر خوشهها | |||||
---|---|---|---|---|---|
شماره خوشه | 1 | 2 | 3 | 4 | 5 |
تعداد نمونههای هر خوشهها | 379 | 25 | 8 | 194 | 113 |
اين شاخص براي يافتن تعداد بهينه خوشهها در الگوریتمهایی که برای بخشبندی نیازمند تعیین تعداد اولیه خوشهها میباشند مورد استفاده قرار میگیرد و از اين منطق استفاده ميکند که خوشهبندي مناسب، اولاً در آن ميانگين فاصله عناصر درون هر خوشه از مرکز آن خوشه حداقل بوده و ثانياً فاصله مراکز خوشهها از يکديگر حداکثر باشند که براي پياده شدن اين مفهوم از روابط زیر استفاده ميشود(ديوايس،1997).
براي بدست آوردن تعداد بهينه خوشهها، الگوريتم K-means در بازهی [6 و 2] که توسط افراد خبره تعيين شده بود، اجرا گرديد و با انجام محاسبات مربوطه تعداد 5 بهعنوان تعداد خوشه بهينه بدست آمد که نتايج طبق شکل 3 است.
شکل(3): تعداد بهينه خوشهها - شاخص بولدين- ديويس
خوشهبندی با استفاده از الگوریتم K-means
در این مرحله دو ماتریس باید تشکیل شود:
· ماتریس داده که نمایانگر n شیئ نظیر بخشهای تقسیمات کشوری و p ویژگی یا عامل نظیر نرخ بیکاری است:
· ماتریس فاصله که میزان نزدیکی یا دوری هر زوج از اشیاء را نمایش میدهد که یک ماتریس n*n بوده و d(i,j) نمایانگر فاصله شیء i از شیء j است.
فاصله میان اشیاء که دارای مقیاس فاصلهای هستند، معمولاً از روش اقلیدسی بر اساس رابطه زیر محاسبه میگردد:
براي انجام اين گام در پژوهش، الگوریتم K-means با استفاده از نرمافزار Clementine و با مقدار اولیه 5 بر روی عوامل ميزان برخورداري از تسهيلات، نمرات گروه رياضي در کنکور، نمرات گروه تجربي در کنکور و نرخ باسوادي، نمرات گروه انساني در کنکور، نمرات کروه زبان و هنر در کنکور، ميزان جذب جمعيت، درصد قبولي در کنکور و نزديکي مرکز بخش به مرکز استان اجرا گردید. تعداد اعضا هر خوشه مطابق جدول (5) و فاصله میان مراکز خوشهها در جدول (6) ارائه گردیدهاند.
I | j | d ( i,j ) |
---|---|---|
1 | 2 | 0.55 |
1 | 3 | 0.74 |
1 | 4 | 0.32 |
1 | 5 | 0.47 |
2 | 3 | 1.02 |
2 | 4 | 0.67 |
2 | 5 | 0.50 |
3 | 4 | 0.62 |
3 | 5 | 0.95 |
4 | 5 | 0.60 |
جدول (6): فاصله میان مراکز خوشهها
توصیف، تحلیل و نامگذاری خوشهها
در اين مرحله با استفاده از نمودارهاي مربوطه، ميتوان خوشههاي بدست آمده را با يکديگر مقايسه نمود. ميانگين و انحراف معيار مربوط به هر عامل در هريک از خوشهها براي تحليل ارائه ميشود. همچنين فاصله مراکز خوشهها از يکديگر و فاصله هر عنصر از مرکز خوشهی خود توليد شده است. بدين ترتيب بينشي در مورد هر خوشه ايجاد ميگردد که در نتيجه ميتوان نام مناسبی براي خوشهها انتخاب نمود و با دانش بدست آمده استراتژی مناسب برای هر خوشه را تعیین کرد.
طبق نتایج بدست آمده از خوشهبندی در اين پژوهش، بخشهایی از کشور که در خوشه سوم قرار گرفتهاند در کلیه عوامل، بجز عامل نمرات گروه زبان و هنر از دیگر خوشهها برترند، بویژه این نسبت برتری در دو عامل میزان جذب جمعیت و میزان برخورداری از تسهیلات دارای اختلاف زیادی با دیگر خوشههاست. بنابراین میتوان خوشه سوم را با برچسب "بخشهای توسعهیافته" شناخت، که البته این خوشه شامل مراکز بعضی استانهای بزرگ مانند اصفهان، تبریز و شیراز میباشد. با توجه به میزان فاصله مراکز خوشهها از خوشه سوم و همچنین بررسی وضعیت عوامل در هرخوشه میتوان وضعیت دیگر خوشهها را بدین ترتیب ذکر نمود:
· خوشه چهارم در تمامی 8 عامل، بعد از خوشه سوم از دیگر خوشهها برتر است. میتوان برچسب کلاس این خوشه را "بخشهای در حال توسعه" در نظر گرفت. بیشتر بخشهای مرکزی شهرستانهای کشور، زیرمجموعه این خوشه هستند.
· خوشه اول رتبه سوم فاصله از مرکز خوشه سوم را داراست، این خوشه از نظر عوامل درصد قبولی در کنکور و میانگین نمرات گروههای مختلف شرکتکننده، بجز گروه زبان و هنر در سطح خوبی قرار دارد. الیته عامل میزان جذب جمعیت آن در سطح پایینی قرار دارد. برچسب "کمتر توسعهیافته" برای این خوشه درنظر گرفته شده است.
· در خوشههایی که عامل جذب جمعیت پایین و درصد قبولی بالا میباشد، باید به این موضوع توجه نمود که ممکن است در این خوشهها بخشهایی وجود داشته باشند که از تعداد شرکتکننده مثلاً 2 نفر، یک نفر آنها پذیرفته شده باشد و در نتیجه عامل درصد قبولی 50 درصد خواهد شد که میزان بالایی است.اما با توجه به پایین بودن تعداد شرکتکننده نمیتواند دلیلی بر مناسب بودن درصد قبولی در آن بخش تلقی گردد.
· در خوشه دوم و پنجم وضعیت عوامل نسبت به سه خوشه دیگر پایینتر میباشد و میتوان عناصر این خوشه را جزء "بخشهای محروم" در نظر گرفت. .با مقایسه این دو خوشه با یکدیگر، عامل جذب جمعیت، میزان برخورداری از تسهیلات، همچنین نمرات گروههای مختلف شرکتکننده در کنکور، در خوشه دوم نسبت به خوشه پنجم وضعیت بهتر میباشد، اما عناصر خوشه پنجم به مراکز استانهای خود نزدیکترند.
دستهبندی و پیشبینی
با توجه به آنکه هر ساله بخشهای جدیدی به تقسیمات کشوری اضافه میشوند، بکارگیری کلیه مراحل مدل پیشنهادی جهت خوشهبندی نیازمند صرف زمان زیادی میباشد، لذا استفاده از الگوریتمهای دستهبندي جهت پیشبینی کلاس مربوط به هر بخش جدید میتواند راهکاری بهینه محسوب گردد. همچنین ایجاد درخت تصمیم و استخراج قوانین مربوط بهآن نگرشی مفید برای تصمیمگیران ایجاد خواهد نمود. در این گام روشهای مناسب برای پیشبینی را با توجه به نوع دادهها انتخاب نموده و سپس برای ارزیابی و انتخاب روش مناسب، با تقسیم دادهها به دو دستهی آموزش و آزمون دقت مدلها بررسی میشود.
براي اين مرحله در پژوهش حاضر از سه الگوريتم شبکههاي عصبي، C&RT و CHAID بر روي دادههاي آموزشي و آزمايشي استفاده شده است و ارزيابي نتايج بدست آمده در جدول 7 ارائه شده است:
براي انتخاب روش مناسب باتوجه به درصد پيشبيني صحيح الگوریتمی که دارای بالاترین مقدار است را انتخاب میکنيم.
يافته هاي پژوهش
بر اساس نتايج حاصل از ارزيابي مدلهاي مختلف جدول حاصل از مرحله قبل، از الگوريتم C&RT براي ساخت درخت و استخراج قوانين و از شبکه عصبي براي پيشبيني برچسب کلاس بخشهاي جديد استفاده شده است. از درخت بدست آمده تعداد 9 قانون استخراج شده است که اين قوانين طبق شکل (4) و ذیلاً توصیف شدهاند:
1. اگر (مقدار عامل نمرات گروه زبان و هنر کوچکتر یا مساوی 21.9) و (مقدار عامل نمرات گروه ریاضی در کنکور کوچکتر یا مساوی 169.8) و (مقدار عامل نزدیکی مرکز بخش به مرکز استان کوچکتر یا مساوی 19.4) باشد، آنگاه (بخش با این ویژگیها با قطعیت 90% متعلق به خوشه مناطق محروم خواهد بود).
2. اگر (مقدار عامل نمرات گروه زبان و هنر کوچکتر یا مساوی 21.9) و (مقدار عامل نمرات گروه ریاضی در کنکور کوچکتر یا مساوی 169.8) و (مقدار عامل نزدیکی مرکز بخش به مرکز استان بزرگتر از 19.4) و (مقدار عامل نمرات گروه تجربی و نرخ باسوادی کوچکتر یا مساوی 4.2) باشد، آنگاه (بخش با این ویژگیها با قطعیت 97% متعلق به خوشه پنجم خواهد بود).
3. اگر (مقدار عامل نمرات گروه زبان و هنر کوچکتر یا مساوی 21.9) و (مقدار عامل نمرات گروه ریاضی در کنکور کوچکتر یا مساوی 169.8) و (مقدار عامل نزدیکی مرکز بخش به مرکز استان بزرگتر از 19.4) و (مقدار عامل نمرات گروه تجربی و نرخ باسوادی بزرگتر از 4.2) باشد، آنگاه (بخش با این ویژگیها با قطعیت 75% متعلق به خوشه اول خواهد بود).
4. اگر (مقدار عامل نمرات گروه زبان و هنر کوچکتر یا مساوی 21.9) و (مقدار عامل نمرات گروه ریاضی در کنکور بزرگتر از 169.8) و (مقدار عامل درصد قبولی در کنکور کوچکتر یا مساوی 1.46) و (مقدار عامل نزدیکی مرکز بخش به مرکز استان کوچکتر یا مساوی 21.98) باشد، آنگاه (بخش با این ویژگیها با قطعیت 100% متعلق به خوشه دوم خواهد بود).
5. اگر (مقدار عامل نمرات گروه زبان و هنر کوچکتر یا مساوی 21.9) و (مقدار عامل نمرات گروه ریاضی در کنکور بزرگتر از 169.8) و (مقدار عامل درصد قبولی در کنکور کوچکتر یا مساوی 1.46) و (مقدار عامل نزدیکی مرکز بخش به مرکز استان بزرگتر از 21.98) باشد، آنگاه (بخش با این ویژگیها با قطعیت 67% متعلق به خوشه پنجم خواهد بود).
6. اگر (مقدار عامل نمرات گروه زبان و هنر کوچکتر یا مساوی 16) و (مقدار عامل نمرات گروه ریاضی در کنکور بزرگتر از 169.8) و (مقدار عامل مقدار عامل درصد قبولی در کنکور بزرگتر از 1.46) باشد، آنگاه (بخش با این ویژگیها با قطعیت 96% متعلق به خوشه اول خواهد بود).
7. اگر (مقدار عامل نمرات گروه زبان و هنر کوچکتر یا مساوی 21.9 و بزرگتر از 16) و (مقدار عامل نمرات گروه ریاضی در کنکور بزرگتر از 169.8 و کوچکتر یا مساوی 336) و (مقدار عامل درصد قبولی در کنکور بزرگتر از 1.46) باشد، آنگاه (بخش با این ویژگیها با قطعیت 89% متعلق به خوشه اول خواهد بود).
8. اگر (مقدار عامل نمرات گروه زبان و هنر کوچکتر یا مساوی 21.9 و بزرگتر از 16) و (مقدار عامل نمرات گروه ریاضی در کنکور بزرگتر از 336) و (مقدار عامل درصد قبولی در کنکور بزرگتر از 1.46) باشد، آنگاه (بخش با این ویژگیها با قطعیت 93% متعلق به خوشه چهارم خواهد بود).
9. اگر (مقدار عامل نمرات گروه زبان و هنر بزرگتر از 21.9) باشد، آنگاه (بخش با این ویژگیها با قطعیت 93% متعلق به خوشه چهارم خواهد بود).
|
بحث و نتيجه گيري
با توجه به اینکه طبق بررسیهای صورتگرفته توسط محققین این طرح، تاکنون کار منتشر شدهای در زمینهی بخشبندی مناطق و پیشبینی در راستای توسعهیافتگی صورت نگرفته است و تحقیقات و کارهای انجام شده صرفاً رتبهبندی1 بودهاند، در نتیجه برای از بین بردن ضعف رتبه بندي كه امکان تحلیل گروهی بخشها وجود ندارد و همچنین در روشهای قبلی برای تعیین رتبه مناطق جدید باید کل فرایند از ابتدا صورت میگرفت، تحقیق حاضر صورت گرفته است. بدین منظور با بررسی استاندارهای بینالمللی موجود در این زمینه و استخراج شاخصهای بومی و نیز بکارگیری تکنینکهای دادهکاوی مدل جدیدی که حاصل ترکیب روشهای مختلف آماری (تحلیل عاملی)، پایگاهدادهها، یادگیری ماشین (شبکه عصبی)، تصمیمگیری (انتروپی) و دادهکاوی میباشد، ارائه شده است.
پس از جمعآوری دادههای مرتبط با شاخصها، از سازمانهای ذیربط و ساخت انباره داده مربوطه، دادهها در قالب مدل پیشنهادی بکار گرفته شدهاند تا در نهایت خروجیهای بدست آمده جهت تدوین استراتژی در اختیار تصمیمگیران قرار گیرد. دستاوردهای این تحقیق عبارتند از: تعیین تعداد بهینه بخشها، بخشبندی مناطق، تحلیل هر بخش، استخراج قواعد تصمیمگیری، امکان پیشبینی سریعتر و دقیقتر برچسب کلاس برای مناطق جدید، فراهم نمودن امکان تدوین راهبردهای مناسب برای هر بخش و تخصیص میزان سهمیه مناسب به دانشآموزان هر منطقه جهت ورود به سازمانهایی مانند دانشگاه آزاد، دانشگاه دولتی و وزارتکار. با توجه به اینکه مناطق مختلف جغرافیایی میتوانند دارای خصوصیات منحصر بفرد خود باشند و ممکن است شاخصی که در یک منطقه دارای اهمیت بالایی است، در منطقهای دیگر از اهمیت کمی برخوردار باشد تقسیم نمودن اولیه کشور به چند ناحیه و تعیین وزن شاخصها در هرناحیه بطور مجزا و سپس بکارگیری فرایند مدل پیشنهادی، جهت کسب نتایج دقیقتر و منطقیتر، میتواند بعنوان تحقیقات آتی در نظر گرفته شود
جدول (7): ارزیابی نتايج دستهبندی | ||||
---|---|---|---|---|
نام روش | تعداد پيشبيني صحيح | درصد پيشبيني صحيح | تعداد پيشبيني نادرست | درصد پيشبيني نادرست |
C&RT | 679 | 94.44% | 40 | 5.56% |
CHAID | 659 | 1.669% | 60 | 8.34% |
شبکههاي عصبي | 698 | 96.8% | 23 | 3.2% |
[1] . Ranking
شکل (4): قوانین استخراج شده از درخت تصمیم شکل (4-23)شاخص بولدین 1 |
منابع:
1. توداور، مايكل ، 1378، توسعه اقتصادي در جهان سوم، ترجمه غلامعلي فرجادي، سازمان برنامه و بودجه ، ص 25).
2. Berry, M. J. A., & Linoff, G. S. (2004). Data Mining Techniques: For Marketing, Sales And Customer Support, John Wiley And Sons.
3. Cheng, C.-H., & Chen, Y.-S. (2009). Classifying the segmentation of customer value via RFM model and RS theory, Expert Systems with Applications, 36, 4176–4184.
4. Chiu, C. Y., Chen, Y. F., Kuo, I. T., & Ku, H. C. (2009). An Intelligent Market Segmentation System Using K-Means And Particle Swarm Optimization. Expert Systems with Applications, 36, 4558-4565.
5. Davies, D.L., & Bouldin, D.W. (1979), A Cluster Separation Measure. IEEE Transaction on Pattern Analysis and Machine Intelligence, 224-227.
6. Han, J., & Kamber, M. (2006). Data Mining: Concepts And Techniques, (2nd ed.). San Francisco: Morgan Kaufmann Publishers.
7. Hair, J. F., Anderson, R. E., Tatham, R. L., & Black, W. C. (1998). Multivariate Data Analysis. Prentice Hall, (Chapter 3).
8. Hand, D. (1998). Data Mining: Statistics And More?. The American Statistician, Vol. 52.
9. Hildebrandt, M., & Gutwirth, S. (2008). Profiling The European Citizen: Cross-Disciplinary Perspectives, Springer Publishing Company.
10. Kantardzic, M. (2003(. Data Mining: Concepts, Models, Methods, And Algorithms. John Wiley & Sons Inc.
11. Larose, D. T. (2005). Discovering Knowledge In Data An Introduction To Data Mining, John Wiley And Sons.
12. Liu H., & Motoda H. (2001). Instance Selection and Construction for Data Mining , Publisher: Kluwer Academic Publishers Norwell, MA, USA.
13. Makui, A. (2007). Decision Making Techniques. Mehr va mahe no Pubublier, (Chapter 3 in persian).
14. Milutinovi, V., & Patricelli, F. (2002). E-Business And E-Challenges, Publisher: Ios Press Inc.
15. Myatt, G. J. (2006), Making Sense Of Data: A Practical Guide To Exploratory Data Analysis And Data Mining, John Wiley And Sons Publication, (Chapter 3).
16. Parr, R. O. (2001). Data Mining Cookbook Modeling Data for Marketing, Risk, and Customer Relationship Management. John Wiley & Sons Inc., Wiley computer publishing, (Chapter 3).
17. Pregibond. (2001). a statistical odyssey, proceedings of the fifth acm sigkdd, international conference on knowledge discovery and data mining.
18. Rokach L., & Maimon O.(2008). Data Mining with Decision Trees: Theory and Applications, World Scientific Publishing.
19. Soukup, T., & Davidson, I. (2002). Visual Data Mining: Techniques and Tools for Data Visualization and Mining. John Wiley & Sons, (Chapters 4, 5 and 6).
20. Watkins, K. (2007/2008), Human Development Report, United Nations Development Programme, http://hdr.undp.org.
21. Ye, N. (2003), The Handbook Of Data Mining. Arizona State University, Lawrence Erlbaum Associates Publishers, (Chapter 14).