ارائه روشی مناسب برای دسته بندی نامه های الکترونیکی تبلیغاتی بر مبنای پروفایل کاربران
محورهای موضوعی : فناوری اطلاعات و ارتباطاترحیم حضرتقلی زاده 1 , محمد فتحیان 2
1 - دانشجو
2 -
کلید واژه: تجارت الکترونیکی, تبلیغات الکترونیکی, دسته بندی هرزنامه ها, داده کاوی, پروفایل,
چکیده مقاله :
به طور کلی، تعریف هرزنامه در ارتباط با رضایت یا عدم رضایت گیرنده است نه محتوای نامه الکترونیکی. بر طبق این تعریف، مشکلاتی در دسته بندی نامه های الکترونیکی در بازاریابی و تبلیغات مطرح می شود. برای مثال امکان دارد بعضی از نامه های الکترونیکی تبلیغاتی، برای عده ای از کاربران هرزنامه و برای عده ای دیگر هرزنامه نباشد. برای مقابله با این مشکل با توجه به پروفایل و رفتار کاربران، ضد هرزنامه های شخصی طراحی می شود .به طور عادی برای دسته بندی هرزنامهها، روشهای یادگیری ماشینی با دقت خوب به کار می رود. اما در هر حال یک روش منحصر به فرد موفق بر مبنای دیدگاه تجارت الکترونیک وجود ندارد. در این مقاله ابتدا پروفایل جدیدی برای شبیه سازی بهتر رفتار کاربران ، تهیه می شود .سپس این پروفایل همراه با نامه های الکترونیکی به دانشجویان ارائه شده و پاسخ آنها جمع آوری می گردد . در ادامه برای دسته بندی نامه های الکترونیکی، روشهای مشهور به ازای مجموعه داده های مختلف آزمایش می شود .سرانجام ، با مقایسه معیارهای ارزیابی داده کاوی ،شبکه عصبی به عنوان بهترین روش با دقت بالا ، تعیین می گردد.
In general, Spam is related to satisfy or not satisfy the client and isn’t related to the content of the client’s email. According to this definition, problems arise in the field of marketing and advertising for example, it is possible that some of the advertising emails become spam for some users, and not spam for others. To deal with this problem, many researchers design an anti-spam based on personal profiles. Normally machine learning methods for spam classification with good accuracy are used. However, there isn’t a unique successful way based on Electronic Commerce approach. In this paper, at first were prepared a new profile that can lead to better simulations of user’s behavior. Then we gave this profile with advertising emails to students and collected their answers. In continue, were examined famous methods for email classification. Finally, comparing different methods by criteria of data mining standards, it can be shown that neural network method has the best accuracy for various data sets.
فصلنامه علمي- پژوهشي فناوري اطلاعات و ارتباطات ایران | سال هشتم، شمارههاي 27 و 28، بهار و تابستان 1395 صص: 21- 36 |
|
ارائه روشی مناسب برای دستهبندی نامههای الکترونیکی تبلیغاتی بر مبنای پروفایل کاربران
*محمد فتحیان **رحیم حضرتقلیزاده
* استاد، دانشکده مهندسی صنایع، دانشگاه علم و صنعت ایران ** کارشناسی ارشد، مهندسی فناوری اطلاعان، دانشگاه علم و صنعت ایران تاریخ دریافت:25/09/92 تاریخ پذیرش: 18/03/95
چکیده
به طور کلی، تعریف هرزنامه در ارتباط با رضايت يا عدم رضايت گیرنده است نه محتوای نامه الکترونیکی. بر طبق این تعريف، مشکلاتي در دستهبندی نامههای الکترونیکی در بازاریابی و تبلیغات مطرح ميشود. برای مثال امکان دارد بعضي از نامههاي الکترونيکي تبلیغاتی، براي عدهاي از کاربران هرزنامه و براي عدهاي ديگر هرزنامه نباشد. براي مقابله با اين مشکل با توجه به پروفایل و رفتار کاربران، ضد هرزنامههاي شخصي طراحی ميشود. به طور عادي براي دستهبندی هرزنامهها، روشهاي يادگيري ماشيني با دقت خوب به کار میرود. اما در هر حال يک روش منحصر به فرد موفق بر مبنای دیدگاه تجارت الکترونیک وجود ندارد. در این مقاله ابتدا پروفایل جدیدی برای شبیهسازی بهتر رفتار کاربران، تهیه میشود .سپس این پروفایل همراه با نامههای الکترونیکی به دانشجویان ارائه شده و پاسخ آنها جمعآوری میگردد. در ادامه برای دستهبندی نامههای الکترونیکی، روشهای مشهور به ازای مجموعه دادههای مختلف آزمایش میشود .سرانجام، با مقایسه معیارهای ارزیابی داده کاوی، شبکه عصبی به عنوان بهترین روش با دقت بالا، تعیین میگردد.
واژههای کلیدی: تجارتالکترونیکی، تبلیغات الکترونیکی، دستهبندی هرزنامهها، دادهکاوی، پروفایل
1. مقدمه
امروزه نامههاي الکترونيکي1 يکي از راههاي عمومي، تاثيرگذار و با هزينه پايين در سطح اينترنت ميباشد که با سرعت زيادي در حال رشد است. يکي از زمينههايي که به وفور از نامههاي الکترونيکي استفاده ميشود، حوزه تجارت الکترونيک2 مخصوصا بازاريابي و تبليغات اينترنتي است. اين نوع بازاريابي و تبليغات با عنوان "بازاريابي از طريق نامههاي الکترونيکي3" نيز مشهور است.
نویسنده عهددار مکاتبات: رحیم حضرتقلیزاده h.golizadeh@gmail.com |
سوءاستفاده از اين روش ارتباطي، ارسال کورکورانه نامههاي الکترونيکي ناخواسته و بيدعوت به نام هرزنامه4
ميباشد[1,2,6,12,20,21,23,24].
تعاريف زيادي براي اسپم يا هرزنامه و چيستي و تفاوت آن با نامههاي معتبر5 وجود دارد. کوتاهترين تعريف متداول از بين تعاريف موجود در مورد هرزنامه، آنرا به عنوان يک نامه الکترونيکي ناخواسته6 بيان ميکند. با اين حال تعاريف مشابه زيادي نيز وجود دارد که بيان ميکند، هرزنامه يک نامه الکترونيکي ناخواسته است که به طور نا مشخص و مستقيم يا غيرمستقيم توسط فردي که نسبتي با گيرنده ندارد، فرستاده شده است. همانطور که ميتوان ديد نقطه اشتراک براي تعريف هرزنامه ناخواسته بودن آن است. بر طبق تعريف مورد توافق، هرزنامه درباره رضايت يا عدم رضايت است نه محتوا [1,4,17,23] . هرزنامهها مشکلات متعددي را به بار ميآورند که برخي از آنها مستقيما باعث ضررهاي اقتصادي ميشوند، مانند ايجاد ترافيک و اتلاف پهناي باند و برخي ديگر زمان زيادي را تلف ميکنند تا کاربران نامههاي زايد را جداسازي کنند. علاوه بر موارد بيان شده، بعضي از هرزنامهها باعث آزار روحي و ايجاد عدم امنيت و اطمينان ميشوند و سرانجام باعث ايجاد مشکلات قانوني مانند تبليغات هرمي وکلاهبرداريهاي اقتصادي
ميگردند [2,3,4,7,12,24].
براي رفع اين مشکلات، روشهای زيادي را در مقالات مختلف مطرح کردهاند، تا با بالا بردن درصد تخمين و دقت، باري از اين هزينهها کم کنند و آرامش و اطمينان را براي کاربران در تمامي حوزهها بوجود بياورند. با این همه به نظر میرسد هنوز هم مشکلاتی در این راه وجود داشته باشد. یکی از این مشکلات وجود خطای زیاد در روشهای مطرح شده میباشد، که میتواند عامل تاثیرگذار در تجارت الکترونیک باشد. اگر در اينجا دسته هرزنامهها را به عنوان كلاس مثبت و دسته نامههاي الکترونيکي معتبر را به عنوان كلاس منفي در نظر بگيريم، آنگاه خطای FP7 شامل نامههای الکترونیکی
ميشود كه به اشتباه جزو هرزنامهها دستهبندي ميگردند. خطای FN8 هم شامل نامه های الکترونیکی ميشود كه به اشتباه جزو نامههای الکترونیکی معتبر دستهبندي ميشود. این خطاها در زمینه بازاریابی و تبلیغات از طریق نامههای الکترونیکی مشهودتر است. در مواجهه با این مشکلات بعضی از شرکتها اقدام به طراحی ضد هرزنامه سازگار با زمینه تبلیغات میکنند [5,23].
از آنجاييکه بيشتر هرزنامهها در حوزه بازاريابي و نامههاي الکترونيکي مطرح میشود لذا لازم است، که در طراحي ضد هرزنامهها9 ديد صحيحي نسبت به حوزه تجارت الکترونيک داشته باشيم. در صورت نداشتن چنين ديدي در طراحي، ضد هرزنامهها با سرويسدهندههاي نامههاي الکترونيکي تبليغاتي و بازاريابي هماهنگ نخواهند بود لذا درصد زيادي از نامههاي الکترونيکي منتشر شده از اين سرويسدهندهها به جاي هرزنامه فيلتر10 شده و هزينه زيادي را به اين سرويسدهندهها تحميل ميکنند. در صورتي که اگر اين ضد هرزنامهها براي ديدگاه خاص مانند تبليغات از طريق
نامههاي الکترونيکي طراحي شوند و اهداف مشخصي را دنبال کنند بهتر عمل خواهند کرد[4,7] .
مشکل مهم دیگر که بيشتر در حيطه تجارت الکترونيک و تبليغات از طريق نامههاي الکترونيکي مطرح ميشود، در نظر گرفتن مطلق يک نامه الکترونيکي خاص به عنوان هرزنامه يا نامه معتبر اشد. اين در حالي است که امکان دارد بعضي از نامههاي الکترونيکي براي عدهاي از کاربران هرزنامه و براي عدهاي ديگر هرزنامه نباشد. براي مثال در تبليغات از طريق نامههاي الکترونيکي امکان دارد خريد اتومبيل براي کسي که قصد خريد اتومبيل دارد هرزنامه حساب نشود در صورتيکه براي بعضي ديگر که قصد خريد ندارند هرزنامه حساب شود. پس در اين شرايط دستهبندي نامههاي الکترونيکي دچار مشکل ميشود که اين عدم تخمين به صورت مطلق، در نامههاي الکترونيکي تبليغاتي فراوان وجود دارد، که به آنها نامههاي الکترونيکي خاکستري11 نيز
ميگويند. براي مقابله با اين مشکل با توجه به رفتار کاربران اقدام به ساخت ضدهرزنامههاي شخصي12 ميکنند که در مقالات متعددي در مورد روشهاي مختلف بحث شده است[2,4,5,20,21]
در این مقاله ما ابتدا پروفایل13 جدیدی را که میتواند به شبیهسازی بهتر رفتار کاربران منجر شود تهیه میکنیم. سپس این پروفایل را همراه با نامههای الکترونیکی تبلیغاتی ساختگی در حیطه کتابفروشی بر خط به دانشجویان ارائه کرده و پاسخ آنها را جمعآوری میکنیم. در ادامه روشهای موجود و مشهور برای دستهبندی نامههای الکترونیکی را مورد آزمایش و مقایسه قرار میدهیم . اجرا و پیادهسازی روشهای انتخاب شده در نرمافزار کلمنتاین14 انجام
میپذیرد. در پایان به تجزیه و تحلیل هر یک از این روشها پرداخته و روش مناسب را برای زمینه بازاریابی و
شخصیسازی انتخاب میکنیم.
سازماندهی بخشهای بعدی به این شکل میباشد : در بخش 2 مقاله، به بررسی کارهای مرتبط و دستهبندی آنها
میپردازیم سپس در بخش 3 به بیان طراحی پروفایل و تولید دادهها و مشخصات جامعه آماری آن میپردازیم. در ادامه در بخش 4 روش پیشنهادی خود را مطرح میکنیم. در بخشهای باقیمانده به ارزیابی نتایج و جمعبندی و ارائه پشنهادات برای کارهای آتی میپردازیم.
2. مروری بر ادبیات موضوع
به طور کلی براي دسته بندی و پیش بینی هرزنامه ها، تکنيک ها و روشهاي زيادي مطرح شده است. دسته بندی نامههاي الکترونيکي ، يک برنامه کاربردي است که بر اساس تابع (1) پيادهسازي ميشود :
در اين تابعm نامه الکترونيکي است که بايد دستهبندي گردد. بردار پارامتر θ حاصل آموزش دسته بند با استفاده از يک مجموعه داده است که قبلاً جمعآوري شده است که ميتوان آنرا به صورت فرمول(2) بيان کرد :
در اين فرمول mها نامههاي الکترونيکي هستند که قبلا جمعآوري شدهاند و yها نيز برچسب متناظر آنها ميباشد[1]. عمده کارهای انجام شده در این زمینه را
میتوان به صورت جدول 1 دستهبندی کرد. در این جدول بعضی از روشهای کلی توضیح داده شده است. روشهای بیان شده در این جدول مخصوصاً روشهای یادگیری ماشینی15 از نظر تخمین و دقت پیشبینی نتیجه مطلوبی را در
برداشتهاند. با این همه، برای مقابله با مشکلات اصلی بیان شده لازم است که ضد هرزنامههای شخصی در حوزه بازاریابی و تبلیغات و سازگار با این حوزه تولید شود. در زمینه تولید ضد هرزنامههای شخصی شده بر مبنای پروفایل و رفتار کاربران، بعضی از کارهای انجام شده را میتوان به صورت زیر بیان کرد هرچند این تحقیقات نیز به صورت تخصصی به حوزه بازاریابی و تبلیغات از طریق نامههای الکترونیکی نپرداخته است.
سوسا و همکاران16یک روش تولید ضد هرزنامه شخصی شده همکارانه17 را بررسی کردهاند. در این روش ابتدا پروفایل کاربران دستهبندی میشود سپس بر مبنای گزاراشات رسیده از هر گروه دستهبندی نامههای الکترونیکی انجام
میپذیرد. بدیهی است، در این روش نیاز به انتقال اطلاعات مابین سرویسدهندههای مختلف میباشد که این انتقال از طریق معماری p2p18 انجام میپذیرد. این ضد هرزنامه به صورت غیر متمرکز بوده که در سرویس دهندههای نامههای الکترونیکی اجرا میشود. از معایب این روش میتوان به نیاز به امنیت در حین انتقال اطلاعات، نیاز به پهنای باند بیشتر برای انتقال اطلاعات و سختی مدیریت غیر متمرکز را نام برد[3,7].
در مقابل راوی و همکاران 19، روش متمرکز دیگری را بیان کردند که در این روش در دو مرحله با استفاده از روشهای شبکه عصبی و در سرور20 نامههای الکترونیکی طرف فرستنده اجرا میشود. این عمل از اتلاف پهنای باند در ازای پیشگیری ازانتقال هرزنامهها جلوگیری میکند و به شکل کاملا منطبق با افکار انسان شکل گرفته است. اما باز هم دارای معایبی از جمله متکی بر رفتار اشخاص خاص به خاطر عدم دستیابی به کل جامعه آماری دارد[22].
از دیگر روشهای اجرا شده استفاده از درخت تصمیم مانند C4.5 میباشد. در این روش ییح و همکاران 21، پروفایل کاربران را همراه با نامههای الکترونیکی پاسخ داده شده جمعآوری کردهاند. سپس از طریق روش فرکانس معکوس سند (TF-IDF22) به استخراج و انتخاب ویژگیهای مناسب پرداخته است. در حقیقت این مرحله توکن کردن نام دارد که در آن متن نامههای الکترونیکی به ریشه کلمات اصلی تبدیل شده و کلمات پرکاربرد به صورت یک مقدار باینری در نظر گرفته میشود. در صورت وجود این کلمه در یک متن مقدار آن یک و در غیر اینصورت مقدار آن برابر صفر در نظر گرفته میشود. بعد از این مرحله با استفاده از درخت تصمیم به تولید قوانین میپردازند. این قوانین تولید شده از جهت دقت 23پیشبینی، مورد بررسی قرار گرفته و قوانین با دقت بالا انتخاب میشود[13].
یکی دیگر از روشهای مشابه در این زمینه استفاده از تولید دادههای ساختگی برای نامههای الکترونیکی توسط کیم و همکاران24میباشد. در این تحقیق به خاطر نیاز به پروفایل کاربران همراه با پاسخ نامههای الکترونیکی تبلیغاتی، لازم بود به تولید ساختگی این موارد در قالب پرسشنامه پرداخته شود. در این تحقیق از درخت تصمیم همراه با روشهای معنایی مانند روش قبلی استفاده شده است. تفاوت این تحقیق با روش قبلی در مرحله استخراج و انتخاب ویژگیها میباشد. این روش در مقایسه با روش قبلی به خاطر در نظر گرفتن شخصیسازی و خصوصیات نامههای الکترونیکی خاکستری میتواند نمونه مناسبی برای حوزه تجارت الکترونیک باشد. از جمله معایب این روش را میتوان عدم تطابق بین پروفایل و محتوای نامههای الکترونیکی ساختگی با جامعه آماری پاسخدهندگان بیان کرد. در این تحقیق تنها به برچسب زدن نامههای الکترونیکی تبلیغاتی در 10 دسته توسط کارشناس انسانی25 و ارائه آن به دانشجویان برای پاسخگویی پرداختهاند. به نظر میرسد که این دستهبندی جزئی بوده و جامعه آماری پاسخدهنده نتواند جواب دقیق و واقعی را ارائه کند[5].
تغييرات نتايج پيشبيني در بين روشهای مرسوم تا حدودي زياد است. اين نتيجه به خاطر انتخاب ويژگيهاي متفاوت روشها اتفاق ميافتد. هر چند عمل مقایسه با دیگر کارهای مشابه به خاطر متفاوت بودن مجموعه دادهها و روش پیشنهادی نمیتواند مبنایی برای ارزیابی دقیق باشد اما در جدول 2 به مقایسه اجمالی میپردازیم. اگر چه استفاده از تمامی محتوای نامههای الکترونیکی میتواند دقت نتایج را افزایش دهد اما به خاطر درگیر بودن با مجموعه بزرگی از ویژگیهای استخراج شده، معمولا نیاز به انتخاب ویژگیهای مناسب میباشد. این حالت به ازای زمان و فضای مصرفی زیاد میتواند دقت پیشبینی را تا حدودی بهبود بخشد.
در هر حال روشهای مختلفی برای شخصیسازی ضد هرزنامهها وجود دارد که در آن از الگوریتمهای یادگیری ماشینی و دادهکاوی مانند شبکه بیزین26، شبکههای عصبی27، درخت تصمیم28 و SVM29 استفاده میکنند [1,5,6,8,12,16,17,19,24]. با این همه هیچ یک از این موارد به طور تخصصی به امر تولید ضد هرزنامههای شخصیسازی شده با نگرش نامههای الکترونیکی خاکستری، بازاریابی و تبلیغات نپرداخته است. به خاطر اهمیت این حوزه و اینکه اکثر نامههای الکترونیکی امروزه را نامههای الکترونیکی خاکستری مخصوصا تبلیغاتی تشکیل میدهد نیاز به تولید ضد هرزنامه ساز گار با این حوزه احساس
میشود تا از این رهگذر نامههای الکترونیکی بازاریابی در سرویسدهندههای پست الکترونیکی هدف به عنوان هرزنامه فیلتر نشوند. از بررسی روشهای بیان شده به این نتیجه
میرسیم که برای طراحی و تولید ضد هرزنامهها 4 گام اصـلی ضـروری مـیباشد که در جـدول 3 مـیتوان مشاهده
کرد[12]:
3. استخراج ویژگیها و آمادهسازی دادهها
براي انجام اين تحقيق لازم است که در ابتدا نامههاي الکترونيکي همراه با برچسب (هرز يا معتبر بودن که از طرف کاربران نسبت داده شده است) و پروفايل کاربران جمعآوري شود. اگر چه مجموعه نامههاي الکترونيکي با برچسب قابل اطمينان براي آزمون و آزمايش در شرکتهاي تحقيقاتي موجود ميباشد، اما اين مجموعه نامههاي الکترونيکي يا فاقد پروفايل کاربران ميباشند و يا در زمينه تبليغات الکترونيکي نميباشند. لذا از آنجايي که اين اطلاعات در اکثر اوقات در دسترس نميباشد بايد مانند مقالات موجود در اين زمينه به تولید آن بپردازیم.
جدول 1. انواع روشهای مهم برخورد با هرزنامهها
|
|
|
جدول 2. کارهای مشابه انجامشده
|
جدول 3. گامهای طراحی ضد هرزهنامه
|
|
تولید اين مجموعه نامههاي الکترونيکي از طريق بررسي مجموعه مقالات موجود و نظر خبرگان همراه با بررسي
نامههاي الکترونيکي تبليغاتي صورت ميپذيرد. روش کار براي تولید نامههاي الکترونيکي تبلیغاتی در قالب پرسشنامه به شرح زير ميباشد. ابتدا طبق تمامي تحقيقات موجود در اين زمينه به اين مسئله ميپردازيم که چه ويژگيهايي
ميتواند از نامههاي الکترونيکي استخراج شود.
سه دسته ويژگي اساسي، شامل موارد زير را ميتوان نام برد[1]:
· ويژگيهايي از سرآيند30
· ويژگيهايي از متن31 نامه که شامل موضوع 32هم
ميباشد
· و يژگيهايي از کل ساختار33 نامه الکترونيکي
از آنجاييکه هدف ما پالايش و دستهبندي نامههاي الکترونيکي تبليغاتي ميباشد لذا لازم است که محتواي
نامههاي الکترونيکي نيز در همين راستا باشد. در کارهاي مشابه انجام شده بدليل اينکه چنين محدوديتي وجود نداشته، نامههاي الکترونيکي از صنايع مختلف را براي محتواي نامههاي الکترونيکي در نظر گرفتهاند.[5]
در چنين مواردي بدون در نظر گرفتن ويژگيهاي جامعه آماري پاسخدهندگان اقدام به تهيه محتواي نامههاي الکترونيکي کردهاند. ما براي دقت در اين تحقيق ابتدا جامعه آماري پاسخدهندگان خود را در نظر گرفته و سپس اقدام به تهيه محتواي نامههاي الکترونيکي ميکنيم.
جامعه آماري پاسخدهندگان ما را جامعه دانشگاهي و دانشجويان تشکيل ميدهند لذا لازم است حوزهاي را برگزينيم که افراد آگاهي و تمايل نسبت به اين حوزه داشته باشند. در نتيجه ما نامههاي الکترونيکي تبليغاتي کتابفروشي برخط را به عنوان نمونه مطالعه موردي انتخاب ميکنيم.
3-1- استخراج ویژگیهای موثر نامههای الکترونیکی
بعد از انتخاب حوزه کاري و جامعه آماري اکنون لازم است که محتوايي براي هر يک از ويژگيهاي بيان شده استخراج کنيم. براي اينکار تعدادي از نامههاي الکترونيکي تبليغاتي در حوزه کتابفروشي برخط را انتخاب ميکنيم. سپس با نظر خبرگان در امر تبليغات و همچنين تعدادي از جامعه آماري اقدام به تهيه محتوا براي هر يک از ويژگيهاي مطرح شده ميپردازيم. جدول 4 ویژگیهای استخراج شده نامههای الکترونیکی همراه با محتوا برای حوزه کاری مطرح شده را نشان میدهد.
در ويژگي سرآيند دو گزينه بيان شده است: اگر فرستنده نامه الکترونيکي تبليغاتي براي گيرنده آشنا باشد ( يعني در دفترچه آدرس شخص موجود باشد که اين نوعي تبليغات از طريق مشتريان سازمانها ميباشد که ميتوانند کالا يا خدماتي را به دوستان خود سفارش کنند).
اگر آدرس فرستنده براي گيرنده آشنا نباشد (در حقيقت تبليغات از طريق شرکتهاي موجود و با آدرسهاي مختلف انجام شود). در ويژگي عنوان و متن گزينههاي مختلف و جذابي که در نامههاي الکترونيکي تبليغاتي ميتواند وجود داشته باشد بيان شده است. ويژگي بعدي ويژگيهاي کلي نامههاي الکترونيکي ميباشد. محتواي نسبت داده شده به اين ويژگيها داراي حالت عمومي هستند و ميتوانند در ديگر حوزهها نيز مطرح شوند. به خاطر وجود ويژگيهاي زياد ما بر مبناي نظر خبرگان و اصول بازاريابي مطرح شده روزیتر و بلمن 34[14] ،دو دسته اصلي براي اين ويژگيها را در نظر گرفتيم [16].
جدول 4 :ويژگي استخراج شده بر مبناي حوزه کاري
ويژگي کلي | گزينه هاي موجود | |
سرآيند
| فرستنده نامه الکترونيکي | 1، از طرف آدرس فرستنده آشنا |
2، از طرف آدرس فرستنده ناآشنا | ||
موضوع
| عنوان نامه الکترونيکي | 1، کتابهاي رايگان |
2، تازه ترين کتاب | ||
3، پرفروشترين کتاب | ||
متن
| زمينه و محتواي نامه الکترونيکي | 1، مهندسي و علوم پايه |
2، پزشکي | ||
3، علوم انساني | ||
4، هنر | ||
5، ساير(غير تخصصي و متفرقه) | ||
ساختار کلي
| ويژگيهاي دسته بندي شده نامه الکترونيکي | 1، سايز حافظه زياد (شامل گرافيک يا ضميمه و...) |
2، سايزحافظه کم (شامل فقط متن و..) |
2-3- استخراج پروفایل کاربران
مرحله بعدي استخراج ويژگيها که مهترين مرحله نيز
ميباشد پروفايل کاربران ميباشد. در اکثر تحقيقات از پروفايلهاي استاندارد موجود در اکثر سايتها مانند شغل، جنسيت، تحصيلات، رشته تحصيلي، سن، علاقهمندي و غيره استفاده شده است. از آنجاييکه شخصيسازي بر مبناي پروفايل کاربران شکل ميگيرد، لذا لازم است گزينههاي ديگري نيز براي بالا بردن دقت در نظر گرفته شود. براي اينکار ما دو گزينه را از مقالات مختلف جمعآوري کرده و در پروفايل خود قرار ميدهيم [1,5].
گزينه اول تعداد دفعاتي است که يک شخص بعد از دريافت يک نامه الکترونيکي آن را هرزنامه اعلام ميکند. اين گزينه براي افراد مختلف متفاوت است به صورتيکه امکان دارد يک شخص در مرحله اول يک نامه الکترونيکي را هرزنامه اعلام کند در صورتيکه امکان دارد شخص ديگري در دفعات تکرار زياد نامه الکترونيکي مذکور را هرزنامه اعلام کند. گزینهای مشابه این گزینه با نام قدرت مورد انتظار برای ضد هرزنامه شخصی شده وجود دارد[5]. علت اصلي قرار دادن چنين گزينهاي در پروفايل اشخاص به خاطر نامههاي الکترونيکي خاکستري ميباشد.
گزينه دومي که در پروفايل اشخاص قرار داده شده و مورد پرسش قرار ميگيرد، نسبت خطاهاي مورد تحمل شخص در فيلتر کردن است که ميتواند قبول کند. در حقيقت افراد متفاوت ويژگيهاي رفتاري مختلفي دارند. بعضي از افراد عنوان ميکنند که بايد هيچ يک از نامههاي الکترونيکي معتبر آنها به اشتباه فيلتر نشود و در مقابل دريافت چند هرزنامه روزانه را قبول ميکنند، مخصوصاً وقتي که اين هرزنامهها، نامههاي الکترونيکي تبليغاتي باشد. در مقابل بعضي از افراد راضي به دريافت هيچ هرزنامهاي نيستند، هر چند بعضي از نامههاي الکترونيکي معتبر آنها به اشتباه فيلتر شود. در حقيقت با اين گزينه دو گروه افراد متفاوت را از لحاظ رفتاري ميتوان تشخيص داد.
اين بخش مطابق با گام اول يعني گام استخراج ويژگيها از نامههاي الکترونيکي ميباشد. در اينجا ما نياز به ابزاري خاص براي توکن کردن و غيرساختاري کردن متن نياز نداريم. در حقيقت با استخراج ويژگيها و محتوا با روش مطالعه مقالات مشابه ، مطالعه نمونه موردي ، نظر خبرگان و رتبهبندي آنها توانستيم به ویژگیهای مورد نياز خود دست يابيم.
همانطور که ملاحظه ميشود يک نمونه نامه الکترونيکي از ضرب دکارتي موارد بيان شده از جدول 4 حاصل ميشود که تعداد 2*3*5*2=60 قالب نامه الکترونيکي بدست میآید. تعداد سوالات پروفايل نيز برابر با 10 عدد ميباشد که هريک از آنها مقادير مختلفي ميتواند داشته باشد. در نتیجه هر پرسشنامه شامل 10 سوال برای پروفايل کاربران و تعداد 60 نامه الکترونيکي ساختگی و پرچسب پاسخگويي (هرزنامه یا معتبر ) ميباشد.
این پرسشنامه بعد از طراحی از طریق وب و در برخی موارد به صورت رودرو توسط 70 نفر از دانشگاهیان پاسخ داده شد، که پس از اعمال پاکسازي تعداد 66 عدد از آنها مورد استفاده قرار گرفت که از این تعداد 30 نفر را زن و 36 را مرد تشکیل میدهد. در ادامه ما دادههاي جمعآوري شده را به صورت تصادفي درهم کرديم سپس اين دادهها را به دو قسمت مساوي تقسيم کرديم. در ادامه براي ارزيابي چارچوب از دو نوع مجموعه داده زير استفاده کرديم. (هر رکورد شامل 10 فیلد پروفایل و 4 فیلد ویژگی نامه الکترونیکی و یک برچسب پاسخگویی میباشد.)
· مجموعه داده نوع اول: تعداد 1843 رکورد که شامل 1172 رکورد هرزنامه ميباشد.
· مجموعه داده نوع دوم: تعداد 1843 رکورد که شامل 959 رکورد هرزنامه ميباشد.
4. انتخاب ویژگیها و چارچوب پیشنهادی
بعد از گام اول نوبت به گام دوم ميرسد. در اين گام لازم است که از بين ويژگيهاي موجود در پروفايل و ویژگیهای نامههاي الکترونيکي ساختگی بهترين آنها را براي چارچوب پیشنهادی خود انتخاب کنيم. بديهي است که تمامي ويژگيهاي بيان شده نميتواند براي چارچوب مفيد واقع شود. در بعضي موارد حتي مشاهده شده است که وجود بعضي از ويژگيها باعث کاهش دقت شده است. ما براي انتخاب ويژگيهاي مناسب از ابزار انتخاب ویژگی موجود در نرمافزار کلمنتاین که از روش IG بهره میبرد، استفاده
ميکنيم. اين روش در اکثر مقالات موجود در اين زمينه به کار گرفته شده و نتيجه مطلوبي را به همراه داشته است [5]. در گام سوم روش پیشنهادی خود را در قالب یک چارچوب ارائه ميدهيم. در این چارچوب سعی میکنیم از اکثر روشهای مشهور و زیاد استفاده شده از حوزه داده کاوی، یادگیری ماشینی و آمار استفاده کنیم. شکل 1 چارچوب پیشنهادی ما را نمایش میدهد.
شکل 1. چارچوب ارائه شده
بخش اول پايگاه دادهها ميتواند هم پايگاه داده مربوط به آموزش و هم آزمايش چارچوب را شامل شود. براي راحتي کار ما در اين چارچوب فقط يکي از اين دو را نمايش داديم. اما بديهي است که بعد از تقسيم مجموعه دادههاي موجود به دو بخش آموزش (70% داده ها بر اساس اکثر تحقیقات) و آزمايش ميتوانيم هر کدام از آنها را به چارچوب اعمال کنيم که در بخش آموزش چارچوب ايجاد ميشود و در بخش آزمايش به ارزيابي چارچوب ميپردازيم.
بخش اول پايگاه دادهها در کل شامل موارد زير ميباشد :
پروفايل کاربران: اين پروفايلها از پاسخدهندگان به نامههاي الکترونيکي ساختگی جمعآوري شده است.
نامههاي الکترونيکي: اين پايگاه داده نتيجه مطالعات، نظر خبرگان، بررسي نامههاي الکترونيکي مختلف در حيطه تبليغات ميباشد.
پاسخهاي جمعآوري شده: اين بخش برچسب نسبت داده شده از طرف پاسخدهندگان به نامههاي الکترونيکي
شبيهسازي شده میباشد. در حقيقت شامل دو گزينه نامه معتبر يا هرزنامه ميباشد.
بخش دوم پايگاه دادهها شامل پيشبينيهاي چارچوب
ميباشد اين قسمت شامل دو پايگاه داده به صورت زير
ميباشد:
پايگاه داده معتبر: اين پايگاه داده در حقيقت شامل
پيشبيني نامههای معتبر چارچوب ميباشد.
پايگاه داده هرزنامه: اين پايگاه داده شامل نامههاي الکترونيکي است که چارچوب آنها را به عنوان هرزنامه شناخته و براي استفاده آتي در اينجا ذخيره کرده است.
مسير 1 از هر سه پايگاه داده موجود در چارچوب استفاده ميکند. اين مسير خود به تنهايي به 4 مسير فرعي منشعب ميشود. در هر مسير فرعي چارچوب از روشهای داده کاوي و يادگيري ماشيني براي پيشبيني استفاده شده است. هر روش شامل دو قسمت انتخاب ويژگيها از ميان ويژگيهاي استخراج شده و انجام اعمال پيشبيني را شامل ميشود. در مسیر 2 عمل مقایسه ما بین نتایج بدست آمده صورت
میگیرد. چهار روش يا الگوريتم استفاده شده در اين مسير به شرح زير ميباشد[6,10,12,16] :
مسير 1 از هر سه پايگاه داده موجود در چارچوب استفاده مي کند. اين مسير خود به تنهايي به 4 مسير فرعي منشعب ميشود. در هر مسير فرعي چارچوب از روشهای دادهکاوي و يادگيري ماشيني براي پيشبيني استفاده شده است. هر روش شامل دو قسمت انتخاب ويژگيها از ميان ويژگيهاي استخراج شده و انجام اعمال پيشبيني را شامل ميشود. در مسیر 2 عمل مقایسه ما بین نتایج بدست آمده صورت
میگیرد. چهار روش يا الگوريتم استفاده شده در اين مسير به شرح زير ميباشد[6,10,12,16] :
C5.0: روش يا الگوريتم اول که همان درخت تصميم نيز ميباشد به وفور و در منابع مختلف براي اعمال پيشبيني استفاده ميشود. براي ايجاد اين درخت روشهاي زيادي وجود دارد که امروزه با نرمافزارهاي موجود و در دسترس به سادگي ميتوان از C4.5 و يا C5.0 استفاده کرد. در اينجا ما از C5.0 که در نرمافزار کلمنتاين وجود دارد استفاده کرديم.
SVM: روش يا الگوريتم دوم که در اينجا استفاده ميشود SVM ميباشد. اين روش براي پيشبيني بعضي از ويژگيها مخصوصا در حيطه تصاوير کاربرد دارد.
BN: روش يا الگوريتم سوم همان شبکه بيزين ميباشد. اين الگوريتم در روشهاي محتوايي به فراوان و کرات مورد استفاده قرار گرفته است. اين روش بيشتر مطابق با روشهاي آماري و يادگيري ماشيني ميباشد.
MLP: اين روش يا الگوريتم همان روش شبکههاي عصبي براي پيشبيني ميباشد. انواع روشهاي مختلفي براي
پيشبيني با استفاده از شبکههاي عصبي موجود ميباشد. اما از ميان روشهاي مختلف موجود و ابزار موجود در نرمافزار کلمنتاين روشي را برميگزينيم که نسبت به روشهاي ديگر از نظر زماني همخواني داشته باشد. ما بيشتر از روش
شبکههاي عصبي چند لايه استفاده ميکنيم که MLP35 ميتواند بهترين مورد هم از نظر زمان و هم از نظر پيشبيني باشد.
5. ارزیابی نتایج و تفسیر آنها
بعد از اينکه دادههاي مورد نياز خود را جمعآوري و پردازش کرديم اکنون نوبت به اجرا و پيادهسازي چارچوب ارائه شده مـيرسد. ما اطـلاعات مورد نياز براي ارزيابي، نتيجهگيري و
تفسير نتايج را از اجرا و پيادهسازي چارچوب در نرمافزار کلمنتاين بدست ميآوريم. نمودار کلي براي اجراي اين مرحله را، ميتوان به صورت شکل 2 در نرمافزار کلمنتاين نمايش داد. اين ساختار براي هر دو مجموعه داده موجود يکسان بوده و مبنايي براي اجرا و پيادهسازي اين روشها ميباشد. در اين نمودار ابتدا مجموعه داده وارد نرمافزار
ميشود. سپس اگر نيازي به فيلتر کردن بعضي از ويژگيها باشد اقدام به فيلتر کردن ويژگي مورد نظر ميکنيم. در گره بعدي نوع دادههاي ويژگيها را براي نرمافزار مشخص
ميکنيم. مهمترين ويژگي که نوع داده آن بايد به درستي مشخص شود، ويژگي مورد پيشبيني ميباشد. گره بعدي گره پارتيشن ميباشد. اين گره وظيفه انتخاب تصادفي مجموعه آموزش (در اينجا 70% مجموعه) و مجموعه آزمايش را دارد. گرههاي بعدي چهار روش عنوان شده در چارچوب ميباشد. بعد از اين مرحله پيادهسازي خود را در اين نرمافزار اجرا ميکنيم. هر يک از روشها بعد از اجرا داراي نتايجي ميباشند که ما فقط بعضي از نتايج که براي ارزيابي چارچوب لازم است را ارائه ميکنيم. چنانچه قبلاً نيز بيان شد در هر يک از روشها قبل از اجرا به انتخاب ويژگيهاي با اهمیت ميپردازیم، نمودار شکل 3 نمونهاي از اين انتخاب ويژگيهاي با اهميت را، براي شبکه عصبي نشان ميدهد. در مقايسه این نمودارها برای هر چهار روش میتوان موارد زیر را بیان کرد :
هر يک از روشها مجموعهاي از انتخاب ويژگيهاي منحصر به خود را دارد. در اين نمودارها سوال 9 (tr9)و سوال 10 (df10)که همان موارد اضافه شده در پروفايل کاربران در اين تحقيق ميباشد داراي جايگاه خوبي ميباشند. دقت و نتيجه به دست آمده از هر روشی تا حدودي وابسته به ويژگيهاي مورد استفاده در روش
ميباشد.
|
شکل 2. اجراي چهار روش چارچوب در نرمافزار کلمنتاين
|
|
حال نتايج به دست آمده براي هر دو مجموعه داده اول و دوم را ارائه ميکنيم. در جدول 5 معیارهای ارزیابی [1,8,12,16,19] مورد مقایسه برای هر دو مجموعه بر مبنای چهار روش اجرا شده را میتوان مشاهده کرد.
در هر يک از مجموعه دادهها به ازاي هر روش تقريبا نتايج يکساني حاصل ميشود. در نتايج هر مجموعه داده شبکه عصبي بهترين نتيجه و پيشبيني را نسبت به ديگر روشها دارا ميباشد. در نتیجه شبکه عصبی به عنوان پایدارترین و بهترین روش می تواند مورد توجه قرار گیرد .
در پایان نمودار بهره Gain ) (براي مجموعه داده اول و مجموعه داده دوم به ترتيب در قالب نمودارهای شکل 4 و 5 برای هر چهار روش نمایش داده میشود. این نمودارها در حقیقت یک روش بصری و آماری برای کمک به درک کارآیی روشهای مطرح شده میباشد .در اين نمودارها ابتدا مجموعه دادهها به صد قسمت تقسيم شده و به صورت درصدی در محور افقی نمایش داده میشود، سپس به صورت تجمعي تعداد کل پیشبینیهای درست هرزنامه به ازای کل پیشبینیها در قالب نمودار در محور عمودی به صورت درصد نمایش داده میشود. این نمودارها گویای آن است که روش شبکه عصبی بهترین بهره را دارا میباشد. هر چند ميتوان اين نمودار را به صورت نقطهاي و غيرتجمعي و با تقسيمات مختلف داده نمايش داد که از آن صرفنظر
ميکنيم.
جدول5 : معیارهای ارزیابی برای هر دو مجموعه داده:( a :هرزنامهای که به عنوان هرزنامه پیشبینی شده، d: نامه معتبری که به عنوان نامه معتبر پیشبینی شده، b:هرزنامه که به عنوان نامه معتبر پیشبینی شده(FN)، c:نامه معتبر که به عنوان هرزنامه پیشبینی شده(FP))
مجموعه داده
روش | معیار | مجموعه اول | مجموعه دوم | ||
Accuracy |
| C5.0 | 87.87 | 87.17 |
SVM | 91.39 | 90.51 | ||
BN | 85.59 | 77.86 | ||
NN | 95.43 | 95.08 | ||
Error Rate
|
| C5.0 | 12.13 | 12.83 |
SVM | 8.61 | 9.49 | ||
BN | 14.41 | 22.14 | ||
NN | 4.57 | 4.92 | ||
Rate FP |
| C5.0 | 21.6 | 14.5 |
SVM | 14.6 | 8.8 | ||
BN | 22.5 | 20.99 | ||
NN | 7.0 | 4.6 | ||
Spam Recall |
| C5.0 | 94.1 | 88.88 |
SVM | 95.3 | 89.93 | ||
BN | 90.9 | 76.73 | ||
NN | 97.0 | 94.79 | ||
Spam Precision |
| C5.0 | 86.82 | 86.19 |
SVM | 90.08 | 91.19 | ||
BN | 85.95 | 78.92 | ||
NN | 95.25 | 95.45 |
|
6. نتیجهگیری و پیشنهاد کارهای آتی
به طور کلي در ايران در زمينه دستهبندی و پالایش نامههاي الکترونيکي در امر بازايابي و تبليغات پژوهش زيادي انجام نشده است، لذا در اين طرح سعي بر ايجاد يک ضد هرزنامه شخصي شده براي تخمين اهميت و دستهبندی نامههاي الکترونيکي تبليغاتي کاربران با توجه به رفتار. پروفایل آنها شده است. در واقع ما از سه منبع مقالات، مطالعه و بررسي نامههاي الکترونيکي تبليغاتي و نظر خبرگان براي انجام اين تحقيق استفاده کردهايم. براي طراحي بهتر لازم بود که حوزه کاري و بعدي از تجارت الکترونيک که طراحي ضد هرزنامه براي آن صورت ميپذيرد، مشخص شود. طراحي ضد هرزنامه براي نامههاي الکترونيکي تبليغاتي که بيشتر در حوزه نامههاي الکترونيکي خاکستري قرار ميگيرد، صورت پذيرفته است. در بعد تجارت الکترونيکي، براي بازاريابي از طريق نامههاي الکترونيکي تبليغاتي و بيشتر براي بازاريابي B2C سازگار شده است. بعد از طراحی پرسشنامه، جمع آوری پاسخها، مقایسه روشها بر مبنای معیارهای ارزیابی مطرح شده و دو مجموعه داده مجزا با یکـدیگر مشـخص شد که شـبکه عصبی دارای بیشترین ـ |
|
شکل 5. نمودار بهره Gain براي داده دوم |
دقت میباشد. این دقت و ثبات در نتایج بدست آمده از شبکه عصبی به خاطر نوع خاص روش شبکه عصبی میباشد که بر مبنای افکار انسان عمل میکند. به طور کلی میتوان در هر چهار مرحله بیان شده طراحی نوآوریهایی دیگری در نظر گرفت. در مرحله اول میتوان دستهبندیهای دیگر و بر مبنای جامعه آماری دیگر شبیهسازی کرد. در قسمت چارچوب
|
منابع
.1 Blanzieri E., Bryl A. ,( 2008) A survey of learning-based techniques of email spam filtering, Artif Intell Rev, vol.29,pp.63–92.
.2 Cukier W. L., Cody S., Nesselroth E. J., (2006)Genres of Spam: Expectations and Deceptions, Proceedings of the 39th Hawaii International Conference on System Sciences, .
.3 Sousa p., et al,(2010) A Collaborative Approach for Spam Detection ,Second International Conference on Evolving Internet, IEEE.
.4 Raad M.,et al,(2010)Impact of spam advertisement through e-mail: A study to assess the influence of the anti-spam on the e-mail marketing, African Journal of Business Management, Vol. 4(11), pp. 2362-2367.
.5 Kim J., Dou D., Liu H., Kwak D., (2007)Constructing a User Preference Ontology for Anti-spam Mail Systems, Canadian AI 2007, LNAI 4509, pp. 272 – 283.
.6 Kakade A.G., Kharat P.K., Gupta A.K,(2013),Survey of Spam Filtering Techniques and Tools, and Map Reduce with SVM, IJCSMC, Vol. 2, Issue. 11, November 2013, pg.91 – 98.
.7 Wenxuan S.,Maoqiang X.,(2013) A Reputation-based Collaborative Approach for Spam Filtering, 2013 AASRI Conference on Parallel and Distributed Computing and Systems, Volume 5, 2013, Pages 220–227
.8 Almeida, T. A., Yamakami, A.,(2012) Facing the spammers: A very effective approach to avoid junk e-mails, Expert Systems with Applications,vol. 39 ,pp.6557–6561.
.9 Cook D., Hartnett J., Manderson K., scanlan J., (2006)catching Spam Before it Arrives: Domain Secific Dynamic Blacklists , ACM Inrenational Conference Proceeding Series; Vol.167,pp.193-202.
.10 Almeida T.A., Yamakami A.,(2010) Content-Based Spam Filtering, The 2010 International Joint Conference on Neural Networks (IJCNN), IEEE.
.11 Ying K.C., et al,(2010)An ensemble approach applied to classify spam e-mails, Expert Systems with Applications.vol 37,pp. 2197–2201.
.12 Saad O., Darwish A., Faraj R.,(2012) A survey of machine learning techniques for Spam
filtering., International Journal of Computer Science and Network ecurity, VOL.12 No.2, February.
.13 Yih W., McCann R., Kołcz A.,(2007) Improving Spam Filtering by Detecting Gray Mail, In Proceedings of the 4rd Conference on Email and Anti-Spam.
.14 Rossiter J. R., Bellman S.,(2005) “Marketing Communications” Prentice Hall, English.
.15Youn S., McLeod D.,(2009) Spam Decisions on Gray E-mail using Personalized Ontologies, Proceedings of the 2009 ACM Symposium on Applied Computing (SAC), Honolulu, Hawaii, USA, pp. 1262-1266.
.16 Guzella T.S., Caminhas W.M.,(2009) A review of machine learning approaches to Spam filtering , Expert Systems with Applications,vol. 36,pp.10206–1022.
.17Saad O.,Darwish A.,faraj R.,(2012)A survey of machine learning techniques for Spam filtering., International Journal of Computer Science and Network security, VOL.12 No.2, February.
.18 Dwork C., Naor M.,(1992) Pricing via processing or combatting junk mail, In Advances in Cryptology - Crypto 92 Proceedings, Springer Verlag, pp 139–147.
.19 SHI L., WANG Q. , MA X. , WENG M. , QIAO H.,( 2012) Spam Email Classi_cation Using Decision Tree Ensemble, Journal of Computational Information Systems,vol. 8: 3,pp. 949–956.
.20 Spam definition.(2012)Availabe at http://en.wikipedia.org/wiki/Spam_(electronic) .
.21 GrayEmail definition,( 2012) Availabe at http://en.wikipedia.org/wiki/Graymail_(email).
.22 Ravi J., Shi W., Xu C., (2005)Personalized Email Management at Network Edges, IEEE Internet Computing, Vol.9(2) ,pp.54-60.
.23 Nicola L.,( 2004) European union vs. spam: A legal response, In Proceedings of the First Conference on Email and Anti-Spam, CEAS’2004.
.24Rafiqul I., Jemal A.,(2013) A multi-tier phishing detection and filtering approach, Journal of Network and Computer Applications, Volume 36, Issue 1, January 2013, Pages 324–335.
|
|
[1] Electronic Mail
[2] Electronic Commerce
[3] Email marketing
[4] Spam
[5] Legitimate , Ham
[6] Unsolicited E-mail
[7] False Psitive
[8] False Negative
[9] Anti-spam
[10] Filter
[11] Gray , Grey
[12] Personalized Anti-spam
[13] Profile
[14] Clementine 12.0
[15] Machine learning
[16] Sousa and et al.
[17] Collaborative
[18] Peer-to-peer
[19] Ravi and et al.
[20] Server
[21] Yih and et al.
[22] Term Frequency- Inverse Document Frequency
[23] Accuracy
[24] Kim and et al.
[25] Human Expert
[26] Bayesian network
[27] neural network
[28] decision tree
[29] support vector machines
[30] Header
[31] Bodey
[32] Subject
[33] General structure
[34] Rossiter and Bellman .(2005)
[35] Multilayer Perceptron