کد مقاله : 202005071397 بازدید : 13615 صفحه: 21 - 36

نوع مقاله: پژوهشی

ارائه روشی مناسب برای دسته بندی نامه های الکترونیکی تبلیغاتی بر مبنای پروفایل کاربران

محورهای موضوعی : فناوری اطلاعات و ارتباطات

1 - دانشجو
2 -

تاریخ دریافت : 1392/09/25 تاریخ انتشار : 1398/08/17

کلید واژه: تجارت الکترونیکی, تبلیغات الکترونیکی, دسته بندی هرزنامه ها, داده کاوی, پروفایل,

چکیده مقاله :

به طور کلی، تعریف هرزنامه در ارتباط با رضایت یا عدم رضایت گیرنده است نه محتوای نامه الکترونیکی. بر طبق این تعریف، مشکلاتی در دسته بندی نامه های الکترونیکی در بازاریابی و تبلیغات مطرح می شود. برای مثال امکان دارد بعضی از نامه های الکترونیکی تبلیغاتی، برای عده ای از کاربران هرزنامه و برای عده ای دیگر هرزنامه نباشد. برای مقابله با این مشکل با توجه به پروفایل و رفتار کاربران، ضد هرزنامه های شخصی طراحی می شود .به طور عادی برای دسته بندی هرزنامه‌ها، روشهای یادگیری ماشینی با دقت خوب به کار می رود. اما در هر حال یک روش منحصر به فرد موفق بر مبنای دیدگاه تجارت الکترونیک وجود ندارد. در این مقاله ابتدا پروفایل جدیدی برای شبیه سازی بهتر رفتار کاربران ، تهیه می شود .سپس این پروفایل همراه با نامه های الکترونیکی به دانشجویان ارائه شده و پاسخ آنها جمع آوری می گردد . در ادامه برای دسته بندی نامه های الکترونیکی، روشهای مشهور به ازای مجموعه داده های مختلف آزمایش می شود .سرانجام ، با مقایسه معیارهای ارزیابی داده کاوی ،شبکه عصبی به عنوان بهترین روش با دقت بالا ، تعیین می گردد.

چکیده انگلیسی:

In general, Spam is related to satisfy or not satisfy the client and isn’t related to the content of the client’s email. According to this definition, problems arise in the field of marketing and advertising for example, it is possible that some of the advertising emails become spam for some users, and not spam for others. To deal with this problem, many researchers design an anti-spam based on personal profiles. Normally machine learning methods for spam classification with good accuracy are used. However, there isn’t a unique successful way based on Electronic Commerce approach. In this paper, at first were prepared a new profile that can lead to better simulations of user’s behavior. Then we gave this profile with advertising emails to students and collected their answers. In continue, were examined famous methods for email classification. Finally, comparing different methods by criteria of data mining standards, it can be shown that neural network method has the best accuracy for various data sets.

منابع و مأخذ:

متن کامل:

فصلنامه علمي- پژوهشي

فناوري اطلاعات و ارتباطات ایران

سال هشتم، شماره‌هاي 27 و 28، بهار و تابستان 1395

صص: 21- 36

$E:\E Drive\logo\iicta Logo0.JPG$

ارائه روشی مناسب برای دستهبندی نامههای الکترونیکی تبلیغاتی بر مبنای پروفایل کاربران

*محمد فتحیان **رحیم حضرتقلیزاده

* استاد، دانشکده مهندسی صنایع، دانشگاه علم و صنعت ایران ** کارشناسی ارشد، مهندسی فناوری اطلاعان، دانشگاه علم و صنعت ایران تاریخ دریافت:25/09/92 تاریخ پذیرش: 18/03/95

چکیده

به طور کلی، تعریف هرزنامه در ارتباط با رضايت يا عدم رضايت گیرنده است نه محتوای نامه الکترونیکی. بر طبق این تعريف، مشکلاتي در دستهبندی نامههای الکترونیکی در بازاریابی و تبلیغات مطرح ميشود. برای مثال امکان دارد بعضي از نامههاي الکترونيکي تبلیغاتی، براي عدهاي از کاربران هرزنامه و براي عدهاي ديگر هرزنامه نباشد. براي مقابله با اين مشکل با توجه به پروفایل و رفتار کاربران، ضد هرزنامههاي شخصي طراحی ميشود. به طور عادي براي دستهبندی هرزنامه‌ها، روشهاي يادگيري ماشيني با دقت خوب به کار میرود. اما در هر حال يک روش منحصر به فرد موفق بر مبنای دیدگاه تجارت الکترونیک وجود ندارد. در این مقاله ابتدا پروفایل جدیدی برای شبیهسازی بهتر رفتار کاربران، تهیه میشود .سپس این پروفایل همراه با نامههای الکترونیکی به دانشجویان ارائه شده و پاسخ آنها جمعآوری میگردد. در ادامه برای دستهبندی نامههای الکترونیکی، روشهای مشهور به ازای مجموعه دادههای مختلف آزمایش میشود .سرانجام، با مقایسه معیارهای ارزیابی داده کاوی، شبکه عصبی به عنوان بهترین روش با دقت بالا، تعیین میگردد.

واژههای کلیدی: تجارتالکترونیکی، تبلیغات الکترونیکی، دستهبندی هرزنامهها، دادهکاوی، پروفایل

1. مقدمه

امروزه نامههاي الکترونيکي ¹ يکي از راههاي عمومي، تاثيرگذار و با هزينه پايين در سطح اينترنت ميباشد که با سرعت زيادي در حال رشد است. يکي از زمينههايي که به وفور از نامههاي الکترونيکي استفاده ميشود، حوزه تجارت الکترونيک² مخصوصا بازاريابي و تبليغات اينترنتي است. اين نوع بازاريابي و تبليغات با عنوان "بازاريابي از طريق نامههاي الکترونيکي³" نيز مشهور است.

نویسنده عهددار مکاتبات: رحیم حضرتقلیزاده h.golizadeh@gmail.com

همزمان با رشد استفاده از نامهالکترونيکي سوءاستفاده و فريبکاري نيز به تبع آن بالا ميرود. يکي از نمونههاي
سوءاستفاده از اين روش ارتباطي، ارسال کورکورانه نامههاي الکترونيکي ناخواسته و بيدعوت به نام هرزنامه⁴
ميباشد[1,2,6,12,20,21,23,24].

تعاريف زيادي براي اسپم يا هرزنامه و چيستي و تفاوت آن با نامههاي معتبر⁵ وجود دارد. کوتاهترين تعريف متداول از بين تعاريف موجود در مورد هرزنامه، آنرا به عنوان يک نامه الکترونيکي ناخواسته⁶ بيان ميکند. با اين حال تعاريف مشابه زيادي نيز وجود دارد که بيان ميکند، هرزنامه يک نامه الکترونيکي ناخواسته است که به طور نا مشخص و مستقيم يا غيرمستقيم توسط فردي که نسبتي با گيرنده ندارد، فرستاده شده است. همانطور که ميتوان ديد نقطه اشتراک براي تعريف هرزنامه ناخواسته بودن آن است. بر طبق تعريف مورد توافق، هرزنامه درباره رضايت يا عدم رضايت است نه محتوا [1,4,17,23] . هرزنامهها مشکلات متعددي را به بار ميآورند که برخي از آنها مستقيما باعث ضررهاي اقتصادي ميشوند، مانند ايجاد ترافيک و اتلاف پهناي باند و برخي ديگر زمان زيادي را تلف ميکنند تا کاربران نامههاي زايد را جداسازي کنند. علاوه بر موارد بيان شده، بعضي از هرزنامهها باعث آزار روحي و ايجاد عدم امنيت و اطمينان ميشوند و سرانجام باعث ايجاد مشکلات قانوني مانند تبليغات هرمي وکلاهبرداريهاي اقتصادي
ميگردند [2,3,4,7,12,24].

براي رفع اين مشکلات، روشهای زيادي را در مقالات مختلف مطرح کردهاند، تا با بالا بردن درصد تخمين و دقت، باري از اين هزينهها کم کنند و آرامش و اطمينان را براي کاربران در تمامي حوزهها بوجود بياورند. با این همه به نظر میرسد هنوز هم مشکلاتی در این راه وجود داشته باشد. یکی از این مشکلات وجود خطای زیاد در روشهای مطرح شده میباشد، که میتواند عامل تاثیرگذار در تجارت الکترونیک باشد. اگر در اينجا دسته هرزنامهها را به عنوان كلاس مثبت و دسته نامههاي الکترونيکي معتبر را به عنوان كلاس منفي در نظر بگيريم، آنگاه خطای FP⁷ شامل نامههای الکترونیکی
ميشود كه به اشتباه جزو هرزنامهها دستهبندي ميگردند. خطای FN⁸ هم شامل نامه های الکترونیکی ميشود كه به اشتباه جزو نامههای الکترونیکی معتبر دستهبندي ميشود. این خطاها در زمینه بازاریابی و تبلیغات از طریق نامههای الکترونیکی مشهودتر است. در مواجهه با این مشکلات بعضی از شرکتها اقدام به طراحی ضد هرزنامه سازگار با زمینه تبلیغات میکنند [5,23].

از آنجاييکه بيشتر هرزنامهها در حوزه بازاريابي و نامههاي الکترونيکي مطرح میشود لذا لازم است، که در طراحي ضد هرزنامهها⁹ ديد صحيحي نسبت به حوزه تجارت الکترونيک داشته باشيم. در صورت نداشتن چنين ديدي در طراحي، ضد هرزنامهها با سرويسدهندههاي نامههاي الکترونيکي تبليغاتي و بازاريابي هماهنگ نخواهند بود لذا درصد زيادي از نامههاي الکترونيکي منتشر شده از اين سرويسدهندهها به جاي هرزنامه فيلتر¹⁰ شده و هزينه زيادي را به اين سرويسدهندهها تحميل ميکنند. در صورتي که اگر اين ضد هرزنامهها براي ديدگاه خاص مانند تبليغات از طريق
نامههاي الکترونيکي طراحي شوند و اهداف مشخصي را دنبال کنند بهتر عمل خواهند کرد[4,7] .

مشکل مهم دیگر که بيشتر در حيطه تجارت الکترونيک و تبليغات از طريق نامههاي الکترونيکي مطرح ميشود، در نظر گرفتن مطلق يک نامه الکترونيکي خاص به عنوان هرزنامه يا نامه معتبر اشد. اين در حالي است که امکان دارد بعضي از نامههاي الکترونيکي براي عدهاي از کاربران هرزنامه و براي عدهاي ديگر هرزنامه نباشد. براي مثال در تبليغات از طريق نامههاي الکترونيکي امکان دارد خريد اتومبيل براي کسي که قصد خريد اتومبيل دارد هرزنامه حساب نشود در صورتيکه براي بعضي ديگر که قصد خريد ندارند هرزنامه حساب شود. پس در اين شرايط دستهبندي نامههاي الکترونيکي دچار مشکل ميشود که اين عدم تخمين به صورت مطلق، در نامههاي الکترونيکي تبليغاتي فراوان وجود دارد، که به آنها نامههاي الکترونيکي خاکستري¹¹ نيز
ميگويند. براي مقابله با اين مشکل با توجه به رفتار کاربران اقدام به ساخت ضدهرزنامههاي شخصي¹² ميکنند که در مقالات متعددي در مورد روشهاي مختلف بحث شده است[2,4,5,20,21]

در این مقاله ما ابتدا پروفایل¹³ جدیدی را که میتواند به شبیهسازی بهتر رفتار کاربران منجر شود تهیه میکنیم. سپس این پروفایل را همراه با نامههای الکترونیکی تبلیغاتی ساختگی در حیطه کتابفروشی بر خط به دانشجویان ارائه کرده و پاسخ آنها را جمعآوری میکنیم. در ادامه روشهای موجود و مشهور برای دستهبندی نامههای الکترونیکی را مورد آزمایش و مقایسه قرار میدهیم . اجرا و پیادهسازی روشهای انتخاب شده در نرمافزار کلمنتاین¹⁴ انجام
میپذیرد. در پایان به تجزیه و تحلیل هر یک از این روشها پرداخته و روش مناسب را برای زمینه بازاریابی و
شخصیسازی انتخاب میکنیم.

سازماندهی بخشهای بعدی به این شکل میباشد : در بخش 2 مقاله، به بررسی کارهای مرتبط و دستهبندی آنها
میپردازیم سپس در بخش 3 به بیان طراحی پروفایل و تولید دادهها و مشخصات جامعه آماری آن میپردازیم. در ادامه در بخش 4 روش پیشنهادی خود را مطرح میکنیم. در بخشهای باقیمانده به ارزیابی نتایج و جمعبندی و ارائه پشنهادات برای کارهای آتی میپردازیم.

2. مروری بر ادبیات موضوع

به طور کلی براي دسته بندی و پیش بینی هرزنامه ها، تکنيک ها و روشهاي زيادي مطرح شده است. دسته بندی نامه‌هاي الکترونيکي ، يک برنامه کاربردي است که بر اساس تابع (1) پياده‌سازي مي‌شود :

(1)

در اين تابعm نامه الکترونيکي است که بايد دسته‌بندي گردد. بردار پارامتر θ حاصل آموزش دسته بند با استفاده از يک مجموعه داده است که قبلاً جمع‌آوري شده است که مي‌توان آنرا به صورت فرمول(2) بيان کرد :

در اين فرمول mها نامه‌هاي الکترونيکي هستند که قبلا جمع‌آوري شده‌اند و yها نيز برچسب متناظر آنها مي‌باشد[1]. عمده کارهای انجام شده در این زمینه را
میتوان به صورت جدول 1 دستهبندی کرد. در این جدول بعضی از روشهای کلی توضیح داده شده است. روشهای بیان شده در این جدول مخصوصاً روشهای یادگیری ماشینی¹⁵ از نظر تخمین و دقت پیشبینی نتیجه مطلوبی را در
برداشتهاند. با این همه، برای مقابله با مشکلات اصلی بیان شده لازم است که ضد هرزنامههای شخصی در حوزه بازاریابی و تبلیغات و سازگار با این حوزه تولید شود. در زمینه تولید ضد هرزنامههای شخصی شده بر مبنای پروفایل و رفتار کاربران، بعضی از کارهای انجام شده را میتوان به صورت زیر بیان کرد هرچند این تحقیقات نیز به صورت تخصصی به حوزه بازاریابی و تبلیغات از طریق نامههای الکترونیکی نپرداخته است.

سوسا و همکاران¹⁶یک روش تولید ضد هرزنامه شخصی شده همکارانه¹⁷ را بررسی کردهاند. در این روش ابتدا پروفایل کاربران دستهبندی میشود سپس بر مبنای گزاراشات رسیده از هر گروه دستهبندی نامههای الکترونیکی انجام
میپذیرد. بدیهی است، در این روش نیاز به انتقال اطلاعات مابین سرویسدهندههای مختلف میباشد که این انتقال از طریق معماری p2p¹⁸ انجام میپذیرد. این ضد هرزنامه به صورت غیر متمرکز بوده که در سرویس دهندههای نامههای الکترونیکی اجرا میشود. از معایب این روش میتوان به نیاز به امنیت در حین انتقال اطلاعات، نیاز به پهنای باند بیشتر برای انتقال اطلاعات و سختی مدیریت غیر متمرکز را نام برد[3,7].

در مقابل راوی و همکاران ¹⁹، روش متمرکز دیگری را بیان کردند که در این روش در دو مرحله با استفاده از روشهای شبکه عصبی و در سرور²⁰ نامههای الکترونیکی طرف فرستنده اجرا میشود. این عمل از اتلاف پهنای باند در ازای پیشگیری ازانتقال هرزنامهها جلوگیری میکند و به شکل کاملا منطبق با افکار انسان شکل گرفته است. اما باز هم دارای معایبی از جمله متکی بر رفتار اشخاص خاص به خاطر عدم دستیابی به کل جامعه آماری دارد[22].

از دیگر روشهای اجرا شده استفاده از درخت تصمیم مانند C4.5 میباشد. در این روش ییح و همکاران ²¹، پروفایل کاربران را همراه با نامههای الکترونیکی پاسخ داده شده جمعآوری کردهاند. سپس از طریق روش فرکانس معکوس سند (TF-IDF²²) به استخراج و انتخاب ویژگیهای مناسب پرداخته است. در حقیقت این مرحله توکن کردن نام دارد که در آن متن نامههای الکترونیکی به ریشه کلمات اصلی تبدیل شده و کلمات پرکاربرد به صورت یک مقدار باینری در نظر گرفته میشود. در صورت وجود این کلمه در یک متن مقدار آن یک و در غیر اینصورت مقدار آن برابر صفر در نظر گرفته میشود. بعد از این مرحله با استفاده از درخت تصمیم به تولید قوانین میپردازند. این قوانین تولید شده از جهت دقت ²³پیشبینی، مورد بررسی قرار گرفته و قوانین با دقت بالا انتخاب میشود[13].

یکی دیگر از روشهای مشابه در این زمینه استفاده از تولید دادههای ساختگی برای نامههای الکترونیکی توسط کیم و همکاران²⁴میباشد. در این تحقیق به خاطر نیاز به پروفایل کاربران همراه با پاسخ نامههای الکترونیکی تبلیغاتی، لازم بود به تولید ساختگی این موارد در قالب پرسشنامه پرداخته شود. در این تحقیق از درخت تصمیم همراه با روشهای معنایی مانند روش قبلی استفاده شده است. تفاوت این تحقیق با روش قبلی در مرحله استخراج و انتخاب ویژگیها میباشد. این روش در مقایسه با روش قبلی به خاطر در نظر گرفتن شخصیسازی و خصوصیات نامههای الکترونیکی خاکستری میتواند نمونه مناسبی برای حوزه تجارت الکترونیک باشد. از جمله معایب این روش را میتوان عدم تطابق بین پروفایل و محتوای نامههای الکترونیکی ساختگی با جامعه آماری پاسخدهندگان بیان کرد. در این تحقیق تنها به برچسب زدن نامههای الکترونیکی تبلیغاتی در 10 دسته توسط کارشناس انسانی²⁵ و ارائه آن به دانشجویان برای پاسخگویی پرداختهاند. به نظر میرسد که این دستهبندی جزئی بوده و جامعه آماری پاسخدهنده نتواند جواب دقیق و واقعی را ارائه کند[5].

تغييرات نتايج پيشبيني در بين روشهای مرسوم تا حدودي زياد است. اين نتيجه به خاطر انتخاب ويژگيهاي متفاوت روشها اتفاق ميافتد. هر چند عمل مقایسه با دیگر کارهای مشابه به خاطر متفاوت بودن مجموعه دادهها و روش پیشنهادی نمیتواند مبنایی برای ارزیابی دقیق باشد اما در جدول 2 به مقایسه اجمالی میپردازیم. اگر چه استفاده از تمامی محتوای نامههای الکترونیکی میتواند دقت نتایج را افزایش دهد اما به خاطر درگیر بودن با مجموعه بزرگی از ویژگیهای استخراج شده، معمولا نیاز به انتخاب ویژگیهای مناسب میباشد. این حالت به ازای زمان و فضای مصرفی زیاد میتواند دقت پیشبینی را تا حدودی بهبود بخشد.

در هر حال روشهای مختلفی برای شخصیسازی ضد هرزنامهها وجود دارد که در آن از الگوریتمهای یادگیری ماشینی و دادهکاوی مانند شبکه بیزین²⁶، شبکههای عصبی²⁷، درخت تصمیم²⁸ و SVM²⁹ استفاده میکنند [1,5,6,8,12,16,17,19,24]. با این همه هیچ یک از این موارد به طور تخصصی به امر تولید ضد هرزنامههای شخصیسازی شده با نگرش نامههای الکترونیکی خاکستری، بازاریابی و تبلیغات نپرداخته است. به خاطر اهمیت این حوزه و اینکه اکثر نامههای الکترونیکی امروزه را نامههای الکترونیکی خاکستری مخصوصا تبلیغاتی تشکیل میدهد نیاز به تولید ضد هرزنامه ساز گار با این حوزه احساس
میشود تا از این رهگذر نامههای الکترونیکی بازاریابی در سرویسدهندههای پست الکترونیکی هدف به عنوان هرزنامه فیلتر نشوند. از بررسی روشهای بیان شده به این نتیجه
میرسیم که برای طراحی و تولید ضد هرزنامهها 4 گام اصـلی ضـروری مـیباشد که در جـدول 3 مـیتوان مشاهده

کرد[12]:

3. استخراج ویژگیها و آمادهسازی دادهها

براي انجام اين تحقيق لازم است که در ابتدا نامههاي الکترونيکي همراه با برچسب (هرز يا معتبر بودن که از طرف کاربران نسبت داده شده است) و پروفايل کاربران جمعآوري شود. اگر چه مجموعه نامههاي الکترونيکي با برچسب قابل اطمينان براي آزمون و آزمايش در شرکتهاي تحقيقاتي موجود ميباشد، اما اين مجموعه نامههاي الکترونيکي يا فاقد پروفايل کاربران ميباشند و يا در زمينه تبليغات الکترونيکي نميباشند. لذا از آنجايي که اين اطلاعات در اکثر اوقات در دسترس نميباشد بايد مانند مقالات موجود در اين زمينه به تولید آن بپردازیم.

جدول 1. انواع روشهای مهم برخورد با هرزنامهها

روشهاي غير فيلتري (پیشگیری از ایجاد و انتقال هرزنامه)	روش اقتصادي	هر شخص براي فرستادن ايميل بايستي هزينهاي را بپردازد که براي هرزنامهنويسان اين هزينه قابل توجه است [1].
	روش قانونگذاري	بعضي از قانونگذاران براي حفظ امنيت و آرامش در جامعه مجازي اقدام به وضع قوانيني براي جلوگيري از توليد و انتشار هرزنامهها کردهاند[23] .
	روش تغيير پروتوکلها	براي رفع نقص پروتوکلهاي موجود ،يک گام براي شناسايي هويت ارسالکننده نامههاي الکترونيکي اضافه مي شود[18].
روشهاي فيلتري (بعد از انتقال هرزنامه سعی دارند که در سرویس دهنده های پست الکترونیکی به دسته بندی نامه های الکترونیکی به دو دسته هرزنامه و نامه معتبر بپردازند هرچند هنوز بعضی از مشکلات بیان شده همچنان وجود دارد [1,6,3,12])	روشهاي غير محتوايي	ليست سياه و سفيد	در اين روش ليستي از آدرسهايي که به عنوان مبدا انتشار هرزنامه شناخته شدهاند، تهيه مي شود. هر نامه الکترونيکي که از اين آدرسها فرستاده شود توقيف خواهد شد يا در نسخه ديگر فقط از آدرسهاي مشخص شده موجود در ليست سفيد، نامه الکترونيکي قبول ميکند[9].
		شبکه اجتماعي فرستندگان	در اين روش فيلدهاي From وToو Cc و Bcc را از سرآيند نامههاي الکترونيکي کاربران استخراج و بررسي ميکنند سپس با استفاده از آنها گراف روابط اجتماعي کاربران را ميسازند در نهايت با استفاده از اين گراف روابط اجتماعي اقدام به دستهبندي نامههاي الکترونيکي کاربران ميکنند.
		رفتار فرستندگان	دانشِ راجع به رفتار كه در پشت يك پيغام يا مجموعهاي ازپيغامها قرار دارد را از دل ويژگيهاي غيرمتني استخراج ميكند و سپس آن را با دانش از پيش تعريف شدهي (يا استخراج شده) مربوط به كاربرهاي طبيعي و يا خرابكار، مقايسه مي كنند
	روشهاي محتوايي ( در این روشها از محتوای نامه های الکترونیکی مانند متن و عنوان آن استفاده می کنند[10,11])	توکن کردن ( در این روش با استفاده از ابزار خاص اقدام به جداسازی کلمات مهم کرده و فقط از مهمترین آنها استفاده می کنند[1,16])	روشهاي اوليه	اولين فيلترها به صورت سطحي فقط وجود يا عدم وجود يك سري توكنهاي از پيش تعريف شده را در بدنه پيغام بررسي مي كردند و بر مبناي يک سري قواعد ثابت عمل مي کردند که به روش کلمات کليدي و آماري معروف بودند که امروزه با روشهاي يادگيري جايگزين شده اند .
			يادگيري ماشيني	در اين روش براي پيش بيني از روشهاي داده کاوي و يادگيري ماشيني بهره مي برند به طوريکه اين دسته بيشترين کاربرد را امروزه دارد و از تمامي ابزار داده کاوي که جهت دسته بندي و پيش بيني به کار مي رود مي توان استفاده کرد.
		آناليز زباني	اين روش ها بر اين فرض استوار هستند كه بدنه پيغامها به زبان طبيعي مي باشند و روش هایی كه مبتني بر مدلهاي مقايسه اي - مانند عمل مقايسه اي ماركف و نيز پيش بيني هستند را استفاده مي کنند.

مقاله	روش پیشنهادی	مجموعه داده	دقت	توضیحات
یینگ و همکاران [11]	روش ترکیبی	خصوصیات کلی نامه ها همراه با فیلد های سرآیند	%91.78	در این مقاله استخراج ویژگیها با نظر خبرگان و غیر محتوایی می باشد
کیم و همکاران [5]	روش تولید قوانین از درخت تصمیم همراه با روش معنایی	تولید ساختگی نامه های الکترونیکی پرسشنامه ای برای صنایع مختلف	85.0%	دقت به ازای هر قانون متفاوت است ما بیشترین را در نظر گرفته ایم.
سوسا و همکاران [3]	روش همکارانه	تولید ساختگی داده ها همراه با داده واقعی	93.5%	از محتوای نامه ها استفاده کرده است
یاون و همکاران [15]	روش درخت تصمیم همراه با آنتولوژی	داده های واقعی همراه با تکرار چند باره	97%	از کلیه محتوا استفاده کرده و فیلتر کردن بر مبنای کلمات کلیدی خاص

جدول 2. کارهای مشابه انجامشده

جدول 3. گامهای طراحی ضد هرزهنامه

گامهای طراحی	توضیح	روش کار
گام اول : استخراج ویژگیها	در این روش ویژگیهای و کلمات پرکاربرد از متن نامه ها استخراج می شود. در شبیه سازی(تولید مجموعه داده) دیگر نیازی به مرحله استخراج نیست بلکه به صورت پیش فرض و با نظر خبرگان این ویژگیها مستقیماٌ پرسش می شود.	ابزار مختلفی مانند متن کاوی و TF-IDF و مشابه آن به کار برده می شود.
گام دوم : انتخاب ویژگیها	در این مرحله از بین ویژگیهای مختلف بعضی از ویژگیهای تاثیر گذار و با اهمیت انتخاب می شود.	برای اینکار از ابزاری مانند IG استفاده می کنند که این ابزار از مهمترین روشها بوده و در نرم افزار کلمنتاین ابزاری بر این مبنا وجود دارد.
گام سوم : چارچوب پیشنهادی	در این مرحله به ارائه روشهای خود با استفاده از روشهای مختلف موجود در داده کاوی و یادگیری ماشینی در قالب چارچوب می پردازند.	طراحان سعی می کنند تا از طریق مقایسه یا ترکیب روشها به دقت بیشتری دست پیدا کنند.
گام چهارم : ارزیابی و اعتبار سنجی	دقت در طراحی وابسته به سه مرحله قبلی می باشد لذا ارزیابی تا حدودی از طریق معیارهای ارزیابی مشهور داده کاوی صورت می گیرد.	ارزیابی از طرق معیارها،ارزیابی از طریق مقایسه مولفه های نوآوری شده،

تولید اين مجموعه نامههاي الکترونيکي از طريق بررسي مجموعه مقالات موجود و نظر خبرگان همراه با بررسي
نامههاي الکترونيکي تبليغاتي صورت ميپذيرد. روش کار براي تولید نامههاي الکترونيکي تبلیغاتی در قالب پرسشنامه به شرح زير ميباشد. ابتدا طبق تمامي تحقيقات موجود در اين زمينه به اين مسئله ميپردازيم که چه ويژگيهايي
ميتواند از نامههاي الکترونيکي استخراج شود.

سه دسته ويژگي اساسي، شامل موارد زير را ميتوان نام برد[1]:

· ويژگيهايي از سرآيند³⁰

· ويژگيهايي از متن³¹ نامه که شامل موضوع ³²هم
ميباشد

· و يژگيهايي از کل ساختار³³ نامه الکترونيکي

از آنجاييکه هدف ما پالايش و دستهبندي نامههاي الکترونيکي تبليغاتي ميباشد لذا لازم است که محتواي
نامههاي الکترونيکي نيز در همين راستا باشد. در کارهاي مشابه انجام شده بدليل اينکه چنين محدوديتي وجود نداشته، نامههاي الکترونيکي از صنايع مختلف را براي محتواي نامههاي الکترونيکي در نظر گرفتهاند.[5]

در چنين مواردي بدون در نظر گرفتن ويژگيهاي جامعه آماري پاسخدهندگان اقدام به تهيه محتواي نامههاي الکترونيکي کردهاند. ما براي دقت در اين تحقيق ابتدا جامعه آماري پاسخدهندگان خود را در نظر گرفته و سپس اقدام به تهيه محتواي نامههاي الکترونيکي ميکنيم.

جامعه آماري پاسخدهندگان ما را جامعه دانشگاهي و دانشجويان تشکيل ميدهند لذا لازم است حوزهاي را برگزينيم که افراد آگاهي و تمايل نسبت به اين حوزه داشته باشند. در نتيجه ما نامههاي الکترونيکي تبليغاتي کتابفروشي برخط را به عنوان نمونه مطالعه موردي انتخاب ميکنيم.

3-1- استخراج ویژگیهای موثر نامههای الکترونیکی

بعد از انتخاب حوزه کاري و جامعه آماري اکنون لازم است که محتوايي براي هر يک از ويژگيهاي بيان شده استخراج کنيم. براي اينکار تعدادي از نامههاي الکترونيکي تبليغاتي در حوزه کتابفروشي برخط را انتخاب ميکنيم. سپس با نظر خبرگان در امر تبليغات و همچنين تعدادي از جامعه آماري اقدام به تهيه محتوا براي هر يک از ويژگيهاي مطرح شده ميپردازيم. جدول 4 ویژگیهای استخراج شده نامههای الکترونیکی همراه با محتوا برای حوزه کاری مطرح شده را نشان میدهد.

در ويژگي سرآيند دو گزينه بيان شده است: اگر فرستنده نامه الکترونيکي تبليغاتي براي گيرنده آشنا باشد ( يعني در دفترچه آدرس شخص موجود باشد که اين نوعي تبليغات از طريق مشتريان سازمانها ميباشد که ميتوانند کالا يا خدماتي را به دوستان خود سفارش کنند).

اگر آدرس فرستنده براي گيرنده آشنا نباشد (در حقيقت تبليغات از طريق شرکتهاي موجود و با آدرسهاي مختلف انجام شود). در ويژگي عنوان و متن گزينههاي مختلف و جذابي که در نامههاي الکترونيکي تبليغاتي ميتواند وجود داشته باشد بيان شده است. ويژگي بعدي ويژگيهاي کلي نامههاي الکترونيکي ميباشد. محتواي نسبت داده شده به اين ويژگيها داراي حالت عمومي هستند و ميتوانند در ديگر حوزهها نيز مطرح شوند. به خاطر وجود ويژگيهاي زياد ما بر مبناي نظر خبرگان و اصول بازاريابي مطرح شده روزیتر و بلمن ³⁴[14] ،دو دسته اصلي براي اين ويژگيها را در نظر گرفتيم [16].

جدول 4 :ويژگي استخراج شده بر مبناي حوزه کاري

ويژگي کلي	ويژگي انتخاب شده بر مبناي حوزه کاري	گزينه هاي موجود
سرآيند	فرستنده نامه الکترونيکي	1، از طرف آدرس فرستنده آشنا
		2، از طرف آدرس فرستنده ناآشنا
موضوع	عنوان نامه الکترونيکي	1، کتابهاي رايگان
		2، تازه ترين کتاب
		3، پرفروشترين کتاب
متن	زمينه و محتواي نامه الکترونيکي	1، مهندسي و علوم پايه
		2، پزشکي
		3، علوم انساني
		4، هنر
		5، ساير(غير تخصصي و متفرقه)
ساختار کلي	ويژگيهاي دسته بندي شده نامه الکترونيکي	1، سايز حافظه زياد (شامل گرافيک يا ضميمه و...)
		2، سايزحافظه کم (شامل فقط متن و..)

2-3- استخراج پروفایل کاربران

مرحله بعدي استخراج ويژگيها که مهترين مرحله نيز
ميباشد پروفايل کاربران ميباشد. در اکثر تحقيقات از پروفايلهاي استاندارد موجود در اکثر سايتها مانند شغل، جنسيت، تحصيلات، رشته تحصيلي، سن، علاقهمندي و غيره استفاده شده است. از آنجاييکه شخصيسازي بر مبناي پروفايل کاربران شکل ميگيرد، لذا لازم است گزينههاي ديگري نيز براي بالا بردن دقت در نظر گرفته شود. براي اينکار ما دو گزينه را از مقالات مختلف جمعآوري کرده و در پروفايل خود قرار ميدهيم [1,5].

گزينه اول تعداد دفعاتي است که يک شخص بعد از دريافت يک نامه الکترونيکي آن را هرزنامه اعلام ميکند. اين گزينه براي افراد مختلف متفاوت است به صورتيکه امکان دارد يک شخص در مرحله اول يک نامه الکترونيکي را هرزنامه اعلام کند در صورتيکه امکان دارد شخص ديگري در دفعات تکرار زياد نامه الکترونيکي مذکور را هرزنامه اعلام کند. گزینهای مشابه این گزینه با نام قدرت مورد انتظار برای ضد هرزنامه شخصی شده وجود دارد[5]. علت اصلي قرار دادن چنين گزينهاي در پروفايل اشخاص به خاطر نامههاي الکترونيکي خاکستري ميباشد.

گزينه دومي که در پروفايل اشخاص قرار داده شده و مورد پرسش قرار ميگيرد، نسبت خطاهاي مورد تحمل شخص در فيلتر کردن است که ميتواند قبول کند. در حقيقت افراد متفاوت ويژگيهاي رفتاري مختلفي دارند. بعضي از افراد عنوان ميکنند که بايد هيچ يک از نامههاي الکترونيکي معتبر آنها به اشتباه فيلتر نشود و در مقابل دريافت چند هرزنامه روزانه را قبول ميکنند، مخصوصاً وقتي که اين هرزنامهها، نامههاي الکترونيکي تبليغاتي باشد. در مقابل بعضي از افراد راضي به دريافت هيچ هرزنامهاي نيستند، هر چند بعضي از نامههاي الکترونيکي معتبر آنها به اشتباه فيلتر شود. در حقيقت با اين گزينه دو گروه افراد متفاوت را از لحاظ رفتاري ميتوان تشخيص داد.

اين بخش مطابق با گام اول يعني گام استخراج ويژگيها از نامههاي الکترونيکي ميباشد. در اينجا ما نياز به ابزاري خاص براي توکن کردن و غيرساختاري کردن متن نياز نداريم. در حقيقت با استخراج ويژگيها و محتوا با روش مطالعه مقالات مشابه ، مطالعه نمونه موردي ، نظر خبرگان و رتبهبندي آنها توانستيم به ویژگیهای مورد نياز خود دست يابيم.

همانطور که ملاحظه ميشود يک نمونه نامه الکترونيکي از ضرب دکارتي موارد بيان شده از جدول 4 حاصل ميشود که تعداد 2*3*5*2=60 قالب نامه الکترونيکي بدست میآید. تعداد سوالات پروفايل نيز برابر با 10 عدد ميباشد که هريک از آنها مقادير مختلفي ميتواند داشته باشد. در نتیجه هر پرسشنامه شامل 10 سوال برای پروفايل کاربران و تعداد 60 نامه الکترونيکي ساختگی و پرچسب پاسخگويي (هرزنامه یا معتبر ) ميباشد.

این پرسشنامه بعد از طراحی از طریق وب و در برخی موارد به صورت رودرو توسط 70 نفر از دانشگاهیان پاسخ داده شد، که پس از اعمال پاکسازي تعداد 66 عدد از آنها مورد استفاده قرار گرفت که از این تعداد 30 نفر را زن و 36 را مرد تشکیل میدهد. در ادامه ما دادههاي جمعآوري شده را به صورت تصادفي درهم کرديم سپس اين دادهها را به دو قسمت مساوي تقسيم کرديم. در ادامه براي ارزيابي چارچوب از دو نوع مجموعه داده زير استفاده کرديم. (هر رکورد شامل 10 فیلد پروفایل و 4 فیلد ویژگی نامه الکترونیکی و یک برچسب پاسخگویی میباشد.)

· مجموعه داده نوع اول: تعداد 1843 رکورد که شامل 1172 رکورد هرزنامه ميباشد.

· مجموعه داده نوع دوم: تعداد 1843 رکورد که شامل 959 رکورد هرزنامه ميباشد.

4. انتخاب ویژگیها و چارچوب پیشنهادی

بعد از گام اول نوبت به گام دوم ميرسد. در اين گام لازم است که از بين ويژگيهاي موجود در پروفايل و ویژگیهای نامههاي الکترونيکي ساختگی بهترين آنها را براي چارچوب پیشنهادی خود انتخاب کنيم. بديهي است که تمامي ويژگيهاي بيان شده نميتواند براي چارچوب مفيد واقع شود. در بعضي موارد حتي مشاهده شده است که وجود بعضي از ويژگيها باعث کاهش دقت شده است. ما براي انتخاب ويژگيهاي مناسب از ابزار انتخاب ویژگی موجود در نرمافزار کلمنتاین که از روش IG بهره میبرد، استفاده
ميکنيم. اين روش در اکثر مقالات موجود در اين زمينه به کار گرفته شده و نتيجه مطلوبي را به همراه داشته است [5]. در گام سوم روش پیشنهادی خود را در قالب یک چارچوب ارائه ميدهيم. در این چارچوب سعی میکنیم از اکثر روشهای مشهور و زیاد استفاده شده از حوزه داده کاوی، یادگیری ماشینی و آمار استفاده کنیم. شکل 1 چارچوب پیشنهادی ما را نمایش میدهد.

$D:\EC\theses\papaer1\Drawing2.jpg$

شکل 1. چارچوب ارائه شده

بخش اول پايگاه دادهها ميتواند هم پايگاه داده مربوط به آموزش و هم آزمايش چارچوب را شامل شود. براي راحتي کار ما در اين چارچوب فقط يکي از اين دو را نمايش داديم. اما بديهي است که بعد از تقسيم مجموعه دادههاي موجود به دو بخش آموزش (70% داده ها بر اساس اکثر تحقیقات) و آزمايش ميتوانيم هر کدام از آنها را به چارچوب اعمال کنيم که در بخش آموزش چارچوب ايجاد ميشود و در بخش آزمايش به ارزيابي چارچوب ميپردازيم.

بخش اول پايگاه دادهها در کل شامل موارد زير ميباشد :

پروفايل کاربران: اين پروفايلها از پاسخدهندگان به نامههاي الکترونيکي ساختگی جمعآوري شده است.

نامههاي الکترونيکي: اين پايگاه داده نتيجه مطالعات، نظر خبرگان، بررسي نامههاي الکترونيکي مختلف در حيطه تبليغات ميباشد.

پاسخهاي جمعآوري شده: اين بخش برچسب نسبت داده شده از طرف پاسخدهندگان به نامههاي الکترونيکي
شبيهسازي شده میباشد. در حقيقت شامل دو گزينه نامه معتبر يا هرزنامه ميباشد.

بخش دوم پايگاه دادهها شامل پيشبينيهاي چارچوب
ميباشد اين قسمت شامل دو پايگاه داده به صورت زير
ميباشد:

پايگاه داده معتبر: اين پايگاه داده در حقيقت شامل
پيشبيني نامههای معتبر چارچوب ميباشد.

پايگاه داده هرزنامه: اين پايگاه داده شامل نامههاي الکترونيکي است که چارچوب آنها را به عنوان هرزنامه شناخته و براي استفاده آتي در اينجا ذخيره کرده است.

مسير 1 از هر سه پايگاه داده موجود در چارچوب استفاده ميکند. اين مسير خود به تنهايي به 4 مسير فرعي منشعب ميشود. در هر مسير فرعي چارچوب از روشهای داده کاوي و يادگيري ماشيني براي پيشبيني استفاده شده است. هر روش شامل دو قسمت انتخاب ويژگيها از ميان ويژگيهاي استخراج شده و انجام اعمال پيشبيني را شامل ميشود. در مسیر 2 عمل مقایسه ما بین نتایج بدست آمده صورت
میگیرد. چهار روش يا الگوريتم استفاده شده در اين مسير به شرح زير ميباشد[6,10,12,16] :

مسير 1 از هر سه پايگاه داده موجود در چارچوب استفاده مي کند. اين مسير خود به تنهايي به 4 مسير فرعي منشعب ميشود. در هر مسير فرعي چارچوب از روشهای دادهکاوي و يادگيري ماشيني براي پيشبيني استفاده شده است. هر روش شامل دو قسمت انتخاب ويژگيها از ميان ويژگيهاي استخراج شده و انجام اعمال پيشبيني را شامل ميشود. در مسیر 2 عمل مقایسه ما بین نتایج بدست آمده صورت
میگیرد. چهار روش يا الگوريتم استفاده شده در اين مسير به شرح زير ميباشد[6,10,12,16] :

C5.0: روش يا الگوريتم اول که همان درخت تصميم نيز ميباشد به وفور و در منابع مختلف براي اعمال پيشبيني استفاده ميشود. براي ايجاد اين درخت روشهاي زيادي وجود دارد که امروزه با نرمافزارهاي موجود و در دسترس به سادگي ميتوان از C4.5 و يا C5.0 استفاده کرد. در اينجا ما از C5.0 که در نرمافزار کلمنتاين وجود دارد استفاده کرديم.

SVM: روش يا الگوريتم دوم که در اينجا استفاده ميشود SVM ميباشد. اين روش براي پيشبيني بعضي از ويژگيها مخصوصا در حيطه تصاوير کاربرد دارد.

BN: روش يا الگوريتم سوم همان شبکه بيزين ميباشد. اين الگوريتم در روشهاي محتوايي به فراوان و کرات مورد استفاده قرار گرفته است. اين روش بيشتر مطابق با روشهاي آماري و يادگيري ماشيني ميباشد.

MLP: اين روش يا الگوريتم همان روش شبکههاي عصبي براي پيشبيني ميباشد. انواع روشهاي مختلفي براي
پيشبيني با استفاده از شبکههاي عصبي موجود ميباشد. اما از ميان روشهاي مختلف موجود و ابزار موجود در نرمافزار کلمنتاين روشي را برميگزينيم که نسبت به روشهاي ديگر از نظر زماني همخواني داشته باشد. ما بيشتر از روش
شبکههاي عصبي چند لايه استفاده ميکنيم که MLP³⁵ ميتواند بهترين مورد هم از نظر زمان و هم از نظر پيشبيني باشد.

5. ارزیابی نتایج و تفسیر آنها

بعد از اينکه دادههاي مورد نياز خود را جمعآوري و پردازش کرديم اکنون نوبت به اجرا و پيادهسازي چارچوب ارائه شده مـيرسد. ما اطـلاعات مورد نياز براي ارزيابي، نتيجهگيري و

تفسير نتايج را از اجرا و پيادهسازي چارچوب در نرمافزار کلمنتاين بدست ميآوريم. نمودار کلي براي اجراي اين مرحله را، ميتوان به صورت شکل 2 در نرمافزار کلمنتاين نمايش داد. اين ساختار براي هر دو مجموعه داده موجود يکسان بوده و مبنايي براي اجرا و پيادهسازي اين روشها ميباشد. در اين نمودار ابتدا مجموعه داده وارد نرمافزار
ميشود. سپس اگر نيازي به فيلتر کردن بعضي از ويژگيها باشد اقدام به فيلتر کردن ويژگي مورد نظر ميکنيم. در گره بعدي نوع دادههاي ويژگيها را براي نرمافزار مشخص
ميکنيم. مهمترين ويژگي که نوع داده آن بايد به درستي مشخص شود، ويژگي مورد پيشبيني ميباشد. گره بعدي گره پارتيشن ميباشد. اين گره وظيفه انتخاب تصادفي مجموعه آموزش (در اينجا 70% مجموعه) و مجموعه آزمايش را دارد. گرههاي بعدي چهار روش عنوان شده در چارچوب ميباشد. بعد از اين مرحله پيادهسازي خود را در اين نرمافزار اجرا ميکنيم. هر يک از روشها بعد از اجرا داراي نتايجي ميباشند که ما فقط بعضي از نتايج که براي ارزيابي چارچوب لازم است را ارائه ميکنيم. چنانچه قبلاً نيز بيان شد در هر يک از روشها قبل از اجرا به انتخاب ويژگيهاي با اهمیت ميپردازیم، نمودار شکل 3 نمونهاي از اين انتخاب ويژگيهاي با اهميت را، براي شبکه عصبي نشان ميدهد. در مقايسه این نمودارها برای هر چهار روش میتوان موارد زیر را بیان کرد :

هر يک از روشها مجموعهاي از انتخاب ويژگيهاي منحصر به خود را دارد. در اين نمودارها سوال 9 (tr9)و سوال 10 (df10)که همان موارد اضافه شده در پروفايل کاربران در اين تحقيق ميباشد داراي جايگاه خوبي ميباشند. دقت و نتيجه به دست آمده از هر روشی تا حدودي وابسته به ويژگيهاي مورد استفاده در روش
ميباشد.

شکل 2. اجراي چهار روش چارچوب در نرمافزار کلمنتاين

شکل 3. متغيرهاي با اهميت در انتخاب ويژگي براي شبکه عصبي

حال نتايج به دست آمده براي هر دو مجموعه داده اول و دوم را ارائه ميکنيم. در جدول 5 معیارهای ارزیابی [1,8,12,16,19] مورد مقایسه برای هر دو مجموعه بر مبنای چهار روش اجرا شده را میتوان مشاهده کرد.

در هر يک از مجموعه دادهها به ازاي هر روش تقريبا نتايج يکساني حاصل ميشود. در نتايج هر مجموعه داده شبکه عصبي بهترين نتيجه و پيشبيني را نسبت به ديگر روشها دارا ميباشد. در نتیجه شبکه عصبی به عنوان پایدارترین و بهترین روش می تواند مورد توجه قرار گیرد .

در پایان نمودار بهره Gain ) (براي مجموعه داده اول و مجموعه داده دوم به ترتيب در قالب نمودارهای شکل 4 و 5 برای هر چهار روش نمایش داده میشود. این نمودارها در حقیقت یک روش بصری و آماری برای کمک به درک کارآیی روشهای مطرح شده میباشد .در اين نمودارها ابتدا مجموعه داده‌ها به صد قسمت تقسيم شده و به صورت درصدی در محور افقی نمایش داده میشود، سپس به صورت تجمعي تعداد کل پیشبینیهای درست هرزنامه به ازای کل پیشبینیها در قالب نمودار در محور عمودی به صورت درصد نمایش داده میشود. این نمودارها گویای آن است که روش شبکه عصبی بهترین بهره را دارا میباشد. هر چند مي‌توان اين نمودار را به صورت نقطهاي و غيرتجمعي و با تقسيمات مختلف داده نمايش داد که از آن صرفنظر
ميکنيم.

جدول5 : معیارهای ارزیابی برای هر دو مجموعه داده:( a :هرزنامهای که به عنوان هرزنامه پیشبینی شده، d: نامه معتبری که به عنوان نامه معتبر پیشبینی شده، b:هرزنامه که به عنوان نامه معتبر پیشبینی شده(FN)، c:نامه معتبر که به عنوان هرزنامه پیشبینی شده(FP))

مجموعه داده روش \| معیار		مجموعه اول	مجموعه دوم
Accuracy	C5.0	87.87	87.17
	SVM	91.39	90.51
	BN	85.59	77.86
	NN	95.43	95.08
Error Rate	C5.0	12.13	12.83
	SVM	8.61	9.49
	BN	14.41	22.14
	NN	4.57	4.92
Rate FP	C5.0	21.6	14.5
	SVM	14.6	8.8
	BN	22.5	20.99
	NN	7.0	4.6
Spam Recall	C5.0	94.1	88.88
	SVM	95.3	89.93
	BN	90.9	76.73
	NN	97.0	94.79
Spam Precision	C5.0	86.82	86.19
	SVM	90.08	91.19
	BN	85.95	78.92
	NN	95.25	95.45

شکل 4. نمودار بهره Gain براي داده اول

6. نتیجهگیری و پیشنهاد کارهای آتی

به طور کلي در ايران در زمينه دستهبندی و پالایش نامههاي الکترونيکي در امر بازايابي و تبليغات پژوهش زيادي انجام نشده است، لذا در اين طرح سعي بر ايجاد يک ضد هرزنامه شخصي شده براي تخمين اهميت و دستهبندی نامههاي الکترونيکي تبليغاتي کاربران با توجه به رفتار. پروفایل آنها شده است. در واقع ما از سه منبع مقالات، مطالعه و بررسي نامههاي الکترونيکي تبليغاتي و نظر خبرگان براي انجام اين تحقيق استفاده کردهايم.

براي طراحي بهتر لازم بود که حوزه کاري و بعدي از تجارت الکترونيک که طراحي ضد هرزنامه براي آن صورت ميپذيرد، مشخص شود. طراحي ضد هرزنامه براي نامههاي الکترونيکي تبليغاتي که بيشتر در حوزه نامههاي الکترونيکي خاکستري قرار ميگيرد، صورت پذيرفته است. در بعد تجارت الکترونيکي، براي بازاريابي از طريق نامههاي الکترونيکي تبليغاتي و بيشتر براي بازاريابي B2C سازگار شده است. بعد از طراحی پرسشنامه، جمع آوری پاسخها، مقایسه روشها بر مبنای معیارهای ارزیابی مطرح شده و دو مجموعه داده مجزا با یکـدیگر مشـخص شد که شـبکه عصبی دارای بیشترین

شکل 5. نمودار بهره Gain براي داده دوم

دقت میباشد. این دقت و ثبات در نتایج بدست آمده از شبکه عصبی به خاطر نوع خاص روش شبکه عصبی میباشد که بر مبنای افکار انسان عمل میکند.

به طور کلی میتوان در هر چهار مرحله بیان شده طراحی نوآوریهایی دیگری در نظر گرفت. در مرحله اول میتوان دستهبندیهای دیگر و بر مبنای جامعه آماری دیگر شبیهسازی کرد. در قسمت چارچوب
میتوان از ترکیب روشهای موجود مانند رایگیری برای پیشبینی استفاده کرد. هر روش در حین انتخاب ویژگیها به صورت منحصر به فرد عمل میکند لذا هریک بسته به ویژگیهای انتخابی دقت محدودی را در همان بازه کسب میکند. با ترکیب کردن نتایج روشهای مختلف میتوان از حداکثر ویژگیهای استخراج شده بهره برد. برای دقت بیشتر میتوان از روشهای معنایی، آنتولوژی همراه با روشهای همکارانه بهره برد. برای مثال میتوان به خوشهبندی پروفایلهای کاربران پرداخت. سپس با استفاده از این خوشهبندی در مراحل مختلف اقدام به بهبود دقت چارچوب کرد.

منابع

.1 Blanzieri E., Bryl A. ,( 2008) A survey of learning-based techniques of email spam filtering, Artif Intell Rev, vol.29,pp.63–92.

.2 Cukier W. L., Cody S., Nesselroth E. J., (2006)Genres of Spam: Expectations and Deceptions, Proceedings of the 39th Hawaii International Conference on System Sciences, .

.3 Sousa p., et al,(2010) A Collaborative Approach for Spam Detection ,Second International Conference on Evolving Internet, IEEE.

.4 Raad M.,et al,(2010)Impact of spam advertisement through e-mail: A study to assess the influence of the anti-spam on the e-mail marketing, African Journal of Business Management, Vol. 4(11), pp. 2362-2367.

.5 Kim J., Dou D., Liu H., Kwak D., (2007)Constructing a User Preference Ontology for Anti-spam Mail Systems, Canadian AI 2007, LNAI 4509, pp. 272 – 283.

.6 Kakade A.G., Kharat P.K., Gupta A.K,(2013),Survey of Spam Filtering Techniques and Tools, and Map Reduce with SVM, IJCSMC, Vol. 2, Issue. 11, November 2013, pg.91 – 98.

.7 Wenxuan S.,Maoqiang X.,(2013) A Reputation-based Collaborative Approach for Spam Filtering, 2013 AASRI Conference on Parallel and Distributed Computing and Systems, Volume 5, 2013, Pages 220–227

.8 Almeida, T. A., Yamakami, A.,(2012) Facing the spammers: A very effective approach to avoid junk e-mails, Expert Systems with Applications,vol. 39 ,pp.6557–6561.

.9 Cook D., Hartnett J., Manderson K., scanlan J., (2006)catching Spam Before it Arrives: Domain Secific Dynamic Blacklists , ACM Inrenational Conference Proceeding Series; Vol.167,pp.193-202.

.10 Almeida T.A., Yamakami A.,(2010) Content-Based Spam Filtering, The 2010 International Joint Conference on Neural Networks (IJCNN), IEEE.

.11 Ying K.C., et al,(2010)An ensemble approach applied to classify spam e-mails, Expert Systems with Applications.vol 37,pp. 2197–2201.

.12 Saad O., Darwish A., Faraj R.,(2012) A survey of machine learning techniques for Spam

filtering., International Journal of Computer Science and Network ecurity, VOL.12 No.2, February.

.13 Yih W., McCann R., Kołcz A.,(2007) Improving Spam Filtering by Detecting Gray Mail, In Proceedings of the 4rd Conference on Email and Anti-Spam.

.14 Rossiter J. R., Bellman S.,(2005) “Marketing Communications” Prentice Hall, English.

.15Youn S., McLeod D.,(2009) Spam Decisions on Gray E-mail using Personalized Ontologies, Proceedings of the 2009 ACM Symposium on Applied Computing (SAC), Honolulu, Hawaii, USA, pp. 1262-1266.

.16 Guzella T.S., Caminhas W.M.,(2009) A review of machine learning approaches to Spam filtering , Expert Systems with Applications,vol. 36,pp.10206–1022.

.17Saad O.,Darwish A.,faraj R.,(2012)A survey of machine learning techniques for Spam filtering., International Journal of Computer Science and Network security, VOL.12 No.2, February.

.18 Dwork C., Naor M.,(1992) Pricing via processing or combatting junk mail, In Advances in Cryptology - Crypto 92 Proceedings, Springer Verlag, pp 139–147.

.19 SHI L., WANG Q. , MA X. , WENG M. , QIAO H.,( 2012) Spam Email Classi_cation Using Decision Tree Ensemble, Journal of Computational Information Systems,vol. 8: 3,pp. 949–956.

.20 Spam definition.(2012)Availabe at http://en.wikipedia.org/wiki/Spam_(electronic) .

.21 GrayEmail definition,( 2012) Availabe at http://en.wikipedia.org/wiki/Graymail_(email).

.22 Ravi J., Shi W., Xu C., (2005)Personalized Email Management at Network Edges, IEEE Internet Computing, Vol.9(2) ,pp.54-60.

.23 Nicola L.,( 2004) European union vs. spam: A legal response, In Proceedings of the First Conference on Email and Anti-Spam, CEAS’2004.

.24Rafiqul I., Jemal A.,(2013) A multi-tier phishing detection and filtering approach, Journal of Network and Computer Applications, Volume 36, Issue 1, January 2013, Pages 324–335.

[1] Electronic Mail

[2] Electronic Commerce

[3] Email marketing

[4] Spam

[5] Legitimate , Ham

[6] Unsolicited E-mail

[7] False Psitive

[8] False Negative

[9] Anti-spam

[10] Filter

[11] Gray , Grey

[12] Personalized Anti-spam

[13] Profile

[14] Clementine 12.0

[15] Machine learning

[16] Sousa and et al.

[17] Collaborative

[18] Peer-to-peer

[19] Ravi and et al.

[20] Server

[21] Yih and et al.

[22] Term Frequency- Inverse Document Frequency

[23] Accuracy

[24] Kim and et al.

[25] Human Expert

[26] Bayesian network

[27] neural network

[28] decision tree

[29] support vector machines

[30] Header

[31] Bodey

[32] Subject

[33] General structure

[34] Rossiter and Bellman .(2005)

[35] Multilayer Perceptron

اشتراک گذاری

آدرس مقاله

ارائه روشی مناسب برای دسته بندی نامه های الکترونیکی تبلیغاتی بر مبنای پروفایل کاربران

رایمگ

پیوندهای سایت

مراکز مرتبط

پشتیبانی

صفحات رسمی