بهبود سیستمهای توصیه¬گر با کمک وب معنایی
الموضوعات :راحله بهشتی نژاد 1 , محمد ابراهیم سمیع 2 , علی حمزه 3
1 - مهندسی فناوری اطلاعات، دانشگاه شیراز
2 - عضو هیات علمی
3 - استاد دانشگاه
الکلمات المفتاحية: سیستم های توصیهگر , وب معنایی , هستانشناسی , DBpedia,
ملخص المقالة :
بشر در زندگي خود به منظور تامین مایحتاج زندگی، همواره از مشاوره و پيشنهادهای ديگران که بهصورت شفاهي و يا نوشتاري ارائه ميشوند، بهره گرفته و آنها را در تصميمگیریهای خود لحاظ مینماید. امروزه با پيشرفت فنّاوری و گسترش کسب و کار الکترونيکي در بستر وبسايت هاي اينترنتي، فصل جدیدی از زندگی دیجیتال به کمک سيستمهاي توصيهگر آغاز گردیده است. مهمترین هدف در اين سيستمها، جذب مشتريان و جلب اعتماد آن ها از طريق ارائه بهترين و مناسبترین پيشنهاد خريد محصولات، با توجه به علايق و سلايق آن ها در میان انبوهی از انتخاباتها ميباشد. در اين پژوهش سعی گردیده است، به کمک ارتباطات موجود در هستانشناسی DBpedia، اطلاعاتی در ارتباط با حوزه فیلم استخراج گردد. سپس ساختار سيستم توصيهگر طراحی و پیادهسازی شده و به کمک اطلاعات موجود برروی پایگاه داده MovieLens، عملکرد سيستم توصيهگر مورد ارزیابی قرار گرفته است. بنابر ارزیابیهای انجام شده، مدل پیشنهادی در میان سایر روش هایی که به نحوی از وب معنایی بهره می برند، از کارایی بالاتری برخوردار است.
1. H. Shimazu, “ExpertClerk: navigating shoppers’ buying process with the combination of asking and proposing,” in Proceedings of the 17th international joint conference on Artificial intelligence-Volume 2, 2001, pp. 1443–1448.
2. M. Perkowitz and O. Etzioni, “Adaptive web sites,” Commun. ACM, vol. 43, no. 8, pp. 152–158, 2000. 1. B. Heitmann and C. Hayes, “Using Linked Data to Build Open, Collaborative Recommender Systems,” in AAAI Spring Symposium: Linked Data Meets Artificial Intelligence, 2010, pp. 76–81.
3. ن. . . ﻣﻘﺪم ﭼﺮﻛﺮي آرش ﻧﻴﻚ ﻧﻔﺲ ﻋﻠﻲ اﻛﺒﺮ ﻧﻴﻚ ﻧﻔﺲ, “ﺳﻴﺴﺘﻢ ﺗﻮﺻﻴﻪ ﮔﺮ ﻣﺒﺘﻨﻲ ﺑﺮ روش PROMETHEE II ﺑﺮايدﺳﺘﻪ ﻫﺎيﻣﺨﺘﻠﻒاﻗﻼم ﺑﺎ ﺗﻜﺮار ﺧﺮﻳﺪ ﭘﺎﻳﻴﻦ,” 14امین کنفرانس ملی سالانه انجمن کامپیوتر ایران. تهران, 2009.
4. S. E. Middleton, D. De Roure, and N. R. Shadbolt, “Ontology-based recommender systems,” in Handbook on Ontologies, Springer, 2009, pp. 779–796.
5. T. Di Noia, R. Mirizzi, V. C. Ostuni, and D. Romito, “Exploiting the web of data in model-based recommender systems,” in Proceedings of the sixth ACM conference on Recommender systems, 2012, pp. 253–256.
6. M. Pazzani and D. Billsus, “Content-based recommendation systems,” Adapt H. Shimazu, “ExpertClerk: navigating shoppers’ buying process with the combination of asking and proposing,” in Proceedings of the 17th international joint conference on Artificial intelligence-Volume 2, 2001, pp. 1443–1448.
7. M. Perkowitz and O. Etzioni, “Adaptive web sites,” Commun. ACM, vol. 43, no. 8, pp. 152–158, 2000. 1. B. Heitmann and C. Hayes, “Using Linked Data to Build Open, Collaborative Recommender Systems,” in AAAI Spring Symposium: Linked Data Meets Artificial Intelligence, 2010, pp. 76–81.
8. ن. . . ﻣﻘﺪم ﭼﺮﻛﺮي آرش ﻧﻴﻚ ﻧﻔﺲ ﻋﻠﻲ اﻛﺒﺮ ﻧﻴﻚ ﻧﻔﺲ, “ﺳﻴﺴﺘﻢ ﺗﻮﺻﻴﻪ ﮔﺮ ﻣﺒﺘﻨﻲ ﺑﺮ روش PROMETHEE II ﺑﺮايدﺳﺘﻪ ﻫﺎيﻣﺨﺘﻠﻒاﻗﻼم ﺑﺎ ﺗﻜﺮار ﺧﺮﻳﺪ ﭘﺎﻳﻴﻦ,” 14امین کنفرانس ملی سالانه انجمن کامپیوتر ایران. تهران, 2009.
9. S. E. Middleton, D. De Roure, and N. R. Shadbolt, “Ontology-based recommender systems,” in Handbook on Ontologies, Springer, 2009, pp. 779–796.
10. T. Di Noia, R. Mirizzi, V. C. Ostuni, and D. Romito, “Exploiting the web of data in model-based recommender systems,” in Proceedings of the sixth ACM conference on Recommender systems, 2012, pp. 253–256.
11. M. Pazzani and D. Billsus, “Content-based recommendation systems,” Adapt H. Shimazu, “ExpertClerk: navigating shoppers’ buying process with the combination of asking and proposing,” in Proceedings of the 17th international joint conference on Artificial intelligence-Volume 2, 2001, pp. 1443–1448.
12. M. Perkowitz and O. Etzioni, “Adaptive web sites,” Commun. ACM, vol. 43, no. 8, pp. 152–158, 2000.
13. B. Heitmann and C. Hayes, “Using Linked Data to Build Open, Collaborative Recommender Systems,” in AAAI Spring Symposium: Linked Data Meets Artificial Intelligence, 2010, pp. 76–81.
14. ن. . . ﻣﻘﺪم ﭼﺮﻛﺮي آرش ﻧﻴﻚ ﻧﻔﺲ ﻋﻠﻲ اﻛﺒﺮ ﻧﻴﻚ ﻧﻔﺲ, “ﺳﻴﺴﺘﻢ ﺗﻮﺻﻴﻪ ﮔﺮ ﻣﺒﺘﻨﻲ ﺑﺮ روش PROMETHEE II ﺑﺮايدﺳﺘﻪ ﻫﺎيﻣﺨﺘﻠﻒاﻗﻼم ﺑﺎ ﺗﻜﺮار ﺧﺮﻳﺪ ﭘﺎﻳﻴﻦ,” 14امین کنفرانس ملی سالانه انجمن کامپیوتر ایران. تهران, 2009.
15. S. E. Middleton, D. De Roure, and N. R. Shadbolt, “Ontology-based recommender systems,” in Handbook on Ontologies, Springer, 2009, pp. 779–796.
16. T. Di Noia, R. Mirizzi, V. C. Ostuni, and D. Romito, “Exploiting the web of data in model-based recommender systems,” in Proceedings of the sixth ACM conference on Recommender systems, 2012, pp. 253–256.
17. M. Pazzani and D. Billsus, “Content-based recommendation systems,” Adapt web, 2007.
18. J. Breese, D. Heckerman, and C. Kadie, “Empirical analysis of predictive algorithms for collaborative filtering,” Proc. Fourteenth …, 1998.
19. A. Passant, “Dbrec—music recommendations using DBpedia,” Semant. Web–ISWC 2010, 2010.
20. J. Lees-Miller and F. Anderson, “Does Wikipedia Information Help Netflix Predictions?,” Mach. Learn. …, 2008.
21.L. Buriano and M. Marchetti, “The role of ontologies in context-aware recommender systems,” … , 2006. MDM 2006. …, 2006.
22.A. Sieg, B. Mobasher, and R. Burke, “Ontology-based collaborative recommendation,” Computing, 2010. Netflix Predictions?,” Mach. Learn. …, 2008.
23. G. Salton and C. Yang, “On the specification of term values in automatic indexing,” J. Doc., 1973.
24. I. Witten, E. Frank, and M. Hall, Data Mining: Practical Machine Learning Tools and Techniques: Practical Machine Learning Tools and Techniques. 2011.
25. A. Unler and A. Murat, “A discrete particle swarm optimization method for feature selection in binary classification problems,” Eur. J. Oper. Res., 2010.
26. P. Hitzler, M. Krotzsch, and S. Rudolph, Foundations of semantic web technologies. 2011.
بهبود سیستمهای توصیهگر با کمک وب معنایی
فصلنامه علمي- پژوهشي فناوري اطلاعات و ارتباطات ایران | سال نهم، شمارههاي 31 و 32، بهار و تابستان 1396 صص: 56- 45 |
|
بهبود سیستمهای توصیهگر با کمک وب معنایی
*راحله بهشتینژاد **محمدابراهیم سمیع ***علی حمزه
* کارشناسی ارشد مهندسی فناوری اطلاعات، دانشگاه شیراز
** هیات علمی دانشگاه جهرم، گروه مهندسی فناوری اطلاعات
*** هیات علمی دانشگاه شیراز، دانشکده مهندسی برق و کامپیوتر
تاریخ دریافت: 24/03/1393 تاریخ پذیرش: 09/04/1396
چكيده
بشر در زندگي خود به منظور تامین مایحتاج زندگی، همواره از مشاوره و پيشنهادهای ديگران که بهصورت شفاهي و يا نوشتاري ارائه ميشوند، بهره گرفته و آنها را در تصميمگیریهای خود لحاظ مینماید. امروزه با پيشرفت فنّاوری و گسترش کسب و کار الکترونيکي در بستر وبسايتهاي اينترنتي، فصل جدیدی از زندگی دیجیتال به کمک سيستمهاي توصيهگر آغاز گردیده است. مهمترین هدف در اين سيستمها، جذب مشتريان و جلب اعتماد آنها از طريق ارائه بهترين و مناسبترین پيشنهاد خريد محصولات، با توجه به علايق و سلايق آنها در میان انبوهی از انتخاباتها ميباشد. در اين پژوهش سعی گردیده است، به کمک ارتباطات موجود در هستانشناسی DBpedia، اطلاعاتی در ارتباط با حوزه فیلم استخراج گردد. سپس ساختار سيستم توصيهگر طراحی و پیادهسازی شده و به کمک اطلاعات موجود برروی پایگاه داده MovieLens، عملکرد سيستم توصيهگر مورد ارزیابی قرار گرفته است. بنابر ارزیابیهای انجام شده، مدل پیشنهادی در میان سایر روشهایی که به نحوی از وب معنایی بهره میبرند، از کارایی بالاتری برخوردار است.
واژههای کلیدی: سیستم های توصیهگر1، وب معنایی2، هستانشناسی3، DBpedia.
|
[1] Recommender System
[2] Semantic Web
[3] Ontology
مقدمه
پیشرفت سریع فناوری اطلاعات و ارتباطات، شبکه ارتباطی جهانی را با افزایش حجم اسناد دیجیتال روبرو کرده است. در این عصر، به دلیل سادگی امکان انتشار اطلاعات در وب و دسترسی بیش از دو سوم از مردم جهان به اینترنت، انسانها به استفاده، تولید و نشر بیش از پیش اطلاعات میپردازند [1]. این افزایش منابع اطلاعاتی، تعداد انتخابهای ممکن هر فرد را برای یافتن منابع مورد نیازش افزایش میدهد. همچنین به دلیل وجود انتخابهای مختلف با کیفیتهای متفاوت برای هر مورد خاص، سازماندهی نامرتب اطلاعات موجود در وب، تغییرات سریع این اطلاعات و کمبود زمان لازم برای بررسی این منابع، مخصوصاً از نظر میزان صحت اطلاعات هر منبع، تصمیمگیری افراد برای گزینش بهترین مرجع با مشکلات بسیاری همراه شده است. در این حالت، حجم اطلاعات در دسترس کاربران وب به حدی زیاد است که قابلیت تصمیمگیری و یا بهروزرسانی اطلاعات، راجع به یک موضوع خاص از کاربران سلب میشود. این مشکل که ناشی از پیشرفت سریع فناوری اطلاعات است را گرانباری اطلاعات1 مینامند[2].
برای حل این مشکل، روشها و ایدههای متنوعی از جمله موتورهای جستجو، خوراک وب2 و وب سایتهای تطبیقی [2] پیشنهاد شدهاند که به کاربران برای یافتن، دسترسی، بهرهبرداری و سازماندهی اطلاعات برخط کمک میکنند. راه حل دیگر برای مسئله گرانباری اطلاعات، روشهای شخصیسازی است. سیستمهای شخصیساز که از یک سیستم توصیهگر3 بهره میبرند، سعی بر تنظیم پویای صفحات وب بر اساس علائق شخصی کاربران4 دارند.
در فصل اول این مقاله ابتدا به تعاریف مورد نیاز در این حوزه میپردازیم. درفصل دوم، پیشینه تحقیق و پژوهشهای انجام شده در این زمینه مورد بررسی قرار میگیرد. در فصل سوم به تفصیل، روش پیشنهادی و نحوه پیادهسازی آن بیان گردیده است. فصل چهارم به ارزیابی مدل پیشنهادی پرداخته و نتایج آن در مقایسه با آخرین پژوهش صورت گرفته در این زمینه بیان گردیده است. فصل پنجم به نتیجهگیری و فصل ششم به فعالیتهای آتی پیش رو پرداخته است.
1- تعاریف
2- سیستمهای توصیهگر
در راستای پاسخ به نیاز سیستمهای شخصیساز و خصوصاً با رشد و همهگیر شدن آنها، سیستمهای توصیهگر مطرح شدند. این سیستمها را میتوان فنّاوری شخصیسازی شده، برای فیلتر کردن اطلاعات دانست.
در سيستمهاي توصيهگر تلاش بر اين است تا با حدس زدن شيوه تفکر کاربر (به کمک اطلاعاتي که از نحوهی رفتار کاربر يا کاربران مشابه وي، نظرات آنها و اطلاعاتی که از اقلام5 متفاوت وجود دارد)، مناسبترين و نزديکترين کالا به سليقه او شناسايي و پيشنهاد گردد.
سیستمهای توصیهگر برای ارائه توصیههای خود نیازمند به سه جزء اصلی هستند:
دادههای زمینه: اطلاعاتی که سیستم پیش از شروع فرآیند توصیه در اختیار دارد.
دادههای ورودی: اطلاعاتی که در مورد کاربر در حین فرآیند توصیه به سیستم وارد میشود.
الگوریتم توصیه: فرآیندی که با کمک دادههای زمینه و ورودی، به کاربر توصیه میدهد. الگوریتمهای مختلف توصیه، نیازمند دادههای زمینه و ورودی متفاوتی برای ارائه توصیه هستند [3].
الگوریتم ﺳﻴﺴﺘﻢ ﻫﺎي ﺗﻮﺻﻴﻪ ﮔﺮ ﺑﻪ ﺳﻪ دﺳﺘﺔ اﺻﻠﻲ ﺗﻘﺴﻴﻢ میشوند [4]:
مبتنی بر ﻣﺤﺘﻮا، ﻓﻴﻠﺘﺮﻳﻨﮓ ﺗﺠﻤﻌﻲ (CF) و ﺳﻴﺴﺘﻢ ﻫﺎي ﺗﺮﻛﻴﺒﻲ. ﺳﻴﺴﺘﻢ ﻫﺎي ﻣﺒﺘﻨﻲ ﺑﺮ ﻓﻴﻠﺘﺮﻳﻨﮓ ﻧﻴﺰ ﺑﻪ دو دﺳﺘﺔ ﻛﺎرﺑﺮ ﻣﺤﻮر و ﻛﺎﻻ ﻣﺤﻮر ﺗﻘﺴﻴﻢ میشوند.
سیستم مبتنی بر محتوا، توصیهها را بر اساس میزان شباهت بین اقلام ارائه میکند بهطوری که شبیهترین اقلام به
آنهایی را که کاربر قبلاً به آنها رأی6 مثبت داده و یا آنها را انتخاب کرده است به وی توصیه میشود. امروزه این روش به این دلیل که توصیهها را محدود کرده و در معیار انتخاب، فقط ویژگی اقلام را در نظر میگیرد، کمتر مورد توجه محققان قرار گرفته است. از سوی دیگر سیستمهای مبتنی بر فیلترینگ اشتراکی که امروزه خیلی کاربرد دارند، شبیهترین کاربران به کاربر مورد نظر را با روشهایی پیدا کرده و بر اساس رأی آن افراد به اقلام مختلف، پرطرفدارترین اقلام را به کاربر توصیه میکنند. در
سیستمهای مبتنی بر فیلترینگ اشتراکی، اطلاعات مربوط به رأی هر کاربر به هر قلم جنس و یا خرید یا عدم خرید جنس توسط کاربر وجود دارد؛ و الگوریتم بهکار گرفته شده باید بر مبنای این اطلاعات بتواند به یک کاربر فعال7 بر اساس تقاضایی که به سیستم داده است، توصیههای دیگری نیز بدهد. علاوه بر این، در بسیاری از سیستمها، از فیلترینگ اشتراکی برای پیشگویی8 یک مقدار رأی ناشناخته9، بر اساس بقیه رأیها استفاده میشود.
1-2- وبمعنایی
موج اول پیشرفت وب شامل ارائه حداکثر اطلاعات ممکن به شکلی بود که بتواند بهصورت مستقیم در قالب زبان نشانهگذاری فرامتن10 برای مخاطب نمایش داده شود. بانکهای اطلاعاتی هر روز بیش از پیش تلاش میکنند تا اطلاعات را به شکلی تولید نمایند که قبل از نمایش برای کاربر، توسط دیگر رایانهها قابل خواندن و پردازش باشد. آنها برای برچسبگذاری دادهها، بهجای زبان نشانهگذاری فرامتن از زبان نشانهگذاری توسعهپذیر11 بهره میبرند و برخی از آنها بهمنظور استانداردسازی قالب محتوا، به نحوی که صرفنظر از کاربرد نهایی، توسط رایانهها نیز قابل خواندن باشد به استفاده از چارچوب توصیف سند12 روی آوردهاند.
در موج جدید پیشرفت تلاش میشود تا هر شیء اطلاعاتی موجود در جهان اطلاعات، بهواسطه موضوع، محل، پدیدآورنده، تاریخ و دیگر ویژگیهایش توصیف شود. این نوع اطلاعات پیشتر تنها در یک بانک اطلاعاتی ذخیره میشد اما اکنون ممکن است در یک سند ذخیره شود.
این موج تازه پیشرفت را «وب معنایی» مینامند. وب معنایی شیوهای است برای ایجاد یک وب که در آن رایانهها
میتوانند از شبکهای از دادههای منبع استفاده کرده، آنها را تعبیر، تحلیل و پردازش کرده و به کاربر ارائه نمایند. این امر ممکن است از بازیابی اسناد گرفته تا جمعبندی عناصر برنامهای مختلف برای خلق یک نرمافزار کاربردی را دربر گیرد [5].
با فراگیر شدن موج وب معنایی، حجم کثیری از اطلاعات به قالبهای سازگار با وب معنایی تبدیل شدهاند و بسیاری از اطلاعات جدید تولید شده نیز تنها با این قالب قابل دسترس هستند. برای دسترسی به این حجم عظیم اطلاعات، نیازمند نرمافزارها و ابزارهایی هستیم که بتوانند اطلاعات را از این پایگاه دادههای بزرگ استخراج کرده و مورد پردازش قرار دهند.
سیستمهای توصیهگر نیز از این قضیه مستثنا نبوده و میبایست خود را با این موج هماهنگ کنند. در غیر این صورت از اطلاعات پروفایل کاربران و اطلاعات پایگاه دادههای اقلامی که تحت قالب وب معنایی هستند، بیاستفاده خواهند ماند و این خود، با افزایش حجم این نوع اطلاعات، باعث کاهش کارایی سیستمهای توصیهگر خواهد شد [6].
حوزهی مفاهیم موجود در بسیاری از سیستمهای توصیهگر فعلی، محدود به دانش موجود در خود سیستم بوده و از منابع عظیم دانش خارج از سیستم، مانند دادههایی که در قالب وبمعنایی هستند و دادههای پیوندی13 استفاده نمیشود [6].
اما این اضطرار علاوه بر همگام شدن با تغییرات پایگاه دادهها، فوایدی نیز برای سیستمهای توصیهگر دارد. ارتباط معنایی میان هستانها14 در وبمعنایی، موجب افزایش ارتباطات معنادار میان علایق کاربران و اقلام مورد نیاز آنها، افزایش ارتباطات معنادار میان کاربران با سلایق مشابه، میان اقلام با ویژگیهای مشابه و... میشود که این موضوع باعث پاسخگویی سیستمهای توصیهگر با سطح بالاتری از هوشمندی میگردد.
از اوایل دهه نود بحث سیستم های توصیهگر و ویژگیهای آنها مطرح گردید. امروزه سعی در ساخت سیستمی توصیهگر با درصد خطای کم و سرعت بالا در تمام شرایط به یکی از پرطرفدارترین حوزههای تحقیقاتی دانشگاهی تبدیل شده است.
اما استفاده از وب معنایی بهعنوان پایگاه دانش برای سیستمهای توصیهگر یک ایده کاملاً ابتکاری و جدید است. روشهای بسیاری برای افزایش سرعت و کارایی و کاهش خطا در مقابله با مسائل شناخته شده از سیستمهای
توصیهگر پیشنهاد شده است که همه آنها بر اساس مبتنی بر محتوا [7] و فیلترینگ اشتراکی [8] یا روشهای ترکیبی میباشند.
از طرفی دیگر تعداد زیادی روش، برای مقابله با مسائل شناخته شده در سیستمهای توصیهگر پیشنهاد شده است اما تعداد کمی از آنها وجود دارند که از مقدار عظیم اطلاعات کدگذاری شده در دادههای وب معنایی بهرهبرداری میکنند[6].
یکی از روشهایی که از اطلاعات عظیم در وب معنایی استفاده کرده است، روش فاصله معنایی دادههای پیوند شده (LDSD ) است. این روش که در سال 2010 توسط پاسنت ارائه گردید، از DBpedia بهعنوان منبع اطلاعات برای محاسبه توصیهها استفاده کرده است.
در مقاله وی زمینههای نظری و همچنین پیادهسازی یک سیستم توصیهگر تحت عنوان dbrec که یک سیستم توصیهگر موسیقی بر مبنای DBpedia است شرح داده شده است که توانایی توصیه نمودن 39000 هنرمند یکتا را دارد. انگیزه این مقاله این است که بتواند معیار فاصله معنایی را روی منابع منتشر شده روی وب بهعنوان دادههای پیوند شده اعمال نماید؛ بنابراین برای رسیدن به این هدف روش فاصله معنایی دادههای پیوند شده (LDSD) را تعریف میکند تا بتواند فاصله دو منبع منتشر شده در دادههای پیوند شده را که در فاصله [0,1] نرمال شدهاند، محاسبه نماید. در این مقاله تنها فاصله معنایی منابعی محاسبه میشود که به طور مستقیم باهم پیوند داده شدهاند یا حداکثر توسط منبع سومی باهم پیوند داده شده باشند.
نکته قابل توجه در روش ذکر شده توسط پاسنت این است که گسترش معنایی دادهها در این روش مورد استفاده قرار نگرفته است. در حالی که گسترش معنایی مفاهیم، کیفیت کلی نتایج را بهبود میبخشد. همچنین در این روش تنها بر روی منابع اطلاعاتی موسیقی کار شده است [9].
میلر و همکارانش نیز در سال 2008 از محتوای متن و ساختار پیوند صفحات ویکیپدیا استفاده کردهاند تا به شناسایی شباهت بین فیلمها برای وب سایت توصیهگر فیلم Netflix Prize بپردازند. با توجه به ساختار بسیار ناقصی که مقالات ویکیپدیا دارند، استخراج اطلاعات مفید از آن بسیار دشوار است. این رویکرد تنها بر اساس متن بدون ساختار و ابر پیوند است و نتوانسته دقت سیستم را بهبود بخشد [10].
هیتمن و هایس نیز در سال 2010 استفاده از دادههای وب معنایی را برای کاهش مسائل به خوبی شناخته شده از سیستمهای توصیهگر پیشنهاد کردهاند. از جمله مشکل بزرگ جمعآوری داده15 برای سیستمهای توصیهگر مانند کاربر جدید، قلم جدید و مشکلات تنکی داده16. مشکل کاربر جدید زمانی رخ میدهد که اطلاعاتی در مورد کاربر جدید وارد شده به سیستم نداریم. مشکل قلم جدید نیز زمانی رخ میدهد که اطلاعاتی در مورد قلم جدید وارد شده به سیستم نداریم. ترکیب هردو مشکل کاربر جدید و قلم جدید نیز با عنوان شروع سرد17 شناخته میشود. اگر تعداد رتبههایی که کاربران سیستم به اقلام دادهاند از تعداد اقلام بسیار کمتر باشد با مشکل تنکی دادهها مواجه هستیم. در این روش، آنها شرح دادهاند که چگونه میتوان انبوهی از دادههای شیءگرا را از منابع مختلف جمعآوری کنیم، آنها را پردازش کنیم و در سیستمهای توصیهگر تجمعی مورد استفاده قرار دهیم. هیتمن و هایس برای ارزیابی روش پیشنهادیشان، دادههای خود را از یک سیستم توصیهگر موسیقی مبتنی بر فیلترینگ جمعی بسته جمعآوری
نمودهاند. سپس با کمک دادههای پیوند شده باز18 موفق شدهاند، میزان کارایی و دقت سیستم اولیه را بهبود بخشند. اما وجود ناسازگاری در منابع باز مختلف باعث بالا رفتن هزینه استفاده از آنها میشود و ماهیت استفاده از این روش را به چالش میکشد.
تعدادی از مطالعات نیز تنها به بررسی نظری فواید استفاده از هستانشناسیها در سیستمهای توصیهگر پرداختهاند. در این میان لوکا باریانو و همکارانش در سال 2006 نتایج تحقیقاتشان را در مورد نقش هستانشناسیها در
سیستمهای توصیهگر زمینه آگاه19 و سیار منتشر کردند. آنها اثبات کردهاند که انطباق هستانشناسیها برای مدل کردن دامنه اطلاعات، یک قسمت ضروری برای طراحی سیستمهای توصیهگر زمینه آگاه در آینده است و میتواند موجب ارائه توصیههای بهتری به کاربران گردد [11].
همچنین در سال 2010 آهو سیگ، بامشاد مباشر و روبین بورک، یک سیستم توصیهگر ترکیبی حساس بر زمینه جمعی را پیشنهاد دادند که از دانش معنایی در قالب دامنه هستانشناسی بهره میبرد و در آن پروفایل کاربر، مبتنی بر هستانشناسی است. در این مقاله ذکر شده است که چگونه پروفایل کاربر مبتنی بر هستانشناسی یاد میگیرد، مرتباً بهروز میشود و در سیستم توصیهگر جمعی به کار برده میشود.
نویسندگان مقاله بهصورت تجربی بر روی دامنهی کتاب در دادههای طبقه بندی شده در آمازون، نشان دادهاند که روشهای مبتنی بر هستانشناسی به طور قابل توجهی دقت و تعداد توصیهها را در مقایسه با سیستم فیلترینگ جمعی استاندارد بهبود میبخشد؛ و میتواند تا حدودی مشکل شروع سرد را در این نوع سیستمهای توصیهگر مرتفع نماید [12]. در این روش صرف ساخت و استفاده از هستانشناسی برای اطلاعات پروفایل کاربران مد نظر قرار گرفته است و اطلاعات کتاب همچنان به صورت یک پایگاه داده ثابت میباشد. جدیدترین تحقیقات در این زمینه نیز در سال 2012 توسط توماسو دای نویا انجام گرفته است. وی یک سیستم توصیهگر مبتنی بر مدل معرفی کرده است که از ابر دادههای پیوند شده باز20 مانند DBpedia و LinkedMDB به عنوان منبع اطلاعات مبتنی بر وب معنایی برای استخراج اطلاعات کاربران و اقلام بهره میجوید.
در این روش گراف RDFای که دامنه مورد نظر نویسنده را اغنا میکند به بردارهای ویژگی که مناسب برای کار دستهبندی هستند تبدیل میشوند. نتایج این پژوهش حاکی از بهبود نتایج توصیهها نسبت به بسیاری از روشهای قبلی مانند سیستمهای مبتنی بر محتوا و فیلترینگ تجمعی است. نویا معتقد است که یکی از چالشهای مهم پیش روی سیستمهای توصیهگر نیاز آنها به استفاده از دادههایی است که درقالب وب معنایی منتشر میشوند. در این پژوهش بر میزان انطباق سیستمهای مبتنی بر مدل با منابعی که از طریق وب معنایی استخراج میشوند تاکید شده است[6]. نکتهای که در این مقاله کمتر به آن توجه شده است انتخاب ویژگیهای مناسب یرای بهبود پاسخهای دریافت شده از سیستم توصیهگر میباشد، همچنین عدم توجه در استفاده از ویژگیهای ترکیبی مانع رسیدن به پاسخ مطلوب شده است.
در این پژوهش ما یک سیستم توصیهگر مبتنی بر مدل را معرفی میکنیم که بهجای دادههای استاندارد زمینه خود، از دادههای پیوند شده درDBpedia استفاده میکند. در این روش ما گراف سهتاییهای RDF21 استخراج شده ازDBpedia را به بردارهای ویژگی تبدیل میکنیم تا بتوانیم بهراحتی از تکنیکهای یادگیری ماشین و به طور خاص SVM استفاده نماییم.
سپس برای هر قلم22 (هر فیلم موجود در دامنه) از مجموعه دامنه فیلم و برای هر ویژگی آن (نظیر کارگردان، نویسنده، بازیگران و...)، مجموعه منابعی (به طور مثال تمام بازیگران ستاره یک فیلم یا تمامی نویسندگان آن) که به آن ویژگی پیوند داده شدهاند را استخراج نماییم؛ بنابراین هر قلم با یک بردار چند بعدی در فضا نشان داده میشود که هر بعد آن به یک منبع از منابع موجود مربوط است. سپس برای همهی ویژگیها، هر قلم با یک بردار وزن منحصر به فرد نمایش داده میشود که وزن هر بردار به میزان ارتباط میان قلم و منبع، بر اساس ویژگی مدنظر است. وزنها با کمک معیار TF-IDF23 محاسبه گشتهاند.
پیادهسازی طرح پیشنهادی
در این طرح از مجموعه دادههای مربوط به DBPedia استفاده گردیده است. اطلاعات مورد نظر را از DBPedia با استفاده از زبان SPARQL24 میتوان مورد جستجو قرار داد. دادههای پایگاه داده DBPedia به عنوان
هستانشناسی فیلم در نظر گرفته شدهاند. این پایگاه داده شامل همه کلاسها، خصیصهها و افراد استخراج شده از ویکیپدیا است. به همین دلیل میتواند به عنوان یک هستانشناسی کامل از مفاهیم فیلم در نظر گرفته شود و برای طرح حاضر بسیار مفید خواهد بود.
زبان برنامهنویسی انتخاب شده برای اجرای این طرح زبان Java با پلتفرم Eclipse میباشد. به همین دلیل کتابخانهای که برای کار با هستانشناسی انتخاب میشود باید بر مبنای Java باشد. با بررسی انجام شده کتابخانهای کامل حاوی کلاسها و توابع لازم برای کار با یک
هستانشناسی به نام Jena انتخاب شده است؛ که این کتابخانه بهصورت متن باز در اختیار عموم قرار دارد.
برای شروع میبایست URL فیلمهایی که در پایگاه داده MovieLens در مورد آنها نظر داده شده است، مورد جستجو قرار گیرد. بدین منظور، نام فیلمهای مشترک در مجموعه داده فیلم پایگاه داده MovieLens و
هستانشناسی DBPedia مورد جستجو قرار گرفت و آدرس URLهای فیلمها در هستانشناسی DBPedia استخراج گردید.
به کمک زبان برنامه نویسی Java و کتابخانه کار با اجزا وب معنایی Jena و زبان SPARQL برنامهای نوشته شد که با برقراری ارتباط با هستانشناسی DBPedia برای هر URL فیلم استخراج شده در مرحله قبل، به ترتیب اطلاعات زیر استخراج گردید:
1. نام کارگردان فیلم؛
2. نام بازیگران اصلی فیلم؛
3. نام کشور تولید کننده فیلم.
سپس به کمک اطلاعات بهدست آمده، مجموعه دادههای زیر استخراج گردیدند. بدین گونه که در صورتی که فیلم مورد نظر خصیصهای را داشته باشد، برای آن خصیصه مقدار یک و در غیر این صورت مقدار صفر میگیرد.
مجموعه داده فیلم بر اساس کشور سازنده فیلم.
مجموعه داده فیلم بر اساس کارگردان فیلم.
مجموعه داده فیلم بر اساس بازیگران اصلی فیلم.
مجموعه داده فیلم بر اساس بازیگران اصلی و کارگردان فیلم.
سپس زیر برنامهای در محیط برنامه نویسی Matlab جهت محاسبه وزن خصیصههای هریک از مجموعه دادههای مرحله قبل بر اساس سیستم وزن دهی TF-IDF نوشته شد و بر روی هریک از مجموعه دادههای مرحله قبل اعمال گردید.
روش TF-IDF که از رایجترین روشهای وزندهی
ویژگیها به شمار میرود، حاصل ترکیب روشهای مبتنی بر TF و روشهای مبتنی بر IDF است. که به صورت زیر محاسبه میشود [13].
ارزیابی طرح پیشنهادی
جهت ارزیابی روش پیشنهادی نیازمند حجم وسیعی از اطلاعات مربوط به نظرات کاربران مختلف در مورد فیلمهای مختلف میباشیم. وب سایت MovieLens یک وب سایت بسیار قوی و مشهور در زمینه توصیه فیلم است. در این سایت کاربران با نظر دادن به فیلمهایی که تاکنون دیدهاند به کمک سیستمهای توصیهگر مبتنی بر فیلترینگ جمعی، توصیههایی را در مورد فیلمهایی که میتواند مورد علاقهشان باشد، دریافت میکنند. این سایت هزاران کاربر دارد و میلیونها نظر آنان را در مورد فیلمهایی که دیدهاند گردآوری نموده است؛ و جهت توسعه دانش موجود در زمینه سیستمهای توصیهگر، این اطلاعات را به رایگان منتشر نموده است.
جهت ارزیابی روش مدنظر پایگاه داده ای از نظرات کاربران در مورد فیلم ها از وب سایت MovieLens دریافت شده که شامل یک میلیون نظر از 6000 کاربر در مورد 4000 فیلم است. در این پایگاه داده هر کاربر حداقل در مورد 20 فیلم نظر داده است.
بیان این نکته حائز اهمیت است که ما رتبههای بین یک تا پنج کاربران را به حالت باینری تبدیل نمودیم، بدینگونه که رتبههای 1 تا 3 را برابر 0 که نشان از عدم علاقه کاربر و 4 و 5 را برابر 1 که نشان از علاقه کاربر است قرار دادیم.
سپس زیربرنامهای در محیط برنامهنویسی Matlab جهت تهیه یک مجموعه داده برای هر کاربر نوشته شد که در هر سطر این مجموعه داده، خصیصههای فیلمهایی که کاربر در مورد آنها نظر داده است، با استفاده از مجموعه دادههای ساخته شده در مرحله پیادهسازی و همچنین نظر کاربر در مورد هر فیلم به عنوان برچسب آن فیلم در ستون آخر قرار دارد. بدین ترتیب برای هر کاربر و به کمک مجموعه دادههای ایجاد شده در مرحله پیادهسازی یک سری مجموعه داده تولید شده است که در آن فیلمهایی که کاربر دیده است به همراه ویژگیهای آن فیلم و نظر کاربر درمورد آن فیلم ذخیره گردیده است.
در ادامه در محیط برنامهنویسی Matlab زیر برنامهای جهت انتخاب ویژگیهای مناسب25 برای دستهبندی روی مجموعه دادههای کاربران نوشته شد.
جهت انتخاب ویژگیهای مناسب برای دستهبندی از تابع آماده موجود در Matlab با نام relieff استفاده شد که برای انتخاب ویژگیها از الگوریتم Relieff استفاده میکند. این روش از یک راه حل آماری برای انتخاب ویژگی استفاده میکند، همچنین یک روش مبتنی بر وزن است که از الگوریتمهای مبتنی بر نمونه الهام گرفته است.
سپس الگوریتم دستهبندی SVM با 10-Fold Cross Validation بر روی مجموعه دادههای کاربران اجرا گردید علت انتخاب SVM این بود که، یکی از بهترین تکنیکهای دستهبندی مورد استفاده در دستهبندی متن است و با مسئله مورد نظر، برای یادگیری پروفایل کاربر به خوبی منطبق است. همچنین با مشکل طبیعت خلوت بردار ویژگیها و ابعاد بالای فضای دادههای ورودی به خوبی کنار میآید. همچنین از دیگر مزایایSVM در دستهبندی متون میتوان به موارد زیر اشاره کرد:
· معمولاً به انتخاب زیاد پارامترها26 نیاز ندارد؛
· در مقابل فرایادگیری27 مقاوم است؛
· نیازی به تلاش ماشین یا انسان برای تنظیمات زیاد پارامتر28 در یک مجموعه اعتبارسنجی29 ندارد.
زمانی که حد تصمیمگیری خطی نیست، نیاز است تا دادهها به فضایی با ابعاد بالاترانتقال یابند. این امکان به کمک تبدیلات ریاضی که با تبدیلات به کمک کرنل30 شناخته میشوند انجام میگیرد. برای انجام این کار سه تابع مهم مورد آزمایش قرار گرفت: 1. خطی31 2. چند جملهای32 3.RBF33
و نهایتاً RBF انتخاب شد. چراکه در دامنه پژوهش بهترین نتایج را کسب نمود.
همچنین برای پیاده سازی SVM از توابع آماده Matlab استفاده گردید؛ و از نتایج SVM برای ساخت مدلهای منطقی که قادر به تخمین صحیح دستهها هستند استفاده شد. خروجی سیستم توصیهگر می بایست یک فهرست رتبهبندی بین مقادیر 0 و 1 باشد که از مدلهای منطقی بهدست میآمد.
نکته حائز اهمیت اینکه چارچوب روش پیشنهادی منحصر به دستهبندی SVM نیست و میتوان از سایر روشهای دستهبندی نیز استفاده نمود.
همچنین برای اینکه امکان مقایسهای برای استفاده از اطلاعات هستانشناسی DBPedia و روشهای متعارف و معمول نظیر آنچه وب سایت MovieLens از آن بهره میجوید وجود داشته باشد، مجموعه دادههای فیلم این سایت را نیز مورد جستجو قرار داده و پایگاه دادهای برای هر کاربر با استفاده از این مجموعه دادهها ایجاد گردید و الگوریتم دستهبندی SVM بار دیگر نیز بر این پایگاه دادهها اعمال گردید، به عبارت دیگر آنچه تا کنون شرح داده شد بر روی دادههایی که در مورد فیلمها از پایگاه داده MovieLens به دست آمد اعمال گردید، هدف از انجام این کار، مقایسه نتیجه استفاده از دادههای پیوند شده باز در هستانشناسیها در مقایسه با دادههای ایستا و محدود میباشد.
5-1- نتایج
در این بخش، نتایج بهدست آمده از پیادهسازی روش پیشنهادی مورد بررسی قرار میگیرد. این بررسی در قالب روشهای ارزیابی یادگیری ماشین همانگونه که در جدول 5-1 آورده شده است انجام گردیده است. همچنین برای ارزیابی چارچوب پیشنهادی از منحنی مشخصه عملکرد سیستم (ROC34) (مطابق نمودار 5-1) استفاده شده است.
5-2- مقایسه طرح پیشنهادی با روش موجود
با مقایسه نتایج حاصله از بخش پیشین، بهینهترین نتیجه از میان حالتهای مورد بررسی، مربوط به مجموعه داده فیلم بر اساس بازیگران اصلی و کارگردان فیلم میباشد. در این بخش، این نتیجه را با نتیجه ارائه شده در یکی از آخرین مقالاتی که در این زمینه منتشر گردیده مقایسه مینماییم. نکته قابل توجه این است که در مقاله مذکور نتایج بهتری نیز حاصل گردیده است که علت آن استفاده از سطح دوم ویژگیهای یک هستانشناسی است. لذا مقایسه تنها با مجموعه دادهای که مربوط به موضوع فیلم و در سطح اول است انجام پذیرفته است. سپس مقایسهای بین نتایج اعمال چارچوب طرح پیشنهادی بر روی دادههای استخراج شده از DBPedia و دادههای استخراج شده از وب سایت MovieLens صورت گرفت که به طور مشخص میتوان نتایج بهتری در حالتی که از دادههای DBPedia استفاده گردیده است مشاهده نمود.
میتواند دقت کلی سیستم را بهبود بخشد. نتایج ارائه شده، یک گام اولیه از بررسی و تحلیل جامع جنبههای متفاوت استفاده از دادههای پیوند شده باز روی سیستمهای توصـیهگر اسـت؛ و نتـایج امیـدوارکننـده این پژوهش، راه را برای بسیاری از پژوهشهای نوین در زمینه سیستمهای توصیهگر باز خواهد نمود. 6- آینده پژوهش در این پژوهش به سطح اول اطلاعات در هستانشناسی تاکید شده است، حال آنکه میتوان برای نشان دادن میزان قدرت دادههای پیوند شده باز در هستانشناسیها دادهها را در سطح دوم نیز مورد بررسی قرار داد، در واقع هدف این است که ارتباطات معنادار میان دادهها در هستانشناسی با عمق بیشتری مورد کنکاش قرار گیرد تا بتوان با ترکیب ویژگیها و استفاده از این ارتباطات معنادار در سطوح پایینتر نتایج بهتری حاصل نمود. به طور مثال برای کارگردان یک فیلم تمام فیلمهایی را که کارگردانی کرده است استخراج کرده آنها را خوشه بندی نموده و مجموعه داده فیلم را با آن تشکیل دهیم. چارچوب این پژوهش مختص فیلم نبوده و میتوان با انتخاب سایر دامنههای متداول نظیر موسیقی، کتاب و ...، علاوه بر اثبات مؤثر بودن روش فوق برای آن
|
5-1- نتیجهگیری
امروزه وبدادهها شامل حجم عظیمی از اطلاعات ساختاریافته است که قابل استفاده برای کاربران نهایی و ارائهدهندگان سرویسهای مختلف میباشد. در این پژوهش نشان داده شد که چگونه دانش کد شده در ابر دادههای پیوند شده باز موجود در هستانشناسیها میتواند در نتایج اخذ شده در سیستم توصیهگر تأثیرگذار باشد. یکی از فواید استفاده از دادههای پیوند شده باز برای سیستمهای
توصیهگر، کاهش ابعاد مسئلهی تحلیل محتوای محدود شده35 است.
در واقع، عدم تجانس موضوعات و زمینههای ارائه شده در ابر دادهها و همچنین ماهیت پیوسته آن، موجب انتخاب آسان و بهرهبرداری از ویژگیهای/خواص جدید و متنوع برای یک دامنه خاص میشود. ماهیت هستانشناسی دادهها که در دادههـای پیوند شده باز وجود دارد اثبات کرده اسـت که
جدول5‑1: توضیح جدولهای شاخصهای ارزیابی |
[1] Information Overload
[2] Web Feed
[3] Recommender System
[4] Customizid
[5] Items
[6] Rating
[7] Active User
[8] Prediction
[9] Unknown
[10] HTML
[11] XML
[12] RDF
[13] Linked Data
[14] Ontology
[15] Data acquisition
[16] Sparsity
[17] Cold Start
[18] Liking Open Data (LOD)
[19] Context-Aware
[20] Linked Open Data (LOD)
[21] Resource Description Framework
[22] Item
[23] Term Frequency–Inverse Document Frequency
[24] Simple Protocol and RDF Query Language
[25] Feature Selection
[26] Term Selection
[27] Over-fitting
[28] Parameter Tuning
[29] Validation Set
[30] kernel trick
[31] Linear
[32] Polynomial
[33] Radial Basis Function
[34] Receiver Operating Characteristic
[35] Limited Content Analysis
|
نمودار 5-1: ROC برای مجموعه داده های انتخابی
|
|