Proposing an Information Retrieval Model Using Interval Numbers
Subject Areas :Hooman Tahayori 1 , farzad ghahremani 2
1 - Associate Professor
2 - Doctoral student of Shiraz University
Keywords: Textual information retrieval, Documentt ranking, Term weighting, Interval numbers, Interval weight,
Abstract :
Recent expansions of web demands for more capable information retrieval systems that more accurately address the users' information needs. Weighting the words and terms in documents plays an important role in any information retrieval system. Various methods for weighting the words are proposed, however, it is not straightforward to assert which one is more effective than the others. In this paper, we have proposed a method that calculates the weights of the terms in documents and queries as interval numbers. The interval numbers are derived by aggregating the crisp weights that are calculated by exploiting the existing weighting methods. The proposed method, calculates an interval number as the overall relevancy of each document with the given query. We have discussed three approaches for ranking the interval relevancy numbers. In the experiments we have conducted on Cranfield and Medline datasets, we have studied the effects of weight normalization, use of variations of term and document frequency and have shown that appropriate selection of basic term weighting methods in conjunction with their aggregation into an interval number would considerably improve the information retrieval performance. Through appropriate selection of basic weighting methods we have reached the MAP of 0.43323 and 0.54580 on the datasets, respectively. Obtained results show that he proposed method, outperforms the use of any single basic weighting method and other existing complicated weighting methods.
[1] S. Marrara, G. Pasi and M. Viviani, "Aggregation operators in information retrieval," Fuzzy Sets and Systems, vol. 324, pp. 3-19, 2017.
[2] D. H. Kraft and E. Colvin, Fuzzy Information Retrieval, North Carolina: Morgan and Claypool, 2017.
[3] D. H. Kraft, E. Colvin, G. Bordogna and G. Pasi, "Fuzzy information retrieval systems: A historical perspective," in Fifty Years of Fuzzy Logic and its Applications, Springer, Cham, 2015, pp. 267-296.
[4] H. P. Luhn, "The automatic creation of literature abstracts," IBM Journal of research and development, vol. 2, no. 2, pp. 159-165, 1958.
[5] P. Switzer, "Vector Images in Document Retrieval," in Statistical Association Methods for Mechanized Documentation: Symposium Proceedings, Washington, 1964.
[6] G. Salton and C. Buckley, "Term-weighting approaches in automatic text retrieval," Information processing & management, vol. 24, no. 5, pp. 513-523, 1988.
[7] R. Cummins, The evolution and analysis of term-weighting schemes in information retrieval, Galway: National University of Ireland, 2008.
[8] O. A. S. Ibrahim and D. Landa-Silva, "Term frequency with average term occurrences for textual information retrieval," Soft Computing, vol. 20, no. 8, pp. 3045-3061, 2016.
[9] K. Goslin and M. Hofmann, "A Wikipedia powered state-based approach to automatic search query enhancement," Information Processing & Management, vol. 54, no. 4, pp. 726-739, 2018.
[10] K. Chen, Z. Zhang, J. Long and H. Zhang, "Turning from TF-IDF to TF-IGM for term weighting in text classification," Expert Systems with Applications, vol. 66, pp. 245-260, 2016.
[11] S. Plansangket, New weighting schemes for document ranking and ranked query suggestion, PhD diss., University of Essex, 2017.
[12] D. Kandé, R. M. Marone, S. Ndiaye and F. Camara, "A Novel Term Weighting Scheme Model," in Proceedings of the 4th International Conference on Frontiers of Educational Technologies(ICFET 18), Moscow, 2018.
[13] T. Dogan and A. K. Uysal, "Improved inverse gravity moment term weighting for text classification," Expert Systems with Applications, vol. 130 , pp. 45-59, 2019.
[14] S. Balbi, M. Misuraca and G. Scepi, "Combining different evaluation systems on social media for measuring user satisfaction," Information Processing & Management, vol. 54, no. 4, pp. 674-685, 2018.
[15] H. Li, "Learning to rank for information retrieval and natural language processing," Synthesis Lectures on Human Language Technologies, vol. 4, no. 1, pp. 1-113, 2011.
[16] S. Gugnani, T. Bihany and R. K. Roul, "A complete survey on web document ranking," International Journal of Computer Applications (975 8887), vol. ICACEA, no. 2, pp. 1-7, 2014.
[17] A. H. Keyhanipour, M. Piroozmand and K. Badie, "A GP-adaptive web ranking discovery framework based on combinative content and context features," Journal of Informetrics, vol. 3, no. 1, pp. 78-89, 2009.
[18] E. Goldberg, "Statistical machine". U.S. Patent 183 838 929-1931, 1931.
[19] J. E. Holmstrom, "Section III. Opening plenary session," in The Royal Society Scientific Information Conference, London, U.K., 1948.
[20] H. F. Mitchell Jr, "The use of the univ AC FAC-tronic system in the library reference field," American Documentation, vol. 4, no. 1, pp. 16-17, 1953.
[21] M. Taube, C. D. Gull and I. S. Wachtel, "Unit terms in coordinate indexing," American Documentation, vol. 3, no. 4, pp. 213-218, 1952.
[22] H. P. Luhn, "A statistical approach to mechanized encoding and searching of literary information," IBM Journal of research and development, vol. 1, no. 4, pp. 309-317, 1957.
[23] K. S. Jones, Information retrieval experiment, Newton, MA: Butterworth-Heinemann, 1981.
[24] S. E. Robertson, "The probability ranking principle in IR," Journal of documentation, vol. 33, no. 4, pp. 294-304, 1977.
[25] M. Sanderson and W. B. Croft, "The history of information retrieval research," Proceedings of the IEEE, vol. 100, no. Special Centennial Issue, pp. 1444-1451, 2012.
[26] H. F. Witschel, "Global term weights in distributed environments," Information Processing & Management, vol. 44, no. 3, pp. 1049-1061, 2008.
[27] Y. Gupta, A. Saini and A. K. Saxena, "A new fuzzy logic based ranking function for efficient information retrieval system," Expert Systems with Applications, vol. 42, no. 3, pp. 1223-1234, 2015.
[28] A. I. Kadhim, "Term Weighting for Feature Extraction on Twitter: A Comparison Between BM25 and TF-IDF," in International Conference on Advanced Science and Engineering (ICOASE), 2019.
[29] C. Kamphuis, A. P. de Vries, L. Boytsov and J. Lin, "Which BM25 Do You Mean? A Large-Scale Reproducibility Study of Scoring Variants," in European Conference on Information Retrieval, Cham, 2020.
[30] J. M. Ponte and W. B. Croft, "A language modeling approach to information retrieval," in In Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval, 1998.
[31] C. Zhai and J. Lafferty, "A study of smoothing methods for language models applied to information retrieval," ACM Transactions on Information Systems (TOIS), vol. 22, no. 2, pp. 179-214, 2004.
[32] R. Cummins, Modelling Word Burstiness in Natural Language: A Generalised Polya Process for Document Language Models in Information Retrieval, arXiv preprint arXiv:1708.06011, 2017.
[33] R. Cummins, J. H. Paik and Y. Lv, "A Pólya urn document language model for improved information retrieval," ACM Transactions on Information Systems (TOIS), vol. 33, no. 4, p. 21, 2015.
[34] G. Salton, Automatic Information Organization and Retrieval, New York: McGraw-Hill, 1968.
[35] K. Sparck Jones, "A statistical interpretation of term specificity and its application in retrieval," Journal of documentation, vol. 28, no. 1, pp. 11-21., 1972.
[36] G. Salton and C.-S. Yang, "On the specification of term values in automatic indexing," Journal of documentation, vol. 29, no. 4, pp. 351-372, 1973.
[37] G. Salton, A. Wong and C.-S. Yang, "A vector space model for automatic indexing," Communications of the ACM, vol. 18, no. 11, pp. 613-620, 1975.
[38] F. S. Al-Anzi, D. AbuZeina and S. Hasan, "Utilizing standard deviation in text classification weighting schemes," Int J Innov Comput Inf Control, vol. 13, no. 4, pp. 1385-1398, 2017.
[39] J. Beel, S. Langer and B. Gipp, "Tf-iduf: A novel term-weighting scheme for user modeling based on users’ personal document collections," in iConference 2017, Wuhan, China, 2017.
[40] L. Bernauer, E. J. Han and S. Y. Sohn, "Term discrimination for text search tasks derived from negative binomial distribution," Information Processing & Management, vol. 54, no. 3, pp. 370-379, 2018.
[41] R. Lakshmi and S. Baskar, "Novel Term Weighting Schemes for Document Representation based on Ranking of Terms and Fuzzy Logic with Semantic Relationship of Terms," Expert Systems with Applications, vol. 137, pp. 493-503, 2019.
[42] F. Carvalho and G. P. Guedes, TF-IDFC-RF: A Novel Supervised Term Weighting Scheme, arXiv preprint arXiv:2003.07193, 2020.
[43] W. B. Frakes and R. Baeza-Yates, Eds., Information retrieval: Data structures & algorithms, vol. 331, Englewood Cliffs, NJ: prentice Hall, 1992.
[44] G. Bordogna and G. Pasi, "Controlling retrieval through a user-adaptive representation of documents," International Journal of Approximate Reasoning, vol. 12, no. 3-4, pp. 317-339, 1995.
[45] D. H. Kraft, G. Bordogna and G. Pasi, "An extended fuzzy linguistic approach to generalize Boolean information retrieval," Information Sciences-Applications, vol. 2, no. 3, pp. 119-134, 1995.
[46] Y. Y. Yao, "Interval-set algebra for qualitative knowledge representation," in Proceedings of ICCI'93: 5th International Conference on Computing and Information, 1993.
[47] J. M. Mendel and D. Wu, Perceptual computing: Aiding people in making subjective judgments, vol. 13, John Wiley & Sons, 2010.
[48] J. Han, J. Pei and M. Kamber, Data mining: concepts and techniques, Elsevier, 2011.
[49] A. Turpin and F. Scholer, "User performance versus precision measures for simple search tasks," in In Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval, 2006.
[50] R. Baeza-Yates and B. Ribeiro-Neto, Modern Information Retrieval: the concepts and technology behind search, 2 ed., Harlow: England: Pearson Education Ltd., 2011.
دو فصلنامه علمي فناوري اطلاعات و ارتباطات ایران | سال دوازدهم، شمارههاي 45 و 46، پاییز و زمستان1399 صص: 71-94 |
|
ارائه مدلی برای بازیابی اطلاعات متنی با استفاده از اعداد فاصلهای
فرزاد قهرمانی* هومان تحیری**
* دانشجوی دکتری بخش مهندسی و علوم کامپیوتر و فناوری اطلاعات، دانشکده مهندسی برق و کامپیوتر، دانشگاه شیراز
** استادیار بخش مهندسی و علوم کامپیوتر و فناوری اطلاعات، دانشکده برق مهندسی و کامپیوتر، دانشگاه شیراز
تاریخ دریافت: 07/06/1399 تاریخ پذیرش:02/10/1399
نوع مقاله: پژوهشی
چکیده
با گسترش و توسعه وب و افزایش محتوای آنلاین، اهمیت سیستمهای بازیابی اطلاعات که بتوانند با دقت بالاتری به نیازهای اطلاعاتی کاربران پاسخ دهند، بیشتر از پیش مشخص است. یک بخش مهم در طراحی هر سیستم بازیابی اطلاعات، انتخاب روشی مناسب برای مدل کردن آن سیستم است که در این راستا تعیین روش وزندهی به لغات جهت بیان میزان اهمیت آنها در اسناد و پرسوجوها، نقش به سزائی دارد. روشهای مختلفی در خصوص چگونگی وزندهی به لغات ارائه شده که غالباً یک وزن عددی را تخصیص میدهند اما نمیتوان با قطعیت گفت که بهترین روش وزندهی کدام است. با توجه به ابهام و عدم قطعیتی که در این زمینه وجود دارد، در این مقاله مدلی ارائه شده که به جای استفاده از یک مقدار وزنی، با استفاده از وزنهای بدست آمده از تعدادی روش وزندهی پایه که به دقت انتخاب شدهاند، برای هر لغت بازهای از وزنها را به عنوان یک وزن فاصلهای محاسبه میکند. در این مدل با انجام تجمیع مناسب، میزان ارتباط هر سند با پرسوجوی ورودی نیز به صورت یک وزن فاصلهای تعیین شده و برحسب آنها میتوان با استفاده از یکی از سه روش پیشنهادی، اسناد را رتبهبندی کرد. در آزمایشهای انجام شده بر روی مجموعه دادههای معتبر Cranfield و Medline، اثرات نرمالسازی طول بردار وزنهای پایه، استفاده از مؤلفههای مختلف در فاکتور فرکانس لغت و فاکتور فرکانس مجموعه مورد مطالعه و بحث قرار گرفته است و مشخص شد که انتخاب مجموعهای مناسب از روشهای وزندهی پایه برای اعمال روش پیشنهادی، به همراه استفاده از روش رتبهبندی مناسب، تأثیر به سزائی در بهبود بازدهی سیستم خواهد داشت. با انتخابهای مناسب، برای دو مجموعه داده مذکور به ترتیب MAP با مقادیر 0.43323 و 0.54580 بدست آمد. این نتایج نشان داد که روش پیشنهادی نه تنها باعث بهبود نسبت به هر یک از روشهای وزندهی پایه میشود، بلکه در مقایسه با چند روش وزندهی پیچیده اخیر نیز بهتر عمل میکند.
واژگان کلیدی: بازیابی اطلاعات متنی، رتبهبندی اسناد، وزندهی لغات، اعداد فاصلهای، وزن فاصلهای
1. مقدمه
توسعه روزافزون وب به همراه قابلیت دسترسی به حجم زیادی از محتوای آنلاین، باعث شده که تحقیقات زیادی در زمینهی موتورهای جستجو1 یا سیستمهای بازیابی اطلاعات)2(IRS صورت گیرد. خصوصاً هدف یک موتور جستجوی وب، بازیابی صفحاتی از وب است که به نیازهای اطلاعاتی کاربر که برحسب تعدادی کلمه کلیدی در یک پرسوجو3 بیان شده، مرتبط باشند [1]. در واقع هدف یک سیستم IR این است که از بین اطلاعات جمعآوری شده، اقلام مرتبط4 با پرسوجوی کاربر را استخراج کرده و اقلام ناخواسته و غیرمرتبط را فیلتر کرده و کنار بگذارد. در این راستا، سیستم IR با نمایش، ذخیرهسازی و دسترسی به اسنادی5 سر و کار دارد که میتوانند شامل متون، تصاویر، انیمیشن، صوت، اقلام چندرسانهای، صفحات وب، توئیت، وبلاگ و دیگر قطعات اطلاعاتی باشند [2]، هرچند در این مقاله اسنادی که به صورت متنی و نوشتاری هستند، مورد توجه میباشند.
مساله اصلی در تمام سیستم های IR، تطبیق دادن اسناد با پرسوجو و پیشبینی این موضوع است که کاربر کدام اسناد را مرتبط با خواست خود خواهد دانست [3]. در نمایش اسناد و پرسوجوها غالباً با نگاشتی از لغات به آنها کار داریم، که طبق [2] لغات یا کلمات کلیدی مجموعه را به ترتیب به "اسناد" و "پرسوجوها" نگاشت میکنند و این غالباً با نسبت دادن وزن به این لغات صورت میگیرد که بیانگر میزان اهمیت آنها در سند یا پرسوجوی مربوطه است.
در طول عمری که از بازیابی اطلاعات میگذرد، روشهای مختلفی در خصوص چگونگی وزندهی به لغات در اسناد و پرسوجوها ارائه شده است، از جمله [4] تا [9]. علاوه بر IR، وزندهی به لغات در حوزههای دیگری مانند طبقهبندی متون6 [10] تا [13] و تحلیل احساسات7 [14]، نیز کاربرد داشته و نقش مهمی بازی میکند. اهمیت وزندهی مناسب، و تأثیر زیاد آن در بهبود نتایج نهایی در تمامی این مطالعات مشهود بوده است [6]، [7]، و [12].
یادگیری رتبهبندی8 زمینه دیگری از تحقیقات است که یادگیری ماشین، بازیابی اطلاعات، و پردازش زبان طبیعی را با یکدیگر درمیآمیزد. یادگیری رتبهبندی در معنای عام و گسترده، اشاره به استفاده از هر روش یادگیری ماشین برای رتبهبندی دارد. در معنای خاص و محدود، یادگیری رتبهبندی به تکنیکهای یادگیری ماشین برای ساخت مدل رتبهبندی، در ایجاد رتبهبندی و تجمیع رتبهبندی اشاره دارد [15]. استفاده از یادگیری ماشین در IR و طبقهبندی متون و غیره، فقط محدود به رتبهبندی نبوده و در مرحله وزندهی به لغات نیز کاربرد دارد. بطورکلی دو نوع اصلی وزندهی به لغات وجود دارد. یکی وزندهی لغت معنایی، که از معانی دستهها و لغات موجود در پایگاههای دانشی مانند WordNet بهره میبرد؛ دوم وزندهی لغت آماری، که به چگونگی ظهور یک لغت در یک سند یا گروهی از اسناد از نقطهنظر آماری مرتبط است و خود به دو دسته با ناظر و بدون ناظر تقسیم میشود. روشهای وزندهی لغت با ناظر که از اطلاعات عضویت کلاس اسناد آموزشی در گروههای از قبل تعریفشده استفاده میکنند، عمدتاً از تکنیکهای یادگیری ماشین استفاده میکنند [11]. در این تحقیق روشهای رتبهبندی و روشهای وزندهی آماری بدون یادگیری مدنظر میباشند.
در برخی از روشهای بازیابی اطلاعات متنی، کاربر به طریقی میزان اهمیت لغات مورد جستجو را وارد میکند که نهایتاً به عنوان یک وزن عددی محاسبه و برای لغات منظور میشود؛ در برخی دیگر کاربر فقط پرسوجوی خود را در قالب یک متن یا چند لغت وارد کرده و سیستم IR به طریقی مشابه با وزنی که برای لغات اسناد محاسبه میکند، وزنی عددی نیز برای لغات پرسوجو محاسبه می نماید. اگر به وزنهای تخصیص داده شده به لغات پرسوجوها و اسناد طبق روشهای مختلف وزندهی توجه شود، مشاهده میشود که این وزنها برای یک لغت مقادیر مختلفی را در بر گرفته که ممکن است نزدیک به هم بوده یا از هم دور باشند، و سؤالی که پیش میآید این است که واقعاً وزن درنظرگرفته شده توسط کدام روش مناسبتر بوده و میزان اهمیت آن لغت را بهتر نشان میدهد؟ همچنین آیا کاربر از اطلاعاتی/مقادیری که به عنوان وزن و میزان اهمیت وارد کرده مطمئن بوده است؟ با توجه به نداشتن پاسخی قطعی در خصوص سؤالات مذکور، در این مقاله به جای استفاده از یک مقدار وزنی، به طریقی ساده و به صورت آفلاین، برای هر لغت بازهای از وزنها به عنوان یک وزن فاصلهای9 در نظر گرفته میشود که بدون افزایش پیچیدگی میتواند منجر به افزایش دقت شود. در واقع استفاده از یک بازه یا فاصله به عنوان وزن لغات پرسوجو و اسناد، عدم قطعیت و عدم اطمینان موجود در انتساب وزن عددی به لغات را تعدیل ساخته و میتواند به محاسبه میزان ارتباط دقیقتر بین اسناد و پرسوجوها کمک کند.
روش پیشنهادی در این مقاله برای تخصیص دادن وزن فاصلهای به لغات، استفاده از وزنهای محاسبه شده توسط تعدادی روش وزندهی مختلف میباشد. بدین منظور ابتدا تعدادی از روشهای وزندهی موجود را مورد مطالعه قرار داده و با درنظر گرفتن ویژگیهای بکار رفته در آنها، زیرمجموعهای از آنها به عنوان روشهای وزندهی پایه10 انتخاب میشوند؛ سپس بر اساس وزنهای تعیین شده برای هر لغت توسط این روشهای پایه و انجام پردازشهای لازم، یک وزن فاصلهای برای آن لغت تعیین میشود. با توجه به لغات درون هر پرسوجو و با انجام تجمیع مناسب بر روی وزنهای فاصلهای این لغات، میزان ارتباط هر سند با پرسوجوی ورودی نیز به صورت یک وزن فاصلهای تعیین شده و برحسب آنها میتوان با استفاده از یکی از سه روش پیشنهاد شده در مقاله، اسناد را رتبهبندی11 کرد. در اینجا ضمن اجرای روش پیشنهادی بر روی دو مجموعهداده معتبر، در آزمایشها نشان داده شده که انتخاب زیرمجموعهای مناسب از روشهای وزندهی پایه برای اعمال روش پیشنهادی، به همراه استفاده از روش رتبهبندی مناسب، تأثیر به سزائی در بهبود بازدهی سیستم خواهد داشت؛ لذا در آزمایشهای صورت گرفته بر روی 24 روش وزندهی پایه، تأثیر سه دسته از معیارها در انتخاب زیرمجموعههای وزنی مورد مطالعه قرار گرفته و نهایتاً مناسبترین ترکیب معیارها در انتخاب زیرمجموعههای وزنی، در کنار مناسبترین روش رتبهبندی تعیین شده است.
در ادامه، در بخش 2 مروری بر کارهای مرتبط و مبانی نظری خواهد شد. در بخش 3 مقدمات لازم در خصوص اعداد فاصلهای، و در بخش 4 روش وزندهی پیشنهادی تشریح شده است. آزمایشهای انجام شده و نتایج بدستآمده در بخش 5 مورد بحث قرار گرفته، و نهایتاً بخش 6 مربوط به نتیجهگیری است.
2. کارهای مرتبط و مبانی نظری
در وب، رتبهبندی اسناد به سه دسته کلی مبتنی بر محتوا12، مبتنی بر پیوند13، و مبتنی بر پیوند-محتوا14 تقسیم میشود [11]. در رتبهبندی مبتنی بر محتوا، برای بازیابی صفحات وب مرتبط با یک پرسوجو از محتوای صفحات به عنوان ویژگیهایی برای رتبهبندی استفاده میشود. رتبهبندی مبتنی بر پیوند یا اتصال، بر روی اطلاعات ساختاری مانند تعداد پیوندهای اشاره شده به یک صفحه وب یا تعداد لینکهای خروجی تمرکز دارد که نشان از محبوبیت صفحات دارند. از جمله روشهای متعارف در این زمینه میتوان به روشهای HITS15 و Page Rank اشاره کرد؛ در [16] الگوریتمهای مختلف در این زمینه مرور شده و مورد مقایسه قرار گرفتهاند. روش رتبهبندی مبتنی بر پیوند-محتوا، برای یافتن تعادل مناسب بین دو مورد قبل مطرح شده است که مقاله [17] نمونهای از این روش است که با استفاده از ویژگیهای نسبتاً ساده اسناد وب، رتبهبندی مناسبی را با استفاده از معماری برنامهنویسی ژنتیکی ارائه میدهد. تحقیق پیش رو جزء دسته مبتنی بر محتوا بوده و بر روی روشهای وزندهی لغات در بازیابی اطلاعات متنی تمرکز دارد؛ به همین دلیل، در این بخش با تکیه بر روشهای وزندهی، به معرفی مدلهای مرسوم IR، خصوصیات آنها و توسعههایی که از جنبه مفاهیم مختلف صورت گرفتهاست، پرداخته میشود.
2،1 مدل بولی16
مدل بولی از نخستین مدلهای بازیابی اطلاعات است که حتی میتوان روش کار نخستین دستگاه مکانیکی [18]، و استفادههای اولیه از کامپیوتر برای بازیابی اطلاعات [19[ تا [21]، را جزء آن دانست. بطورکلی در مدل بولی اسناد و پرسوجوها به صورت مجموعهای از لغات شاخص دیده میشوند که به آن "کیسه لغات17" گفته میشود. در جستجوی بولی وزن لغات در هر سند یا پرسوجو، 0 یا 1 است؛ یعنی در صورتی که در سند یا پرسوجو هیچ تطابقی از لغت وجود نداشته باشد، درجه تطابق 0، و در صورتی که بطور کامل مطابقت داشته باشد، درجه تطابق 1 درنظر گرفته میشود. مدل بولی در بازیابی اطلاعات مبتنی بر محاسبات منطق بولی است. با یک OR بولی، یک سند برای برآورده کردن یک پرسوجو باید یکی از لغات پرسوجو را داشته باشد. در صورتیکه برای پرسوجوی AND بولی، سند باید شامل تمامی لغات پرسوجو باشد تا پرسوجو برآورده شده و 1 را برگرداند. این مدل به دلیل سادگی و درک مستقیم آن، به طور گستردهای در سیستمهای اولیه پذیرفته و استفاده شد. مشکل این مدل آن است که تطابقها رتبهبندی نمیشوند و مشخص نمیکند کدام سند بیشترین رخداد از لغت را دارد. برای OR بولی، هیچ ارجحیتی بین لغات پرسوجو وجود ندارد و همگی وزن یکسانی دارند. بنابراین اسناد با تطابق برابر در لیست برگشتی ممکن است حاوی لغات متفاوتی باشند [2].
2،2 مدل احتمالی18
نخستین بار لان19 در سال 1957 پیشنهاد نسبت دادن امتیازی به اسناد بر اساس روش احتمالاتی و اهمیت کلمات کلیدی در اسناد را داد بطوریکه این امتیاز نشاندهنده میزان ارتباط اسناد با پرسوجو باشد [22]. او همچنین در سال 1958 پیشنهاد استفاده از فرکانس رویداد کلمه را به عنوان اندازهگیری مفیدی از ارزش کلمه، مطرح کرد که بعداً به عنوان وزن فرکانس لغت (20TF) شناخته شد [4]. مؤثر بودن این روش نسبت به جستجوی بولی در آزمایشهای زیادی نشان داده شده است [23]. با توسعه ایدههای اولیه، در [24] اصولی برای رتبهبندی احتمالاتی تعریف شد که مشخص میکرد چگونه اسناد بطور بهینه بر اساس معیارهای احتمالاتی و با توجه به معیارهای ارزیابی تعریف شده، رتبهبندی میشوند. از آن زمان تحقیقات زیادی انجام شده و مانند مدلهای دیگر، نسخههای متعددی از این مدل نیز ارائه شده است که بخشی از آنها در [25] آمده است.
نمایشهای دیگری از مدل احتمالاتی وجود دارد که شامل مدلهای BM1، BM11، BM15، BM25 هستند. این مدلها شبیه هم و طرفدار بهترین تطابق21 هستند که BM25 معمولترین آنها بوده و به دلیل نتایج خوبی که داشته، در تحقیقات زیادی به عنوان مبنای مقایسه22 استفاده شده است [7] و [26] تا [28]. از این روش که با عنوان Okapi-BM25 نیز نام برده میشود، انواع مختلفی ارائه شده است که در [29] با انجام یک مطالعه تکرارپذیری23 بر روی هشت نوع مختلف آن نشان داده است که تفاوت معنیداری بین آنها وجود ندارد.
مدلسازی زبانی سند24 یک رویکرد مهم دیگر در روشهای آماری برای بازیابی اطلاعات است [30] و [31]. این نوع روشها ذاتاً مولد25 هستند، تا آنجا که هدف آنها تخمین مدلی از فرایند تولید سند است. در بازیابی اطلاعات، زمانی که مدلهای سند تخمین زده شدند، اسناد میتوانند بر اساس احتمال مدل سندشان در تولید پرسوجو، رتبهبندی شوند [32]. مدلهای زبانی سندی که از طریق یک فرآیند Pólya چندمتغیره، یک ویژگی خودتقویتکننده26 را ارائه میدهند، به طور قابل توجهی اثربخشی بازیابی را افزایش میدهند [33]. کامینز [32] این روش را بیشتر بکار گرفته و فرآیند کلیتری برای مدلسازی سند آماری ارائه داده است. او با ارائه روشهای جدیدی در تخمین پارامترهای فرآیند Pólya، مدلهای و را معرفی کرد که در آنها کارآیی بازیابی در مقایسه با مدلهای قبلی افزایش یافت.
2،3 مدل فضای برداری27
مدل معمول دیگر در IR مدل فضای برداری است. نخستین بار سوئیتزر28 [5] بود که به اسناد و پرسوجوها به صورت بردارهایی n بعدی از لغات منحصربفرد مجموعه نگاه کرد. در اینجا به جای سیستم تطابق/عدم تطابق مدل بولی، از وزن لغات برای نشان دادن میزان اهمیت آنها در سند یا پرسوجوی مربوطه استفاده میشود. تابع تطابق، معیار فاصله بردار پرسوجو از بردار سند است، و بر اساس این میزان فاصله میتوان یک لیست رتبهبندی شده در خروجی ارائه داد [2]. سالتون در [34] ایده استفاده از کسینوس زاویه بین بردارهای سند و پرسوجو را به عنوان معیار شباهت میان آنها مطرح کرد که یکی از معیارهای مهم در این زمینه است [25]. اسپارک جونز در سال 1972، ایده استفاده از فرکانس سند معکوس (IDF29) را مطرح کرد که به لغاتی که در تعداد اسناد کمتری مشاهده میشدند وزن بیشتری میداد [35]. به دنبال آن ایده ترکیب دو وزن TF و IDF (یعنی TF-IDF30) خیلی سریع مطرح شد که از جمله میتوان به [36] اشاره کرد که حاصلضرب آن دو را به عنوان وزن لغات در نظر گرفت. سالتون و همکاران در سال 1975 یک مدل فضای برداری را برای شاخصبندی خودکار ارائه دادند [37].
با توجه به اهمیت انتخاب وزن مناسب برای لغات در بازیابی اطلاعات از اسناد متنی با روش فضای برداری، سالتون و باکلی در [6] به اهمیت سه فاکتور در وزندهی لغات اشاره کردند که از ضرب آنها در یکدیگر میتوان وزن هر لغت را تعیین کرد، این فاکتورها عبارتند از: فرکانس لغت (TF)، فرکانس سند معکوس (IDF) (یا فرکانس مجموعه معکوس31)، و فاکتور نرمالسازی طول بردار32. آنها برای هر یک از فاکتورها، مؤلفههای وزندهی نشانداده شده در جدول 1 را در نظر گرفتند تا با انتخاب یکی از مؤلفهها برای هر فاکتور، و ضرب آنها در یکدیگر بتوان به یک روش وزندهی لغت رسید. بدینترتیب امکان انتخاب ترکیبات متنوعی برای وزندهی لغات اسناد یا پرسوجوها وجود داشت که برحسب مؤلفههای بکار رفته برای فاکتورها در هر روش، آن روش با یک نام سهجزئی33 معرفی میگردد. با توجه به اینکه روشهای وزندهی درنظرگرفته شده برای لغات اسناد و لغات پرسوجو میتواند متفاوت باشد، آنها در آزمایشهای خود، ترکیبات وزنی مختلف را توسط دو سهجزئی نشان دادند که این دو به ترتیب روشهای درنظرگرفته شده برای وزندهی لغات اسناد و وزندهی لغات پرسوجو را نشان میدادند (مثلاً ترکیب وزنی tfc.nfx به معنی در نظر گرفتن وزن برای لغات اسناد و وزن برای لغات پرسوجو میباشد). آنها در آزمایشهای زیادی که بر روی چند مجموعه داده انجام دادند، به مقایسه نتایج استفاده از ترکیبات مختلف پرداخته و ترکیباتی را به عنوان روشهای برتر وزندهی لغات معرفی کردند.
[1] نویسنده مسئول: هومان تحیری tahayori@shirazu.ac.ir
Search engines
[2] Information Retrieval Systems
[4] Relevant
[5] Documents
[6] Text Classification
[7] Sentiment Analysis
[8] Learning to rank
[9] Interval Weight
[10] Basic Weighting Methods
[11] Ranked
[12] Content-based ranking
[13] Hyperlink-based ranking
[14] Hyperlink-content-based ranking
[15] Hyperlink Induced Topic Search
[16] Boolean model
[17] Bag of terms
[18] Probability model
[19] Luhn
[20] Term Frequency
[21] Best match
[22] Baseline
[23] Reproducibility
[24] Document Language Modelling
[25] Generative
[26] Self-reinforcing
[27] Vector space model
[28] Switzer
[29] Inverse Document Frequency
[30] Term Frequency-Inverse Document Frequency
[31] Inverse Collection Frequency
[32] Vector Length Normalization
[33] Triple
جدول 1. مؤلفههای وزندهی لغت [6]
مؤلفه فرکانس لغت | ||||||||||||||||||||||||||||||||||||||
وزن دودویی که در صورت حضور لغت در یک بردار، برابر 1 میباشد (فرکانس لغت نادیده گرفته میشود) | 1.0 | b | ||||||||||||||||||||||||||||||||||||
فرکانس لغت خام (تعداد دفعاتی که یک لغت در یک سند یا پرسوجو رخ میدهد) | tf | t | ||||||||||||||||||||||||||||||||||||
فرکانس لغت نرمالشده افزایشیافته1 (فاکتور tf ، توسط بیشترین مقدار tf در بردار نرمال شده، و مجددا برای قرار گرفتن بین 0.5 و 1 نرمال شده است) |
| n | ||||||||||||||||||||||||||||||||||||
مؤلفه فرکانس مجموعه | ||||||||||||||||||||||||||||||||||||||
بدون تغییر در وزن؛ استفاده از مؤلفه فرکانس لغت اصلی (b، t، یا n) | 1.0 | x | ||||||||||||||||||||||||||||||||||||
ضرب مؤلفه tf اصلی، در یک مؤلفه فرکانس مجموعه معکوس (N تعداد کل اسناد در مجموعه، و n تعداد اسنادی است که یک لغت در آنها مشاهده شده است) |
| f | ||||||||||||||||||||||||||||||||||||
ضرب مؤلفه tf، در یک مؤلفه فرکانس مجموعه معکوس احتمالی |
| p | ||||||||||||||||||||||||||||||||||||
مؤلفه نرمالسازی طول بردار | ||||||||||||||||||||||||||||||||||||||
بدون تغییر؛ استفاده از فاکتورهای بدست آمده از فرکانس لغت و فرکانس مجموعه به تنهایی (بدون نرمالسازی) | 1.0 | x | ||||||||||||||||||||||||||||||||||||
استفاده از نرمالسازی کسینوسی؛ تقسیم هر وزن لغت w بر فاکتوری که نشاندهنده طول بردار اقلیدسی است
|
| c |
مجموعه داده | تعداد بردارها | میانگین طول بردارها (تعداد لغات) | انحراف استاندارد | میانگین فرکانس |
Cranfield documents queries |
1398 225 |
53.13 9.17 |
22.53 3.19 |
1.58 1.04 |
Medline documents queries |
1033 30 |
51.60 10.10 |
22.78 6.03 |
1.54 1.12 |
پس از انجام پیشپردازشهای اشاره شده در بخش 4-1 بر روی هر یک از مجموعه دادهها، آزمایشهای مختلفی در خصوص چگونگی انتخاب زیرمجموعههای وزنی پایه برای اسناد و پرسوجوها و انجام رتبهبندی بر اساس روشهای پیشنهادی صورت گرفت. کارآیی روش وزندهی پیشنهادی براساس داوریهای اسناد مرتبط به هر پرسوجو (که به صورت دودوئی انجام شده برای هر مجموعه داده موجود است)، و برحسب معیار میانگین متوسط دقت (MAP1) و دقت در نقطه n (P@n) ارزیابی میشود.
· معیار میانگین متوسط دقت (MAP): این معیار در قالب یک عدد، مؤثربودن سیستم2 را نشان داده و به طور گستردهای مورد استفاده قرار میگیرد [49]. متوسط دقت (AP) ترکیبی از دقت و بازخوانی3 است که، برای یک پرسوجو، بر روی لیست رتبهبندیشده اسناد، اعمال شده و به صورت زیر محاسبه میشود [7]:
(17)
(18)
جائیکه سند در رتبه r، دقت در رتبه r، R تعداد اسناد مرتبط به پرسوجو در مجموعه، و داوری دودویی (0 و 1) انجام شده برای سند رتبه r از نظر داشتن ارتباط با پرسوجو است. پس از اینکه AP برای تمامی پرسوجوهای یک مجموعه داده بدست آمد، میانگین آنها به عنوان MAP در نظر گرفته خواهد شد، یعنی:
(19)
جائیکه nq تعداد پرسوجوها، و AP(q) میانگین دقت مربوط به پرسوجوی q است.
· معیار دقت در نقطه n (P@n): این معیار، نسبت تعداد اسناد مرتبط را به کل اسناد در برترین n سند ارائه شده، مشخص میکند؛ یعنی [16]:
(20)
در اینجا معیارهای P@5، P@10، و P@20 مورد ارزیابی قرار میگیرند.
در ادامه آزمایشهای انجامشده و تحلیلهای لازم شرح داده خواهد شد.
5،1 روشهای وزندهی پایه
همانطور که در بخش 4-2 اشاره شد، در این تحقیق 24 روش وزندهی پایه درنظر گرفته شد که نهایتاً بایستی زیرمجموعههایی مناسب از آنها جهت اعمال روشهای پیشنهادی بر روی آنها، انتخاب شوند. در اینجا ابتدا هر یک از این روشها به تنهایی به عنوان روش وزندهی لغات اسناد و پرسوجوها انتخاب، و وزنهای بدست آمده از هر روش طبق رابطه (12) در بازه [0,1] نرمالسازی شدند. سپس با استفاده از فرمول مرسوم ضرب بردارهای سند و پرسوجو در یکدیگر، شباهت و ارتباط اسناد با پرسوجوها محاسبه و رتبهبندی شدند. نتایج MAP هر دو مجموعه داده برای تمامی 24 روش وزندهی، در جداول 3 و 4 مشاهده میشود.
اگر به نتایج جدول 3 دقت شود، نکاتی دیده میشود که توجه به آنها میتواند به انتخاب زیرمجموعههایی مناسب جهت وزنهای پایه
[1] Mean Average Precision
[2] System effectiveness
[3] Recall
جدول 3. روشهای وزندهی پایه، به همراه مقدار MAP هر روش بر روی مجموعه دادههای Cranfield و Medline
روشهای 13-24 (همراه با نرمالسازی طول بردار) | روشهای 1-12 (بدون نرمالسازی طول بردار) |
| ||||||||||||||||||||||
24 | 23 | 22 | 21 | 20 | 19 | 18 | 17 | 16 | 15 | 14 | 13 | 12 | 11 | 10 | 9 | 8 | 7 | 6 | 5 | 4 | 3 | 2 | 1 | شماره روش |
zpc | zfc | zxc | npc | nfc | nxc | tpc | tfc | txc | bpc | bfc | bxc | zpx | zfx | zxx | npx | nfx | nxx | tpx | tfx | txx | bpx | bfx | bxx | نام سهجزئی روش |
0.39485 | 0.40341 | 0.37231 | 0.37956 | 0.38858 | 0.37529 | 0.39485 | 0.40341 | 0.3723 | 0.33016 | 0.33825 | 0.31775 | 0.37413 | 0.3871 | 0.34004 | 0.36607 | 0.37799 | 0.36596 | 0.37413 | 0.3871 | 0.34004 | 0.31441 | 0.32124 | 0.27119 | Cranfield |
0.51486 | 0.51525 | 0.46739 | 0.5223 | 0.52365 | 0.49619 | 0.51486 | 0.51525 | 0.46739 | 0.48214 | 0.48271 | 0.45836 | 0.50088 | 0.5018 | 0.44319 | 0.51521 | 0.51598 | 0.48157 | 0.50084 | 0.5018 | 0.44319 | 0.47297 | 0.47295 | 0.42633 | Medline |
جدول 4. بیشترین، کمترین، و میانگین مقادیر MAP بدست آمده از 24 روش وزندهی پایه
| Cranfield | Medline |
بیشترین | 0.40341 | 0.52365 |
کمترین | 0.27119 | 0.42633 |
میانگین | 0.36209 | 0.48904 |
کمک کند؛ از جمله:
· استفاده از روشهای 13-24، به دلیل نرمال بودن طول بردار وزنها، در تمامی موارد نسبت به استفاده از روشهای 1-12 متناظر بهتر است.
· روشهای وزندهی 1 و 13 (bxx و bxc)، به دلیل دادن مقادیر وزنی بولی (0 و 1) به لغات، نسبت به سایر روشها نتایج ضعیفتری دارند.
· استفاده از مؤلفه پیشنهادی z به جای مؤلفه n در فاکتور اول (یعنی نرمالسازی معمولی TF در وزنهای 10-12 و 22-24 به جای نرمالسازی افزایشیافته آن در وزنهای 7-9 و 19-21)، در مجموعه داده Cranfield باعث نتایج بهتری شده است.
· استفاده از مؤلفه p به جای مؤلفه f در فاکتور دوم (یعنی فرکانس مجموعه معکوس احتمالی به جای فرکانس مجموعه معکوس)، در برخی موارد باعث نتایج ضعیفتری میشود. علت این موضوع به خاطر این است که در محاسبه مؤلفه p (یعنی )، در مواردی که برای یک لغت داریم: ، حاصل لگاریتم و در نتیجه وزن لغت منفی میشود؛ یعنی وزن چنین لغاتی حتی از لغاتی که اصلاً در سند وجود ندارند و وزن صفر گرفتهاند هم کمتر میشود. با این حساب حتی پس از نرمالسازی وزنهای پایه طبق رابطه (12) نیز این وضعیت باقی مانده و وزن این لغات از لغاتی که اصلاً در سند وجود نداشتهاند کمتر میشود؛ بنابراین طبیعی است که در چنین مواردی، روشهای مذکور ضعیفتر عمل کنند.
5،2 اعمال روش پیشنهادی بر روی زیرمجموعههایی از وزنهای پایه
با توجه به اینکه ایده اصلی این تحقیق، تعیین وزنهای فاصلهای برای لغات با اعمال روش پیشنهادی بر روی زیرمجموعهای از وزنهای پایه است که با روشهای مختلف وزندهی بدست آمدهاند، بر اساس مشاهدات جدول 3 و نکات برگرفته از آن که در بخش 5-1 اشاره شد، در انتخاب زیرمجموعههای مختلف از 24 روش وزندهی پایه، میتوان موارد زیر را درنظر گرفت که در جدول 5 نیز با جزئیات بیشتری آورده شدهاند:
1. درنظرگرفتن زیرمجموعههایی فقط از روشهای 1-12 (A1)، فقط از روشهای 13-24 (A2)، یا از روشهای 1-24 (A3)
2. انتخاب روشهای فاقد مؤلفه z (B1)، روشهای فاقد مؤلفه n (B2)، یا روشهای شامل هر دو مؤلفه z و n (B3)
3. انتخاب زیرمجموعههایی شامل روشهای 1 یا 13 (C1)، فاقد روشهای 1 و 13 (C2)، و علاوه بر کنار گذاشتن روشهای 1 و 13 فاقد مؤلفه p در فاکتور فرکانس مجموعه (C3)
در واقع برای هر یک از سه دسته از عواملی که ممکن است در انتخاب زیرمجموعههای وزنی تأثیرگذار باشند، سه گزینه برای انتخاب در نظر گرفته و هر کدام با نمادهایی معرفی شدهاند. با در نظر گرفتن این موارد و انتخاب گزینههای مختلف، بطورکلی امکان
جدول 5. نمادهای مورد استفاده جهت معرفی زیرمجموعههای وزنی پایه انتخابی
نمادهای مربوط به نرمالسازی طول | |
درنظرگرفتن زیرمجموعههایی فقط شامل روشهای وزندهی پایه بدون نرمالسازی طول (روشهای 1: bxx تا 12: zpx) | A1 |
درنظرگرفتن زیرمجموعههایی فقط شامل روشهای وزندهی پایه همراه با نرمالسازی طول (روشهای13:bxc تا 24: zpc) | A2 |
درنظرگرفتن زیرمجموعههایی بدون محدودیت در این خصوص، یعنی زیرمجموعههایی شامل هم روشهای وزندهی پایه بدون نرمالسازی طول و هم روشهای وزندهی پایه همراه با نرمالسازی طول (روشهای 1: bxx تا 24: zpc) | A3 |
نمادهای مربوط به مؤلفه فرکانس لغت انتخابی | |
درنظرگرفتن زیرمجموعههایی فقط شامل روشهای وزندهی پایه که در آنها از مؤلفه z استفاده نشده (عدم استفاده از روشهای 10: zxx تا 12: zpx و 22: zxc تا 24: zpc) | B1 |
درنظرگرفتن زیرمجموعههایی فقط شامل روشهای وزندهی پایه که در آنها از مؤلفه n استفاده نشده (عدم استفاده از روشهای 7: nxx تا 9: npx و 19: nxc تا 21: npc) | B2 |
درنظرگرفتن زیرمجموعههایی از روشهای وزندهی پایه بدون محدودیت در مؤلفه فرکانس لغت مورد استفاده (یعنی در زیرمجموعههای وزنی هم از روشهای شامل مؤلفه z میتوان استفاده کرد و هم از روشهای شامل مؤلفه n) | B3 |
نمادهای مربوط به استفاده از روش بولی و روشهای وزندهی شامل مؤلفه p فرکانس مجموعه | |
درنظرگرفتن زیرمجموعههایی از روشهای وزندهی پایه بدون محدودیت در این خصوص (یعنی در زیرمجموعههای وزنی هم از روشهای وزندهی بولی استفاده میشود و هم از روشهای وزندهی شامل مؤلفه p) | C1 |
درنظرگرفتن زیرمجموعههایی فاقد روشهای وزندهی پایه بولی (عدم استفاده از روشهای 1: bxx و 13: bxc) | C2 |
درنظرگرفتن زیرمجموعههایی فاقد روشهای وزندهی پایه بولی (روشهای 1: bxx و 13: bxc) و همچنین فاقد روشهای وزندهی شامل مؤلفه p فرکانس مجموعه (یعنی روشهای 3: bpx، 6: tpx، ... ، 24: zpc) | C3 |
انتخاب 27 زیرمجموعه مختلف از 24 روش پایه وجود دارد که در آزمایشها مورد بررسی و ارزیابی قرار گرفتهاند. در آزمایشها برای هر یک از این زیرمجموعهها، پس از اینکه بر اساس هر یک از روشهای وزندهی در زیرمجموعه، وزنهای پایهی لغات مختلف اسناد و پرسوجوها طبق روابط (10) و (11) تعیین و طبق رابطه (12) در بازه [0,1] نرمالسازی شد، بر اساس روش پیشنهادی در بخش 4-5 (رابطه (13)) وزن فاصلهای لغات مشخص گردید و در ادامه طبق بخش 4-6 نیز بر اساس میانگین وزنی فاصلهای (IWA)، میزان ارتباط اسناد با پرسوجوی ورودی تعیین شد و نهایتا بر اساس یکی از روشهای سهگانه، رتبهبندی اسناد صورت گرفته و طبق روابط (17 تا 20) با بدست آوردن مقدار MAP و P@n، نتیجه هر روش مورد ارزیابی قرار گرفت.
جدول 6، نتایج MAP مربوط به این آزمایشها را بر روی تمامی 27 زیرمجموعه ممکن از وزنهای پایه، در مجموعه دادههای Cranfield و Medline، و برحسب روشهای رتبهبندی مختلف (Lrank، Rrank، و Mrank) نشان میدهد. در این جدول هر ردیف مربوط به یک زیرمجموعه از روشهای وزندهی پایه است که در سه ستون سمت چپ جدول، شرایط در نظر گرفته شده جهت انتخاب زیرمجموعههای وزنی پایه (طبق جدول 5) برای آن ردیف معرفی شده است. بر اساس این شرایط، شماره روشهای وزنی پایه انتخابی مورد استفاده در زیرمجموعه مربوط به هر ردیف از جدول دقیقاً مشخص میشود که در ستون چهارم جدول آورده شده است. در آزمایشهای اولیه، زیرمجموعههای وزنی یکسانی برای اسناد و پرسوجوها استفاده شد؛ هرچند در آزمایشها مشاهده شد که کنار گذاشتن روشهای وزندهی شامل مؤلفه p، از زیرمجموعههای وزنی، ممکن است برای اسناد مفید باشد اما برای پرسوجوها کارآیی سیستم را پایین میآورد و بهتر است این روشهای وزندهی در زیرمجموعههای وزنی پرسوجوها حتماً مورد استفاده قرار گیرند؛ به همین دلیل در جدول 6 بجز در ردیفهایی که در ستون چهارم صراحتاً برای پرسوجوها زیرمجموعهی دیگری ذکر شده، در بقیه موارد از زیرمجموعههای وزنی یکسانی برای اسناد و پرسوجوها استفاده شده است. به این ترتیب به عنوان مثال، سطر اول جدول 6 بیانکننده این است که اگر در تشکیل زیرمجموعه وزنی، از وزنهای پایه 1 تا 12 (A1) که نرمالسازی طول بردار بر روی آنها انجام نشده استفاده گردد، بطوریکه فاقد روشهای وزندهی برگرفته از مؤلفه p بوده (B1) و شامل روشهای وزندهی بولی 1 یا 13 باشند (C1)، در اینصورت زیرمجموعه انتخابی مورد آزمایش شامل روشهای وزندهی پایه 1 تا 9 (یا به عبارتی روشهای bxx تا npx از جدول 3) خواهد بود که در شش ستون بعد نتایج MAP برای دو مجموعه داده و با استفاده از هر یک از سه روش مختلف رتبهبندی آورده شده است. برای هر زیرمجموعه در هر مجموعه داده، بهترین روش رتبهبندی با زمینه طوسی مشخص شده است. همچنین مقادیر ضخیم شده در هر ستون، معرف زیرمجموعهای است که بهترین نتیجه را برای آن روش رتبهبندی، در آن مجموعه داده، داشته است. نتایج این جدول از جنبههای مختلفی قابل بحث میباشد که در ادامه به آنها اشاره خواهد شد.
جدول 6. مقدار MAP زیرمجموعههای وزنی مختلف، در روش وزندهی فاصلهای، برحسب روشهای رتبهبندی مختلف، بر روی مجموعه دادههای Cranfield و Medline (مقادیر با زمینه طوسی، بیشترین مقدار بین سه روش رتبهبندی در هر مجموعه داده، و مقادیر ضخیم شده، بیشترین مقدار در هر ستون هستند)
|
|
|
|
| Cranfield | Medline | ||||
| روشهای وزندهی پایه مورد استفاده در زیرمجموعهها | Lrank | Rrank | Mrank | Lrank | Rrank | Mrank | |||
A1: روشهای 1-12 | B1:Lacking z component | C1: including 1 or 13 | 1-9 | 0.39011 | 0.37461 | 0.39826 | 0.52746 | 0.49853 | 0.50996 | |
C2: excluding 1 & 13 | 2-9 | 0.3906 | 0.40323 | 0.41824 | 0.53213 | 0.52226 | 0.52954 | |||
C3: excluding 1, 13 & p | 2, 4-5, 7-8 | 0.39993 | 0.40205 | 0.41708 | 0.53489 | 0.51712 | 0.52864 | |||
B2:Lacking n component | C1: includ. 1 or 13 | 1-6, 10-12 | 0.37203 | 0.38506 | 0.40775 | 0.48264 | 0.50470 | 0.52342 | ||
C2: exclud. 1& 13 | 2-6, 10-12 | 0.38987 | 0.39691 | 0.40621 | 0.50438 | 0.52489 | 0.52867 | |||
C3: excluding 1, 13 & p | 2, 4-5, 10-11 | 0.39341 | 0.39937 | 0.40817 | 0.49997 | 0.51929 | 0.52152 | |||
B3:including either z or n component | C1: includ. 1 or 13 | 1-12 | 0.38664 | 0.38607 | 0.40842 | 0.51302 | 0.50321 | 0.51972 | ||
C2: exclud. 1& 13 | 2-12 | 0.39124 | 0.40297 | 0.41304 | 0.51917 | 0.52315 | 0.53219 | |||
C3: excluding 1, 13 & p | 2, 4-5, 7-8, 10-11 (queries: 2-12) | 0.39903 | 0.40133 | 0.41543 | 0.51639 | 0.51911 | 0.52883 | |||
A2: روشهای 13-24 | B1:Lacking z component | C1: includ. 1 or 13 | 13-21 | 0.37585 | 0.4279 | 0.43323 | 0.53298 | 0.52567 | 0.53798 | |
C2: exclud. 1& 13 | 14-21 | 0.38164 | 0.42544 | 0.43235 | 0.53441 | 0.52369 | 0.54134 | |||
C3: excluding 1, 13 & p | 14, 16-17, 19-20 (queries: 14-21) | 0.39799 | 0.42698 | 0.43242 | 0.54313 | 0.52100 | 0.53905 | |||
B2:Lacking n component | C1: includ. 1 or 13 | 13-18, 22-24 | 0.41432 | 0.41927 | 0.4296 | 0.54394 | 0.51440 | 0.52886 | ||
C2: exclud. 1& 13 | 14-18, 22-24 | 0.41111 | 0.41623 | 0.42476 | 0.54200 | 0.51250 | 0.52594 | |||
C3: excluding 1, 13 & p | 14, 16-17, 22-23 (queries:14-18, 22-24) | 0.41937 | 0.41199 | 0.42236 | 0.54370 | 0.50668 | 0.52115 | |||
B3:including either z or n component | C1: includ. 1 or 13 | 13-24 | 0.40355 | 0.42435 | 0.43189 | 0.54580 | 0.51927 | 0.53597 | ||
C2: exclud. 1& 13 | 14-24 | 0.40587 | 0.42312 | 0.42951 | 0.54330 | 0.51916 | 0.53619 | |||
C3: excluding 1, 13 & p | 14,16-17,19-20, 22-23 (queries: 14-24) | 0.41538 | 0.42169 | 0.43132 | 0.54544 | 0.51471 | 0.53186 | |||
A3: روشهای 1-24 | B1:Lacking z component | C1: includ. 1 or 13 | 1-9, 13-21 | 0.27627 | 0.40487 | 0.41572 | 0.44170 | 0.51349 | 0.52107 | |
C2: exclud. 1& 13 | 2-9, 14-21 | 0.3453 | 0.4219 | 0.42502 | 0.51162 | 0.52869 | 0.53113 | |||
C3: excluding 1, 13 & p | 2, 4-5, 7-8, 14, 16-17, 19-20 | 0.36303 | 0.42066 | 0.42582 | 0.51759 | 0.53063 | 0.53394 | |||
B2:Lacking n component | C1: includ. 1 or 13 | 1-6, 10-12, 13-18, 22-24 | 0.27118 | 0.41233 | 0.41886 | 0.37971 | 0.52262 | 0.53130 | ||
C2: exclud. 1& 13 | 2-6, 10-12, 14-18, 22-24 | 0.3697 | 0.41213 | 0.41721 | 0.49349 | 0.52646 | 0.52961 | |||
C3: excluding 1, 13 & p | 2, 4-5, 10-11, 14, 16-17, 22-23 (queries:2-6, 10-12, 14-18, 22-24) | 0.37933 | 0.41577 | 0.41789 | 0.49198 | 0.52300 | 0.52435 | |||
B3:including either z or n component | C1: includ. 1 or 13 | 1-24 | 0.29204 | 0.41454 | 0.42227 | 0.43006 | 0.52269 | 0.53004 | ||
C2: exclud. 1& 13 | 2-12, 14-24 | 0.35713 | 0.41772 | 0.42129 | 0.49790 | 0.52982 | 0.53400 | |||
C3: excluding 1, 13 & p | 2, 4-5, 7-8, 10-11, 14, 16-17, 19-20, 22-23 (queries: 2-12, 14-24) | 0.36831 | 0.4211 | 0.42318 | 0.49552 | 0.52915 | 0.53029 |
5_2_1 ارزیابی کلی نتایج
با نگاه به جدول 6، مشاهده میشود که در مجموعه داده Creanfield، برای کلیه زیرمجموعهها بهترین نتایج زمانی بدست آمده است که رتبهبندی بر اساس "مرکز" اعداد فاصلهای مربوط به شباهتها (Mrank) صورت گرفته است. در مجموعه داده Medline نیز غالباً در استفاده از زیرمجموعههایی از A1 و A3 رتبهبندی Mrank، و در استفاده از زیرمجموعههایی از A2 (که اتفاقا شامل بهترین نتیجه هم هست)، رتبهبندی Lrank بهتر بوده است.
شکل 1 که بر اساس جدول 6 بدست آمده، مقادیر بیشترین، کمترین، و میانگین MAP تمامی 27 زیرمجموعه وزنی مختلف از روشهای وزندهی پایه را به ازاء هر یک از سه روش رتبهبندی پیشنهادی (Lrank، Rrank، و Mrank)، در هر یک از مجموعه دادههای Cranfield و Medline، نشان میدهد. در اینجا نیز از روی مقادیر میانگین نتایج در سه روش رتبهبندی مختلف مشاهده میشود که در هر دو مجموعه داده، بطور متوسط نتایج روش رتبهبندی Rrank بهتر از Lrank، و روش رتبهبندی Mrank بهتر از آن دو بوده است.
با مقایسه فواصل بین مقادیر بیشترین و کمترین، در روشهای رتبهبندی مختلف مشاهده میشود که در هر دو مجموعه داده، پراکندگی نتایج بدست آمده از زیرمجموعههای وزنی مختلف، در روش رتبهبندی Rrank کمتر از Lrank، و در روش رتبهبندی Mrank کمتر از آن دو بوده است. این موضوع با محاسبه انحراف استاندارد نتایج نیز تایید شد، جائیکه انحراف استاندارد نتایج بدست آمده از زیرمجموعههای وزنی مختلف، برای روشهای رتبهبندی Lrank، Rrank، و Mrank، در مجموعه داده Cranfield، به ترتیب 0.039، 0.014، و 0.009، و در مجموعه داده Medline، به ترتیب 0.04، 0.008، و 0.007 بدست آمد. پراکندگی کمتر بدین معنی است که وابستگی نتایج به زیرمجموعههای انتخابشده از وزنهای پایه، کمتر بوده و صرفنظر از زیرمجموعه انتخابی، بیشتر میتوان به نتایج بدست آمده اطمینان کرد.
با محاسبه میانگین نتایج روشهای مختلف در هریک از مجموعه دادهها مشاهده میشود که میانگین نتایج روش وزندهی فاصلهای، در مجموعه دادههای Cranfield و Medline، به ترتیب 0.40243 و 0.51934 میباشد که نه تنها از میانگین نتایج روشهای وزندهی پایه متناظر هر مجموعه داده در جدول 5 بهتر هستند بلکه نزدیک به بیشترین مقدار این مجموعه دادهها در جدول 5 هستند که همگی نشاندهنده تأثیر مثبت درنظر گرفتن وزنهای فاصلهای است.
5_2_2 اثر نرمالسازی طول وزنهای پایه
جهت بررسی اینکه نرمالسازی طول وزنهای پایه مورد استفاده در زیرمجموعههای وزنی، چه تأثیری در نتایج دارد، میانگین نتایج MAP روشهای وزندهی در هر یک از نواحی A1، A2، و A3، برای هر یک از سه روش رتبهبندی Lrank، Rrank، و Mrank، در هر یک از مجموعه دادههای Cranfield و Medline، در جدول 6 بدست آمد که در شکل 2 در قالب سه خط مختلف قابل مشاهده هستند.
(a) Cranfield (b) Medline |
(a) Cranfield (b) Medline
|
همانطور که مشاهده میشود، در کل، نتایج بدست آمده از زیرمجموعههای وزنی ناحیه A2 مناسبتر از A3، و این نیز غالباً بهتر از A1 بوده است که نشاندهنده تأثیر مثبت نرمالسازی طول بردار وزنهای پایه مورد استفاده است. البته در روش رتبهبندی Rrank در مجموعه داده Medline، نتایج A3 بهتر از A2 شده، اما همانطور که مشاهده میشود و در بخش 5-2-1 نیز اشاره شد، در این مجموعه داده نتایج روشهای رتبهبندی Lrank و Mrank مناسبتر بوده و بیشتر مدنظر هستند. همچنین مشاهده میشود که در استفاده از زیرمجموعههای وزنی ناحیه A2، در مجموعه داده Cranfield استفاده از روش رتبهبندی Mrank، و در مجموعه داده Medline استفاده از روش رتبهبندی Lrank، مناسبتر بوده است.
5_2_3 اثر استفاده از مؤلفههای نرمالسازی TF مختلف، در وزنهای پایه
شکل 3 از میانگینگیری بر روی نتایج MAP زیرمجموعههای وزنی در هر یک از نواحی B1، B2، و B3، برای هر یک از سه روش رتبهبندی Lrank، Rrank، و Mrank، در مجموعه دادههای Cranfield و Medline، در جدول 6 بدست آمده تا تأثیر استفاده از هر یک مشخص شود. همانطور که مشاهده میشود، بطورکلی در هر دو مجموعه داده، استفاده از زیرمجموعههای وزنی B1 و B3 منجر به نتایج بهتری نسبت به B2 شده است؛ یعنی بهتر است در زیرمجموعههای انتخابی حتماً از روشهای وزندهی پایه شامل مؤلفه n، استفاده شود. در شکل 3 مشاهده میشود که در هر دو مجموعه داده، در روش رتبهبندی Mrank نتایج بهتری بدست آمده است اما اگر نتایج بدست آمده در بخش 5-2-2 نیز مدنظر قرار داده و تأثیر این مؤلفهها فقط در ناحیه برتر A2 مورد بررسی قرار گیرد، مشاهده میشود که در A2، در مجموعه داده Cranfield، زیرمجموعههای وزنی B1 در روش رتبهبندی Mrank با میانگین 0.43267، بهترین نتایج را دادهاند. در مجموعه داده Medline، نیز با اینکه نتایج این ناحیه خوب هستند اما بهترین نتایج به ازاء زیرمجموعههای وزنی B3 در روش رتبهبندی Lrank با میانگین 0.54485، بدست آمده است.
5_2_4 اثر استفاده از روشهای بولی، و روشهای وزندهی شامل مؤلفه p
شکل 4 از میانگینگیری بر روی نتایج MAP زیرمجموعههای وزنی در هر یک از نواحی C1، C2، و C3، در هر یک از سه روش رتبهبندی Lrank، Rrank، و Mrank، برای هر دو مجموعه داده در جدول 6 بدست آمده است. همانطور که مشاهده میشود، استفاده از روشهای وزندهی بولی در زیرمجموعه وزنهای پایه (C1)، در هر دو مجموعه داده باعث کاهش در نتایج MAP شده است. بعد از کنار گذاشتن روشهای وزندهی بولی، بطور متوسط، در مجموعه دادههای Cranfield عدم استفاده از وزنهای وزندهی شامل مؤلفه p فرکانس مجموعه در زیرمجموعههای وزنی مناسبتر است (یعنی C3 بهتر از C2)، در حالیکه در مجموعه داده Medline، بجز در روش Lrank در روشهای Rrank و Mrank برعکس است.
(a) Cranfield (b) Medline
|
در شکل 4 نیز شاید درکل، در هر دو مجموعه داده، روش رتبهبندی Mrank نتایج بهتری داده است اما اگر با توجه به نتایج بخش 5-2-2 فقط ناحیه برتر A2 مورد بررسی قرار گیرد، مشاهده میشود که در A2، در مجموعه داده Cranfield، زیرمجموعههای وزنی C1 در روش رتبهبندی Mrank با میانگین 0.43157، و در مجموعه داده Medline، زیرمجموعههای وزنی C3 در روش رتبهبندی Lrank با میانگین 0.54409 بهترین نتایج را دادهاند.
5_2_5 بررسی بهترین روشها
در جدول 6، نتایج مربوط به 81 آزمایش مختلف بر روی دو مجموعه داده آورده شد و در بخشهای قبل اثر روشها، پارامترها، و مؤلفههای مختلف در این نتایج مورد بررسی و بحث قرار گرفت. اگر به پنج روش برتر در هر یک از مجموعه دادهها که در جدول 6 زیر آنها خط کشیده شده توجه شود نیز به همان نتایجی که در بحثهای قبلی اشاره شد، رسیده و مشاهده میگردد که:
· در مجموعه Cranfield بهترین نتایج مربوط به استفاده از زیرمجموعههایی از روشهای وزندهی 13-24 بوده (A2) که در آنها حتماً از وزنهای پایه شامل مؤلفه n استفاده شده (B1 یا B3) و جهت رتبهبندی نهایی از Mrank استفاده شده است. در این شرایط، استفاده از زیرمجموعههای وزنی C1 و سپس C3 مناسبتر بودهاند، یعنی استفاده از وزنهای بولی و وزنهای شامل مؤلفه p در زیرمجموعههای وزنی (C1)، یا عدم استفاده از هیچیک از آنها (C3)
(a) Cranfield (b) Medline |
· در مجموعه Medline بهترین نتایج مربوط به استفاده از زیرمجموعههایی از روشهای وزندهی 13-24 بوده (A2) که در آنها حتماً از وزنهای پایه شامل مؤلفه z استفاده شده (B2 یا B3) و جهت رتبهبندی نهایی از Lrank استفاده شده است. در این شرایط نیز مانند Cranfield، استفاده از زیرمجموعههای وزنی C1 و سپس C3 مناسبتر بودهاند.
مشاهده میگردد که در رسیدن به بهترین نتایج، خیلی از شرایط بین دو مجموعه داده یکسان است اما به هر حال در مواردی که با هم اختلاف دارند، چه مؤلفهها و روشهایی را درنظر گرفت که صرفنظر از خصوصیات مجموعه داده، نتایج بهتری بدهد؟ برای رسیدن به پاسخ این سوال، ابتدا رتبهی هر یک از 81 روش مذکور در مجموعه داده مربوطه بدست آمد و سپس میانگین رتبه این روشها در دو مجموعه داده محاسبه و به صورت صعودی مرتب شدند تا برترین روشها بدست آیند. در جدول 7 میانگین رتبهی ده روش برتر در دو مجموعه داده مشاهده میشود، ضمن اینکه مؤلفهها و روشهای بکار رفته در هر روش به همراه رتبه و MAP آنها در هر یک از مجموعه دادهها آورده شده است. طبق جدول 7 مشاهده میشود که:
· در 80 درصد از ده روش برتر، از وزنهای پایهای با نرمالسازی طول در زیرمجموعهها (A2) استفاده شده و
· در 20 درصد، از هر دو سری وزنهای پایهی با نرمالسازی طول و بدون نرمالسازی طول (A3) استفاده شده است، اما زیرمجموعههایی که در آنها فقط وزنهای پایهی بدون نرمالسازی طول (A1) بکار رفته باشد، مشاهده نمیشود.
· در 50 درصد از آنها، از وزنهای پایه فاقد مؤلفه z در فاکتور TF (زیرمجموعههایی از B1)، در 20 درصد از روشها از وزنهای فاقد مؤلفه n (زیرمجموعههایی از B2)، و در 30 درصد دیگر از هر دو مؤلفه (زیرمجموعههایی از B3) استفاده شده است.
· 30 درصد از این روشها، از وزنهای پایه بولی و وزنهای شامل مؤلفه p در فرکانس مجموعه (زیرمجموعههایی از C1) استفاده کردهاند، در 30 درصد، بدون استفاده از وزنهای بولی، از وزنهای پایه شامل مؤلفه p در فرکانس مجموعه (زیرمجموعههایی از C2) استفاده شده و در 40 درصد باقیمانده علاوه بر عدم استفاده از وزنهای بولی، از روشهای فاقد مؤلفه p (زیرمجموعههایی از C3) استفاده شده است.
جدول 7. روشهای برتر وزندهی و بازیابی، به همراه رتبه و مقدار MAP هر یک در هر مجموعه داده و متوسط رتبه آنها در دو مجموعه
| Methods | Rank / MAP | Mean rank for 2 datasets | |||||||
| Length Normalization | Using n & z components | Using p components | Ranking Method | Cranfield | Medline | ||||
1 | A2 | B1 | C1 | Mrank | 1 / 0.43323 | 10 / 0.53798 | 5.5 | |||
1 | A2 | B1 | C2 | Mrank | 3 / 0.43235 | 8 / 0. 54134 | 5.5 | |||
1 | A2 | B1 | C3 | Mrank | 2 / 0.43242 | 9 / 0.53905 | 5.5 | |||
4 | A2 | B3 | C1 | Mrank | 4 / 0.43189 | 12 / 0.53597 | 8 | |||
5 | A2 | B3 | C2 | Mrank | 7 / 0.42951 | 11 / 0.53619 | 9 | |||
6 | A2 | B3 | C3 | Mrank | 5/ 0.43132 | 20/ 0.53186 | 12.5 | |||
7 | A3 | B1 | C3 | Mrank | 10 / 0.42582 | 16 / 0.53394 | 13 | |||
8 | A2 | B2 | C3 | Lrank | 24 / 0.41937 | 4 / 0.54370 | 14 | |||
9 | A3 | B1 | C2 | Mrank | 12 / 0.42502 | 22 / 0.53113 | 17 | |||
10 | A2 | B2 | C1 | Mrank | 6 / 0.4296 | 30 / 0.52886 | 18 |
· در 90 درصد از موارد از روش رتبهبندی Mrank، و در 10درصد از روش Lrank استفاده شده است، اما در هیچیک از ده روش برتر از روش رتبهبندی Rrank استفاده نشده است.
با توجه به جدول 7 و بررسیهای فوق، میتوان گفت که بطورکلی در روش پیشنهادی با 24 روش وزندهی پایه در نظر گرفته شده، استفاده از زیرمجموعههایی از وزنهای پایه که نرمالسازی طول روی آنها انجام شده (A2)، فاقد مؤلفه z در فاکتور TF هستند (B1)، در کنار استفاده از روش رتبهبندی Mrank مناسبتر است. با نگاه به شرایط سه سطر اول جدول 7، مشاهده میشود که استفاده یا عدم استفاده از وزنهای بولی و وزنهای پایه شامل مؤلفه p در فرکانس مجموعه (Ciهای مختلف)، تأثیری در میانگین رتبههای آنها نداشته است؛ با این وجود با توجه به شکل 4، در روش رتبهبندی Mrank، شاید عدم استفاده از وزنهای بولی (C2) نتایج بهتری را داشته باشد.
5_2_6 بررسی معیار P@n
باید توجه داشت که اکثر کاربران موتورهای جستجو تنها نتایج ابتدای لیست اسناد برگشتی را بررسی کرده و برای 80 درصد آنها تنها سه نتیجه برگشتی ابتدایی جالب میباشد [50]. برای بررسی نتایج از این نقطه نظر، در جدول 8 مقادیر معیارهای P@5، P@10، و P@20، برای وزنهای پایه 13 تا 24 (که زیرمجموعههای انتخابی از آنها در بخش قبل مناسبتر تشخیص داده شدند)، و در جدول 9 مقادیر این معیارها برای وزنهای فاصلهای بدست آمده از زیرمجموعههای مختلف وزنهای 13 تا 24، به ازاء روشهای رتبهبندی مختلف، در دو مجموعه داده Cranfield و Medline آورده شده است.
جدول 8. مقادیر دقت در برترین 5، 10، و 20 سند ارائه شده، به ازاء روشهای وزندهی پایه 13 تا 24، در هر مجموعه داده
| شماره و نام سه جزئی روش | Cranfield | Medline | |||||
| P@5 | P@10 | P@20 | P@5 | P@10 | P@20 | ||
روشهای 13-24 (همراه با نرمالسازی طول) | 13 | bxc | 0.33956 | 0.24444 | 0.16378 | 0.72667 | 0.58000 | 0.46333 |
14 | bfc | 0.34933 | 0.25600 | 0.16911 | 0.63333 | 0.58333 | 0.51167 | |
15 | bpc | 0.34311 | 0.24978 | 0.16667 | 0.64000 | 0.58667 | 0.50667 | |
16 | txc | 0.39200 | 0.27733 | 0.18378 | 0.67333 | 0.57000 | 0.46833 | |
17 | tfc | 0.42756 | 0.30311 | 0.20111 | 0.66667 | 0.60333 | 0.53333 | |
18 | tpc | 0.41244 | 0.29778 | 0.19622 | 0.66000 | 0.60667 | 0.53333 | |
19 | nxc | 0.40978 | 0.28222 | 0.18267 | 0.72667 | 0.61667 | 0.50000 | |
20 | nfc | 0.41067 | 0.28756 | 0.18711 | 0.67333 | 0.63667 | 0.53500 | |
21 | npc | 0.40267 | 0.28533 | 0.18400 | 0.67333 | 0.63333 | 0.53833 | |
22 | zxc | 0.39200 | 0.27733 | 0.18378 | 0.67333 | 0.57000 | 0.46833 | |
23 | zfc | 0.42756 | 0.30311 | 0.20111 | 0.66667 | 0.60333 | 0.53333 | |
24 | zpc | 0.41244 | 0.29778 | 0.19622 | 0.66000 | 0.60667 | 0.53333 | |
بیشترین مقدار | 0.42756 | 0.30311 | 0.20111 | 0.72667 | 0.63667 | 0.53833 | ||
میانگین مقادیر | 0.39326 | 0.28015 | 0.18463 | 0.67278 | 0.59972 | 0.51042 |
همانگونه که در جداول 8 و 9 مشاهده میشود، در وزنهای فاصلهای نیز مانند وزنهای پایه، مقادیر دقت در nهای کوچکتر که بیشتر مورد توجه کاربران است، بالاتر میباشد. همچنین در مقایسه جداول 6 و 9، مشاهده میگردد که در معیار P@n نیز مانند معیار MAP در مجموعه داده Cranfield نتایج رتبهبندی بر اساس Mrank، و در مجموعه داده Medline نتایج رتبهبندی بر اساس Lrank مناسبتر بوده است. با مقایسه جداول 8 و 9 میتوان متوجه شد که میانگین مقادیر بدست آمده از زیرمجموعههای مختلف در روش وزندهی فاصلهای، به ازاء هر یک از روشهای رتبهبندی، از میانگین روشهای وزندهی پایهی مربوطه بهتر شده است. در روش وزندهی فاصلهای، در مجموعه داده Cranfield، مقادیر میانگین Mrank (و در مجموعه داده Medline، مقادیر میانگین Lrank) حتی از بیشترین مقادیر معادل در جدول 8 هم بهتر شدهاند. با مقایسه نتایج MAP جدول 6 با جداول 4 و 5 نیز مشاهده میگردد که نه تنها میانگین نتایج روشهای پیشنهادی مختلف در این تحقیق از میانگین نتایج استفاده از هر یک از وزنهای پایه به تنهایی، با اختلاف بهتر است، بلکه نتایج MAP روش پیشنهادی از اکثر نتایج روشهای وزندهی پایه در جدول 4 نیز بهتر شده است. بنابراین بر اساس هر دو معیار، اثربخشی ایجاد وزنهای فاصلهای بر اساس وزنهای پایه، نسبت به استفاده از هر یک از وزنهای پایه به تنهایی،کاملاً مشهود میباشد. همچنین باید توجه داشت که محاسبه وزنهای پایه اولیه مورد نظر و محاسبه وزنهای فاصلهای برای لغات مختلف اسناد، به صورت آفلاین صورت گرفته و در زمان ورود یک پرسوجوی جدید، تنها محاسبه میزان ارتباط آن با اسناد مختلف (آن هم فقط بر اساس لغات درون پرسوجو) انجام میگیرد؛ بنابراین روش پیشنهادی ضمن افزایش دقت، از روشی ساده استفاده کرده و افزایش پیچیدگی و زمان اجرا را به همراه ندارد.
جدول 9. مقادیر دقت در برترین 5، 10، و 20 سند ارائه شده، برای زیرمجموعههای مختلف از روشهای وزندهی پایه 13 تا 24، در روش وزندهی فاصلهای، برحسب روشهای رتبهبندی مختلف، در هر مجموعه داده (مقادیر با زمینه طوسی، بیشترین مقدار بین سه روش رتبهبندی، و مقادیر ضخیم شده، بیشترین مقدار در هر ستون هستند)
| روشهای وزندهی پایه مورد استفاده در زیرمجموعهها | روش رتبهبندی | Cranfield | Medline | ||||||||||||||||||||||||||||||||||
| P@5 | P@10 | P@20 | P@5 | P@10 | P@20 | ||||||||||||||||||||||||||||||||
A2: روشهای 13-24 (همراه با نرمالسازی طول) | 13-21 (B1.C1)
| Lrank | 0.40356 | 0.28400 | 0.18622 | 0.72667 | 0.64000 | 0.53833 | ||||||||||||||||||||||||||||||
Rrank | 0.45244 | 0.31200 | 0.20533 | 0.71333 | 0.64667 | 0.54000 | ||||||||||||||||||||||||||||||||
Mrank | 0.45600 | 0.31467 | 0.20667 | 0.72667 | 0.65000 | 0.54000 | ||||||||||||||||||||||||||||||||
14-21 (B1.C2)
| Lrank | 0.41067 | 0.28489 | 0.18600 | 0.71333 | 0.65000 | 0.54167 | |||||||||||||||||||||||||||||||
Rrank | 0.44711 | 0.31067 | 0.20667 | 0.69333 | 0.64333 | 0.54333 | ||||||||||||||||||||||||||||||||
Mrank | 0.46044 | 0.31200 | 0.20756 | 0.72000 | 0.66000 | 0.53667 | ||||||||||||||||||||||||||||||||
14, 16-17, 19-20 (queries: 14-21) (B1.C3) | Lrank | 0.41422 | 0.29333 | 0.19556 | 0.72667 | 0.65333 | 0.54667 | |||||||||||||||||||||||||||||||
Rrank | 0.44889 | 0.31111 | 0.20533 | 0.70667 | 0.64000 | 0.53167 | ||||||||||||||||||||||||||||||||
Mrank | 0.45778 | 0.31511 | 0.20844 | 0.74000 | 0.64333 | 0.54000 | ||||||||||||||||||||||||||||||||
13-18, 22-24 (B2.C1)
| Lrank | 0.44533 | 0.30489 | 0.19867 | 0.72667 | 0.65667 | 0.54833 | |||||||||||||||||||||||||||||||
Rrank | 0.44178 | 0.31156 | 0.20444 | 0.70667 | 0.62333 | 0.53000 | ||||||||||||||||||||||||||||||||
Mrank | 0.45778 | 0.31244 | 0.20933 | 0.71333 | 0.63333 | 0.53833 | ||||||||||||||||||||||||||||||||
14-18, 22-24 (B2.C2)
| Lrank | 0.44089 | 0.30311 | 0.19689 | 0.73333 | 0.65667 | 0.55667 | |||||||||||||||||||||||||||||||
Rrank | 0.43822 | 0.30978 | 0.20400 | 0.70000 | 0.63000 | 0.52667 | ||||||||||||||||||||||||||||||||
Mrank | 0.45067 | 0.31067 | 0.20644 | 0.70000 | 0.63667 | 0.53500 | ||||||||||||||||||||||||||||||||
14, 16-17, 22-23 (queries: 14-18, 22-24) (B2.C3) | Lrank | 0.44267 | 0.30933 | 0.20422 | 0.74667 | 0.65333 | 0.55667 | |||||||||||||||||||||||||||||||
Rrank | 0.43733 | 0.30311 | 0.20311 | 0.71333 | 0.61667 | 0.52167 | ||||||||||||||||||||||||||||||||
Mrank | 0.44711 | 0.31067 | 0.20622 | 0.71333 | 0.64333 | 0.53000 | ||||||||||||||||||||||||||||||||
13-24 (B3.C1)
| Lrank | 0.42578 | 0.29822 | 0.19356 | 0.74667 | 0.65667 | 0.55333 | |||||||||||||||||||||||||||||||
Rrank | 0.44622 | 0.31422 | 0.20378 | 0.70667 | 0.62667 | 0.53167 | ||||||||||||||||||||||||||||||||
Mrank | 0.45600 | 0.31600 | 0.20933 | 0.72667 | 0.64667 | 0.53667 | ||||||||||||||||||||||||||||||||
14-24 (B3.C2)
| Lrank | 0.43467 | 0.29600 | 0.19556 | 0.72667 | 0.65667 | 0.55667 | |||||||||||||||||||||||||||||||
Rrank | 0.44711 | 0.31378 | 0.20489 | 0.70000 | 0.61667 | 0.53500 | ||||||||||||||||||||||||||||||||
Mrank | 0.45689 | 0.31244 | 0.20822 | 0.71333 | 0.65000 | 0.53833 | ||||||||||||||||||||||||||||||||
14, 16-17, 19-20, 22-23 (queries: 14-24) (B3.C3) | Lrank | 0.43733 | 0.30089 | 0.20333 | 0.73333 | 0.66000 | 0.55167 | |||||||||||||||||||||||||||||||
Rrank | 0.44178 | 0.30889 | 0.20533 | 0.70000 | 0.63333 | 0.53333 | ||||||||||||||||||||||||||||||||
Mrank | 0.45422 | 0.31022 | 0.20911 | 0.72667 | 0.64333 | 0.53333 | ||||||||||||||||||||||||||||||||
میانگین مقادیر Lrank | 0.42835 | 0.29719 | 0.19556 | 0.73111 | 0.65370 | 0.55000 | ||||||||||||||||||||||||||||||||
میانگین مقادیر Rrank | 0.44454 | 0.31057 | 0.20477 | 0.70444 | 0.63074 | 0.53259 | ||||||||||||||||||||||||||||||||
میانگین مقادیر Mrank | 0.45521 | 0.31269 | 0.20793 | 0.72000 | 0.64519 | 0.53648 |
5،3 مقایسه با دیگر روشها
جهت مقایسه با دیگر روشهای وزندهی، مقالات زیادی مورد بررسی قرار گرفتند؛ در برخی از مقالات معیار MAP مدنظر نبوده و در برخی نیز نتایج بر اساس انجام آزمایش بر روی گزیدهای از پرسوجوها (نه تمامی آنها) ارائه شده است و امکان مقایسه وجود نداشت. در جدول 10، بهترین نتایج روش پیشنهادی در بین ترکیبات مختلف پارامترهای بررسی شده برای تعیین وزنهای فاصلهای لغات، که در واقع مربوط به بهترین ترکیب در هر مجموعه داده هستند، به همراه نتایج ترکیب بهینه بر روی هر دو مجموعه داده (A2, B1, C2, Mrank) که در بخش 5-2-5 مشخص شد، آورده شده است. این نتایج با بهترین نتایج روش بهترین تطابق BM25 [7] و [26]، روش وزندهی فرکانس لغت همراه با میانگین رویداد لغت (TF-ATO) در دو حالت عدم استفاده و استفاده از روش متمایزکننده (DA) به منظور حذف وزنهای کم ارزش از اسناد [8]، و مدلهای زبانی سند و در فرآیند Pólya [32]، مقایسه شده است. به دلیل موجود نبودن مقادیر P@n در این مقالات، امکان مقایسه از منظر این معیار میسر نبود.
جدول 10. مقایسه مقدار MAP روش پیشنهادی با دیگر روشها
| روش/مدل | مجموعه داده | ||
Cranfield | Medline | |||
Wistchel [7] | BM25 | 0.416 | 0.509 | |
Cummins [26] | BM25 | 0.4223 | 0.5343 | |
Ibrahim and Landa-Silva [8] | TF-ATO | 0.3547 | - | |
TF-ATO | 0.3998 | - | ||
Cummins [32] |
| 0.427 | 0.523 | |
| 0.432 | 0.533 | ||
روش پیشنهادی | بهترین نتایج بین | 0.43323 | 0.54580 | |
ترکیب بهینه پارامترها | 0.43235 | 0.54134 |
[1] | S. Marrara, G. Pasi and M. Viviani, "Aggregation operators in information retrieval," Fuzzy Sets and Systems, vol. 324, pp. 3-19, 2017. |
[2] | D. H. Kraft and E. Colvin, Fuzzy Information Retrieval, North Carolina: Morgan and Claypool, 2017. |
[3] | D. H. Kraft, E. Colvin, G. Bordogna and G. Pasi, "Fuzzy information retrieval systems: A historical perspective," in Fifty Years of Fuzzy Logic and its Applications, Springer, Cham, 2015, pp. 267-296. |
[4] | H. P. Luhn, "The automatic creation of literature abstracts," IBM Journal of research and development, vol. 2, no. 2, pp. 159-165, 1958. |
[5] | P. Switzer, "Vector Images in Document Retrieval," in Statistical Association Methods for Mechanized Documentation: Symposium Proceedings, Washington, 1964. |
[6] | G. Salton and C. Buckley, "Term-weighting approaches in automatic text retrieval," Information processing & management, vol. 24, no. 5, pp. 513-523, 1988. |
[7] | R. Cummins, The evolution and analysis of term-weighting schemes in information retrieval, Galway: National University of Ireland, 2008. |
[8] | O. A. S. Ibrahim and D. Landa-Silva, "Term frequency with average term occurrences for textual information retrieval," Soft Computing, vol. 20, no. 8, pp. 3045-3061, 2016. |
[9] | K. Goslin and M. Hofmann, "A Wikipedia powered state-based approach to automatic search query enhancement," Information Processing & Management, vol. 54, no. 4, pp. 726-739, 2018. |
[10] | K. Chen, Z. Zhang, J. Long and H. Zhang, "Turning from TF-IDF to TF-IGM for term weighting in text classification," Expert Systems with Applications, vol. 66, pp. 245-260, 2016. |
[11] | S. Plansangket, New weighting schemes for document ranking and ranked query suggestion, PhD diss., University of Essex, 2017. |
[12] | D. Kandé, R. M. Marone, S. Ndiaye and F. Camara, "A Novel Term Weighting Scheme Model," in Proceedings of the 4th International Conference on Frontiers of Educational Technologies(ICFET 18), Moscow, 2018. |
[13] | T. Dogan and A. K. Uysal, "Improved inverse gravity moment term weighting for text classification," Expert Systems with Applications, vol. 130 , pp. 45-59, 2019. |
[14] | S. Balbi, M. Misuraca and G. Scepi, "Combining different evaluation systems on social media for measuring user satisfaction," Information Processing & Management, vol. 54, no. 4, pp. 674-685, 2018. |
[15] | H. Li, "Learning to rank for information retrieval and natural language processing," Synthesis Lectures on Human Language Technologies, vol. 4, no. 1, pp. 1-113, 2011. |
[16] | S. Gugnani, T. Bihany and R. K. Roul, "A complete survey on web document ranking," International Journal of Computer Applications (975 8887), vol. ICACEA, no. 2, pp. 1-7, 2014. |
[17] | A. H. Keyhanipour, M. Piroozmand and K. Badie, "A GP-adaptive web ranking discovery framework based on combinative content and context features," Journal of Informetrics, vol. 3, no. 1, pp. 78-89, 2009. |
[18] | E. Goldberg, "Statistical machine". U.S. Patent 183 838 929-1931, 1931. |
[19] | J. E. Holmstrom, "Section III. Opening plenary session," in The Royal Society Scientific Information Conference, London, U.K., 1948. |
[20] | H. F. Mitchell Jr, "The use of the univ AC FAC-tronic system in the library reference field," American Documentation, vol. 4, no. 1, pp. 16-17, 1953. |
[21] | M. Taube, C. D. Gull and I. S. Wachtel, "Unit terms in coordinate indexing," American Documentation, vol. 3, no. 4, pp. 213-218, 1952. |
[22] | H. P. Luhn, "A statistical approach to mechanized encoding and searching of literary information," IBM Journal of research and development, vol. 1, no. 4, pp. 309-317, 1957. |
[23] | K. S. Jones, Information retrieval experiment, Newton, MA: Butterworth-Heinemann, 1981. |
[24] | S. E. Robertson, "The probability ranking principle in IR," Journal of documentation, vol. 33, no. 4, pp. 294-304, 1977. |
[25] | M. Sanderson and W. B. Croft, "The history of information retrieval research," Proceedings of the IEEE, vol. 100, no. Special Centennial Issue, pp. 1444-1451, 2012. |
[26] | H. F. Witschel, "Global term weights in distributed environments," Information Processing & Management, vol. 44, no. 3, pp. 1049-1061, 2008. |
[27] | Y. Gupta, A. Saini and A. K. Saxena, "A new fuzzy logic based ranking function for efficient information retrieval system," Expert Systems with Applications, vol. 42, no. 3, pp. 1223-1234, 2015. |
[28] | A. I. Kadhim, "Term Weighting for Feature Extraction on Twitter: A Comparison Between BM25 and TF-IDF," in International Conference on Advanced Science and Engineering (ICOASE), 2019. |
[29] | C. Kamphuis, A. P. de Vries, L. Boytsov and J. Lin, "Which BM25 Do You Mean? A Large-Scale Reproducibility Study of Scoring Variants," in European Conference on Information Retrieval, Cham, 2020. |
[30] | J. M. Ponte and W. B. Croft, "A language modeling approach to information retrieval," in In Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval, 1998. |
[31] | C. Zhai and J. Lafferty, "A study of smoothing methods for language models applied to information retrieval," ACM Transactions on Information Systems (TOIS), vol. 22, no. 2, pp. 179-214, 2004. |
[32] | R. Cummins, Modelling Word Burstiness in Natural Language: A Generalised Polya Process for Document Language Models in Information Retrieval, arXiv preprint arXiv:1708.06011, 2017. |
[33] | R. Cummins, J. H. Paik and Y. Lv, "A Pólya urn document language model for improved information retrieval," ACM Transactions on Information Systems (TOIS), vol. 33, no. 4, p. 21, 2015. |
[34] | G. Salton, Automatic Information Organization and Retrieval, New York: McGraw-Hill, 1968. |
[35] | K. Sparck Jones, "A statistical interpretation of term specificity and its application in retrieval," Journal of documentation, vol. 28, no. 1, pp. 11-21., 1972. |
[36] | G. Salton and C.-S. Yang, "On the specification of term values in automatic indexing," Journal of documentation, vol. 29, no. 4, pp. 351-372, 1973. |
[37] | G. Salton, A. Wong and C.-S. Yang, "A vector space model for automatic indexing," Communications of the ACM, vol. 18, no. 11, pp. 613-620, 1975. |
[38] | F. S. Al-Anzi, D. AbuZeina and S. Hasan, "Utilizing standard deviation in text classification weighting schemes," Int J Innov Comput Inf Control, vol. 13, no. 4, pp. 1385-1398, 2017. |
[39] | J. Beel, S. Langer and B. Gipp, "Tf-iduf: A novel term-weighting scheme for user modeling based on users’ personal document collections," in iConference 2017, Wuhan, China, 2017. |
[40] | L. Bernauer, E. J. Han and S. Y. Sohn, "Term discrimination for text search tasks derived from negative binomial distribution," Information Processing & Management, vol. 54, no. 3, pp. 370-379, 2018. |
[41] | R. Lakshmi and S. Baskar, "Novel Term Weighting Schemes for Document Representation based on Ranking of Terms and Fuzzy Logic with Semantic Relationship of Terms," Expert Systems with Applications, vol. 137, pp. 493-503, 2019. |
[42] | F. Carvalho and G. P. Guedes, TF-IDFC-RF: A Novel Supervised Term Weighting Scheme, arXiv preprint arXiv:2003.07193, 2020. |
[43] | W. B. Frakes and R. Baeza-Yates, Eds., Information retrieval: Data structures & algorithms, vol. 331, Englewood Cliffs, NJ: prentice Hall, 1992. |
[44] | G. Bordogna and G. Pasi, "Controlling retrieval through a user-adaptive representation of documents," International Journal of Approximate Reasoning, vol. 12, no. 3-4, pp. 317-339, 1995. |
[45] | D. H. Kraft, G. Bordogna and G. Pasi, "An extended fuzzy linguistic approach to generalize Boolean information retrieval," Information Sciences-Applications, vol. 2, no. 3, pp. 119-134, 1995. |
[46] | Y. Y. Yao, "Interval-set algebra for qualitative knowledge representation," in Proceedings of ICCI'93: 5th International Conference on Computing and Information, 1993. |
[47] | J. M. Mendel and D. Wu, Perceptual computing: Aiding people in making subjective judgments, vol. 13, John Wiley & Sons, 2010. |
[48] | J. Han, J. Pei and M. Kamber, Data mining: concepts and techniques, Elsevier, 2011. |
[49] | A. Turpin and F. Scholer, "User performance versus precision measures for simple search tasks," in In Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval, 2006. |
[50] | R. Baeza-Yates and B. Ribeiro-Neto, Modern Information Retrieval: the concepts and technology behind search, 2 ed., Harlow: England: Pearson Education Ltd., 2011. |
Proposing an Information Retrieval Model Using Interval Numbers
Abstract:
Recent expansions of web demands for more capable information retrieval systems that more accurately address the users' information needs. Weighting the words and terms in documents plays an important role in any information retrieval system. Various methods for weighting the words are proposed, however, it is not straightforward to assert which one is more effective than the others. In this paper, we have proposed a method that calculates the weights of the terms in documents and queries as interval numbers. The interval numbers are derived by aggregating the crisp weights that are calculated by exploiting the existing weighting methods. The proposed method, calculates an interval number as the overall relevancy of each document with the given query. We have discussed three approaches for ranking the interval relevancy numbers. In the experiments we have conducted on Cranfield and Medline datasets, we have studied the effects of weight normalization, use of variations of term and document frequency and have shown that appropriate selection of basic term weighting methods in conjunction with their aggregation into an interval number would considerably improve the information retrieval performance. Through appropriate selection of basic weighting methods we have reached the MAP of 0.43323 and 0.54580 on the datasets, respectively. Obtained results show that he proposed method, outperforms the use of any single basic weighting method and other existing complicated weighting methods.
Keywords: Textual information retrieval, Documentt ranking, Term weighting, Interval numbers, Interval weight
The rights to this website are owned by the Raimag Press Management System.
Copyright © 2017-2024