ارائه الگوریتمی مبتنی بر یادگیری جمعی به منظور یادگیری رتبهبندی در بازیابی اطلاعات
محورهای موضوعی : فناوری اطلاعات و دانش
1 - هیات علمی دانشگاه
2 - دانشگاه تهران
کلید واژه: یادگیری رتبهبندی, یادگیری رتبهبندی در بازیابی اطلاعات, یادگیری ماشین, یادگیری جمعی,
چکیده مقاله :
یادگیری رتبهبندی که یکی از روشهای یادگیری ماشین برای مدل کردن رتبهبندی است، امروزه کاربردهای بسیاری به خصوص در بازیابی اطلاعات، پردازش زبان طبیعی و دادهکاوی دارد. فعالیت یادگیری رتبهبندی را میتوان به دو بخش تقسیم کرد. یکی سیستم یادگیری مورد استفاده و دیگری سیستم رتبهبندی. در سیستم یادگیری، یک مدل رتبهبندی بر اساس دادههای ورودی ساخته میشود. در بخش سیستم رتبهبندی، از این مدل ساخته شده برای پیشبینی رتبهبندی استفاده میشود. در این مقاله یک الگوریتم پیشنهادی مبتنی بر یادگیری جمعی به منظور یادگیری رتبهبندی اسناد ارائه میشود که این الگوریتم به صورت تکراری یادگیرهای ضعیفی بر روی درصدی از دادههای آموزشی که توزیع آنها بر اساس یادگیر قبلی عوض شده است، میسازد و جمعی از یادگیرهای ضعیف را برای رتبه بندی تولید میکند. این الگوریتم سعی میکند تا با ساختن رتبهبند بر روی درصدی از دادهها، سبب افزایش دقت و کاهش زمان شود. با ارزیابی بر روی مجموعه داده لتور 3 دیده میشود که بهتر از الگوریتمهای دیگری در این زمینه که مبتنی بر یادگیری جمعی هستند، عمل میکند.
Learning to rank refers to machine learning techniques for training a model in a ranking task. Learning to rank has been shown to be useful in many applications of information retrieval, natural language processing, and data mining. Learning to rank can be described by two systems: a learning system and a ranking system. The learning system takes training data as input and constructs a ranking model. The ranking system then makes use of the learned ranking model for ranking prediction. In this paper, a new learning algorithm based on ensemble learning for learning ranking models in information retrieval is proposed. This algorithm iteratively constructs weak learners using a fraction of the training data whose weight distribution is determined based on previous weak learners. The proposed algorithm combines the weak rankers to achieve the final ranking model. This algorithm constructs a ranking model on a fraction of the training data to increase the accuracy and reduce the learning time. Experimental results based on Letor.3 benchmark dataset shows that the proposed algorithm significantly outperforms other ensemble learning algorithms.