-
دسترسی آزاد مقاله
1 - Utilizing Gated Recurrent Units to Retain Long Term Dependencies with Recurrent Neural Network in Text Classification
Nidhi Chandra Laxmi Ahuja Sunil Kumar Khatri Himanshu MongaThe classification of text is one of the key areas of research for natural language processing. Most of the organizations get customer reviews and feedbacks for their products for which they want quick reviews to action on them. Manual reviews would take a lot of time a چکیده کاملThe classification of text is one of the key areas of research for natural language processing. Most of the organizations get customer reviews and feedbacks for their products for which they want quick reviews to action on them. Manual reviews would take a lot of time and effort and may impact their product sales, so to make it quick these organizations have asked their IT to leverage machine learning algorithms to process such text on a real-time basis. Gated recurrent units (GRUs) algorithms which is an extension of the Recurrent Neural Network and referred to as gating mechanism in the network helps provides such mechanism. Recurrent Neural Networks (RNN) has demonstrated to be the main alternative to deal with sequence classification and have demonstrated satisfactory to keep up the information from past outcomes and influence those outcomes for performance adjustment. The GRU model helps in rectifying gradient problems which can help benefit multiple use cases by making this model learn long-term dependencies in text data structures. A few of the use cases that follow are – sentiment analysis for NLP. GRU with RNN is being used as it would need to retain long-term dependencies. This paper presents a text classification technique using a sequential word embedding processed using gated recurrent unit sigmoid function in a Recurrent neural network. This paper focuses on classifying text using the Gated Recurrent Units method that makes use of the framework for embedding fixed size, matrix text. It helps specifically inform the network of long-term dependencies. We leveraged the GRU model on the movie review dataset with a classification accuracy of 87%. پرونده مقاله -
دسترسی آزاد مقاله
2 - استفاده از تحلیل احساسات و ترکیب روش¬های یادگیری ماشین برای تشخیص هرزنامه در توییتر
مهدی سالخورده حقیقی امین الله کرمانیمحبوبیت شبکه های اجتماعی بخصوص توییتر چالش جدیدی را روبروی محققان قرار داده است و آن چیزی نیست جز هرزنامه . روش های گوناگون زیادی برای مقابله با آنها ارائه شده است. بعضی از این روش ها اگرچه در ابتدا کارآمد بودند اما به مرور توسط تولید کنندگان هرزنامه دور زده شدند. در ای چکیده کاملمحبوبیت شبکه های اجتماعی بخصوص توییتر چالش جدیدی را روبروی محققان قرار داده است و آن چیزی نیست جز هرزنامه . روش های گوناگون زیادی برای مقابله با آنها ارائه شده است. بعضی از این روش ها اگرچه در ابتدا کارآمد بودند اما به مرور توسط تولید کنندگان هرزنامه دور زده شدند. در این تحقیق تلاش داریم با استفاده از یکی از جدیدترین روش های تشخیص هرزنامه و ترکیب آن با تحلیل احساسات دقت تشخیص هرزنامه را افزایش دهیم. ما با استفاده از روش تعبیه سازی، کلمات متن توییت را به عنوان ورودی به یک معماری شبکه عصبی پیچشی داده و خروجی تشخیص دهنده متن هرزنامه یا متن عادی خواهد بود. هم زمان با استخراج ویژگی های مناسب در شبکه توییتر و اعمال روش های یادگیری ماشین بر روی آنها تشخیص هرزنامه بودن توییت را بصورت مجزا محاسبه می کنیم. در نهایت خروجی هر دو روش را به یک شبکه پیچشی تلفیقی وارد می کنیم تا خروجی آن تشخیص نهایی هرزنامه یا نرمال بودن متن توییت را تعیین کند. ما در این تحقیق از دو مجموعه داده متعادل و نامتعادل استفاده می کنیم تا تاثیر مدل پیشنهادی را بر روی دو نوع داده بررسی کنیم. نتایج پژوهش نشان دهنده بهبود کارایی روش پیشنهادی در هر دو مجموعه داده می باشد. پرونده مقاله -
دسترسی آزاد مقاله
3 - درون سازی معنایی واژه ها با استفاده از BERT روی وب فارسی
شکوفه بستان علی محمد زارع بیدکی محمد رضا پژوهاناستفاده از بافت و ترتیب واژگان در یک عبارت از مواردی است که میتواند به فهم بهتر آن عبارت منجر گردد. در سالهای اخیر، مدلهای زبانی از پیشآموزشیافته، پیشرفت شگرفی در زمینه پردازش زبان طبیعی به وجود آودهاند. در این راستا مدلهای مبتنی بر ترنسفورمر مانند الگوریتم BERT چکیده کاملاستفاده از بافت و ترتیب واژگان در یک عبارت از مواردی است که میتواند به فهم بهتر آن عبارت منجر گردد. در سالهای اخیر، مدلهای زبانی از پیشآموزشیافته، پیشرفت شگرفی در زمینه پردازش زبان طبیعی به وجود آودهاند. در این راستا مدلهای مبتنی بر ترنسفورمر مانند الگوریتم BERT از محبوبیت فزایندهای برخوردار گردیدهاند. این مسئله در زبان فارسی کمتر مورد بررسی قرار گرفته و بهعنوان یک چالش در حوزه وب فارسی مطرح میگردد. بنابراین در این مقاله، درونسازی واژگان فارسی با استفاده از این الگوریتم مورد بررسی قرار میگیرد که به درک معنایی هر واژه بر مبنای بافت متن میپردازد. در رویکرد پیشنهادی، مدل ایجادشده بر روی مجموعه دادگان وب فارسی مورد پیشآموزش قرار میگیرد و پس از طی دو مرحله تنظیم دقیق با معماریهای متفاوت، مدل نهایی تولید میشود. در نهایت ویژگیهای مدل استخراج میگردد و در رتبهبندی اسناد وب فارسی مورد ارزیابی قرار میگیرد. نتایج حاصل از این مدل، بهبود خوبی نسبت به سایر مدلهای مورد بررسی دارد و دقت را نسبت به مدل برت چندزبانه تا حداقل یک درصد افزایش میدهد. همچنین اعمال فرایند تنظیم دقیق با ساختار پیشنهادی بر روی سایر مدلهای موجود توانسته به بهبود مدل و دقت درونسازی بعد از هر فرایند تنظیم دقیق منجر گردد. نتایج رتبهبندی بر مبنای مدلهای نهایی، بیانگر بهبود دقت رتبهبندی وب فارسی نسبت به مدلهای پایه مورد ارزیابی با افزایش حدود 5 درصدی دقت در بهترین حالت است. پرونده مقاله