• فهرست مقالات Word Embedding

      • دسترسی آزاد مقاله

        1 - Utilizing Gated Recurrent Units to Retain Long Term Dependencies with Recurrent Neural Network in Text Classification
        Nidhi Chandra Laxmi  Ahuja Sunil Kumar Khatri Himanshu Monga
        The classification of text is one of the key areas of research for natural language processing. Most of the organizations get customer reviews and feedbacks for their products for which they want quick reviews to action on them. Manual reviews would take a lot of time a چکیده کامل
        The classification of text is one of the key areas of research for natural language processing. Most of the organizations get customer reviews and feedbacks for their products for which they want quick reviews to action on them. Manual reviews would take a lot of time and effort and may impact their product sales, so to make it quick these organizations have asked their IT to leverage machine learning algorithms to process such text on a real-time basis. Gated recurrent units (GRUs) algorithms which is an extension of the Recurrent Neural Network and referred to as gating mechanism in the network helps provides such mechanism. Recurrent Neural Networks (RNN) has demonstrated to be the main alternative to deal with sequence classification and have demonstrated satisfactory to keep up the information from past outcomes and influence those outcomes for performance adjustment. The GRU model helps in rectifying gradient problems which can help benefit multiple use cases by making this model learn long-term dependencies in text data structures. A few of the use cases that follow are – sentiment analysis for NLP. GRU with RNN is being used as it would need to retain long-term dependencies. This paper presents a text classification technique using a sequential word embedding processed using gated recurrent unit sigmoid function in a Recurrent neural network. This paper focuses on classifying text using the Gated Recurrent Units method that makes use of the framework for embedding fixed size, matrix text. It helps specifically inform the network of long-term dependencies. We leveraged the GRU model on the movie review dataset with a classification accuracy of 87%. پرونده مقاله
      • دسترسی آزاد مقاله

        2 - استفاده از تحلیل احساسات و ترکیب روش¬های یادگیری ماشین برای تشخیص هرزنامه در توییتر
        مهدی سالخورده حقیقی امین الله  کرمانی
        محبوبیت شبکه های اجتماعی بخصوص توییتر چالش جدیدی را روبروی محققان قرار داده است و آن چیزی نیست جز هرزنامه . روش های گوناگون زیادی برای مقابله با آنها ارائه شده است. بعضی از این روش ها اگرچه در ابتدا کارآمد بودند اما به مرور توسط تولید کنندگان هرزنامه دور زده شدند. در ای چکیده کامل
        محبوبیت شبکه های اجتماعی بخصوص توییتر چالش جدیدی را روبروی محققان قرار داده است و آن چیزی نیست جز هرزنامه . روش های گوناگون زیادی برای مقابله با آنها ارائه شده است. بعضی از این روش ها اگرچه در ابتدا کارآمد بودند اما به مرور توسط تولید کنندگان هرزنامه دور زده شدند. در این تحقیق تلاش داریم با استفاده از یکی از جدیدترین روش های تشخیص هرزنامه و ترکیب آن با تحلیل احساسات دقت تشخیص هرزنامه را افزایش دهیم. ما با استفاده از روش تعبیه سازی، کلمات متن توییت را به عنوان ورودی به یک معماری شبکه عصبی پیچشی داده و خروجی تشخیص دهنده متن هرزنامه یا متن عادی خواهد بود. هم زمان با استخراج ویژگی های مناسب در شبکه توییتر و اعمال روش های یادگیری ماشین بر روی آنها تشخیص هرزنامه بودن توییت را بصورت مجزا محاسبه می کنیم. در نهایت خروجی هر دو روش را به یک شبکه پیچشی تلفیقی وارد می کنیم تا خروجی آن تشخیص نهایی هرزنامه یا نرمال بودن متن توییت را تعیین کند. ما در این تحقیق از دو مجموعه داده متعادل و نامتعادل استفاده می کنیم تا تاثیر مدل پیشنهادی را بر روی دو نوع داده بررسی کنیم. نتایج پژوهش نشان دهنده بهبود کارایی روش پیشنهادی در هر دو مجموعه داده می باشد. پرونده مقاله
      • دسترسی آزاد مقاله

        3 - درون سازی معنایی واژه ها با استفاده از BERT روی وب فارسی
        شکوفه  بستان علی محمد زارع بیدکی محمد رضا پژوهان
        استفاده از بافت و ترتیب واژگان در یک عبارت از مواردی است که می‌تواند به فهم بهتر آن عبارت منجر گردد. در سال‌های اخیر، مدل‌های زبانی از پیش‌آموزش‌یافته، پیشرفت شگرفی در زمینه پردازش زبان طبیعی به وجود آوده‌اند. در این راستا مدل‌های مبتنی بر ترنسفورمر مانند الگوریتم BERT چکیده کامل
        استفاده از بافت و ترتیب واژگان در یک عبارت از مواردی است که می‌تواند به فهم بهتر آن عبارت منجر گردد. در سال‌های اخیر، مدل‌های زبانی از پیش‌آموزش‌یافته، پیشرفت شگرفی در زمینه پردازش زبان طبیعی به وجود آوده‌اند. در این راستا مدل‌های مبتنی بر ترنسفورمر مانند الگوریتم BERT از محبوبیت فزاینده‌ای برخوردار گردیده‌اند. این مسئله در زبان فارسی کمتر مورد بررسی قرار گرفته و به‌عنوان یک چالش در حوزه وب فارسی مطرح می‌گردد. بنابراین در این مقاله، درون‌سازی واژگان فارسی با استفاده از این الگوریتم مورد بررسی قرار می‌گیرد که به درک معنایی هر واژه بر مبنای بافت متن می‌پردازد. در رویکرد پیشنهادی، مدل ایجادشده بر روی مجموعه دادگان وب فارسی مورد پیش‌آموزش قرار می‌گیرد و پس از طی دو مرحله تنظیم دقیق با معماری‌های متفاوت، مدل نهایی تولید می‌شود. در نهایت ویژگی‌های مدل استخراج می‌گردد و در رتبه‌بندی اسناد وب فارسی مورد ارزیابی قرار می‌گیرد. نتایج حاصل از این مدل، بهبود خوبی نسبت به سایر مدل‌های مورد بررسی دارد و دقت را نسبت به مدل برت چندزبانه تا حداقل یک درصد افزایش می‌دهد. همچنین اعمال فرایند تنظیم دقیق با ساختار پیشنهادی بر روی سایر مدل‌های موجود توانسته به بهبود مدل و دقت درون‌سازی بعد از هر فرایند تنظیم دقیق منجر گردد. نتایج رتبه‌بندی بر مبنای مدل‌های نهایی، بیانگر بهبود دقت رتبه‌بندی وب فارسی نسبت به مدل‌های پایه مورد ارزیابی با افزایش حدود 5 درصدی دقت در بهترین حالت است. پرونده مقاله