• Home
  • محمد ابراهیم شناسا

    List of Articles محمد ابراهیم شناسا


  • Article

    1 - کاربست انواع جانمایی کلمات پیش‌آموزش‌داده‌شده در مدل‌های یادگیری عمیق برای تولید عنوان از متون فارسی
    Nashriyyah -i Muhandisi -i Barq va Muhandisi -i Kampyutar -i Iran , Issue 110 , Year , Spring 2024
    با پیدایش روش‌های یادگیری عمیق، مدل‌های دنباله به دنباله با هدف ترجمه ماشینی یک جمله مبدأ به یک جمله مقصد ارائه شدند و از همین ایده برای ترجمه یا تبدیل یک متن به شکل خلاصه‌شده آن استفاده گردیده است. خلاصه‌هایی که به این روش تولید می‌شوند از نظر ساختاری خواناتر بوده و مع More
    با پیدایش روش‌های یادگیری عمیق، مدل‌های دنباله به دنباله با هدف ترجمه ماشینی یک جمله مبدأ به یک جمله مقصد ارائه شدند و از همین ایده برای ترجمه یا تبدیل یک متن به شکل خلاصه‌شده آن استفاده گردیده است. خلاصه‌هایی که به این روش تولید می‌شوند از نظر ساختاری خواناتر بوده و معمولاً معنای کاملی را به خواننده منتقل می‌کنند. در چنین ساختارهایی برای بازنمایی معنایی واژه‌ها از بردارهای جانمایی کلمات استفاده می‌شود که در آن، وزن هر کلمه با توجه به کلمات مجاور آن از یک پیکره بزرگ آموزش داده می‌شود. در حالت کلی وزن این بردارها با انتخاب یک پنجره مجاورت برای هر کلمه به‌دست می‌آید؛ اما در مدل‌های زبانی بافتاری مانند برت برای محاسبه وزن این کلمات از مبدل‌های چندلایه استفاده می‌شود که به تمامی کلمات موجود در متن توجه می‌کنند. تاکنون مقالات متعددی نشان داده‌اند که مدل‌های زبانی بافتاری به‌دلیل قابلیت ریزتنظیم وزن‌ها برای انجام یک وظیفه پردازش زبان طبیعی خاص، موفق‌تر از سایر روش‌های جانمایی کلمات عمل می‌کنند؛ اما بررسی عملکرد وزن اولیه این مدل‌ها برای کاربست در تولید عنوان در زبان فارسی مورد توجه قرار نگرفته است. در این مقاله به بررسی رفتار جانمایی کلمات به‌صورت پیش‌آموزش‌داده‌شده و بدون ریزتنظیم آنها در تولید عنوان از متون فارسی می‌پردازیم. برای یادگیری مدل از «علم‌نت» که یک پیکره فارسی شامل حدود 350 هزار جفت چکیده و عنوان مقالات علمی می‌باشد، استفاده شده است. نتایج نشان می‌دهند استفاده از مدل برت حتی بدون ریزتنظیم وزن‌های آن در بهبود کیفیت عناوین فارسی تولیدشده تأثیرگذار بوده و معیار 1-ROUGE را در فارسی به 42% می‌رساند که بهتر از سایر مدل‌های جانمایی است. Manuscript profile

  • Article

    2 - پژوهشی مروری بر حوزه‌های پردازشی متون روایی
    Journal of Information and Communication Technology , Issue 59 , Year , Spring_Summer 2024
    جهت سهولت و رسیدن به دقت بالاتر و زمان پردازش کمتر، ارزیابی صحت حدیث به روش‌های هوشمند توصیه می‌شود. با توجه به حجم قابل توجه متون روایی و مفاهیم و روابط پیچیده موجود در آنها، تاکنون پژوهش‌های فراوانی در حوزه پردازش خودکار حدیث انجام شده است. در این حوزه، عده‌ای از محقق More
    جهت سهولت و رسیدن به دقت بالاتر و زمان پردازش کمتر، ارزیابی صحت حدیث به روش‌های هوشمند توصیه می‌شود. با توجه به حجم قابل توجه متون روایی و مفاهیم و روابط پیچیده موجود در آنها، تاکنون پژوهش‌های فراوانی در حوزه پردازش خودکار حدیث انجام شده است. در این حوزه، عده‌ای از محققان در زمینه‌های پردازش متن و سند، شیوه‌های هوشمندی را آزمایش کرده‌اند، که با توجه به مرور تحقیقات پیشین، حدود 47% از آنان در خصوص پردازش متن احادیث و 46% در مورد پردازش سند احادیث و 7% در هر دو حوزه پژوهش نموده‌اند. با بررسی 97 پژوهش در حوزه پردازش احادیث، مشخص شد که احادیث در حوزه سنجش صحت متن یا سند یا هر دو مورد، ارزیابی شده‌اند. وظایف پردازش را می‌توان به دسته‌های مختلفی از جمله ساخت هستان‌شناسی، رده‌بندی متن حدیث، تشابهات حدیثی و اعتبارسنجی احادیث طبقه بندی نمود. پرکاربردترین روش پردازشی حدیث، روش بازیابی اطلاعات در حوزه پردازش متن حدیث بوده است. Manuscript profile

  • Article

    3 - تحلیل نور: یک دادگان معیار برای ارزیابی روش‌های برچسب‌گذاری صرفی
    Journal of Information and Communication Technology , Issue 57 , Year , Autumn_Winter 2023
    زبان عربی ریخت‌‌شناسی بسیار غنی و پیچیده‌ای دارد که برای تحلیل زبان عربی و به ویژه در متون عربی سنتی مانند متون تاریخی و مذهبی بسیار مفید است و در فهم معنای متون کمک می‌کند. در مجموعه داده‌های ریخت‌شناسی تنوع برچسب و تعداد نمونه‌های دادگان به ارزیابی روش‌های ریخت‌شناسی More
    زبان عربی ریخت‌‌شناسی بسیار غنی و پیچیده‌ای دارد که برای تحلیل زبان عربی و به ویژه در متون عربی سنتی مانند متون تاریخی و مذهبی بسیار مفید است و در فهم معنای متون کمک می‌کند. در مجموعه داده‌های ریخت‌شناسی تنوع برچسب و تعداد نمونه‌های دادگان به ارزیابی روش‌های ریخت‌شناسی کمک بیشتری می‌کند، در این پژوهش مجموعه داده ریخت‌شناسی که ارائه می‌کنیم شامل حدود ۲۲۳۶۹۰ کلمه از كتاب شرائع الاسلام است که توسط متخصصین برچسب‌گذاری شده است که این مجموعه دادگان از نظر حجم و تنوع برچسب‌ها نسبت به سایر دادگان‌هایی که برای تحلیل ریخت‌شناسی عربی ارائه داده شده است برتر می‌باشد. برای ارزیابی دادگان، سامانه فراسه را بر روی متون اعمال کردیم و کیفیت حاشیه‌نویسی را از طريق چهار معيار بر روی سامانه فراسه گزارش می‌کنیم. Manuscript profile

  • Article

    4 - پژوهشی مروری بر حوزه‌های پردازشی متون روایی و احادیث
    Journal of Information and Communication Technology , Issue 59 , Year , Spring_Summer 2024
    جهت سهولت و رسیدن به دقت بالاتر و زمان پردازش کمتر، ارزیابی صحت حدیث به روشهای هوشمند توصیه میشود. با توجه به حجم قابل توجه متون روایی و مفاهیم و روابط پیچیده موجود در آنها، تاکنون پژوهشهای فراوانی در حوزه پردازش خودکار حدیث انجام شده است. در این حوزه، عدهای از محققان د More
    جهت سهولت و رسیدن به دقت بالاتر و زمان پردازش کمتر، ارزیابی صحت حدیث به روشهای هوشمند توصیه میشود. با توجه به حجم قابل توجه متون روایی و مفاهیم و روابط پیچیده موجود در آنها، تاکنون پژوهشهای فراوانی در حوزه پردازش خودکار حدیث انجام شده است. در این حوزه، عدهای از محققان در زمینههای پردازش متن و سند، شیوههای هوشمندی را آزمایش کردهاند، که با توجه به مرور تحقیقات پیشین، حدود 47% از آنان در خصوص پردازش متن احادیث و 45% در مورد پردازش سند احادیث و 8% در هر دو حوزه پژوهش نمودهاند. با بررسی 101 پژوهش در حوزه پردازش احادیث، مشخص شد که احادیث در حوزه سنجش صحت متن یا سند یا هر دو مورد، ارزیابی شده‌اند. وظایف پردازش را می‌توان به دسته‌های مختلفی از جمله ساخت هستان‌شناسی، رده‌بندی متن حدیث، تشابهات حدیثی و اعتبارسنجی احادیث طبقهبندی نمود. پرکاربردترین روش پردازشی حدیث، روش رده‌بندی در حوزه پردازش متن حدیث بوده است. Manuscript profile