قطعهبندی کلمات و عبارات متن، یکی از فعالیتهای اصلی در حوزه پردازش زبانهای طبیعی است. اکثر برنامههای پردازش زبانهای طبیعی به یک پیشپردازش برای استخراج کلمات متن و تشخیص عبارات احتیاج دارند. هدف اصلی و نهایی قطعهبندی عبارات، به دست آوردن کلمات معنیدار همراه با پیش چکیده کامل
قطعهبندی کلمات و عبارات متن، یکی از فعالیتهای اصلی در حوزه پردازش زبانهای طبیعی است. اکثر برنامههای پردازش زبانهای طبیعی به یک پیشپردازش برای استخراج کلمات متن و تشخیص عبارات احتیاج دارند. هدف اصلی و نهایی قطعهبندی عبارات، به دست آوردن کلمات معنیدار همراه با پیشوندها و پسوندهایشان است و این فعالیت متناسب با زبانهای طبیعی مختلف میتواند سخت یا آسان باشد. در زبان فارسی به علت وجود فاصله و نیمفاصله، عدم توجه کاربران به فاصلهگذاریها و نبود قواعد دقیق در نوشتن کلمات چندقسمتی، تشخیص و قطعهبندی کلمات چندقسمتی و مرکب با مشکلات و پیچیدگیهای خاص خود روبهرو است.
در این مقاله برآنیم تا با استفاده از شبکههای عصبی، یک روش آماری برای قطعهبندی عبارات متون فارسی جهت استفاده در موتورهای جستجو ارائه کنیم. الگوریتم پیشنهادی شامل 4 فاز است که با استفاده از احتمال رخداد تککلمات و دوکلمهایهای موجود در پیکره و با دقت 6/89% عمل قطعهبندی را انجام میدهد. نتایج آزمایشات نشان دادند این روش میتواند با قطعهبندی بهتر عبارات، بهبود نسبی در کارایی روشهای معمول به وجود آورد.
پرونده مقاله
رایمگ
سامانه رایمگ تمامی فرآیندهای دریافت، ارزیابی و داوری، ویراستاری، صفحهآرایی و انتشار الکترونیکی نشریات علمی را به انجام میرساند