حجم زیاد تصاویر متنی روز به روز مسئله دیجیتالیشدن متن تصاویر و همچنین مسئله جستجو در این منابع را اهمیت میبخشد. در بازشناسی متنهای حجیم میتوان از ویژگیهایی مانند محدودبودن تعداد و اندازه قلم، یکسانبودن صفحهآرایی در کل صفحهها، محدودبودن مجموعه واژهها و حوزه معنا More
حجم زیاد تصاویر متنی روز به روز مسئله دیجیتالیشدن متن تصاویر و همچنین مسئله جستجو در این منابع را اهمیت میبخشد. در بازشناسی متنهای حجیم میتوان از ویژگیهایی مانند محدودبودن تعداد و اندازه قلم، یکسانبودن صفحهآرایی در کل صفحهها، محدودبودن مجموعه واژهها و حوزه معنایی آنها و یکسانبودن سبک نگارشی در کل متن استفاده کرد. در این مقاله الگوریتمی ارائه شده که از یکسانبودن نوع و اندازه قلم برای خوشهیابی زیرکلمات یک کتاب قدیمی با کیفیت پایین چاپ استفاده شده است. این کتاب 233 صفحه دارد و کل زیرکلمات آن که در حدود 111000 زیرکلمه است جداسازی و برچسبزنی شده است. در این تحقیق از یک روش ساده افزایشی برای خوشهیابی زیرکلمات استفاده شده است. ابتدا برای هر زیرکلمه چهار ویژگی ساده استخراج میشود، در صورتی که تفاوت این ویژگیها از ویژگیهای نماینده یک خوشه کمتر از مقدار آستانه باشد، مقایسه تصویری بین آن دو انجام میشود. به علت زیادبودن تعداد زیرکلمات سعی شده تا از سادهترین روشهای ممکن استفاده شود تا سرعت اجرا افزایش یابد. نتایج آزمایشها نشان میدهد میتوان زیرکلمات را با دقتی در حدود 7/99 درصد خوشهیابی کرد. نتایج این خوشهیابی در مرحله بازشناسی زیرکلمات کمک بسیار زیادی خواهد کرد.
Manuscript profile
Rimag
Rimag is an integrated platform to accomplish all scientific journal requirements such as submission, evaluation, reviewing, editing, DOI assignment and publishing in the web.