فهرست مقالات سمیه عارفی


  • مقاله

    1 - انتخاب ويژگي براي شناسايي نويسنده در متون کوتاه برخط فارسي
    فصلنامه فناوری اطلاعات و ارتباطات ایران , شماره 47 , سال 13 , بهار-تابستان 1400
    رشد فزاينده‏ي استفاده از رسانه‌هاي اجتماعي و ارتباطات برخط به‌منظور بيان نظرات، تبادل عقايد و همچنين گسترش استفاده‏ي کاربران فارسي زبان از اين ابزارها باعث افزايش متون فارسي در وب شده است. اين رشد چشمگير در کنار سوءاستفاده‏هاي ناشي از ناشناس بودن نويسنده‏ي نوشته‏ها نياز چکیده کامل
    رشد فزاينده‏ي استفاده از رسانه‌هاي اجتماعي و ارتباطات برخط به‌منظور بيان نظرات، تبادل عقايد و همچنين گسترش استفاده‏ي کاربران فارسي زبان از اين ابزارها باعث افزايش متون فارسي در وب شده است. اين رشد چشمگير در کنار سوءاستفاده‏هاي ناشي از ناشناس بودن نويسنده‏ي نوشته‏ها نياز به سامانه‏ي خودکار شناسايي نويسنده در اين زبان را بيش از پيش آشکار مي‌سازد. هدف از اين پژوهش، بررسي ويژگي‌هاي مؤثر در شناسايي نويسندگان نظرات فارسي توليد شده توسط خريداران گوشي و همچنین ارزیابی روش‌های نظارتی و غیرنظارتی می‌باشد. عواملي که در اين پژوهش بررسي مي‏شود شامل ويژگي‌هاي لغوي، نگارشی، معنايي، ساختاري، دستوري، مختص متن و مختص شبکه‌هاي اجتماعي است. پس از استخراج ويژگي‌هاي مذکور، انتخاب ويژگي‌هاي برتر توسط چهار الگوريتم همبستگي ويژگي، نسبت بهره، OneR و تحليل اجزاي اصلي آزمايش مي‏شود. در ادامه از الگوريتم‏هاي K-means، EM و خوشه‏بندي مبتني بر چگالي براي خوشه‌بندي و الگوريتم‏هاي شبکه‏ي بيز، جنگل تصادفي و Bagging براي دسته‏بندي استفاده خواهد شد. ارزيابي الگوريتم‌هاي فوق بر روي نظرات فارسي مربوط به خريداران گوشي‌هاي سامسونگ نشان مي‏دهد که بهترين تشخيص در بين الگوريتم‏هاي خوشه‏بندي با دقت 16/59% مربوط به الگوريتم EM روي 15 ويژگي‌ برتر انتخابي توسطOneR است درحالي‌که الگوريتم جنگل تصادفي به‌همراه نسبت بهره برای 90 ویژگی با دقت 57/79% بهترين کارايي را در بين الگوريتم‏هاي دسته‏بندي دارد. همچنين مقايسه‌ی ويژگي‌ها نشان داد که ويژگي‌هاي نگارشی بيشترين تأثير را در شناسايي نويسنده‏ي متون کوتاه داشته و پس از آن‌ به‌ترتيب ويژگي‌هاي لغوي ، مختص متن، مختص شبکه‌های اجتماعی، ساختاري، دستوري و معنایی قرار گرفتند. پرونده مقاله