شماره ركورد كنفرانس :
4847
عنوان مقاله :
تشخيص خودكار سن نويسنده در نظرات نوشته شده به زبان فارسي
پديدآورندگان :
حكمتيان زاده پور سيامك Siyamakh725@gmail.com دانشگاه قم , جلالي بيدگلي امير Jalaly.bi@gmail.com دانشگاه قم
كليدواژه :
تشخيص سن , كيسه كلمات , n- گرام , بيز ساده , شبكه عصبي پرسپترون چند لايه
عنوان كنفرانس :
چهارمين كنفرانس ملي موضوعات نوين در علوم كامپيوتر و اطلاعات
چكيده فارسي :
استفاده گسترده از اينترنت در بين مردم باعث تبادل حجم وسيعي از نظرات در فضاي مجازي شده است. در اغلب شبكه هاي اينترنتي كاربران به صورت گمنام نظرات خود را ثبت مي كنند. حال آنكه فهميدن ويژگي نويسنده مانند سن و جنسيت مي تواند در تحليل بهتر نظر نويسنده و يا شناسايي نظر اقشار مختلف جامعه به تفكيك كاربردهاي بسياري داشته باشد. در اين پژوهش مسئله شناسايي خودكار سن از روي متن نظرات نوشته شده به زبان فارسي در شبكه هاي اجتماعي بررسي شده است. براي اين منظور از نظرات ثبت شده در صفحه اينستاگرام فروشگاه اينترنتي ديجي كالا براي تشخيص سن استفاده شد. كارهاي بسيار محدودي جهت شناسايي نويسنده در زبان فارسي انجام شده است. به طور ويژه هنوز پژوهشي جهت تشخيص سن در زبان فارسي انجام نگرفته است. روش هاي كيسه كلمات و n- گرام، بررسي شدند. براي دسته بندي نظرات از الگوريتم هاي بيز ساده، شبكه هاي عصبي پرسپترون چندلايه استفاده شد. نشان داديم استفاده از رويكرد تركيبي n- گرام سبب افزايش صحت جهت پيش بيني سن نويسنده مي شود. بالاترين صحت به دست آمده براي تشخيص سن استفاده از تركيب يك گرام، دوگرام و سه گرام به ميزان 69 درصد مي باشد.