مرکز منطقه ای اطلاع رساني علوم و فناوري - مطالعه مقايسه اي روش هاي مبتني بر يادگيري ماشين در تشخيص نويسنده فارسي زبان بر اساس سبك نوشتاري

چكيده فارسي :

تشخیص نویسنده، تلاشی است برای نشان دادن خصوصیات نویسنده ی تكه ای از اطلاعات زبانی به طوری كه نهایتا بتوان بین متون مختلفی كه توسط افراد گوناگون نوشته شده اند، تمایز معنی داری قائل شد. پیشرفت سریع ارتباطات اینترنتی، ابزارهای اینترنتی با هویت ناشناس مانند ایمیل و وبلاگ را به روش های ارتباطی محبوبی برای مرتكبین اعمال غیرقانونی تبدیل كرده و مسائل امنیتی خاصی را بوجود آورده است. زبان فارسی به علل مختلفی همچون سیاسی، اجتماعی و مذهبی مورد توجه افراد و سازمان های مختلفی قرار دارد. در این مقاله روش های هوشمند writeprint كه به شناسایی نویسنده فارسی زبان و بر اساس سبك نوشتاری او كمك می نماید، معرفی و مقایسه شده اند. در این تحقیق، پس از جمع آوری دو پایگاه داده، از چهار مجموعه ویژگی شامل واژگانی، نحوی، معنایی و وابسته به كاربرد برای استخراج اطلاعات سبكی استفاده شده و مقایسه ای روی انواع مختلف روش های دسته بندی مانندDelta ,KNN ، شبكه عصبی، درخت تصمیم گیری و تحلیل Linear Discriminant روی این پایگاه ها انجام گردیده است. بررسی های این تحقیق نشان می دهد كه روش های تحلیلKNN ,Linear Discriminant به تربیت رتبه یكم و دوم دقت را بین روش های بررسی شده، در دست دارند.