• شماره ركورد كنفرانس
    4379
  • عنوان مقاله

    شناسايي نويسنده با استفاده از مدل سازي زباني ساده در پايگاه داده هاي متفاوت با ويژگي هاي متفاوت

  • پديدآورندگان

    وزيريان سمانه samane.vazirian@Gmail.com دانشكده مجازي دانشگاه صنعتي شاهرود , زاهدي مرتضي zahedi@shahroodut.ac.ir دانشگاه صنعتي شاهرود

  • تعداد صفحه
    6
  • كليدواژه
    شناسايي نويسنده , تشخيص نويسنده , مدل سازي زباني , پردازش متن
  • سال انتشار
    1395
  • عنوان كنفرانس
    هشتمين كنفرانس فناوري اطلاعات و دانش
  • زبان مدرك
    فارسي
  • چكيده فارسي
    در اين مقاله به بررسي روش مدل سازي زباني ساده براي حل مساله تخصيص نويسنده در حالت مجموعه بسته و بررسي تاثير ويژگي هايي مثل متعادل بودن و اندازه داده آموزشي و آزمايشي در سه پايگاه داده با ويژگي هاي متفاوت پرداخته شده است. براي سنجش ميزان دقت مدل از سه پايگاه داده متفاوت در زبان، سبك نگارش و اندازه داده آموزشي استفاده شده است. دو پايگاه داده در زبان فارسي و به صورت نظم و يك پايگاه داده در زبان انگليسي و به صورت نثر تهيه شده است. براي سنجش ميزان دقت از سه معيار اندازه گيري Precision, Recall و F-measureاستفاده شده است. ميانگين دقت حاصل در پايگاه داده هاي فارسي به ترتيب 60% و 87% و دقت در پايگاه داده انگليسي 96% گزارش شده است. با توجه به تشابه دو پايگاه داده اول در زبان و سبك نوشتاري و وجود اختلاف در نتايج و همچنين بهبود نتيجه در پايگاه داده سوم مي توان نتيجه گرفت كه متعادل بودن پايگاه داده و اندازه داده آموزشي و ازمايشي در بهبود نتايج تاثير گذار است.
  • كشور
    ايران