• شماره ركورد
    1374105
  • عنوان مقاله

    مدل زباني مبتني بر BERT جهت تحليل محتواي ورزشي در زبان فارسي

  • پديد آورندگان

    ستوده ، داود دانشگاه فني و حرفه‌اي - گروه مهندسي كامپيوتر , اميري طهراني زاده ، امين دانشگاه علوم پزشكي مشهد - دانشكده پزشكي - گروه انفورماتيك پزشكي

  • از صفحه
    341
  • تا صفحه
    362
  • كليدواژه
    مدل زباني , پردازش زبان‌هاي طبيعي , تحليل احساسات , تشخيص نهادهاي نامگذاري شده , مجموعه داده
  • چكيده فارسي
    مدل‌هاي زباني آموزش ديده، به دليل كاربرد آن‌ها در مسائل مرتبط با حوزه پردازش زبان‌هاي طبيعي داراي اهميت فراواني هستند. مدل‌هاي زباني مانند BERT از محبوبيت بيشتري ميان محققان برخوردار شده است. به دليل توجه اين مدل‌هاي زباني به زبان انگليسي، ديگر زبان‌ها به برخي از مدل‌هاي چند زبانه محدود مي‌شوند. در اين مقاله، مدل زباني VarzeshiBERT به منظور تحليل محتواي ورزشي فارسي در مسائل مرتبط با اين حوزه زباني ارائه شده است. اين مدل زباني بر پايه مدل زباني Bert و با استفاده از مجموعه داده جمع‌آوري شده آموزش ديده است. سه مساله براي ارزيابي مدل زباني جديد استفاده شده است: تحليل احساسات، تشخيص نهاد‌هاي نامگذاري شده و پركردن جاي خالي. براي آموزش اين مدل زباني با توجه به عدم وجود مجموعه داده‌اي مناسب، يك مجموعه داده گسترده از رويداد‌ها و اخبار ورزشي زبان فارسي از چندين مرجع برخط تهيه شده است. با توجه به تخصصي بودن حوزه اين مدل و در مقايسه با مدل‌هاي زباني ارائه شده براي زبان فارسي، اين مدل در هر سه مساله، نتايج بهتري را ارائه داده است. اين مدل با 71.7% و 95.2% بهترين عملكرد را به ترتيب در بخش‌هاي پركردن جاي خالي و برچسب زني اجزاي كلام داشته است. در تحليل احساسات نيز مدل ورزشي، نتايج بهتري را به همراه داشته است. اين نتايج نشان مي‌دهد، بكارگيري مدل زباني مرتبط با هر حوزه تخصصي، نتايج بهتري در مقايسه با مدل‌هاي زباني مرتبط اما با حوزه عمومي متون، خواهد داشت.
  • عنوان نشريه
    كارافن
  • عنوان نشريه
    كارافن