شماره ركورد :
1344359
عنوان مقاله :
درون سازي معنايي واژه ها با استفاده از BERT روي وب فارسي
پديد آورندگان :
بستان ، شكوفه دانشگاه يزد - دانشكده مهندسي كامپيوتر , زارع بيدكي ، علي محمد دانشگاه يزد - دانشكده مهندسي كامپيوتر , پژوهان ، محمد رضا دانشگاه يزد - دانشكده مهندسي كامپيوتر
از صفحه :
89
تا صفحه :
100
كليدواژه :
بردار معنايي , درون‌سازي واژه , رتبه‌بندي , يادگيري عميق
چكيده فارسي :
استفاده از بافت و ترتيب واژگان در يك عبارت از مواردي است كه مي‌تواند به فهم بهتر آن عبارت منجر گردد. در سال‌هاي اخير، مدل‌هاي زباني از پيش‌آموزش‌يافته، پيشرفت شگرفي در زمينه پردازش زبان طبيعي به وجود آوده‌اند. در اين راستا مدل‌هاي مبتني بر ترنسفورمر مانند الگوريتم BERT از محبوبيت فزاينده‌اي برخوردار گرديده‌اند. اين مسئله در زبان فارسي كمتر مورد بررسي قرار گرفته و به‌عنوان يك چالش در حوزه وب فارسي مطرح مي‌گردد. بنابراين در اين مقاله، درون‌سازي واژگان فارسي با استفاده از اين الگوريتم مورد بررسي قرار مي‌گيرد كه به درك معنايي هر واژه بر مبناي بافت متن مي‌پردازد. در رويكرد پيشنهادي، مدل ايجادشده بر روي مجموعه دادگان وب فارسي مورد پيش‌آموزش قرار مي‌گيرد و پس از طي دو مرحله تنظيم دقيق با معماري‌هاي متفاوت، مدل نهايي توليد مي‌شود. در نهايت ويژگي‌هاي مدل استخراج مي‌گردد و در رتبه‌بندي اسناد وب فارسي مورد ارزيابي قرار مي‌گيرد. نتايج حاصل از اين مدل، بهبود خوبي نسبت به ساير مدل‌هاي مورد بررسي دارد و دقت را نسبت به مدل برت چندزبانه تا حداقل يك درصد افزايش مي‌دهد. همچنين اعمال فرايند تنظيم دقيق با ساختار پيشنهادي بر روي ساير مدل‌هاي موجود توانسته به بهبود مدل و دقت درون‌سازي بعد از هر فرايند تنظيم دقيق منجر گردد. نتايج رتبه‌بندي بر مبناي مدل‌هاي نهايي، بيانگر بهبود دقت رتبه‌بندي وب فارسي نسبت به مدل‌هاي پايه مورد ارزيابي با افزايش حدود 5 درصدي دقت در بهترين حالت است.
عنوان نشريه :
مهندسي برق و مهندسي كامپيوتر ايران
عنوان نشريه :
مهندسي برق و مهندسي كامپيوتر ايران
لينک به اين مدرک :
بازگشت