عنوان مقاله :
درون سازي معنايي واژه ها با استفاده از BERT روي وب فارسي
پديد آورندگان :
بستان ، شكوفه دانشگاه يزد - دانشكده مهندسي كامپيوتر , زارع بيدكي ، علي محمد دانشگاه يزد - دانشكده مهندسي كامپيوتر , پژوهان ، محمد رضا دانشگاه يزد - دانشكده مهندسي كامپيوتر
كليدواژه :
بردار معنايي , درونسازي واژه , رتبهبندي , يادگيري عميق
چكيده فارسي :
استفاده از بافت و ترتيب واژگان در يك عبارت از مواردي است كه ميتواند به فهم بهتر آن عبارت منجر گردد. در سالهاي اخير، مدلهاي زباني از پيشآموزشيافته، پيشرفت شگرفي در زمينه پردازش زبان طبيعي به وجود آودهاند. در اين راستا مدلهاي مبتني بر ترنسفورمر مانند الگوريتم BERT از محبوبيت فزايندهاي برخوردار گرديدهاند. اين مسئله در زبان فارسي كمتر مورد بررسي قرار گرفته و بهعنوان يك چالش در حوزه وب فارسي مطرح ميگردد. بنابراين در اين مقاله، درونسازي واژگان فارسي با استفاده از اين الگوريتم مورد بررسي قرار ميگيرد كه به درك معنايي هر واژه بر مبناي بافت متن ميپردازد. در رويكرد پيشنهادي، مدل ايجادشده بر روي مجموعه دادگان وب فارسي مورد پيشآموزش قرار ميگيرد و پس از طي دو مرحله تنظيم دقيق با معماريهاي متفاوت، مدل نهايي توليد ميشود. در نهايت ويژگيهاي مدل استخراج ميگردد و در رتبهبندي اسناد وب فارسي مورد ارزيابي قرار ميگيرد. نتايج حاصل از اين مدل، بهبود خوبي نسبت به ساير مدلهاي مورد بررسي دارد و دقت را نسبت به مدل برت چندزبانه تا حداقل يك درصد افزايش ميدهد. همچنين اعمال فرايند تنظيم دقيق با ساختار پيشنهادي بر روي ساير مدلهاي موجود توانسته به بهبود مدل و دقت درونسازي بعد از هر فرايند تنظيم دقيق منجر گردد. نتايج رتبهبندي بر مبناي مدلهاي نهايي، بيانگر بهبود دقت رتبهبندي وب فارسي نسبت به مدلهاي پايه مورد ارزيابي با افزايش حدود 5 درصدي دقت در بهترين حالت است.
عنوان نشريه :
مهندسي برق و مهندسي كامپيوتر ايران
عنوان نشريه :
مهندسي برق و مهندسي كامپيوتر ايران