شماره ركورد :
1137892
عنوان مقاله :
تعيين خودكار معاني واژه‌هاي فارسي با استفاده از تعبيه معنايي واژه
عنوان به زبان ديگر :
Identifying Persian Words’ Senses Automatically by Utilizing the Word Embedding Method
پديد آورندگان :
قيومي، مسعود پژوهشگاه علوم انساني و مطالعات فرهنگي - پژوهشكدة زبان شناسي
تعداد صفحه :
25
از صفحه :
25
تا صفحه :
49
كليدواژه :
تعبيه معنايي واژه , خوشه بندي , يادگيري ماشين بي مربي , فضاي برداري , پردازش زبان طبيعي , بازنمايي معنايي واژه , زبان فارسي
چكيده فارسي :
واژه كوچك‌ترين واحد زبان است كه داراي «صورت» و «معنا»ست. واژه ممكن است بيش‌از يك معنا داشته باشد و با توجه‌ به كاربرد آن در بافت زباني، معناي دقيق آن مشخص مي‌شود. گردآوري تمام معاني يك واژه به‌صورت دستي كار بسيار پرزحمت و زمان‌بر است. افزون بر آن، ممكن است معاني واژه با گذشت زمان دچار تغيير شود؛ به اين صورت كه معاني موجود واژه كم‌كاربرد شده يا معاني جديد به آن اضافه شود. يكي‌از روش‌هايي كه مي‌توان براي تعيين معناي واژه استفاده كرد به‌كارگيري روش‌هاي رايانشي با توجه‌ به بافت زباني است. در پژوهش حاضر تلاش مي‌شود با ارائه يك الگوريتم محاسباتي، معاني واژه‌هاي همنگاره فارسي با توجه به بافت زباني به‌صورت خودكار و بدون نياز به ناظر انساني تعيين شود. براي رسيدن به اين هدف، از روش تعبيه معناي واژه در يك مدل فضاي برداري استفاده مي‌شود. براي ساخت بردار واژه، از يك رويكرد مبتني‌ بر شبكه عصبي استفاده مي‌شود تا اطلاعات بافت جمله به‌ خوبي در بردار واژه گنجانده شود. در گام بعدي مدل پيشنهادي، براي ساخت بردار متن و تعيين معناي واژه، دو حالت جمله‌بنيان و بافت‌بنيان معرفي مي‌شود. در حالت جمله‌بنيان، تمام واژه‌هاي جمله‌اي كه واژه هدف در آن وجود دارد، در ساخت بردار نقش دارد؛ ولي در حالت بافت‌بنيان فقط تعداد محدودي از واژه‌هاي اطرافِ واژه هدف براي ساخت بردار در نظر گرفته مي‌شود. دو معيار ارزيابي دروني و بروني براي ارزيابي كارايي الگوريتم خوشه‌بندي به‌‌كار گرفته مي‌شود. معيار ارزيابي دروني كه محاسبه مقدار تراكم داده در هر خوشه است براي دو حالت جمله‌بنيان و بافت‌بنيان محاسبه مي‌گردد. ارزيابي بروني به داده استاندارد طلايي نياز دارد كه براي اين هدف، يك مجموعه داده شامل 20 واژه هدف فارسي و تعداد 100 جمله نشانه‌گذاري‌شده براي هر يك از اين واژه‌ها تهيه شده‌ است. بر اساس نتايج به‌دست‌آمده از ارزيابي دروني، تراكم خوشه‌اي حالت جمله‌بنيان با تفاوتي معنادار بالاتر از حالت بافت‌بنيان است. با در نظر گرفتن دو شاخص V و F در ارزيابي بروني، مدل بافت‌بنيان بهصورتي معنادار كارايي بالاتري را نسبت ‌به جمله بنيان و مدل هاي پايه به‌‌ دست آورده‌ است.
چكيده لاتين :
A word is the smallest unit in a language that has ‘form’ and ‘meaning’. The word might have more than one meaning in which its exact meaning is determined according to the context it is appeared. Collecting all words’ senses manually is a tedious and time consuming task. Moreover, it is possible that the words’ meanings change over time such that the meaning of an existing word will become unusable or a new meaning will be added to the word. Computational methods is one of the approaches used for identifying words’ senses with respect to the linguistic contexts. In this paper, we put an effort to propose an algorithm to identify senses of Persian words automatically without a human supervision. To reach this goal, we utilize the word embedding method in a vector space model. To build words’ vectors, we use an algorithm based on the neural network approach to gather the context information of the words in the vectors. In the proposed model of this research, the divisive clustering algorithm as one of hierarchical clustering algorithms fits with the requirements of our research question. In the proposed model, two modes, namely the Sentence-based and the Context-based, are introduced to identify words’ senses. In the Sentence-based mode, all of the words in a sentence that contain the target word are involved to build the sentence vector; while in the Context-based mode, only a limited number of surrounding words of the target word is involved to build the sentence vector. Two evaluation metrics, namely internal and external, are required to evaluate the performance of the clustering algorithm. The silhouette score for each cluster is computed as the internal evaluation metric for both modes of the proposed model. The external evaluation requires a gold standard data for which a data set containing 20 ambiguous words and 100 sentences for each target word is developed. According to the obtained results of the internal evaluation, the Sentence-based mode has higher density of clusters than the Contextbased mode, and the difference between them is statistically significant. According to the V- and F-measure evaluation metrics in the external evaluation, the Contextbased mode has obtained higher performance against the baselines with statistically significant difference.
سال انتشار :
1398
عنوان نشريه :
پژوهش نامه پردازش و مديريت اطلاعات
فايل PDF :
8062995
لينک به اين مدرک :
بازگشت