عنوان مقاله :
تعيين خودكار معاني واژههاي فارسي با استفاده از تعبيه معنايي واژه
عنوان به زبان ديگر :
Identifying Persian Words’ Senses Automatically by Utilizing the Word Embedding Method
پديد آورندگان :
قيومي، مسعود پژوهشگاه علوم انساني و مطالعات فرهنگي - پژوهشكدة زبان شناسي
كليدواژه :
تعبيه معنايي واژه , خوشه بندي , يادگيري ماشين بي مربي , فضاي برداري , پردازش زبان طبيعي , بازنمايي معنايي واژه , زبان فارسي
چكيده فارسي :
واژه كوچكترين واحد زبان است كه داراي «صورت» و «معنا»ست. واژه ممكن است بيشاز يك معنا داشته باشد و با توجه به كاربرد آن در بافت زباني، معناي دقيق آن مشخص ميشود. گردآوري تمام معاني يك واژه بهصورت دستي كار بسيار پرزحمت و زمانبر است. افزون بر آن، ممكن است معاني واژه با گذشت زمان دچار تغيير شود؛ به اين صورت كه معاني موجود واژه كمكاربرد شده يا معاني جديد به آن اضافه شود. يكياز روشهايي كه ميتوان براي تعيين معناي واژه استفاده كرد بهكارگيري روشهاي رايانشي با توجه به بافت زباني است.
در پژوهش حاضر تلاش ميشود با ارائه يك الگوريتم محاسباتي، معاني واژههاي همنگاره فارسي با توجه به بافت زباني بهصورت خودكار و بدون نياز به ناظر انساني تعيين شود. براي رسيدن به اين هدف، از روش تعبيه معناي واژه در يك مدل فضاي برداري استفاده ميشود. براي ساخت بردار واژه، از يك رويكرد مبتني بر شبكه عصبي استفاده ميشود تا اطلاعات بافت جمله به خوبي در بردار واژه گنجانده شود. در گام بعدي مدل پيشنهادي، براي ساخت بردار متن و تعيين معناي واژه، دو حالت جملهبنيان و بافتبنيان معرفي ميشود. در حالت جملهبنيان، تمام واژههاي جملهاي كه واژه هدف در آن وجود دارد، در ساخت بردار نقش دارد؛ ولي در حالت بافتبنيان فقط تعداد محدودي از واژههاي اطرافِ واژه هدف براي ساخت بردار در نظر گرفته ميشود. دو معيار ارزيابي دروني و بروني براي ارزيابي كارايي الگوريتم خوشهبندي بهكار گرفته ميشود. معيار ارزيابي دروني كه محاسبه مقدار تراكم داده در هر خوشه است براي دو حالت جملهبنيان و بافتبنيان محاسبه ميگردد. ارزيابي بروني به داده استاندارد طلايي نياز دارد كه براي اين هدف، يك مجموعه داده شامل 20 واژه هدف فارسي و تعداد 100 جمله نشانهگذاريشده براي هر يك از اين واژهها تهيه شده است. بر اساس نتايج بهدستآمده از ارزيابي دروني، تراكم خوشهاي حالت جملهبنيان با تفاوتي معنادار بالاتر از حالت بافتبنيان است. با در نظر گرفتن دو شاخص V و F در ارزيابي بروني، مدل بافتبنيان بهصورتي معنادار كارايي بالاتري را نسبت به جمله بنيان و مدل هاي پايه به دست آورده است.
چكيده لاتين :
A word is the smallest unit in a language that has ‘form’ and ‘meaning’. The word might have more than one meaning in which its
exact meaning is determined according to the context it is appeared.
Collecting all words’ senses manually is a tedious and time consuming
task. Moreover, it is possible that the words’ meanings change over time
such that the meaning of an existing word will become unusable or a
new meaning will be added to the word. Computational methods is one
of the approaches used for identifying words’ senses with respect to the
linguistic contexts.
In this paper, we put an effort to propose an algorithm to identify
senses of Persian words automatically without a human supervision.
To reach this goal, we utilize the word embedding method in a vector
space model. To build words’ vectors, we use an algorithm based on
the neural network approach to gather the context information of the
words in the vectors. In the proposed model of this research, the divisive
clustering algorithm as one of hierarchical clustering algorithms fits
with the requirements of our research question. In the proposed model,
two modes, namely the Sentence-based and the Context-based, are
introduced to identify words’ senses. In the Sentence-based mode, all of the words in a sentence that contain the target word are involved
to build the sentence vector; while in the Context-based mode, only
a limited number of surrounding words of the target word is involved
to build the sentence vector. Two evaluation metrics, namely internal
and external, are required to evaluate the performance of the clustering
algorithm. The silhouette score for each cluster is computed as the
internal evaluation metric for both modes of the proposed model. The
external evaluation requires a gold standard data for which a data set
containing 20 ambiguous words and 100 sentences for each target word
is developed.
According to the obtained results of the internal evaluation, the
Sentence-based mode has higher density of clusters than the Contextbased
mode, and the difference between them is statistically significant. According to the V- and F-measure evaluation metrics in the external evaluation, the Contextbased
mode has obtained higher performance against the baselines with statistically significant
difference.
عنوان نشريه :
پژوهش نامه پردازش و مديريت اطلاعات