Title of article :
Comparing k-means clusters on parallel Persian-English corpus
Author/Authors :
Khazaei ، A. نويسنده Electrical & Computer Engineering Department, Yazd University, Yazd, Iran. , , Ghasemzadeh، M. نويسنده Electrical & Computer Engineering Department, Yazd University, Yazd, Iran. ,
Issue Information :
دوفصلنامه با شماره پیاپی 0 سال 2015
Abstract :
اين مقاله خوشههاي متنهاي همطراز فارسي و انگليسي حاصل از روش كا-ميانگين را با هم مقايسه ميكند. خوشهبندي متن كاربردهاي بسياري در حوزههاي مختلف پردازش زبان طبيعي دارد. تاكنون پژوهشهاي خوشهبندي بسياري براي اسناد انگليسي انجام شده است. اكنون اين سوال مطرح ميشود، آيا نتايج حاصل از اين پژوهشها قابل بسط به ساير زبانها ميباشد؟ ازآنجاكه هدف خوشهبندي اسناد گروهبندي آنها بر مبناي محتوايشان ميباشد، انتظار ميرود كه پاسخ اين سوال مثبت باشد. از سوي ديگر، تفاوتهاي بسياري بين زبانهاي مختلف وجود دارد كه ميتواند منجر به پاسخ منفي به اين سوال شود. اين پژوهش بر روش كا-ميانگين كه يكي از روشهاي پايه و محبوب در خوشهبندي اسناد ميباشد، متمركز است. ميخواهيم بدانيم آيا خوشههاي متنهاي همطراز فارسي و انگليسي حاصل از روش كا-ميانگين مشابه يكديگرند؟ براي يافتن پاسخ اين سوال پيكرهي موازي فارسي-انگليسي ميزان به عنوان محك در نظر گرفته شد. پس از استخراج ويژگيها با روشهاي متنكاوي و اعمال روش كاهش بُعد PCA، خوشهبندي كا-ميانگين انجام شد. تفاوتهاي مورفولوژيكي بين زبانهاي فارسي و انگليسي، منجر به طول بردار ويژگي بزرگتر براي فارسي شد. بنابراين تقريباً در همهي آزمايشهاي انجام شده نتايج زبان انگليسي كمي بهتر از فارسي بود. گذشته از اين تفاوتها رفتار كلي خوشههاي فارسي و انگليسي مشابه بود. اين رفتار مشابه نشان ميدهد كه نتايج پژوهشهاي كا-ميانگين در زبان انگليسي ميتواند قابل بسط به زبان فارسي باشد. در پايان اين اميد وجود دارد كه با وجود تفاوتهاي بسيار ميان زبانهاي مختلف ممكن است روشهاي خوشهبندي قابل بسط به ساير زبانها باشند.
Abstract :
This paper compares clusters of aligned Persian and English texts obtained from k-means method. Text clustering has many applications in various fields of natural language processing. So far, much English documents clustering research has been accomplished. Now this question arises, are the results of them extendable to other languages? Since the goal of document clustering is grouping of documents based on their content, it is expected that the answer to this question is yes. On the other hand, many differences between various languages can cause the answer to this question to be no. This research has focused on k-means that is one of the basic and popular document clustering methods. We want to know whether the clusters of aligned Persian and English texts obtained by the k-means are similar. To find an answer to this question, Mizan English-Persian Parallel Corpus was considered as benchmark. After features extraction using text mining techniques and applying the PCA dimension reduction method, the k-means clustering was performed. The morphological difference between English and Persian languages caused the larger feature vector length for Persian. So almost in all experiments, the English results were slightly richer than those in Persian. Aside from these differences, the overall behavior of Persian and English clusters was similar. These similar behaviors showed that results of k-means research on English can be expanded to Persian. Finally, there is hope that despite many differences between various languages, clustering methods may be extendable to other languages.
Journal title :
Journal of Artificial Intelligence and Data Mining
Journal title :
Journal of Artificial Intelligence and Data Mining