Title of article :
Comparing k-means clusters on parallel Persian-English corpus
Author/Authors :
Khazaei ، A. نويسنده Electrical & Computer Engineering Department, Yazd University, Yazd, Iran. , , Ghasemzadeh، M. نويسنده Electrical & Computer Engineering Department, Yazd University, Yazd, Iran. ,
Issue Information :
دوفصلنامه با شماره پیاپی 0 سال 2015
Pages :
6
From page :
203
To page :
208
Abstract :
اين مقاله خوشه‌هاي متن‌هاي هم‌طراز فارسي و انگليسي حاصل از روش كا-ميانگين را با هم مقايسه مي‌كند. خوشه‌بندي متن كاربردهاي بسياري در حوزه‌هاي مختلف پردازش زبان طبيعي دارد. تاكنون پژوهش‌هاي خوشه‌بندي بسياري براي اسناد انگليسي انجام شده است. اكنون اين سوال مطرح مي‌شود، آيا نتايج حاصل از اين پژوهش‌ها قابل بسط به ساير زبان‌ها مي‌باشد؟ ازآنجاكه هدف خوشه‌بندي اسناد گروه‌بندي آن‌ها بر مبناي محتوايشان مي‌باشد، انتظار مي‌رود كه پاسخ اين سوال مثبت باشد. از سوي ديگر، تفاوت‌هاي بسياري بين زبان‌هاي مختلف وجود دارد كه مي‌تواند منجر به پاسخ منفي به اين سوال شود. اين پژوهش بر روش كا-ميانگين كه يكي از روش‌هاي پايه و محبوب در خوشه‌بندي اسناد مي‌باشد، متمركز است. مي‌خواهيم بدانيم آيا خوشه‌هاي متن‌هاي هم‌طراز فارسي و انگليسي حاصل از روش كا-ميانگين مشابه يكديگرند؟ براي يافتن پاسخ اين سوال پيكره‌ي موازي فارسي-انگليسي ميزان به عنوان محك در نظر گرفته شد. پس از استخراج ويژگي‌ها با روش‌هاي متن‌كاوي و اعمال روش كاهش بُعد PCA، خوشه‌بندي كا-ميانگين انجام شد. تفاوت‌هاي مورفولوژيكي بين زبان‌هاي فارسي و انگليسي، منجر به طول بردار ويژگي بزرگ‌تر براي فارسي شد. بنابراين تقريباً در همه‌ي آزمايش‌هاي انجام شده نتايج زبان انگليسي كمي بهتر از فارسي بود. گذشته از اين تفاوت‌ها رفتار كلي خوشه‌هاي فارسي و انگليسي مشابه بود. اين رفتار مشابه نشان مي‌دهد كه نتايج پژوهش‌هاي كا-ميانگين در زبان انگليسي مي‌تواند قابل بسط به زبان فارسي باشد. در پايان اين اميد وجود دارد كه با وجود تفاوت‌هاي بسيار ميان زبان‌هاي مختلف ممكن است روش‌هاي خوشه‌بندي قابل بسط به ساير زبان‌ها باشند.
Abstract :
This paper compares clusters of aligned Persian and English texts obtained from k-means method. Text clustering has many applications in various fields of natural language processing. So far, much English documents clustering research has been accomplished. Now this question arises, are the results of them extendable to other languages? Since the goal of document clustering is grouping of documents based on their content, it is expected that the answer to this question is yes. On the other hand, many differences between various languages can cause the answer to this question to be no. This research has focused on k-means that is one of the basic and popular document clustering methods. We want to know whether the clusters of aligned Persian and English texts obtained by the k-means are similar. To find an answer to this question, Mizan English-Persian Parallel Corpus was considered as benchmark. After features extraction using text mining techniques and applying the PCA dimension reduction method, the k-means clustering was performed. The morphological difference between English and Persian languages caused the larger feature vector length for Persian. So almost in all experiments, the English results were slightly richer than those in Persian. Aside from these differences, the overall behavior of Persian and English clusters was similar. These similar behaviors showed that results of k-means research on English can be expanded to Persian. Finally, there is hope that despite many differences between various languages, clustering methods may be extendable to other languages.
Journal title :
Journal of Artificial Intelligence and Data Mining
Serial Year :
2015
Journal title :
Journal of Artificial Intelligence and Data Mining
Record number :
2387995
Link To Document :
بازگشت