شماره ركورد كنفرانس :
3700
عنوان مقاله :
روشي جديد جهت تعيين تعداد خوشه هاي بهينه در الگوريتم هاي خوشه بندي افرازي
پديدآورندگان :
عارف نيا جواد گروه مهندسي كامپيوتر، واحد شيراز، دانشگاه آزاد اسلامي، شيراز، ايران، , شايگان محمد امين گروه مهندسي كامپيوتر، واحد شيراز، دانشگاه آزاد اسلامي، شيراز، ايران
كليدواژه :
خوشه بندي , اعتبارسنجي خوشهCAS , Davies-Bouldin , Silhouette , Gap.
عنوان كنفرانس :
اولين همايش ملي رهيافت هاي نو در برق و كامپيوتر
چكيده فارسي :
خوشه بندي داده ها، روش يافتن ويژگي هاي مشابه از ميان حجم انبوه داده ها و دسته بندي آن ها به گروه هايي است كه هر يك از اين گروه ها، خوشه ناميده مي شوند. از آنجايي كه عوامل مختلفي همچون نويز و تعداد ابعاد داده ها بر روي نتيجه الگوريتم هاي مختلف خوشه بندي اثر گذارند، لذا اين الگوريتم ها نتايج مختلفي توليد مي كنند. با توجه به اينكه كيفيت خوشه بندي و صحت خوشه هاي استخراج شده، بسيار حائز اهميت است، لذا معيارهايي جهت اعتبارسنجي عمليات خوشه بندي ابداع شده اند. شاخص هاي اعتبارسنجي خوشه بندي با توجه به اطلاعات مورد استفاده جهت تعيين كيفيت خوشه بندي، به دو دسته داخلي و خارجي تقسيم ميشوند. در اين تحقيق سه شاخص ارزيابي استاندارد داخلي كيفيت خوشه بندي Silhouette ،Davies-Bouldinو ،Gapمورد بررسي قرار گرفته اند. تلاش اين پژوهش بر آن بوده است تا شاخص اعتبارسنجي داخلي جديدي پيشنهاد شود به طوري كه با استفاده از الگوريتم خوشه بندي افرازي -K Meansو در مقايسه با ديگر شاخص هاي معرفي شده، بر روي مجموعه داده هاي استاندارد مورد بررسي، بهتر عمل نمايد. شاخص معرفي شده در تحقيق حاضر، Compression And Separation) CAS) نام دارد. عملكرد شاخص CAS براي تشخيص تعداد صحيح خوشه ها نسبت به شاخص Davies-Bouldin به ميزان %16/16، نسبت به شاخص Silhouette به مقدار %60/60 و نسبت به شاخص Gap به ميزان %45/45 بهتر عمل نموده است. نهايتاً ميتوان نتيجه گرفت كه شاخص CAS با بيشترين تشخيص صحيح تعداد خوشه ها، نسبت به سه شاخص استاندارد ديگر مناسبترين عملكرد را بر روي مجموعه داده هاي استاندارد دارد.