عنوان مقاله :
مدلسازي و طراحي الگوريتم تشخيص و غربالگري بيماري مبتني بر دستهبندي ماشين بردار پشتيبان خطي با قابليت انتخاب ويژگي تركيبي
پديد آورندگان :
غفوري ، تارا دانشگاه صنعتي خواجه نصيرالدين طوسي - دانشكده مهندسي برق، آزمايشگاه ادوات نانوساختار الكترونيكي - گروه مهندسي برق و الكترونيك , معنويزاده ، نگين دانشگاه صنعتي خواجه نصيرالدين طوسي - دانشكده مهندسي برق, آزمايشگاه ادوات نانوساختار الكترونيكي - گروه مهندسي برق و الكترونيك
كليدواژه :
انتخاب ويژگي تركيبي , پايگاه داده زيستي , دستهبند ماشين بردار پشتيبان خطي , خوشهبندي k- ميانگين مينيبَچ , اطلاعات متقابل بهنجارشده
چكيده فارسي :
زمينه و هدف: در مطالعه حاضر، يك رويكرد انتخاب ويژگي تركيبي از روشهاي فيلتر و بستهبندي، با هدف تشخيص وضعيت بيماري و بقاي بيمار، براي تعدادي از مجموعه دادگان علوم زيستي با تعداد متفاوت نمونه، ويژگي و كلاس پيادهسازي ميشود؛ بنابراين، اين راهبرد از مزاياي هر دو روش، شامل سرعت عملكرد، تعميمپذيري و دقت بالا بهره ميبرد.روش بررسي: الگوريتمهاي انتخاب ويژگي در چارچوب بازشناسي آماري الگو در نرمافزار Matlab R2021a طي فروردين و ارديبهشت 1401 مدلسازي شدهاند. ابتدا ويژگيها بر پايه اطلاعات متقابل بهنجار شده رتبهبندي ميشوند و يك زيرمجموعه ويژگي بهينه با بالاترين دقت دستهبند انتخاب ميشود. پس از خوشهبندي مجموعه داده بهروش Mini Batch K-means و استخراج ويژگيهاي رتبهبنديشده، الگوريتمهاي شمول و خروج ويژگي به مجموعه دادگان اعمال ميشوند.يافتهها: رويكردهاي انتخاب ويژگي پيشنهادي براي مجموعه دادگان زيستشناسي مولكولي، ويروس هپاتيت C و باكتري E.coli، امتياز صحت و فراخواني بالاي 98% را نتيجه ميدهند، كه به معناي حضور تعداد بسيار كم موارد مثبت كاذب و منفي كاذب در دستهبندي با ماشين بردار پشتيبان خطي است. براي مجموعه داده ويروس هپاتيت C، با انتخاب 9 ويژگي مرتبط از 13 ويژگي موجود با روش خروج ويژگي، دقت دستهبندي 98/92% و امتياز F1 %99/02 بهدست ميآيد. رويكرد شمول ويژگي نيز با يك اختلاف جزيي، دقت 98/78% را نتيجه ميهد.نتيجهگيري: نتايج حاصل نشاندهنده توانمندي رويكردهاي انتخاب ويژگي بهكار رفته براي مجموعه دادگان علوم زيستي با ابعاد بالاي ويژگي همچون مجموعه داده بيان پروتيين ميباشد. قابليت تعميمپذيري به ساير دستهبندها و تعيين خودكار تعداد ويژگيهاي بهينه در طول فرآيند انتخاب ويژگي، اين رويكردها را در بسياري از كاربردهاي دادهكاوي براي علوم زيستي انعطافپذير ميسازد.
عنوان نشريه :
مجله دانشكده پزشكي دانشگاه علوم پزشكي تهران
عنوان نشريه :
مجله دانشكده پزشكي دانشگاه علوم پزشكي تهران