شماره ركورد :
1116643
عنوان مقاله :
انتخاب ويژگي مبتني بر تئوري اطلاعات براي انتخاب ژن‌هاي مؤثر در تشخيص نوع سرطان با استفاده از داده‌هاي ريزآرايه
عنوان به زبان ديگر :
Feature selection based on information theory to select effective genes for diagnosis of cancer subtypes using microarray data
پديد آورندگان :
طباطبايي، ابوالفضل دانشگاه يزد - پرديس فني و مهندسي - گروه مهندسي كامپيوتر، يزد، ايران , درهمي، وليد دانشگاه يزد - پرديس فني و مهندسي - گروه مهندسي كامپيوتر، يزد، ايران , شيخ پور، راضيه دانشگاه اردكان -دانشكده فني و مهندسي - گروه مهندسي كامپيوتر، اردكان، ايران , پژوهان، محمدرضا دانشگاه يزد - پرديس فني و مهندسي - گروه مهندسي كامپيوتر، يزد، ايران
تعداد صفحه :
12
از صفحه :
351
تا صفحه :
362
كليدواژه :
انتخاب ويژگي , ژن‌هاي موثر , تشخيص سرطان , داده‌هاي ريزآرايه , يادگيري ماشين , دسته‌بندي
چكيده فارسي :
انتخاب ويژگي يكي از فرايندهاي پيش پردازش داده‌ها در مباحث مربوط به يادگيري ماشين و داده‌كاوي محسوب مي‌شود كه در برخي زمينه‌ها نظير كار با داده‌هاي ريزآرايه در بيوانفورماتيك كه با مشكل ابعاد بالاي داده‌ها در مقابل تعداد كم نمونه‌ها مواجه است، از اهميت ويژه‌اي برخوردار است. انتخاب ويژگي‌هاي (ژن‌هاي) موثر در تشخيص بيماري از داده‌هاي ريزآرايه نقش مهمي در تشخيص زودهنگام بيماري و راه‌هاي مواجهه با آن ايفا مي‌كند. در روش‌هاي انتخاب ويژگي مبتني بر تئوري اطلاعات كه طيف گسترده‌اي از روش‌هاي انتخاب ويژگي را شامل مي‌شوند، از مفهوم آنتروپي براي تعريف معيارهاي مرتبط بودن، افزونگي و مكمل بودن ويژگي‌ها، استفاده مي‌شود. در اين مقاله از مفهوم پيوستگي خالص به جاي آنتروپي (پراكندگي) براي پيشنهاد يك معيار جديد مرتبط بودن استفاده شده است. در معيار پيشنهادي، براي كنترل و كاهش افزونگي، ارتباط يك ويژگي با تك‌تك كلاس‌ها به طور جداگانه بررسي شده است در حالي‌كه در اكثر روش‌هاي فيلتر، ارزش يك ويژگي بر اساس ارتباط آن با كل كلاس‌ها سنجيده مي‌شود. اين راهكار باعث مي‌شود كه ويژگي‌هاي (ژن‌هاي) موثر در هر كلاس به تفكيك شناسايي شوند، در حالي‌كه امكان شناسايي ويژگي‌هاي (ژن‌هاي) مشترك نيز فراهم است. مشكل ديگري كه در برخي روش‌ها وجود دارد، مسئله گسسته‌سازي داده‌ها است. در روش ارائه شده، با استفاده از يك تبديل مبتني بر يك‌ريختي ضمن استفاده از مزاياي گسسته‌سازي از درگير شدن با پيچيدگي‌هاي آن اجتناب شده است. براي مقايسه روش ارائه شده با تعدادي از روش‌هاي مرتبط ، از هفت مجموعه داده ريزآرايه مربوط به انواع سرطان به همراه سه دسته‌بند پركاربرد بيزين ساده، -kنزديك‌ترين همسايه و ماشين بردار پشتيبان استفاده شده است. نتايج تجربي، كارايي روش ارائه شده را بر اساس دو پارامتر دقت دسته‌بندي و تعداد ژن‌هاي انتخابي نشان مي‌دهد.
چكيده لاتين :
Feature selection is a well-known preprocessing technique in machine learning, data mining, and especially bioinformatics microarray analysis with a high-dimension, low-sample-size (HDLSS) data. The diagnosis of genes responsible for disease using microarray data is an important issue to promoting knowledge about the mechanism of disease and improves the way of dealing with the disease. In feature selection methods based on information theory, which cover a wide range of feature selection methods, the concept of entropy is used to define criteria for relevance, redundancy, and complementarity. In this paper, we propose a new relevancy criterion based on the concept of pure continuity rather than the concept of entropy. In the proposed method, to control and reduce redundancy, the relevancy between a feature and each class is separately examined, while in most of the filter methods the value of a feature is measured based on its relation to the entire class. This solution allows us to identify the most efficient features (genes) of each class separately, while identifying common features (genes) is also possible. Discretization is another challenge in some available techniques. Using a homomorphism transformation in proposed method avoids engaging with discretization complexities, while taking advantages of it. Seven types of cancer microarrays with three types of classification models (e.g. NB, KNN, and SVM) are used to establish a comparison between the proposed method and other relevant methods. The results confirm the efficiency of the proposed method in the term of accuracy and number of selected genes as two parameters of classification.
سال انتشار :
1398
عنوان نشريه :
مهندسي پزشكي زيستي
فايل PDF :
7746179
لينک به اين مدرک :
بازگشت