عنوان مقاله :
انتخاب ويژگي مبتني بر تئوري اطلاعات براي انتخاب ژنهاي مؤثر در تشخيص نوع سرطان با استفاده از دادههاي ريزآرايه
عنوان به زبان ديگر :
Feature selection based on information theory to select effective genes for diagnosis of cancer subtypes using microarray data
پديد آورندگان :
طباطبايي، ابوالفضل دانشگاه يزد - پرديس فني و مهندسي - گروه مهندسي كامپيوتر، يزد، ايران , درهمي، وليد دانشگاه يزد - پرديس فني و مهندسي - گروه مهندسي كامپيوتر، يزد، ايران , شيخ پور، راضيه دانشگاه اردكان -دانشكده فني و مهندسي - گروه مهندسي كامپيوتر، اردكان، ايران , پژوهان، محمدرضا دانشگاه يزد - پرديس فني و مهندسي - گروه مهندسي كامپيوتر، يزد، ايران
كليدواژه :
انتخاب ويژگي , ژنهاي موثر , تشخيص سرطان , دادههاي ريزآرايه , يادگيري ماشين , دستهبندي
چكيده فارسي :
انتخاب ويژگي يكي از فرايندهاي پيش پردازش دادهها در مباحث مربوط به يادگيري ماشين و دادهكاوي محسوب ميشود كه در برخي زمينهها نظير كار با دادههاي ريزآرايه در بيوانفورماتيك كه با مشكل ابعاد بالاي دادهها در مقابل تعداد كم نمونهها مواجه است، از اهميت ويژهاي برخوردار است. انتخاب ويژگيهاي (ژنهاي) موثر در تشخيص بيماري از دادههاي ريزآرايه نقش مهمي در تشخيص زودهنگام بيماري و راههاي مواجهه با آن ايفا ميكند. در روشهاي انتخاب ويژگي مبتني بر تئوري اطلاعات كه طيف گستردهاي از روشهاي انتخاب ويژگي را شامل ميشوند، از مفهوم آنتروپي براي تعريف معيارهاي مرتبط بودن، افزونگي و مكمل بودن ويژگيها، استفاده ميشود. در اين مقاله از مفهوم پيوستگي خالص به جاي آنتروپي (پراكندگي) براي پيشنهاد يك معيار جديد مرتبط بودن استفاده شده است. در معيار پيشنهادي، براي كنترل و كاهش افزونگي، ارتباط يك ويژگي با تكتك كلاسها به طور جداگانه بررسي شده است در حاليكه در اكثر روشهاي فيلتر، ارزش يك ويژگي بر اساس ارتباط آن با كل كلاسها سنجيده ميشود. اين راهكار باعث ميشود كه ويژگيهاي (ژنهاي) موثر در هر كلاس به تفكيك شناسايي شوند، در حاليكه امكان شناسايي ويژگيهاي (ژنهاي) مشترك نيز فراهم است. مشكل ديگري كه در برخي روشها وجود دارد، مسئله گسستهسازي دادهها است. در روش ارائه شده، با استفاده از يك تبديل مبتني بر يكريختي ضمن استفاده از مزاياي گسستهسازي از درگير شدن با پيچيدگيهاي آن اجتناب شده است. براي مقايسه روش ارائه شده با تعدادي از روشهاي مرتبط ، از هفت مجموعه داده ريزآرايه مربوط به انواع سرطان به همراه سه دستهبند پركاربرد بيزين ساده، -kنزديكترين همسايه و ماشين بردار پشتيبان استفاده شده است. نتايج تجربي، كارايي روش ارائه شده را بر اساس دو پارامتر دقت دستهبندي و تعداد ژنهاي انتخابي نشان ميدهد.
چكيده لاتين :
Feature selection is a well-known preprocessing technique in machine learning, data mining, and especially bioinformatics microarray analysis with a high-dimension, low-sample-size (HDLSS) data. The diagnosis of genes responsible for disease using microarray data is an important issue to promoting knowledge about the mechanism of disease and improves the way of dealing with the disease. In feature selection methods based on information theory, which cover a wide range of feature selection methods, the concept of entropy is used to define criteria for relevance, redundancy, and complementarity.
In this paper, we propose a new relevancy criterion based on the concept of pure continuity rather than the concept of entropy. In the proposed method, to control and reduce redundancy, the relevancy between a feature and each class is separately examined, while in most of the filter methods the value of a feature is measured based on its relation to the entire class. This solution allows us to identify the most efficient features (genes) of each class separately, while identifying common features (genes) is also possible. Discretization is another challenge in some available techniques. Using a homomorphism transformation in proposed method avoids engaging with discretization complexities, while taking advantages of it. Seven types of cancer microarrays with three types of classification models (e.g. NB, KNN, and SVM) are used to establish a comparison between the proposed method and other relevant methods. The results confirm the efficiency of the proposed method in the term of accuracy and number of selected genes as two parameters of classification.
عنوان نشريه :
مهندسي پزشكي زيستي