عنوان مقاله :
تشخيص هوشمند سرطان پستان با انتخاب ويژگي مبتني بر رگرسيون لجستيك و دستهبندي ماشين بردار پشتيبان
عنوان به زبان ديگر :
Intelligent detection of breast cancer with feature selection based on logistic regression and support vector machine Classification
پديد آورندگان :
خنده زمين، زيبا دانشگاه شهيد چمران اهواز - دانشكده مهندسي - گروه كامپيوتر , نادران طحان، مرجان دانشگاه شهيد چمران اهواز - دانشكده مهندسي - گروه كامپيوتر , رشتي، محمدجواد دانشگاه شهيد چمران اهواز - دانشكده مهندسي - گروه كامپيوتر
كليدواژه :
سرطان پستان , يادگيري ماشين , انتخاب ويژگي , رگرسيون لجستيك , ماشين بردار پشتيبان
چكيده فارسي :
سرطان پستان شايعترين سرطان در ميان زنان است و وجود يك سيستم دقيق و مطمئن براي تشخيص خوشخيم و يا بدخيم بودن توده سرطان ضروري است. امروزه با استفاده از نتايج سيتولوژي آسپيراسيون سوزني، تكنيكهاي دادهكاوي و يادگيري ماشين ميتوان شناسايي و تشخيص زود هنگام سرطان پستان را با دقت بالاتري انجام داد. در اين مقاله روشي پيشنهاد شده است كه شامل دو مرحله است: در مرحله اول براي حذف ويژگيهاي كم اهميتتر، از رگرسيون لجستيك استفاده شده است تا ويژگيهاي مهمتر انتخاب شوند. در مرحله دوم، از الگوريتم طبقهبندي ماشين بردار پشتيبان (SVM) با سه هستهي متفاوت براي تشخيص خوش خيم و بدخيم بودن نمونهها استفاده شده است. براي ارزيابي كارايي روش پيشنهادي از دو مجموعه داده WBCD و WDBC و معيارهاي دقت، ناحيه زير نمودار (ROC (AUC، نرخ مثبت حقيقي، نرخ مثبت كاذب، صحت و معيار F بررسي شدهاند. نتايج نشان ميدهد كه با استفاده از روش رگرسيون لجستيك ميتوان انتخاب ويژگي موثرتري انجام داد، بهگونهاي كه روش پيشنهادي از نظر دقت طبقه-بندي به دقت 98/69% ميرسد.
چكيده لاتين :
Breast cancer is the most common cancer among women and the existence of a precise and reliable
system for the diagnosis of benign or malignant of this cancer is essential. Nowadays, using the results of needle
aspiration cytology, data mining and machine learning techniques, early diagnosis of breast cancer can be done
with greater accuracy. In this study, we propose a method consisting of two steps: in the first step, to eliminate
the less important features, logistic regression has been used to select more important features. In the second step,
the Support Vector Machine (SVM) classification algorithm has been used with three different kernel functions
for the diagnosis of benign and malignant samples. To evaluate the performance of the proposed method, two
data sets, WBCD and WDBC have been used with investigation of several metrics such as precision, the Area
Under the ROC (AUC), true positive rate, false positive rate, accuracy and the F-measure. The results show that
using the logistic regression method, it is possible to select the more efficient features, such that the proposed
method reaches 98.69% in terms of classification accuracy
عنوان نشريه :
رايانش نرم و فناوري اطلاعات