كليدواژه :
سرطان پستان , عود مجدد , الگوريتم , دادهكاوي
چكيده فارسي :
مقدمه: پس از به كارگيري روشهاي درمان سرطان پستان، احتمال عود مجدد بيماري وجود دارد. هدف از انجام پژوهش حاضر، به كارگيري تكنيكهاي دادهكاوي به منظور ارايه مدلهاي پيشبيني عود مجدد سرطان پستان بود.
روش بررسي: در اين مطالعه توصيفي، از 18 ويژگي مربوط به 809 بيمار مبتلا به سرطان پستان استفاده شد. براي ايجاد مدل پيشبيني عود مجدد سرطان پستان در
مرحله پيشپردازش مجموعه داده، از الگوريتمهاي بيشينهسازي اميد رياضي EM (Expectation Maximization) و درخت تصميم دستهبندي و رگرسيون C and R
(Classification and Regression) استفاده گرديد. سپس در مرحله يادگيري مدل، پنج الگوريتم دادهكاوي شامل شبكههاي عصبي، درخت تصميم C and R، درخت تصميم 5C، شبكه Bayes و ماشين بردار پشتيبان SVM (Support Vector Machine) به كار گرفته شد. در نهايت، جهت ارزيابي كارايي تكنيكهاي مورد استفاده، الگوريتم درخت تصميم 48J با K-Fold برابر 10 و روشهاي آناليز دادهها مورد استفاده قرار گرفت.
يافتهها: دقت الگوريتمهاي EM و C and R در مرحله پيشپردازش دادهها به ترتيب 641/0 و 420/0 بود. دقت پنج الگوريتم به كار رفته در مرحله يادگيري مدل نيز به ترتيب 858/0، 865/0، 870/0، 883/0 و 998/0 به دست آمد.
نتيجهگيري: مدلي كه در مرحله پيشپردازش از الگوريتم EM و در مرحله يادگيري از الگوريتم SVM بهره ميگيرد، كارايي بالاتري نسبت به ساير مدلهاي ايجاد شده دارد.
چكيده لاتين :
Introduction: After applying breast cancer treatment methods, there is a possibility of recurrence of the disease. The aim of the
present study was using data mining techniques in order to provide predicting models for breast cancer recurrence.
Methods: 18 features of 809 patients were used in the current descriptive study. The study consisted of two phases, preprocessing
phase and model learning. Expectation Maximization (EM) and Classification and Regression (C and R) were used for the
analysis of the first phase. In order to analyze the second phase, the five algorithm model including Neural Network, C and R, the
decision tree algorithm C5.0, Bayes Net, and Support Vector Machine (SVM) was used.
Results: The accuracy of the EM and C and R algorithms was 0.641 and 0.420, respectively, in the preprocessing phase. The
accuracy of Neural Network, C and R, the decision tree algorithm C5.0, Bayes Net, and SVM algorithms was 0.858, 0.865, 0.870,
0.883, and 0.998, respectively, for the model learning phase.
Conclusion: According to the findings, the model with the application of EM algorithm in the first phase and SVM algorithm in
the second phase had the highest functionality. It was also important in determining the treatment process.