عنوان مقاله :
روش نوين خوشهبندي دادههاي بيان ژني
عنوان به زبان ديگر :
A Novel Method of Gene Expression Data Clustering
پديد آورندگان :
شاهسوني، داوود دانشگاه صنعتي شاهرود - دانشكده علوم رياضي - گروه آمار , فرهادي، زهره دانشگاه صنعتي شاهرود - دانشكده علوم رياضي
كليدواژه :
دادهكاوي خوشهبندي اجماعي , خوشهبندي سلسله مراتبي , خوشهبندي افراز حول مدويد , مقياسگذاري چند بعدي كلاسيك
چكيده فارسي :
يكي از تحولات مهم علم ژنتيك، ظهور فناوري ريزآرايه و توليد داده هاي بيان ژني است كه امكان مطالعه رفتار هزاران ژن را به طور همزمان فراهم مي كند. خوشه بندي يكي از روش هاي داده كاوي است كه در تحليل داده هاي بيان ژني مورد استفاده قرار مي گيرد. از آنجا كه عملكرد روش هاي خوشه بندي به شدت تحت تاثير داده ها است، نتيجه خوشه بندي همواره با عدم قطعيت روبه رو بوده و الگوريتمي وجود ندارد كه بتوان آن را براي تمام داده ها، كارا قلمداد نمود. در اين تحقيق، در تحليل داده هاي بيان ژني از خوشه بندي اجماعي (تركيب نتايج چندين الگوريتم خوشه بندي) به جاي اجراي يك الگوريتم منفرد استفاده شده است.روش: اين مقاله عملكرد خوشه بندي اجماعي را بر روي سه مجموعه داده بيان ژني nutt-v3، alizadeh-v2 وsu، توسط شاخص رند تعديل يافته مورد ارزيابي قرار مي دهد. براي پياده سازي خوشه بندي اجماعي، دوازده خوشه بندي متفاوت حاصل از تركيب چهار الگوريتم خوشه بندي با سه معيار عدم تشابه، به طور همزمان روي داده ها اجرا شده اند. پس از ادغام نتايج، ميزان تطابق خوشه هاي تخميني با گروه هاي واقعي توسط شاخص رند تعديل يافته سنجيده شده است.نتايج: مقدار شاخص رند تعديل يافته براي سه مجموعه داده nutt-v3 ، alizadeh-v2 و su، به ترتيب برابر 1، 0/9 و 0/58به دست آمد كه حاكي از دقت بالاي روش پيشنهادي در كشف ساختارهاي نهفته در داده ها است. همچنين الگوريتم طراحي شده، توانست تعداد واقعي خوشه ها را بدون خطا تشخيص دهد.نتيجه گيري: خوشه بندي اجماعي روشي توانمند براي خوشه بندي داده هاي بيان ژني است. با توجه به دقت اين روش در كشف ساختارهاي واقعي، مي توان آن را با اطمينان جايگزين الگوريتم هاي خوشه بندي منفرد نمود.
چكيده لاتين :
Introduction: The microarray technology and production of gene expression data are among the
important developments in genetic science that provide ability to study the behavior of thousands of
genes, simultaneously. Clustering is one of the most important data mining techniques used in gene
expression data analysis. As, the performance of clustering methods is strongly affected by the
structure of data, the result of clustering is always uncertain and there is no algorithm that can be used
for all kinds of data. In this study, ensemble clustering (combined results of multiple clustering
algorithms) was used for gene expression data analysis rather than using a single algorithm.
Methods: The performance of ensemble clustering in three gene expression data sets, Nutt-v3,
Alizadeh-v2 and SU, were evaluated by adjusted Rand index. Twelve different clusterings resulted
from the combination of four clustering algorithms with three dissimilarity matrices were
simultaneously applied on data. After merging the results, and running the final clustering, the
estimated clusters were compared with actual groups by the adjusted Rand index.
Results: The adjusted Rand index for the three data sets of Nutt-v3, Alizadeh-v2 and SU, were
respectively 1, 0.9 and 0.58 which shows the remarkable accuracy of the proposed method in
detecting patterns in data sets. Moreover, the designed algorithm could detect the actual number of
clusters without errors.
Conclusion: Ensemble clustering is a powerful and reliable method for gene expression data analysis.
Due to the accuracy and quality of this method in detection of real data structures, it can be replaced
the individual clustering algorithms
عنوان نشريه :
مجله انفورماتيك سلامت و زيست پزشكي
عنوان نشريه :
مجله انفورماتيك سلامت و زيست پزشكي