شماره ركورد كنفرانس :
4848
عنوان مقاله :
كاربرد يادگيري ماشين در تحليل داده هاي متيلاسيون DNA با هدف تشخيص بيماريهاي ژنتيكي
عنوان به زبان ديگر :
Application of Machine Learning to Analyze DNA Methylation Data for the Purpose of Diagnosing Genetic Diseases
پديدآورندگان :
ديندار بهروز behrooz.dindar@yahoo.com دانشگاه آزاد اسلامي واحد قزوين; , قابل رحمت محمد mb.ghrahmat@gmail.com دانشگاه آزاد اسلامي واحد قزوين;
تعداد صفحه :
20
كليدواژه :
متيلاسيون دي اِن اِي , يادگيري ماشين , كاهش بُعد , خوشه بندي , طبقه بندي , دقت
سال انتشار :
1397
عنوان كنفرانس :
چهارمين كنفرانس ملي فناوري در مهندسي برق، كامپيوتر
زبان مدرك :
فارسي
چكيده فارسي :
متيلاسيون دي ان اي پديده اي است كه وابستگي قدرتمندي با ايتلاي اشخاص به سرطان دارد. بروز اين پديده در بدو تولد دليلي براي ابتلاي شخص به سرطان است. سرطان سينه بر اثر متيلاسيون، يكي از نمونه هاي بروز متيلاسيون در دي اِن اِي اشخاص است. مهمترين دغدغه پزشكان براي تشخيص و پيش گيري از بروز سرطان، تحليل داد هايي است كه اين داده ها با استفاده از نمونه برداري جمع آوري گرديده است. از آنجايي كه حجم اين داده ها زياد است و داراي ابعاد وِيژگي بسياري هستند، بنابراين پزشكان قادر به تحليل چنين داده هايي نخواهند بود. چراكه تحليل اين نوع داده ها براي پزشكان و متخصصين، فرايندي طاقت فرسا و غير قابل انجام است و براي تشخيص صحيح نمونه ها، دقت و سرعت لازم است. در اين تحقيق سعي داريم تا با استفاده از يادگيري ماشين و داده كاوي به تحليل داده هاي متيلاسيون دي اِن اِي براي تشخيص صحيح سرطان سينه و تومور هاي زيرمجموعه آن، پزشكان را ياري كنيم..مدل تُنُك و تجزيه اندازه تكين روش هايي هستند كه در اين تحقيق براي كاهش بعد مورد استفاده قرار مي گيرند. پس از آنكه كاهش بعد انجام شد با دو رويكرد به تحليل داده هاي متيلاسيون مي گردازيم. رويكرد اول مبتني بر يادگيري بدون نظارت است و رودكرد دوم مبتني بر يادگيري با نظارت مي باشد. هدف ما در اين مقاله اين است كه بررسي كنيم كدام روش تحليل داده براي افزايش دقت مناسب است؟ در رويكرد اول از خوشه بندي كننده k-ميانگين و شبكه عصبي نگاشت خود سازمان دهنده استفاده مي كنيم.اين رويكرد مبتني بر يادگيري بدون نظارت است. در رويكرد دوم از ماشين بردار پشتيبان و نزديكترين همسايه وزن دار استفاده مي كنيم. رويكرد دوم مبتني بر يادگيري با نظارت است. پس از انجام آزمايش الگوريتم مورد استفاده رويكردها روي داده هاي متيلاسيون سرطان سينه، اين دو رويكرد و الگوريتم هاي آنها از لحاظ دقت، نرخ خطا، حساسيت، صحت و ديگر موارد باهم مقايسه شده و الگوريتمي كه بالاترين دقت را دارد معرفي مي گردد.
چكيده لاتين :
Abstract In todays world, with the growth of science in the field of computer science and machine learning, there are many ways and means to solve problems in various scientific fields. Medical is one of the sciences that solves many issues today and analyzes its data using machine learning. One of these issues is the analysis of DNA methylation data, which has a strong dependence on cancer. Therefore, in this dissertation, we intend to analyze, reduce the dimension and cluster the DNA methylation data to use each of these tumors in the appropriate sub-set. To identify and cult cancerous tumors, researchers have come up with various solutions in the field of machine learning for analyzing DNA structure, gene selection, gene prediction, and gene selection for the purpose of cancer detection and Tumor classification has been used. Among the methods and algorithms used include the use of a backup vector machine and stack self-healing to select a gene, the use of deep neural networks and active learning to select features from the human layers multiple levels of human genome for diagnosis and clustering. Tumor tumor, use of deep genetic algorithm for gene expression and clustering of tumor tumors, use of strain model, stack to detect tumor type, and deep learning of DNA features for analyzing its data using self-healing compound Stacked and 4 Boltzmann machines limited by different clustering methods. Each of these has its own flaws and benefits, which are referred to in Chapter 2. What is important in the process of diagnosis and clustering is the rate of error. Each of the previous methods for clustering tumors could have gaps in dimensional reduction and clustering, which is the reason for an increase in error rates in the detection and clustering of samples. In this thesis, we use the thinner method to solve the problem of decreasing the error rate for dimensional reduction and the K-mean clustering and the self-organizing neural network. The thinner model uses a smaller dimension to use. We want to minimize the error rate in clustering. After the next reduction was performed, a combination of features was organized into the k-mean clustering and its own network and compared the clustering results of both. After comparing the thinner method with previous methods, it was concluded that the combination of thinning and self-organizing nerve network has a lower error rate than previous methods and can be much more suitable for analyzing data of very large dimensions. Previous methods based on traditional machine learning.
كشور :
ايران
لينک به اين مدرک :
بازگشت