شماره ركورد :
965597
عنوان مقاله :
امكان سنجي كاربرد آنتروپي نسبي در خوشه بندي تعدادي از ژن‌هاي موثر بر توليد شير در گاو شيري
عنوان به زبان ديگر :
Possibility of application of relative entropy in clustering of some milk governing genes in dairy cattle
پديد آورندگان :
دهقان زاده، هوشنگ مركز تحقيقات و آموزش كشاورزي و منابع طبيعي گيلان , ميرحسيني، ضياءالدين دانشگاه گيلان - دانشكده كشاورزي - گروه علوم دامي , قادري زفره يي، مصطفي دانشگاه ياسوج - دانشكده كشاورزي - گروه علوم دامي , توكلي، حسن دانشگاه گيلان - دانشكده فني - گروه مهندسي برق , خانيان، سعيداسماعيل سازمان تحقيقات، آموزش و ترويج كشاورزي، كرج - موسسه تحقيقات علوم دامي كشور
تعداد صفحه :
17
از صفحه :
69
تا صفحه :
85
كليدواژه :
خوشه بندي ژن , گاو شيري , واگرايي كولبك- ليبلر , تئوري اطلاعات
چكيده فارسي :
سابقه و هدف: جدا از اينكه شير نقش مهمي در تغذيه انسان ايفا مي‌نمايد، افزايش توليد شير و يا تغيير در ميزان تركيبات آن بيشترين توجه اصلاحگران گاو شيري را به خود اختصاص داده است به همين علت پژوهش و بررسي ژنهايي كه روي توليد و تركيب شير نقش موثري دارند، بسيار با اهميت است. نظريه‌ اطلاعات، شاخه‌اي از رياضيات است كه با مهندسي ارتباطات، زيست شناسي و پزشكي همپوشاني دارد. آنتروپي اندازه‌اي از عدم قطعيت در مجموعه اطلاعات است. شانون در مقاله مشهور خود در سال 1948 اين مفهوم را معرفي كرده و نتايج آن را در تعدادي از مسائل پايه‌اي نظريه‌ كدگذاري و انتقال داده‌ها مورد استفاده قرار داد كه پايه‌ نظريه‌ اطلاعات جديد را تشكيل مي‌دهد. از تئوري اطلاعات در تجزيه و تحليل هاي ژنتيكي و بيوانفورماتيكي استفاده گرديده و ميتوان از آن جهت بسياري از آناليز‌هاي مربوط به ساختارها و توالي‌هاي زيستي استفاده نمود. مواد و روش ها‌: توالي 30DNA ژن مربوط به توليد پروتئين شير به صورت جداگانه از پايگاه داده ژنوم NCBI استخراج و در فرمت FASTA ذخيره شد. در اين پژوهش براي هر مجموعه ژن و اگزون‌هاي آن فراسنجه آنتروپي در مراتب يك الي چهار محاسبه شد. در اين راستا از زنجيره ماركف تا رتبه 3 استفاده گرديد. بر اساس آنتروپي نسبي حاصله براي ژن‌ها و اگزون‌ها، واگرايي كولبك – ليبلر براي ژن‌ها و اگزون‌ها تعريف و محاسبه گرديد. سپس ماتريس واگرايي كولبك – ليبلر ژن ها و اگزون ها به عنوان ورودي 7 روش معمول خوشه بندي Single ، Complete،Average ، Weighted،Centroid ، MedianوK-Means در نظر گرفته شد. براي تجميع نتايج حاصل از خوشه بندي‌هاي مختلف، از الگوريتم AdaBoost استفاده گرديد. در پايــان جهت تاييد نتايج حاصل از AdaBoost و پيش بيني عملكرد ژن‌ها و ارتباط بين آنها، با مراجعه به GeneMANIA prediction server نتايج بر اساس حاشيه نويسي ژنومي آن‌ها مورد بررسي و مقايسه قرار گرفت. همه محاسبات با استفاده از نرم افزار مهندسي متلب نسخه 2015 انجام گرديد. يافته ها‌: با بررسي نتايج در GeneMANIA prediction server ، ارتباط متقابل و مسيرهاي متابوليكي مشترك ژن‌ها براساس حاشيه نويسي ژنومي آن‌ها، روش خوشه بندي ارايه شده را روشي صحيح، منطقي و در عين حال سريع نشان داد. اين روش علاوه بر اينكه زمانبر بودن حاصل از همتراز نمودن ژن‌ها را نداشته، محتوا و اندازه واقعي ژن‌ها را مورد بررسي قرار داده و نياز به حافظه بالا براي پردازش فايل‌هاي همرديف توالي‌هاي با طول بزرگ را ندارد. نتيجه گيري: نتـايج نشـان داد كه روش پيشنـهادي جهت خوشه بنـدي مجموعه‌اي از ژن ها به لحاظ زيستي بسيار جـذاب به نظر مي رسد. اعتقاد بر اين است كه روش ارائه شده مي‌تواند با ساير روش‌ها از جهت خوشه بندي مجموعه‌اي از ژنها رقابت نمايد. روش ياد شده مي‌تواند به عنوان يك روش پيش بيني عملكرد زيستي ژن‌هايي با داده‌هاي حاشيه نويسي ژنومي ضعيف نيز در نظر گرفته شود.
چكيده لاتين :
Background and objectives: Apart from the fact that milk plays an important role in human nutrition, increasing milk production or changing its composition has attracted the attention of animal breeders, therefore, it is crucial to study and evaluate the genes underpinning milk production and its composition. Information theory is a branch of mathematics that overlaps with communications, biology, and medical engineering. Entropy is a measure of uncertainty in the set of information. In his famous article in 1948, Shannon introduced this concept and used its results in a number of basic issues of coding and data transferring theory, which forms the basis of new information theory. Information theory is used in genetic and bioinformatics analyses and can be used for many analyses related to the structures and sequences. Bio-computational grouping of genes facilitates genetic analysis, sequencing and structural-based analyses Materials and methods: DNA sequence of 30 genes involved with milk protein production were extracted ad hoc from NCBI genome database and stored in FASTA format. In this study, for each gene and its exons sets, the entropy was calculated in orders one to four. In this way, the Markov chain up to order 3 was used. Based on the relative entropy of genes and exons, kullback-Leibler divergence was calculated. After obtaining the kullback-Leibler distance for genes and exons sets, the results were entered as input into 7 clustering algorithms: Single, Complete, Average, Weighted, Centroid, Median and K-Means. In order to aggregate the results of clustering, AdaBoost algorithm was used. Finally, the results of AdaBoost algorithm were investigated by GeneMANIA prediction server to explore the results from gene annotation point of view. All calculations were performed using the MATLAB Engineering Software (2015) Results: By investigating the results of genes metabolic pathways based on their gene annotations, it was turned out that proposed clustering method, yielded correct, logical and fast results. This method at the same that that hadn't had the disadvantages of aligning allowed the genes with actual length and content to be considered and also didn't require high memory for large-length sequences. Conclusion: It can be concluded that the performance of the proposed method could be used with other competitive gene clustering methods to group biologically relevant set of genes Also, the proposed method can be seen as a predictive method for those genes bearing up weak genomic annotations.
سال انتشار :
1396
عنوان نشريه :
پژوهش در نشخواركنندگان
فايل PDF :
3639928
عنوان نشريه :
پژوهش در نشخواركنندگان
لينک به اين مدرک :
بازگشت