پديد آورندگان :
دهقان زاده، هوشنگ مركز تحقيقات و آموزش كشاورزي و منابع طبيعي گيلان , ميرحسيني، ضياءالدين دانشگاه گيلان - دانشكده كشاورزي - گروه علوم دامي , قادري زفره يي، مصطفي دانشگاه ياسوج - دانشكده كشاورزي - گروه علوم دامي , توكلي، حسن دانشگاه گيلان - دانشكده فني - گروه مهندسي برق , خانيان، سعيداسماعيل سازمان تحقيقات، آموزش و ترويج كشاورزي، كرج - موسسه تحقيقات علوم دامي كشور
كليدواژه :
خوشه بندي ژن , گاو شيري , واگرايي كولبك- ليبلر , تئوري اطلاعات
چكيده فارسي :
سابقه و هدف: جدا از اينكه شير نقش مهمي در تغذيه انسان ايفا مينمايد، افزايش توليد شير و يا تغيير در ميزان تركيبات آن بيشترين توجه اصلاحگران گاو شيري را به خود اختصاص داده است به همين علت پژوهش و بررسي ژنهايي كه روي توليد و تركيب شير نقش موثري دارند، بسيار با اهميت است. نظريه اطلاعات، شاخهاي از رياضيات است كه با مهندسي ارتباطات، زيست شناسي و پزشكي همپوشاني دارد. آنتروپي اندازهاي از عدم قطعيت در مجموعه اطلاعات است. شانون در مقاله مشهور خود در سال 1948 اين مفهوم را معرفي كرده و نتايج آن را در تعدادي از مسائل پايهاي نظريه كدگذاري و انتقال دادهها مورد استفاده قرار داد كه پايه نظريه اطلاعات جديد را تشكيل ميدهد. از تئوري اطلاعات در تجزيه و تحليل هاي ژنتيكي و بيوانفورماتيكي استفاده گرديده و ميتوان از آن جهت بسياري از آناليزهاي مربوط به ساختارها و تواليهاي زيستي استفاده نمود.
مواد و روش ها: توالي 30DNA ژن مربوط به توليد پروتئين شير به صورت جداگانه از پايگاه داده ژنوم NCBI استخراج و در فرمت FASTA ذخيره شد. در اين پژوهش براي هر مجموعه ژن و اگزونهاي آن فراسنجه آنتروپي در مراتب يك الي چهار محاسبه شد. در اين راستا از زنجيره ماركف تا رتبه 3 استفاده گرديد. بر اساس آنتروپي نسبي حاصله براي ژنها و اگزونها، واگرايي كولبك – ليبلر براي ژنها و اگزونها تعريف و محاسبه گرديد. سپس ماتريس واگرايي كولبك – ليبلر ژن ها و اگزون ها به عنوان ورودي 7 روش معمول خوشه بندي Single ، Complete،Average ، Weighted،Centroid ، MedianوK-Means در نظر گرفته شد. براي تجميع نتايج حاصل از خوشه بنديهاي مختلف، از الگوريتم AdaBoost استفاده گرديد. در پايــان جهت تاييد نتايج حاصل از AdaBoost و پيش بيني عملكرد ژنها و ارتباط بين آنها، با مراجعه به GeneMANIA prediction server نتايج بر اساس حاشيه نويسي ژنومي آنها مورد بررسي و مقايسه قرار گرفت. همه محاسبات با استفاده از نرم افزار مهندسي متلب نسخه 2015 انجام گرديد.
يافته ها: با بررسي نتايج در GeneMANIA prediction server ، ارتباط متقابل و مسيرهاي متابوليكي مشترك ژنها براساس حاشيه نويسي ژنومي آنها، روش خوشه بندي ارايه شده را روشي صحيح، منطقي و در عين حال سريع نشان داد. اين روش علاوه بر اينكه زمانبر بودن حاصل از همتراز نمودن ژنها را نداشته، محتوا و اندازه واقعي ژنها را مورد بررسي قرار داده و نياز به حافظه بالا براي پردازش فايلهاي همرديف تواليهاي با طول بزرگ را ندارد.
نتيجه گيري: نتـايج نشـان داد كه روش پيشنـهادي جهت خوشه بنـدي مجموعهاي از ژن ها به لحاظ زيستي بسيار جـذاب به نظر مي رسد. اعتقاد بر اين است كه روش ارائه شده ميتواند با ساير روشها از جهت خوشه بندي مجموعهاي از ژنها رقابت نمايد. روش ياد شده ميتواند به عنوان يك روش پيش بيني عملكرد زيستي ژنهايي با دادههاي حاشيه نويسي ژنومي ضعيف نيز در نظر گرفته شود.
چكيده لاتين :
Background and objectives: Apart from the fact that milk plays an important role in human nutrition, increasing milk production or changing its composition has attracted the attention of animal breeders, therefore, it is crucial to study and evaluate the genes underpinning milk production and its composition. Information theory is a branch of mathematics that overlaps with communications, biology, and medical engineering. Entropy is a measure of uncertainty in the set of information. In his famous article in 1948, Shannon introduced this concept and used its results in a number of basic issues of coding and data transferring theory, which forms the basis of new information theory. Information theory is used in genetic and bioinformatics analyses and can be used for many analyses related to the structures and sequences. Bio-computational grouping of genes facilitates genetic analysis, sequencing and structural-based analyses
Materials and methods: DNA sequence of 30 genes involved with milk protein production were extracted ad hoc from NCBI genome database and stored in FASTA format. In this study, for each gene and its exons sets, the entropy was calculated in orders one to four. In this way, the Markov chain up to order 3 was used. Based on the relative entropy of genes and exons, kullback-Leibler divergence was calculated. After obtaining the kullback-Leibler distance for genes and exons sets, the results were entered as input into 7 clustering algorithms: Single, Complete, Average, Weighted, Centroid, Median and K-Means. In order to aggregate the results of clustering, AdaBoost algorithm was used. Finally, the results of AdaBoost algorithm were investigated by GeneMANIA prediction server to explore the results from gene annotation point of view. All calculations were performed using the MATLAB Engineering Software (2015)
Results: By investigating the results of genes metabolic pathways based on their gene annotations, it was turned out that proposed clustering method, yielded correct, logical and fast results. This method at the same that that hadn't had the disadvantages of aligning allowed the genes with actual length and content to be considered and also didn't require high memory for large-length sequences.
Conclusion: It can be concluded that the performance of the proposed method could be used with other competitive gene clustering methods to group biologically relevant set of genes Also, the proposed method can be seen as a predictive method for those genes bearing up weak genomic annotations.