عنوان مقاله :
چالشها و راهحلهايي در جمعآوري داده و ارزيابي مدلها در يادگيري ماشين نظارت شده، مطالعه مروري
پديد آورندگان :
علي اكبري ، سعيده دانشگاه علوم پزشكي سمنان - دانشكده پيراپزشكي - گروه پرتوشناسي , حجازي ، پيمان دانشگاه علوم پزشكي سمنان - دانشكده پزشكي - گروه فيزيك پزشكي , هرمزي مقدم ، زينب دانشگاه علوم پزشكي ايران - مركز تحقيقات بيولوژِي پرتو, دانشكده پيراپزشكي - گروه علوم پرتويي
كليدواژه :
يادگيري ماشين نظارت شده , جمعآوري داده , ارزيابي مدل
چكيده فارسي :
هدف: هدف اصلي يادگيري ماشين يك فرآيند پيچيده است كه از طريق تعيين مدل و آموزش آن با استفاده از حجم زيادي از دادهها، انجام ميشود. در گذشته، تمركز اصلي در اين زمينه بيشتر بر روي بهبود ساختار مدلها و الگوريتمها بوده است، اما اخيراً تمركز بهتري به سمت كيفيت و كميت دادهها صورت گرفته است. هدف از اين مقالهي مروري بررسي چالشها در جمعآوري دادهها و ارزيابي مدل در يادگيري ماشين نظارت شده و ارائهي راه حل براي آن است. مواد و روشها: در اين مطالعه چالشهاي پيش روي محققان جهت جمعآوري داده و ارزيابي مدلهاي يادگيري ماشين نظارت شده به روش مطالعهي مروري مورد بررسي قرار گرفت، مستندات از پايگاههاي مطالعاتي PubMed، Scopus، Science Direct و موتور جستوجو Google Scholar در بازهي زماني 2001 الي 2023 بازيابي شد كه پس از غربالگري متن كامل 17 مقاله بررسي و به مطالعه وارد شد. يافتهها: در بررسي مطالعات انجام شده چهار چالش عمده در جمعآوري دادهها در حيطهي يادگيري ماشين نظارت شده كه عبارتند از: تعداد ناكافي نمونه، دادههاي آموزشي غير نماينده، كيفيت پايين داده و ويژگيهاي غير مرتبط يافت شد. در ارزيابي مدل نيز با چهار چالش كه عبارتند از: بيش برازش، كمبود برازش، در دسترس نبودن داده كافي جهت اعتبارسنجي و عدم تطبيق دادهها بهدست آمد. نتيجهگيري: افزايش تعداد نمونه، استفاده از الگوريتم انتخاب تصادفي، پاكسازي داده، استفاده از آزمون آماري صحيح، انتخاب ويژگي، استخراج ويژگي، استفاده از مدل سادهتر، تكنيك K-fold و پردازش دادهها از جمله مواردي است كه رعايت آن باعث دستيابي به مدلي با عملكرد بهتر ميشود.