عنوان مقاله :
ارائه يك روش مؤثر براي يادگيري مقاوم متريك در برابر نوفه برچسب
پديد آورندگان :
ذبيح زاده ، داود دانشگاه حكيم سبزواري - گروه مهندسي كامپيوتر , زاهدي ، سعيد دانشگاه فردوسي مشهد - دانشكده مهندسي , منصفي ، رضا دانشگاه فردوسي مشهد - دانشكده مهندسي
كليدواژه :
يادگيري متريك مقاوم , نوفه برچسب , دادههاي پرت , معيار فاصله
چكيده فارسي :
تعيين شباهت/ فاصله دادهها در بسياري از الگوريتمهاي يادگيري ماشين، شناسايي الگو و دادهكاوي كاربرد دارد. در بسياري از كاربردها، معيارهاي عمومي شباهت/فاصله كارايي بالايي ندارد و بهطورمعمول با استفاده از دادهها ميتوان معيار مناسبتري را ياد گرفت. دادههاي آموزشي براي اين منظور بهطورمعمول بهصورت زوجهاي مشابه و نامشابه و يا محدوديتهاي سهگانه هستند. در كاربردهاي واقعي، اين دادههاي آموزشي از طريق اينترنت و بهطورمعمول با روشهايي نظير Crowdsourcing جمعآوري ميشود كه ميتواند حاوي نوفه و اطلاعات اشتباه باشد. كارايي روشهاي يادگيري متريك در صورت وجود اطلاعات آموزشي نوفهاي و اشتباه بهشدت افت ميكند و حتي ممكن است اين روشها از معيارهاي عمومي فاصله نظير اقليدسي نيز بدتر عمل كنند. بنابراين نياز به مقاومسازي روشهاي يادگيري متريك در برابر نوفه برچسب وجود دارد. در اين پژوهش، يك تابع احتمالاتي جديد براي تعيين احتمال نوفهايبودن برچسب دادهها با استفاده از محدوديتهاي سهگانه آموزشي ارائهشده است كه باعث ميشود، الگوريتم يادگيري متريك بتواند دادههاي پرت و نوفهاي را شناسايي كند و تأثير آنها را فرايند يادگيري كاهش دهد. همچنين نشان داده شده است كه چگونه از اطلاعات بهدستآمده ميتوان براي افزايش كارايي الگوريتم مبتني بر متريك (مانند kNN) بهره برد و عملكرد آن را بهطور قابلملاحظهاي افزايش داد. نتايج آزمايشها بر روي مجموعهاي از داده هاي ساختگي و واقعي، تأييد ميكند كه روش پيشنهادي بهطور قابلملاحظهاي كارايي روشهاي يادگيري متريك را در محيطهايي با نوفه برچسب بهبود ميبخشد و بر روشهاي همتا در مرزهاي دانش در سطوح مختلف نوفه برچسب برتري دارد.
عنوان نشريه :
پردازش علائم و داده ها
عنوان نشريه :
پردازش علائم و داده ها