عنوان مقاله :
افزايش دقت در تجميع داده هاي بلادرنگ بزرگ با استفاده از كاهش ويژگي غيرمؤثر
عنوان به زبان ديگر :
Increase accuracy in aggregating real-time data using Ineffective feature reduction
پديد آورندگان :
چهل اميران، صبا دانشگاه فني و حرفه اي استان همدان - دانشكده زينب كبري - دپارتمان مهندسي برق و كامپيوتر، همدان، ايران
كليدواژه :
انتخاب ويژگي , الگوريتم ژنتيك , نظركاوي , شبكه هاي اجتماعي.
چكيده فارسي :
چكيده: اصطلاح دادههاي بزرگ براي داده هاي محاسباتي و يا اطلاعاتي كه ميتواند تجزيه و تحليل شود يا براي استفاده از تكنيكها و ابزارهاي سنتي يادگيري ماشين به كار رود، مفيد است. تعريف كلي از دادههاي بزرگ نشان ميدهد كه داده هاي محاسباتي بيش از
حد سريع، گسترده و يا بيش از حد براي پردازش سخت هستند. مسئله انتخاب ويژگي، يكي از مسائلي است كه در مبحث يادگيري ماشين و همچنين شناسايي الگوي آماري مطرح است. اين مسئله در بسياري از كاربردها )مانند طبقه بندي( اهميت زيادي دارد، زيرا
در اين كاربردها تعداد زيادي از ويژگيها وجود دارد كه بسياري از آنها يا بلااستفاده هستند و يا اينكه بار اطلاعاتي چنداني ندارند.
حذف نكردن اين ويژگيها مشكلي از لحاظ اطلاعاتي ايجاد نميكند، ولي بار محاسباتي را براي كاربرد مورد نظر بالا ميبرد؛ و علاوه بر اين باعث ميشود كه اطلاعات غيرمفيد زيادي را به همراه دادههاي مفيد ذخيره گردد. در اين پژوهش با استفاده از استخراج ويژگي و
الگوريتم ژنتيك روشي ارائه شده است تا تحليل نظرات كاربران درباره فيلمهاي سينمايي را انجام گيرد، در اين روش با انتخاب ويژگي هر نظر در قالب يك برداري عددي ذخيره ميشود و سپس توسط الگوريتم ژنتيك نوع جمله از نظر مثبت و منفي بودن مشخص شده
و تحليل آماري انجام ميشود.
چكيده لاتين :
The term big data is useful for computational data or information that can be analyzed or used for traditional machine learning techniques and tools. The general definition of big data indicates that computational data is too fast, extensive, or too difficult to process. Feature selection is one of the issues in machine learning as well as statistical pattern identification. This is important in many applications (such as categorization) because there are many features in these applications, many of which are either unused or have little information load. Not deleting these features does not pose a problem in terms of information, but it does increase the computational burden for the intended application; In addition, it allows us to store a lot of useless information along with useful data. In this dissertation, By using feature extraction and genetic algorithm, we were able to proving a way to analyze user’s opinions about movies. By selecting the attribute, each comment is stored in the form of a numerical vector and then the type of sentence in terms of being positive and negative is determined by genetic algorithm and statistical analysis is performed.