عنوان مقاله :
دسته بندي داده هاي دورده اي با ابرمستطيل موازي محورهاي مختصات
عنوان به زبان ديگر :
Classifying Two Class data using Hyper Rectangle Parallel to the Coordinate Axes
پديد آورندگان :
مصلحي، زهرا دانشگاه صنعتي اصفهان - دانشكده مهندسي برق و كامپيوتر , پالهنگ، مازيار دانشگاه صنعتي اصفهان - دانشكده مهندسي برق و كامپيوتر
كليدواژه :
يادگيري ماشين , دسته بندي , درخت تصميم , هندسه محاسباتي , تفكيك پذيري , مستطيل
چكيده فارسي :
يكي از زمينه هاي فعاليت در يادگيري ماشين و شناسايي الگو يادگيري با ناظر مي باشد. در يادگيري با ناظر برچسب داده هاي آموزشي موجود است. در مسايل دورده اي، هدف محاسبه فرضيه اي است كه بتواند به بهترين شكل ممكن و با كمترين مقدار خطا داده هاي با دو ردهي مثبت و منفي را از يكديگر جدا كند. انواع روش هاي يادگيري با ناظر پيشنهاد شده است. به عنوان مثال مي توان به درخت هاي تصميم، يادگير SVM و روش هاي نزديكترين همسايه اشاره كرد. در اين مقاله بر عملكرد درخت هاي تصميم متمركز مي شويم. عملكرد درخت تصميم مشابه پيدا كردن ابرصفحه هاي تقسيم كننده در فضاي d بعدي است، بطوريكه داده هاي موجود را به درستي رده بندي كند و تا حد ممكن رده بندي صحيح داده هاي آينده را نيز بدست آورد. ديدگاه هندسي عملكرد درخت تصميم ما را به مفهوم تفكيك پذيري در هندسه محاسباتي نزديك مي كند. از بين كليه الگوريتم هاي تفكيك پذيري موجود، مساله محاسبه مستطيل با حداكثر اختلاف دو رنگ را مطرح مي كنيم. اين مساله ارتباط نزديكي با مساله درخت تصميم در يادگيري ماشين دارد. در ادامه الگوريتم محاسبه مستطيل با حداكثر اختلاف دو رنگ را در يك، دو، سه و d بعد پياده سازي مي كنيم. نتيجه پياده سازي نشان دهنده آن است كه اين الگوريتم، الگوريتمي قابل رقابت با الگوريتم شناخته شده C4.5 است.
چكيده لاتين :
One of the machine learning tasks is supervised learning. In supervised learning we infer a function from labeled training data. The goal of supervised learning algorithms is learning a good hypothesis that minimizes the sum of the errors. A wide range of supervised algorithms is available such as decision tress, SVM, and KNN methods. In this paper we focus on decision tree algorithms. When we use the decision tree algorithms, the data is partitioned by axis- aligned hyper planes. The geometric concept of decision tree algorithms is relative to separability problems in computational geometry. One of the famous problems in separability concept is computing the maximum bichromatic discrepancy problem. There exists an -time algorithm to compute the maximum bichromatic discrepancy in d dimensions. This problem is closely relative to decision trees in machine learning. We implement this problem in 1, 2, 3 and d dimension. Also, we implement the C4.5 algorithm. The experiments showed that results of this algorithm and C4.5 algorithm are comparable.
كلمات كليدي :
#تست#آزمون###امتحان