كليدواژه :
برآورد چگالي كرنل , ضريب خارج از رديف بودن محلي , روش OPTICS-OF , روش SVDD , ورقه روم
چكيده فارسي :
تشخيص دادههاي خارج از رديف چند متغيره به كمك الگوريتمهاي دادهكاوي يكي از نكات ضروري پيشپردازش دادههاي اكتشافات ژئوشيميايي محسوب ميشود. در اين مقاله چهار الگوريتم برآورد چگالي كرنل (KDE)، ضريب خارج از رديف بودن محلي (LOF)، OPTICS-OF و SVDD كه به ترتيب جزو روشهاي آماري، روشهاي مبتني بر مجاورت، روشهاي مبتني بر خوشهبندي و روشهاي مبتني بر دستهبندي هستند، معرفي شده و كاربرد آنها بر روي دادههاي ژئوشيميايي ورقه 100000/1 روم با ماتريس داده 41×902 بررسي شده است. براي اين منظور ابتدا روش ilr براي باز كردن سيستم عددي دادهها بكار رفته و سپس دادهها در بازه صفر تا يك استاندارد شده است. نتايج پياده شده چهار الگوريتم فوق بر روي مجموعه دادههاي استاندارد شده، نشان ميدهد كه در رويكرد تشخيص نمونههاي داراي خطا، 10 نمونه كه داراي بالاترين احتمال خارج از رديف بودن هستند و در هر چهار الگوريتم نيز يكسان ميباشند را ميتوان براي بررسي بيشتر به عنوان نمونههاي انتخابي براي نمونهبرداري تكراري در نظر گرفت. در رويكرد تشخيص نمونههاي غير نرمال، از 150 نمونهي انتخابي 5/74% از نمونهها در هر چهار الگوريتم و 1/16% و 4/9% نيز به ترتيب در يك و دو الگوريتم به عنوان دادهي خارج از رديف شناسايي شده است. مقايسه نتايج الگوريتمهاي انتخابي با روش كلاسيك فاصله ماهالانوبيتس نشان دهندهي برتري آنها در هر دو رويكرد است. همچنين پيشنهادي ميشود از الگوريتمهاي تشخيص دادههاي خارج از رديف چند متغيره ميتوان براي تعيين نمونه-برداريهاي تكراري، محاسبه ماتريس موقعيت و پراكندگي در آمار چند متغيره مقاوم پس از حذف دادههاي غير نرمال و تعيين آنوماليهاي ژئوشيميايي استفاده كرد.
چكيده لاتين :
In this paper, four data mining algorithms, namely, kernel density estimation, local outlier factor, OPTICS-OF and SVDD are used to determine multivariate outlier data. So, stream sediment geochemical data, in 1:100000 Roum sheet, with 902⨉41 matrix dimensions have been utilized. Replacing censored data, converting the data set to an open number system and finally standardizing them are used as pre-processing methods. Results show that in error sample detection approach, 10 samples that have the highest outlier probability, and are present in equal numbers in the four mentioned algorithms, can be considered for more study as replicate sampling. In non-normal sample detection approach, form 150 selected samples, 74.5% of samples are detected as outliers in the four mentioned algorithms, and 16.1 and 9.4 percent are recognized as the outlier data in one and two of the aforementioned algorithms, respectively. Determining of replicate sampling, calculating location and scatter matrices in multivariate robust statistics after eliminating non-normal samples and geochemical anomaly detection are suggested as the applications of these algorithms.