شماره ركورد :
1125895
عنوان مقاله :
كاربرد الگوريتم هاي داده كاوي در تشخيص داده هاي ژئوشيميايي خارج از رديف چند متغيره
پديد آورندگان :
گرانيان، حميد دانشگاه صنعتي بيرجند , خواجه ميري، زهرا سازمان صنعت، معدن و تجارت استان خراسان جنوبي
تعداد صفحه :
20
از صفحه :
63
تا صفحه :
82
كليدواژه :
برآورد چگالي كرنل , ضريب خارج از رديف بودن محلي , روش OPTICS-OF , روش SVDD , ورقه روم
چكيده فارسي :
تشخيص داده‌هاي خارج از رديف چند متغيره به كمك الگوريتم‌هاي داده‌كاوي يكي از نكات ضروري پيش‌پردازش داده‌هاي اكتشافات ژئوشيميايي محسوب مي‌شود. در اين مقاله چهار الگوريتم برآورد چگالي كرنل (KDE)، ضريب خارج از رديف بودن محلي (LOF)، OPTICS-OF و SVDD كه به ترتيب جزو روش‌هاي آماري، روش‌هاي مبتني بر مجاورت، روش‌هاي مبتني بر خوشه‌بندي و روش‌هاي مبتني بر دسته‌بندي هستند، معرفي شده و كاربرد آنها بر روي داده‌هاي ژئوشيميايي ورقه 100000/1 روم با ماتريس داده 41×902 بررسي شده است. براي اين منظور ابتدا روش ilr براي باز كردن سيستم عددي داده‌ها بكار رفته و سپس داده‌ها در بازه صفر تا يك استاندارد شده است. نتايج پياده شده چهار الگوريتم فوق بر روي مجموعه داده‌هاي استاندارد شده، نشان مي‌دهد كه در رويكرد تشخيص نمونه‌هاي داراي خطا، 10 نمونه كه داراي بالاترين احتمال خارج از رديف بودن هستند و در هر چهار الگوريتم نيز يكسان مي‌باشند را مي‌توان براي بررسي بيشتر به عنوان نمونه‌هاي انتخابي براي نمونه‌برداري تكراري در نظر گرفت. در رويكرد تشخيص نمونه‌هاي غير نرمال، از 150 نمونه‌ي انتخابي 5/74% از نمونه‌ها در هر چهار الگوريتم و 1/16% و 4/9% نيز به ترتيب در يك و دو الگوريتم به عنوان داده‌ي خارج از رديف شناسايي شده است. مقايسه نتايج الگوريتم‌هاي انتخابي با روش كلاسيك فاصله ماهالانوبيتس نشان دهنده‌ي برتري آنها در هر دو رويكرد است. همچنين پيشنهادي مي‌شود از الگوريتم‌هاي تشخيص داده‌هاي خارج از رديف چند متغيره مي‌توان براي تعيين نمونه-برداري‌هاي تكراري، محاسبه ماتريس موقعيت و پراكندگي در آمار چند متغيره مقاوم پس از حذف داده‌هاي غير نرمال و تعيين آنومالي‌هاي ژئوشيميايي استفاده كرد.
چكيده لاتين :
In this paper, four data mining algorithms, namely, kernel density estimation, local outlier factor, OPTICS-OF and SVDD are used to determine multivariate outlier data. So, stream sediment geochemical data, in 1:100000 Roum sheet, with 902⨉41 matrix dimensions have been utilized. Replacing censored data, converting the data set to an open number system and finally standardizing them are used as pre-processing methods. Results show that in error sample detection approach, 10 samples that have the highest outlier probability, and are present in equal numbers in the four mentioned algorithms, can be considered for more study as replicate sampling. In non-normal sample detection approach, form 150 selected samples, 74.5% of samples are detected as outliers in the four mentioned algorithms, and 16.1 and 9.4 percent are recognized as the outlier data in one and two of the aforementioned algorithms, respectively. Determining of replicate sampling, calculating location and scatter matrices in multivariate robust statistics after eliminating non-normal samples and geochemical anomaly detection are suggested as the applications of these algorithms.
سال انتشار :
1398
عنوان نشريه :
مهندسي‌ معدن‌
فايل PDF :
7758851
لينک به اين مدرک :
بازگشت