تشخيص خودكار خطا در پايگاه داده، مبتني بر خوشه‌بندي و نزديك‌ترين همسايگي

پديد آورندگان

عطاييان ، مهديه دانشگاه تربيت دبير شهيد رجايي - دانشكده مهندسي كامپيوتر , دانشپور ، نگين دانشگاه تربيت دبير شهيد رجايي - دانشكده مهندسي كامپيوتر

تعداد صفحه

از صفحه

349

تا صفحه

356

كليدواژه

تصحيح داده , تشخيص خودكار خطا , خوشه‌بندي , k-means

چكيده فارسي

كيفيت داده‌ها در امر تصميم‌گيري سازمان‌ها تأثيرگذار مي‌باشد، به گونه‌اي كه تصميم‌گيري مبتني بر داده‌هاي فاقد كيفيت سازمان را متحمل هزينه‌هاي بالايي مي‌كند. كيفيت داده‌ها داراي ابعاد متنوعي مي‌باشد كه صحت از مهم‌ترين اين ابعاد است. جهت تصحيح داده‌ها نياز به تشخيص خطا وجود دارد كه با توجه به حجم بالاي داده‌ها، نياز به يك سيستم خودكار است تا بدون دخالت كاربر اين فرايند انجام گيرد. در اين مقاله راهكاري خودكار مبتني بر خوشه‌بندي k - means جهت تشخيص خطا ارائه شده است. در ابتدا به ازاي هر ويژگي، داده‌ها خوشه‌بندي مي‌شوند و سپس به ازاي هر داده در آن خوشه از روش شبه k نزديك‌ترين همسايه، جهت شناسايي خطا استفاده مي‌شود. روش پيشنهادي توانايي تشخيص چندين خطا در يك ركورد را دارد و همچنين قادر است خطا در فيلدهايي با انواع داده متفاوت را نيز شناسايي كند. آزمايشات نشان مي‌دهد كه به طور متوسط اين روش مي‌تواند 91% خطاهاي موجود در داده‌ها را شناسايي نمايد. همچنين روش پيشنهادي با يك روش تشخيص خطا به وسيله قوانين كه همانند راهكار پيشنهادي روشي خودكار براي تشخيص خطا در انواع داده‌اي متفاوت است نيز مورد مقايسه قرارگرفته و نتايج نشان مي‌دهد كه روش پيشنهادي به طور متوسط 25% عملكرد بهتري در تشخيص خطا داشته است.

عنوان نشريه

مهندسي برق و مهندسي كامپيوتر ايران

لينک به اين مدرک

https://search.isc.ac/dl/search/defaultta.aspx?DTC=8&DC=1114010