كليدواژه :
داده كاوي , مصرف غيرمجاز , دستكاري كنتور , رگرسيون لجستيك , خوشهبندي
چكيده فارسي :
شناسايي كنتورهاي دستكاري شده آب، بهعنوان بخشي از مصارف غيرمجاز يكي از گامهاي اساسي در توسعه خدماترساني و افزايش بهرهوري از منابع آب به حساب ميآيد كه بايد به آن توجه كرد. دادههاي مورد استفاده براي شناسايي مصرف غيرمجاز حاصل از دستكاري كنتور شامل تعداد 671 مشترك با سابقه دستكاري كنتور در سالهاي 98-96 و يك نمونه تصادفي 3120 تايي از مشتركان بدون سابقه دستكاري (سالم) در كاربري خانگي شهر قم است. بهمنظور تحليل دادهها از سابقه مصرف و پرداخت صورتحساب مشتركان و همچنين روشهاي با نظارت داده كاوي از قبيل درخت تصميم، ماشينبردار پشتيبان، شبكه عصبي، رگرسيون لجستيك، نزديكترين همسايگي و روش بدون نظارت خوشهبندي استفاده شد. مقايسه روشهاي مختلف داده كاوي بين دو گروه كنتورهاي دستكاري شده و سالم نشان داد در بين روشهاي با نظارت، دقت مدلها نزديك يكديگر است و اختلاف 1 تا 3 درصدي بين آنها وجود دارد. از طرفي با توجه به درصد پاسخ صحيح در بين روشها، رگرسيون لجستيك با تشخيص صحيح 85 درصد موارد دستكاري شده و 91 درصد موارد سالم و دقت كلي 89 درصد بر روي دادههاي تست بهعنوان بهترين مدل براي شناسايي كنتورهاي دستكاري شده ميتواند استفاده شود. همچنين با استفاده از خوشهبندي بهعنوان يك روش بدون نظارت، مشتركان در 6 خوشه دستهبندي و خوشه شماره 3 با تعداد 160 مشترك، رفتار مجزايي از ساير خوشهها نشان داد. 86 درصد اشتراكهاي اين خوشه شامل موارد دستكاري شده بودند و 18 درصد از موارد دستكاري تشخيص داده شده توسط رگرسيون لجستيك در اين خوشه قرار گرفت. اين پژوهش به ارائه مدلهايي براي شناسايي موارد دستكاري كنتور آب توسط تكنيكهاي داده كاوي پرداخته است. با توجه به يافتههاي پژوهش، بهمنظور شناسايي مصارف غيرمجاز آب، ميتوان از هر دو روش با نظارت (شامل متغير پاسخ) و بدون نظارت (بدون نياز به متغير پاسخ) مانند خوشهبندي استفاده كرد. در اين پژوهش رگرسيون لجستيك با دقت زياد بهعنوان مناسبترين مدل براي شناسايي كنتورهاي دستكاري شده انتخاب شد.
چكيده لاتين :
Detection of tampering in water meters as part of unauthorized usage is a key step in development of service delivery and increasing water resource productivity, and requires special attention. Data used to identify unauthorized water usage, due to tampering in water meters, include 671 subscribers with a history of meter tampering during the years 2017-2019 and a random sample of 3120 subscribers with no tampering record (clean) among Qom’s residential water users. Data analysis was conducted using subscriber’s water consumption and invoice payment history as well as supervised data mining techniques such as decision tree, support vector machine, neural network, logistic regression, K-nearest neighbor and unsupervised clustering method. The comparison of different data mining techniques between two groups of tampered and non-tampered water meters showed that among the supervised methods, the accuracy of the models is close to each other and there is a 1–3% difference between them. On the other hand, given the percentage of correct responses among the methods, logistic regression, as the best data mining model, with correct detection of 85% of tampered and 91% of non-tampered cases as well as 89% overall accuracy on the testing data, can be used for identification of tampered meters. The study used clustering as an unsupervised technique. The subscribers were grouped into six clusters. Cluster 3 (n=160 subscribers) showed distinct behavior from the other clusters. About 86% of subscriptions in cluster 3 are tampered cases. Moreover, 18% of the tampered cases detected by logistic regression are in this cluster. Data mining techniques for identification of water meter tampering were presented in this study. Findings of the study indicated that both supervised (including response variable) and unsupervised methods (no response variable) such as clustering can be used for the identification of unauthorized water consumption In this study, logistic regression, due to its high accuracy, was selected as the most appropriate model for detection of tampered meters.