Title of article :
Data sanitization in association rule mining based on impact factor
Author/Authors :
Telikani، A نويسنده Department of Electronic & Computer Engineering, Institute for Higher Education Pouyandegan Danesh, Chalous, Iran , , Shahbahrami، A نويسنده Department of Computer Engineering, University of Guilan, Rasht, Iran , , Tavoli، R نويسنده Department of Mathematics, Chalous Branch, Islamic Azad University, Chalous, Iran ,
Issue Information :
دوفصلنامه با شماره پیاپی 0 سال 2015
Pages :
10
From page :
131
To page :
140
Abstract :
پالايش داده ها براي ترويج اشتراك گذاري پايگاه داده هاي تراكنشي بين سازمان ها و كسب وكارها استفاده مي شود و نگراني ها براي اشخاص و سازمان ها پيرامون افشا الگوهاي حساس را كاهش مي دهد. اين فرآيند پايگاه داده اوليه را به يك پايگاه داده اصلاح شده تبديل مي كند تا ديگران نتوانند الگوهاي حساس را اكتشاف كنند و در نتيجه محرمانگي داده ها در برابر كاوش قوانين انجمني محافظت مي شود. اين فرآيند تلاش دارد تا تاثير پالايش بر روي سودمندي داده ها را از طريق كاهش تعداد الگوهاي مفقود شده در قالب الگوهاي حساسي كه از پايگاه داده پالايش شده استخراج نمي شوند كمينه كند. اين پژوهش يك الگوريتم پالايش داده ها براي پنهان سازي الگوهاي حساس در قالب مجموعه فقره هاي تكرارشونده ارايه مي دهد كه تاثير پالايش بر روي سودمندي داده ها را با استفاده از اندازه گيري ضريب تاثير هر اصلاح بر روي مجموعه فقره هاي غيرحساس كنترل مي كند. الگوريتم پيشنهادي با الگوريتم هاي اندازه پنجره لغزان (SWA) و Max-Min1 برحسب زمان اجرا، سودمندي داده اي و دقت داده اي مقايسه شده است. دقت داده اي به عنوان نرخ مقادير فقره-هاي حذف شده به كل مقادير فقره هايي كه از مجموعه فقره هاي حساس در پايگاه داده اوليه پشتيباني مي كنند محاسبه مي شود. نتايج تجربي نشان مي دهد كه الگوريتم پيشنهادي نسبت به الگوريتم هاي SWA و Max-Min1 برحسب سودمندي داده ها و دقت داده اي اجراي بهتري را به همراه دارد و براي مقياس هاي بالاي مجموعه فقره هاي حساس و تعداد تراكنش ها زمان اجراي بهتري نسبت به الگوريتم هاي SWA و Max-Min1 دارد.
Abstract :
Data sanitization process is used to promote the sharing of transactional databases among organizations and businesses, and alleviates concerns for individuals and organizations regarding the disclosure of sensitive patterns. It transforms the source database into a released database so that counterparts cannot discover the sensitive patterns and so data confidentiality is preserved against association rule mining method. This process strongly relies on the minimizing the impact of data sanitization on the data utility by minimizing the number of lost patterns in the form of non-sensitive patterns which are not mined from sanitized database. This study proposes a data sanitization algorithm to hide sensitive patterns in the form of frequent itemsets from the database while controlling the impact of sanitization on the data utility using estimation of impact factor of each modification on non-sensitive itemsets. The proposed algorithm has been compared with Sliding Window size Algorithm (SWA) and Max-Min1 in terms of execution time, data utility and data accuracy. The data accuracy is defined as the ratio of deleted items to the total support values of sensitive itemsets in the source dataset. Experimental results demonstrate that the proposed algorithm outperforms SWA and Max-Min1 in terms of maximizing the data utility and data accuracy and it provides better execution time over SWA and Max-Min1 in high scalability for sensitive itemsets and transactions.
Journal title :
Journal of Artificial Intelligence and Data Mining
Serial Year :
2015
Journal title :
Journal of Artificial Intelligence and Data Mining
Record number :
2387988
Link To Document :
بازگشت