شماره ركورد كنفرانس :
4658
عنوان مقاله :
بررسي و پيادهسازي الگوريتمي موازي براي استخراج الگوهاي تكراري محدود با استفاده از مدل برنامهنويسي نگاشتكاهش
عنوان به زبان ديگر :
Analyzing and implementing a parallel algorithm for mining limited repetitive patterns using MapReduce model
پديدآورندگان :
نظري سجاد sanazari@ihu.ac.ir دانشگاه جامع امام حسين(ع); , غضنفرپور مجيد mghazanfarpoor@ihu.ac.ir دانشگاه جامع امام حسين(ع); , حسنيآهنگر محمدرضا mghazanfarpoor@ihu.ac.ir دانشگاه جامع امام حسين(ع);
كليدواژه :
قوانين انجمني , مدل برنامهنويسي نگاشتكاهش , الگوهاي مكرر , FP-Growth
عنوان كنفرانس :
دومين كنفرانس بين المللي پژوهش هاي دانش بنيان در كامپيوتر و فن آوري اطلاعات
چكيده فارسي :
امروزه حجم بسيار بالايي از اطلاعات، در مخازن داده ذخيره ميشود كه ممكن است لحظه به لحظه بر اين حجم افزوده شود. از طرفي سازمانها به دنبال استخراج دانش از دادههاي جمعآوري شده هستند. يكي از راههاي استخراج دانش ازدادهها، دادهكاوي است. تكنيك دادهكاوي توزيع شده، يكي از شاخههاي علمي جديد و روبه توسعه با قابليت و كارايي زياد است كه بر اساس نياز كاوش در منابع توزيع شده و غير متمركز دادهاي به وجود آمده است. يكي از روشهاي دادهكاوي، استخراج مجموعه آيتمهاي مكرر يا توليد قوانين انجمني است. در اين مقاله به مطالعه نحوه پيادهسازي الگوريتمFP-growth به صورت موازي و در محيط توزيع شده با استفاده از مدل برنامهنويسي نگاشتكاهش ميپردازيم. سپس اين الگوريتم را به منظور استخراج موازي الگوهاي تكراري تحت سه سناريو مختلف مورد آزمون قرار داديم. نتايج تجربي از اين آزمون، كارايي الگوريتم براي مجموعه دادهها در زمينه دسترسپذيري، مقياسپذيري و توسعهپذيري تحت مدل برنامهنويسي نگاشتكاهش را نشان داد. در مورد معيار دسترسپذيري نشان داديم كه افزايش حداقل آستانه تكرار، موجب كاهش چشمگير زمان اجراي الگوريتم با مجموعه داده ثابت 500 مگابايت ميشود. همچنين صحت قابليت مقياسپذيري الگوريتمFP-growth، تحت آزمايش با حجم مجموعه داده مختلف، تاييد شد. از طرفي تغيير گرهها از دو به پنج و سپس هشت گره، موجب كاهش زمان اجراي الگوريتمFP-growth با مجموعه داده ثابت 500 مگابايت و تحت حد آستانه تكرار مختلف شد كه نشان از توسعهپذير بودن الگوريتم است.
چكيده لاتين :
Today, a large volume of information stored in data repositories that these volumes are constantly increasing.On the other hand, organizations are seeking to extract knowledge from collected data.One of the methods for extracting knowledge from data is data mining.Distributed data mining technology is one of the new and evolving science cases with great functionality and performance due to the need to explore distributive and decentralized data sources.One of the methods of data mining is to extract a collection of frequent items or generate association rules.In this article, we study the implementation of the FP-growth algorithm in parallel and in a distributed environment using MapReduce programming model.Then, we tested this algorithm for parallel extraction of frequent patterns under three different scenarios.The experimental results of this test showed the efficiency of the algorithm for the data set in terms of accessibility, scalability and development under a MapReduce programming model.In the case of accessibility benchmarking, the increase in the minimum threshold of frequency significantly reduced the execution time of the algorithm with a fixed data set of 500 MB.Also, the accuracy of the scalability of the FP-growth algorithm was verified by experiment with different datasets. On the other hand, nodal transformation from two nodes to five nodes and then eight nodes reduced the execution time of the FP-growth algorithm with a fixed 500 MB data set under different frequency thresholds, indicating that the algorithm is expandable.