شماره ركورد كنفرانس :
4658
عنوان مقاله :
بررسي و پياده‌سازي الگوريتمي موازي براي استخراج الگو‌هاي تكراري محدود با استفاده از مدل برنامه‌نويسي نگاشت‌كاهش
عنوان به زبان ديگر :
Analyzing and implementing a parallel algorithm for mining limited repetitive patterns using MapReduce model
پديدآورندگان :
نظري سجاد sanazari@ihu.ac.ir دانشگاه جامع امام حسين(ع); , غضنفرپور مجيد mghazanfarpoor@ihu.ac.ir دانشگاه جامع امام حسين(ع); , حسني‌آهنگر محمدرضا mghazanfarpoor@ihu.ac.ir دانشگاه جامع امام حسين(ع);
تعداد صفحه :
11
كليدواژه :
قوانين انجمني , مدل برنامه‌نويسي نگاشت‌كاهش , الگوهاي مكرر , FP-Growth
سال انتشار :
1396
عنوان كنفرانس :
دومين كنفرانس بين المللي پژوهش هاي دانش بنيان در كامپيوتر و فن آوري اطلاعات
زبان مدرك :
فارسي
چكيده فارسي :
امروزه حجم بسيار بالايي از اطلاعات، در مخازن داده ذخيره مي‌شود كه ممكن است لحظه به لحظه بر اين حجم افزوده شود. از طرفي سازمان‌ها به دنبال استخراج دانش از داده‌هاي جمع‌آوري شده هستند. يكي از راه‌هاي استخراج دانش ازداده‌ها، داده‌كاوي است. تكنيك داده‌كاوي توزيع شده، يكي از شاخه‌هاي علمي جديد و روبه توسعه با قابليت و كارايي زياد است كه بر اساس نياز كاوش در منابع توزيع شده و غير متمركز داده‌اي به وجود آمده‌ است. يكي از روش‌هاي داده‌كاوي، استخراج مجموعه‌ آيتم‌هاي مكرر يا توليد قوانين انجمني است. در اين مقاله به مطالعه نحوه پياده‌سازي الگوريتمFP-growth به صورت موازي و در محيط توزيع شده با استفاده از مدل برنامه‌نويسي نگاشت‌كاهش مي‌پردازيم. سپس اين الگوريتم را به منظور استخراج موازي الگوهاي تكراري تحت سه سناريو مختلف مورد آزمون قرار داديم. نتايج تجربي از اين آزمون، كارايي الگوريتم براي مجموعه داده‌ها در زمينه دسترس‌پذيري، مقياس‌پذيري و توسعه‌پذيري تحت مدل برنامه‌نويسي نگاشت‌كاهش را نشان داد. در مورد معيار دسترس‌پذيري نشان داديم كه افزايش حداقل آستانه تكرار، موجب كاهش چشمگير زمان اجراي الگوريتم با مجموعه داده ثابت 500 مگابايت مي‌شود. همچنين صحت قابليت مقياس‌پذيري الگوريتمFP-growth، تحت آزمايش با حجم مجموعه داده مختلف، تاييد شد. از طرفي تغيير گره‌ها از دو به پنج و سپس هشت گره، موجب كاهش زمان اجراي الگوريتمFP-growth با مجموعه داده ثابت 500 مگابايت و تحت حد آستانه تكرار مختلف شد كه نشان از توسعه‌پذير بودن الگوريتم است.
چكيده لاتين :
Today, a large volume of information stored in data repositories that these volumes are constantly increasing.On the other hand, organizations are seeking to extract knowledge from collected data.One of the methods for extracting knowledge from data is data mining.Distributed data mining technology is one of the new and evolving science cases with great functionality and performance due to the need to explore distributive and decentralized data sources.One of the methods of data mining is to extract a collection of frequent items or generate association rules.In this article, we study the implementation of the FP-growth algorithm in parallel and in a distributed environment using MapReduce programming model.Then, we tested this algorithm for parallel extraction of frequent patterns under three different scenarios.The experimental results of this test showed the efficiency of the algorithm for the data set in terms of accessibility, scalability and development under a MapReduce programming model.In the case of accessibility benchmarking, the increase in the minimum threshold of frequency significantly reduced the execution time of the algorithm with a fixed data set of 500 MB.Also, the accuracy of the scalability of the FP-growth algorithm was verified by experiment with different datasets. On the other hand, nodal transformation from two nodes to five nodes and then eight nodes reduced the execution time of the FP-growth algorithm with a fixed 500 MB data set under different frequency thresholds, indicating that the algorithm is expandable.
كشور :
ايران
لينک به اين مدرک :
بازگشت