شماره ركورد كنفرانس
4847
عنوان مقاله
طراحي خزشگر موضوعي با تمركز بر ذخيرهسازي داده سايتهاي خبري براي پيشبيني بازار سهام
پديدآورندگان
دايي امير amir.d@skillpro.ir دانشگاه خوارزمي , عبادتي اميد مهدي ebadati@khu.ac.ir دانشگاه خوارزمي , برنا كيوان borna@khu.ac.ir دانشگاه خوارزمي
تعداد صفحه
7
كليدواژه
متنكاوي , كاوش محتواي وب , خزشگر وب , خزشگر موضوعي , خزش اخبار , پيشبيني بازار , پيشبيني بورس اوراق بهادار
سال انتشار
1397
عنوان كنفرانس
چهارمين كنفرانس ملي موضوعات نوين در علوم كامپيوتر و اطلاعات
زبان مدرك
فارسي
چكيده فارسي
توليد دادهها در محيط وب روز به روز در حال افزايش است. پياچپي كراولر يك خزشگر موضوعي به زبان پياچپي با بهكارگيري پكيجهاي دام كراولر و گازل براي ذخيرهسازي دادهها در سطح وب است. اين ابزار به خزش صفحات وب ميپردازد و محتواي مورد نظر را از صفحات استخراج و ذخيره ميكند، و آنها را در دستههاي تعريفشده قرار ميدهد، سپس از اين دادهها ميتوان در تحقيقات متنكاوي يا دادهكاوي استفاده كرد. اين دادهها ميتواند محتواي متني يا اعداد و ارقام يك سايت باشد. اخبار نقش مهمي در فرايند ارزيابي قيمت فعلي سهام دارد. از اين رو در فاز اول تمركز اين خزشگر بر ذخيرهسازي اخبار است. مهمترين ويژگي اين ابزار بررسي خودكار صفحات معرفيشده براي استخراج آخرين لينكهاي اضافهشده، استخراج لينكهاي مورد نظر، اضافه كردن دستهها به صورت گروهي از صفحات وب و دستهبندي اخبار بر اساس بخشهاي صفحات وب است. اين سيستم تا حدود زيادي محدوديت سرعت ندارد و ميتواند هزاران صفحه را در يك دقيقه ذخيره كند، با اين حال سختافزار و اينترنت مورد استفاده و همچنين سرعت پاسخگويي سرورهايي كه آز آنها داده استخراج ميشود، ميتوان بر روي سرعت سيستم تأثيرگذار باشد. از اخبار ذخيرهشده اين سيستم ميتوان براي پيشبيني بازارهاي مختلف از جمله بورس اوراق بهادر استفاده كرد.
كشور
ايران
لينک به اين مدرک