عنوان :
ايجاد پايگاه داده از تصاوير موجود در پايگاه اطلاعات علمي ايران (گنج) بر اساس يك روش هوشمند
شرح پديد آور/مجري (مجريان) طرح :
آزاده فخرزاده
چكيده فارسي :
در اسناد و مقالات علمي، تصاوير، حاوي اطلاعات مهمي هستند و در بسياري از موارد با بررسي آنها به تنهايي ميتوان به ايده اصلي و يا نتايج مهم مقاله علمي پيبرد، بدون اينكه لازم باشد كل سند را مطالعه كرد. به همين دليل بسياري از موتورهاي جستجوگر مستندات علمي به دنبال فراهم كردن امكان بازيابي اطلاعات از تصاوير در پايگاه اطلاعاتي خود هستند، به طوري كه كاربر با وارد كردن يك جستجو، علاوه بر متن مقالات بتواند به تصاويري هم كه به آن جستجو مربوط ميشود، دسترسي پيدا كند. هم اكنون در پايگاه اطلاعاتي گنج، كه حاوي حجم زيادي از مستندات علمي و پاياننامهها و رسالههاي فارسي كشور است، امكان جستجو بر اساس يك عبارت متني پرسوجو و بازيابي و نمايش نتايج جستجو در قالب فرادادههاي متني (عنوان، چكيده، پديدآور، سال انتشار،) وجود دارد. ليكن در حال حاضر اطلاعات از تصاوير موجود در اسناد گنج بازيابي نميشود. قدم اول براي بازيابي اطلاعات از تصاوير ايجاد پايگاه داده تصاوير از اسناد است. در اين طرح سيستمي خودكار براي ايجاد پايگاه داده از تصاوير موجود در مدارك علمي فارسي در مقياس بزرگ ارائه ميشود. سيستم پيشنهادي بخشهاي مختلفي دارد. در مرحله اول بايد تصاوير و توضيح متني آنها استخراج گردد. به طور كلي دو رويكرد براي استخراج تصاوير و توضيح متني آنها از فايل وجود دارد. در رويكرد اول فايل به تصوير تبديل ميشود و از تكنيكهاي پردازش تصوير براي استخراج اطلاعات گرافيكي استفاده ميشود. رويكرد دوم بر اساس پردازش ساختار و آرايش خود فايل است. از آنجايي كه روش دوم از لحاظ سرعت و قابليت مقياسپذيري براي استفاده در موتورهاي جستجو مناسبتر است، تمركز اين طرح بر روي روش دوم است. بر اين اساس براي استخراج تصاوير و توضيح متني آنها يك روش ساختار محور معرفي ميشود كه مبتني بر چيدمان و آرايش فايل ورد سند است.بدين ترتيب مجموعهاي از تصاوير به همراه توضيحات و اطلاعات مربوط به آنها به دست ميآيد كه بايد در يك پايگاه داده تصاوير با ساختاري مشخص ذخيره گردند. سپس اين اطلاعات براي بازيابي و استفادههاي آتي در يك موتور جستجو نمايه خواهند شد. در ادامه، روش پيشنهادي در يك مطالعه موردي در پايگاه اطلاعات علمي ايران (گنج) به كار گرفته شد. روش پيشنهادي كه با پردازش ساختار و آرايش فايل ورد تصاوير و زيرنويس آنها را استخراج ميكند در زبان برنامهنويسي پايتون پيادهسازي شد. استخراج تصاوير از فايل پي.دي.اف هم پيادهسازي و بررسي شد. تعداد 150 سند علمي به تصادف از پايگاه گنج انتخاب شده و هر دو فايل پي دي اف و ورد آنها مورد تجزيه و تحليل قرار گرفت. استخراج اطلاعات متني از فايل پي.دي.اف در زبان فارسي با چالشهاي زيادي روبهرو است و نميتواند خروجي مناسبي در اين زمينه حاصل كند. از طرف ديگر ميزان تصاوير نويز توليد شده از فايل پي.دي.اف بسيار زياد است كه از كاربستپذ
كليدواژه :
استخراج تصوير , ناحيهبندي تصوير , استخراج زيرنويس , استخراج فراداده , فناوري اطلاعات
اطلاعات نشر :
تهران پژوهشگاه علوم و فناوري اطلاعات ايران(ايرانداك)
مشخصات ظاهري :
120ص.،جدول، عكس، نمودار.
همكار (همكاران) طرح :
مجتبي، زالي