مرکز منطقه ای اطلاع رساني علوم و فناوري - ايجاد پايگاه داده از تصاوير موجود در پايگاه اطلاعات علمي ايران (گنج) بر اساس يك روش هوشمند

چكيده فارسي :

در اسناد و مقالات علمي، تصاوير، حاوي اطلاعات مهمي هستند و در بسياري از موارد با بررسي آنها به تنهايي مي‌توان به ايده اصلي و يا نتايج مهم مقاله علمي پي‌برد، بدون اينكه لازم باشد كل سند را مطالعه كرد. به همين دليل بسياري از موتورهاي جستجوگر مستندات علمي به دنبال فراهم كردن امكان بازيابي اطلاعات از تصاوير در پايگاه اطلاعاتي خود هستند، به طوري كه كاربر با وارد كردن يك جستجو، علاوه بر متن مقالات بتواند به تصاويري هم كه به آن جستجو مربوط مي‌شود، دسترسي پيدا كند. هم اكنون در پايگاه اطلاعاتي گنج، كه حاوي حجم زيادي از مستندات علمي و پايان‌نامه‌ها و رساله‌هاي فارسي كشور است، امكان جستجو بر اساس يك عبارت متني پرس‌وجو و بازيابي و نمايش نتايج جستجو در قالب فراداده‌هاي متني (عنوان، چكيده، پديدآور، سال انتشار،) وجود دارد. ليكن در حال حاضر اطلاعات از تصاوير موجود در اسناد گنج بازيابي نمي‌شود. قدم اول براي بازيابي اطلاعات از تصاوير ايجاد پايگاه داده تصاوير از اسناد است. در اين طرح سيستمي خودكار براي ايجاد پايگاه داده از تصاوير موجود در مدارك علمي فارسي در مقياس بزرگ ارائه مي‌شود. سيستم پيشنهادي بخش‌هاي مختلفي دارد. در مرحله اول بايد تصاوير و توضيح متني آن‌ها استخراج گردد. به طور كلي دو رويكرد براي استخراج تصاوير و توضيح متني آن‌ها از فايل وجود دارد. در رويكرد اول فايل به تصوير تبديل مي‌شود و از تكنيك‌هاي پردازش تصوير براي استخراج اطلاعات گرافيكي استفاده مي‌شود. رويكرد دوم بر اساس پردازش ساختار و آرايش خود فايل است. از آنجايي كه روش دوم از لحاظ سرعت و قابليت مقياس‌پذيري براي استفاده در موتورهاي جستجو مناسب‌تر است، تمركز اين طرح بر روي روش دوم است. بر اين اساس براي استخراج تصاوير و توضيح متني آن‌ها يك روش ساختار محور معرفي مي‌شود كه مبتني بر چيدمان و آرايش فايل ورد سند است.بدين ترتيب مجموعه‌اي از تصاوير به همراه توضيحات و اطلاعات مربوط به آن‌ها به دست مي‌آيد كه بايد در يك پايگاه داده تصاوير با ساختاري مشخص ذخيره گردند. سپس اين اطلاعات براي بازيابي و استفاده‌هاي آتي در يك موتور جستجو نمايه خواهند شد. در ادامه، روش پيشنهادي در يك مطالعه موردي در پايگاه اطلاعات علمي ايران (گنج) به كار گرفته شد. روش پيشنهادي كه با پردازش ساختار و آرايش فايل ورد تصاوير و زيرنويس آن‌ها را استخراج مي‌كند در زبان برنامه‌نويسي پايتون پياده‌سازي شد. استخراج تصاوير از فايل پي.دي.اف هم پياده‌سازي و بررسي شد. تعداد 150 سند علمي به تصادف از پايگاه گنج انتخاب شده و هر دو فايل پي دي اف و ورد آن‌ها مورد تجزيه و تحليل قرار گرفت. استخراج اطلاعات متني از فايل پي.دي.اف در زبان فارسي با چالش‌هاي زيادي روبه‌رو است و نمي‌تواند خروجي مناسبي در اين زمينه حاصل كند. از طرف ديگر ميزان تصاوير نويز توليد شده از فايل پي.دي.اف بسيار زياد است كه از كاربست‌پذ