عنوان مقاله :
خوشه يابي تصوير زير كلمات در متون قديمي و حجيم چاپي با استفاده از معيار مقايسه تصويري
پديد آورندگان :
سهيلي، محمدرضا دانشگاه تربيت مدرس - دانشكده مهندسي برق و كامپيوتر - گروه مهندسي الكترونيك , كبير، احسان اله دانشگاه تربيت مدرس - دانشكده مهندسي برق و كامپيوتر - گروه مهندسي الكترونيك
كليدواژه :
تحليل اسناد تصويري , بازشناسي متون حجيم , خوشهيابي افزايشي , جداسازي , مجموعه داده
چكيده فارسي :
حجم زياد تصاوير متني روز به روز مسئله ديجيتالي شدن متن تصاوير و همچنين مسئله جستجو در اين منابع را اهميت ميبخشد. در بازشناسي متنهاي حجيم ميتوان از ويژگيهايي مانند محدود بودن تعداد و اندازه قلم، يكسان بودن صفحهآرايي در كل صفحهها، محدود بودن مجموعه واژهها و حوزه معنايي آنها و يكسان بودن سبك نگارشي در كل متن استفاده كرد. در اين مقاله الگوريتمي ارائه شده كه از يكسان بودن نوع و اندازه قلم براي خوشه يابي زيركلمات يك كتاب قديمي با كيفيت پايين چاپ استفاده شده است. اين كتاب 233 صفحه دارد و كل زير كلمات آن كه در حدود 111000 زيركلمه است جداسازي و برچسبزني شده است. در اين تحقيق از يك روش ساده افزايشي براي خوشه يابي زيركلمات استفاده شده است. ابتدا براي هر زيركلمه چهار ويژگي ساده استخراج ميشود، در صورتي كه تفاوت اين ويژگيها از ويژگيهاي نماينده يك خوشه كمتر از مقدار آستانه باشد، مقايسه تصويري بين آن دو انجام ميشود. به علت زياد بودن تعداد زير كلمات سعي شده تا از سادهترين روشهاي ممكن استفاده شود تا سرعت اجرا افزايش يابد. نتايج آزمايشها نشان ميدهد ميتوان زيركلمات را با دقتي در حدود 99/7 درصد خوشه يابي كرد. نتايج اين خوشه يابي در مرحله بازشناسي زيركلمات كمك بسيار زيادي خواهد كرد.
عنوان نشريه :
مهندسي برق و مهندسي كامپيوتر ايران
عنوان نشريه :
مهندسي برق و مهندسي كامپيوتر ايران