شماره ركورد :
1001409
عنوان مقاله :
خوشه‌ يابي تصوير زير كلمات در متون قديمي و حجيم چاپي با استفاده از معيار مقايسه تصويري
پديد آورندگان :
سهيلي، محمدرضا دانشگاه تربيت مدرس - دانشكده مهندسي برق و كامپيوتر - گروه مهندسي الكترونيك , كبير، احسان اله دانشگاه تربيت مدرس - دانشكده مهندسي برق و كامپيوتر - گروه مهندسي الكترونيك
تعداد صفحه :
9
از صفحه :
85
تا صفحه :
93
كليدواژه :
تحليل اسناد تصويري , بازشناسي متون حجيم , خوشه‌يابي افزايشي , جداسازي , مجموعه داده
چكيده فارسي :
حجم زياد تصاوير متني روز به روز مسئله ديجيتالي‌ شدن متن تصاوير و همچنين مسئله جستجو در اين منابع را اهميت مي‌بخشد. در بازشناسي متن‌هاي حجيم مي‌توان از ويژگي‌هايي مانند محدود بودن تعداد و اندازه قلم، يكسان‌ بودن صفحه‌آرايي در كل صفحه‌ها، محدود بودن مجموعه واژه‌ها و حوزه معنايي آنها و يكسان‌ بودن سبك نگارشي در كل متن استفاده كرد. در اين مقاله الگوريتمي ارائه شده كه از يكسان‌ بودن نوع و اندازه قلم براي خوشه‌ يابي زيركلمات يك كتاب قديمي با كيفيت پايين چاپ استفاده شده است. اين كتاب 233 صفحه دارد و كل زير كلمات آن كه در حدود 111000 زيركلمه است جداسازي و برچسب‌زني شده است. در اين تحقيق از يك روش ساده افزايشي براي خوشه‌ يابي زيركلمات استفاده شده است. ابتدا براي هر زيركلمه چهار ويژگي ساده استخراج مي‌شود، در صورتي كه تفاوت اين ويژگي‌ها از ويژگي‌هاي نماينده يك خوشه كمتر از مقدار آستانه باشد، مقايسه تصويري بين آن دو انجام مي‌شود. به علت زياد بودن تعداد زير كلمات سعي شده تا از ساده‌ترين روش‌هاي ممكن استفاده شود تا سرعت اجرا افزايش يابد. نتايج آزمايش‌ها نشان مي‌دهد مي‌توان زيركلمات را با دقتي در حدود 99/7 درصد خوشه‌ يابي كرد. نتايج اين خوشه‌ يابي در مرحله بازشناسي زيركلمات كمك بسيار زيادي خواهد كرد.
سال انتشار :
1392
عنوان نشريه :
مهندسي برق و مهندسي كامپيوتر ايران
فايل PDF :
7430549
عنوان نشريه :
مهندسي برق و مهندسي كامپيوتر ايران
لينک به اين مدرک :
بازگشت