شماره ركورد :
1122901
عنوان مقاله :
بهبود هزينه محاسباتي در سامانه‌هاي استخراج آزاد اطلاعات با استفاده از مدل لاگ لينير
عنوان به زبان ديگر :
A New Method for Improving Computational Cost of Open Information Extraction Systems Using Log-Linear Model
پديد آورندگان :
رشادت، وحيده دانشگاه تبريز - دانشكده فني مهندسي ميانه , حورعلي، مريم دانشگاه صنعتي مالك اشتر، تهران - مجتمع دانشگاهي برق و كامپيوتر , فيلي، هاشم دانشگاه تهران - دانشكده مهندسي برق و كامپيوتر - پرديس دانشكده هاي فني
تعداد صفحه :
18
از صفحه :
3
تا صفحه :
20
كليدواژه :
پردازش زبان طبيعي , استخراج اطلاعات , استخراج آزاد اطلاعات , استخراج رابطه
چكيده فارسي :
استخراج اطلاعات شامل توسعه الگوريتم‌­هايي است كه به‌صورت خودكار متن غيرساخت‌­يافته را پردازش و پايگاه داده‌­اي از موجوديت­‌ها، روابط و وقايع را توليد مي­‌كنند. يكي از مشكلات اساسي استخراج اطلاعات، هزينه بالاي محاسباتي اين روش‌­ها است. اين موضوع در دامنه‌هايي با مقياس بزرگ نظير وب اهميت زيادي دارد. در سال­‌هاي اخير رو‌ش‌­هاي استخراج آزاد اطلاعات زيادي پيشنهاد شده است. اين روش‌­ها محدوده وسيعي را از ابزارهاي پردازش زبان طبيعي را اعم از سطحي (نظير برچسب‌­زن اجزاي كلام) تا عميق (نظير برچسب‌زن نقش معنايي) در برمي‌­گيرند. در اين مقاله روشي بهينه­ براي استخراج آزاد اطلاعات نشان داده شده كه بر پايه تركيب مزاياي استخراج‌­گرهاي سطحي و عميق و اجتناب از معايب آنها بنا شده است. استخراج‌گر كه هسته اصلي روش پيشنهادي است، با استفاده از پارامترهاي مؤثر، زيرمجموعه‌­اي را با كارايي بالا با استفاده از يك روش بهينه به كمك مدل لاگ لينير به‌وجود مي­‌آورد كه قابل اجرا در مقياس وب است. اين روش با بررسي جمله ورودي و انتساب آن به مناسب­‌ترين استخراج­‌گر باعث استفاده بهينه از زمان و در‌نتيجه، كاهش هزينه محاسباتي شده و علاوه‌بر‌اين به‌دقت قابل قبولي نيز دست مي­‌يابد.
چكيده لاتين :
Information extraction (IE) is a process of automatically providing a structured representation from an unstructured or semi-structured text. It is a long-standing challenge in natural language processing (NLP) which has been intensified by the increased volume of information and heterogeneity, and non-structured form of it. One of the core information extraction tasks is relation extraction which aims at extracting semantic relations among entities from natural language text. Traditional relation extraction techniques were relation-specific, producing new instances of relations determined a priori. While effective, this model is not applicable in cases where the relations are not defined a priori or when the number of relations is high. Open Relation Extraction (ORE) methods were developed to elicit instances of arbitrary relations while requiring fewer training examples. Since ORE systems are employed by the applications depended on large-scale relation extraction, high performance and low computational cost are major requirements for ORE methods. This is particularly important in the large scales such as the Web. Many OIE systems have been proposed in recent years. These approaches range from shallow (such as part-of-speech tagging) to deep (such as semantic role labeling), therefore they differ in their performance level and computational cost. In this paper, we use the state-of-the-art shallow NLP tools to extract instances of relations. A supervised log-linear model for OIE is presented which is based on using advantages of shallow NLP tools, as they are fast and lead to a low computational time. Extractor which is the main core of proposed approach integrates a high performance subset of the shallow NLP tools with the strength of the deep NLP tools by using a supervised log linear model and produces a high performance method that is scalable. This causes efficient use of time and therefore reduces computational cost and increases precision. Proposed approach achieves higher precision and recall than ReVerb, one of the most successful shallow OIE system.
سال انتشار :
1398
عنوان نشريه :
پردازش علائم و داده ها
فايل PDF :
7755285
لينک به اين مدرک :
بازگشت