عنوان مقاله :
توليد خودكار متن فارسي با استفاده مدلهاي مبتني بر قاعده و تعبيه واژگان
عنوان به زبان ديگر :
Automatic Persian Text Generation Using Rule-Based Models and Word Embedding
پديد آورندگان :
حاجي پور، اميد دانشگاه صنعتي اميركبير , سديدپور، سعيده سادات دانشگاه صنعتي مالك اشتر
كليدواژه :
توليد زبان طبيعي , توليد خودكار متن , مدل زباني , روش مبتني بر قاعده , تعبيه كلمات
چكيده فارسي :
توليد زبان طبيعي از پردازش زبان طبيعي حاصل مي شود. زبان طبيعي از يك سيستم ارائه ماشيني مانند پايگاه دانش توليد مي شود. سيستم هاي NLG از مدتها پيش وجود داشته اما فنّاوري آن به صورت ابزار تجاري اخيراً بهصورت گسترده به وجود آمده است. در NLG، سيستم نياز به تصميم گيري در مورد چگونگي قرار دادن يك مفهوم در كلمات دارد. توانايي ايجاد متن معنيدار نقش كليدي در بسياري از كاربردهاي پردازش زبان طبيعي مانند ترجمه ماشين، گفتار و تبديل عكس به متن دارد. هدف اين پروژه ارائه روشي براي توليد متن با استفاده از روشهاي هوش مصنوعي و با ساختار درست و آغازي براي توليد متن فارسي است. به عبارت ديگر در اين مقاله روشي ارائه شده كه قادر به توليد متن طولاني متنوع علاوه بر حفظ معنا و ساختار در زبان فارسي مي باشد. جهت پيشبرد توليد متن سعي شده از تركيب روش هاي يادگيري ماشين با مدل هاي احتمالاتي، استفاده شود. در مدل پيشنهادي از مدل هاي احتمالاتي براي استخراج قوانين و از Word2vec براي برداريسازي متن استفاده شده و سپس در فاز توليد از تركيب اين دو و فاصله كسينوسي استفاده مي شود. نتايج نشاندهنده ارائه مدلي بوده كه متن توليدي آن داراي ساختار، مفهوم و تنوع مناسب ميباشد. همچنين اين مدل از نظر انساني و پيچيدگي نيز بهينه ميباشد.
چكيده لاتين :
Natural language generation systems are the subset of natural language processing, have been around for a long time, but their technology as a commercial tool has recently become widespread. In natural language generation, the system needs to decide about how to put a concept among words. The ability for generating a meaningful text plays a key role in many natural language processing applications. The aim of this paper is to propose a method for generating text using artificial intelligence methods with the correct structure, a starting point for generating Persian(Farsi) texts. In order to promote the text generation, it has been attempted to use the combination of machine learning methods and probabilistic models. In the proposed model, the probabilistic models and Word2vec, as a word embedding method, are used to extract the rules and to vectorize the text, respectively. Then, combinating these and the cosine distance are used in the generation phase. The results indicate the performance of proposed model and the generated text has the appropriate structure, concept and variety. Also, the model is optimal in terms of humanity and complexity rather than other methods.
عنوان نشريه :
پدافند الكترونيكي و سايبري