عنوان مقاله :
ارائة مدل دسته بندي موضوعي توليدات علمي حوزة سلامت با استفاده از روش هاي متن كاوي
عنوان به زبان ديگر :
Presenting a Topic Classification Model of Health Scientific Productions Using Text-Mining Methods
پديد آورندگان :
شكوهيان، محبوبه دانشگاه اصفهان - گروه علم اطلاعات و دانش شناسي , عاصمي، عاصفه دانشگاه اصفهان - گروه علم اطلاعات و دانش شناسي , شعباني، احمد دانشگاه اصفهان - گروه علم اطلاعات و دانش شناسي , چشمه سهرابي، مظفر دانشگاه اصفهان - گروه علم اطلاعات و دانش شناسي
كليدواژه :
توليدات علمي , دسته بندي متون , سلامت , متن كاوي , مدل تخصيص پنهان ديريكله , مدل موضوعي , ماشين بردار پشتيبان , يادگيري ماشيني
چكيده فارسي :
با گسترش اينترنت و رشد سريع و روزافزون مقالات الكترونيكي، دسته بندي متون به يكي از ابزارهاي كليدي و مهم براي سازماندهي و مديريت داده تبديلشده است. در دسته بندي متون، يك مجموعه دانش اوليه در اختيار سامانه قرار ميگيرد تا با يادگيري از اين مجموعه، اسناد جديد ورودي به يكي از گروههاي موضوعي، ملحق گردد. در متون سلامت به علت تنوع زياد موضوعات، آماده كردن چنين مجموعه آموزش اوليه عملي بسيار زمان بر و هزينه بر است. هدف از مقاله ارائه مدلي تركيبي از يادگيري (با نظارت و بدون نظارت) براي دسته بندي موضوعي توليدات علمي حوزه سلامت است كه بدون نياز به مجموعه برچسب خورده اوليه عمل دسته بندي را انجام دهد. براي استخراج مدل موضوعي متون توليدات علمي سلامت طي سالهاي 2009 تا 2019 در پايگاه پابمد، با استفاده از روش آميخته داده كاوي، شامل متنكاوي و يادگيري ماشيني انجام گرفت. بر اساس مدل موضوعي تخصيص پنهان ديريكله، دادها تحليل و سپس براي دسته بندي متون، از مدل ماشين بردار پشتيبان استفاده شد. در يافتههاي اين پژوهش، مدل دسته بندي متون سلامت در سهگام اصلي معرفي شد. در گام اول پيش پردازشهاي لازم بر روي مجموعه داده به دليل حذف كلمات كم تكرار و غيرضروري از مجموعه داده و افزايش دقت مدل پيشنهادي انجام گرفت. در گام دوم موضوعات موجود در متون به كمك روش احتمالاتي تخصيص پنهان ديريكله استخراج و به عنوان يك مجموعه آموزش اوليه در گام سوم به الگوريتم دسته بندي ماشين بردار پشتيبان داده و عمل يادگيري دستهبند به كمك اين موضوعات انجام گرفت. در نهايت به كمك دسته بند، موضوع هر سند مشخص گرديد. نتايج نشان داد كه مدل پيشنهادي ميتواند، يك دسته بندي بهتر با استفاده از تركيب كردن خواص بدون نظارت خوشه بندي و دانش پيشين نمونهها بسازد. انجام دادن خوشه بندي روي نمونههاي بر چسب دار با يك معيار شباهت مشخص، متنهاي مرتبط را باهم ادغام و يك دانش پيشين ايجاد كرده، سپس الگوريتم يادگيري، دسته بندي را با روشي نظارتي آموزش ميدهد. تركيب دسته بندي و خوشه بندي ميتواند دقت دسته بندي متون سلامت را افزايش دهد.
چكيده لاتين :
With the proliferation of the Internet and the rapid growth of electronic articles, text classification has become one of the key and important tools for data organization and management. In text
classification a set of basic knowledge is provided to the system by
learning. Then, new input documents enter to one of the subject groups.
In health literature due to wide variety of topics, preparing such a set of
early education is a very time consuming and costly task. The purpose
of this article is to present a hybrid model of learning (supervised and
unsupervised) for the subject classification of health scientific products
that performs the classification operation without the need for an initial
labeled set. To extract the thematic model of health science texts
from 2009 to 2019 at PubMed database, data mining and text mining
were performed using machine learning. Based on Latent Dirichlet
Allocation model, the data were analyzed and then the Support Vector
Machine was used to classify the texts. In the findings of this study,
the model was introduced in three main steps. In data preprocessing,
the unnecessary words were eliminated from the data set and the
accuracy of the proposed model increased. In the second step, the
themes in the texts were extracted using the Latent Dirichlet Allocation
method, and as a basic training set in step 3, the data were backed up by the Support Vector Machine algorithm and the classifier learning was performed with the
help of these topics. Finally, with the help of the classification, the subject of each document
was identified. The results showed that the proposed model can build a better classification
by combining unsupervised clustering properties and prior knowledge of the samples.
Clustering on labeled samples with a specific similarity criterion merges related texts with
prior knowledge, and the learning algorithm teaches classification by supervisory method.
Combining classification and clustering can increase the accuracy of classification of health
texts.
عنوان نشريه :
پژوهش نامه پردازش و مديريت اطلاعات