عنوان مقاله :
بررسي نقش انواع بافتار هم نويسه ها در تعيين شباهت بين مدارك
عنوان به زبان ديگر :
The Role of Different Types of Homograph Contexts in Measuring Documents Similarities
پديد آورندگان :
ستوده، هاجر دانشگاه شيراز , هوشيار، مژگان دانشگاه شيراز
كليدواژه :
هم نويسه , شباهت معنايي , بافتار عنوان , بافتار عنوان ارجاع , بافتار استنادي متني , بافتار متن , تحليل تشخيصي
چكيده فارسي :
رفع ابهام معنايي واژگان در بازيابي خودكار اطلاعات از چالش هاي بزرگ اين حوزه است. متن در خود عناصري محتوايي يا ساختاري دارد كه با شناسايي و تحليل آن ها و استخراج الگوهاي متفاوت مي توان به رفع ابهام معنايي و در نتيجه، افزايش اثربخشي نتايج بازيابي دست يافت. هم نويسه ها از جمله واژگاني هستند كه به رفع ابهام معنايي نياز دارند. نشان داده شده است كه بافتار هم نويسه مي تواند به بهبود بازيابي آن كمك كند. بافتار هم نويسه خود مي تواند بسته به نقش و جايگاه آن در متن به انواعي تقسيم شود كه ممكن است هر يك در تعيين شباهت بين مدارك از قدرت متفاوتي برخوردار باشد. هدف اصلي از اين پژوهش، مقايسه پنج نوع بافتار متني (شامل بافتار استناد متني، ارجاع، عنوان ارجاع، عنوان و متن مقاله) به لحاظ قدرت آن ها در تعيين شباهت ميان مدارك است. به كمك روش تحليل متن، مجموعه اي آزمايشي از مدارك پيرامون هم نويسه هاي انگليسي مشتمل بر 3637 مقاله منتشرشده در بازه زماني 2000-2015 پيرامون 19 هم نويسه در 54 گروه موضوعي مورد بررسي قرار گرفت. براي تعيين شباهت درون خوشه ها از روش آماري تحليل تشخيصي استفاده شده است. نتايج تحليل تشخيصي نشان داد كه در درون خوشه هاي معنايي، زيرخوشه هايي با تمايز بسيار اندك قابل مشاهده است. دو بافتار استناد متني و ارجاع كمترين نقش را در ايجاد تمايز و در نتيجه، بيشترين شباهت را در درون خوشه ها داشته اند. نتايج به دست آمده نشان داد كه هم معنا بودن هم نويسه ها به ايجاد خوشه هايي از مدارك منجر مي شود كه در درون آن ها مدارك با هم به لحاظ انواع بافتار هم نويسه اي تفاوت چنداني با هم ندارند. همچنين،انواع بافتار از قدرت برابري در تعيين تشابه بين مدارك برخوردار نيستند. دو بافتار استناد متني و ارجاع در تعيين شباهت معنايي در درون خوشه هاي معنايي بيشترين قوت را داشته اند. از اين دو نوع بافتار كه قوت بيشتري در ايجاد شباهت داشته اند، مي توان براي بهبود نتايج بازيابي كمك گرفت. الگوريتم هاي بازيابي در موتورهاي جست وجو و پايگاه هاي اطلاعاتي مي توانند براي سنجش دقيق تر شباهت بين مدارك حاوي هم نويسه ها از تحليل اين دو نوع بافتار استفاده كنند. اثر حاضر نخستين پژوهشي است كه به تعريف انواع گوناگوني از بافتارهاي متني و مقايسه آن ها به منظور تعيين قدرت آن ها در سنجش شباهت مدارك حاوي هم نويسه هاي هم معنا مي پردازد.
چكيده لاتين :
Automatic information retrieval is based on the assumption
that texts contain content or structural elements that can be used in
word sense disambiguation and thereby improving the effectiveness of
the results retrieved. Homographs are among the words requiring sense
disambiguation. Depending on their roles and positions in texts, homograph
contexts could be divided to different types, with probably different potency
in determination of similarity of documents. Using a content analysis
method, the present research aims to compare the powers of five kinds
of contexts including text citations, references, reference titles, paper titles
and texts in homograph sense disambiguation.
Applying a content analysis method, the present paper concentrates on
a document test collection built on English homographs by choosing a
sample consisted of 3637 articles containing 19 homographs about 54
subjects published during 2000-2015. Discriminant analysis was used to
determine the similarity within or differentiation between the 54 document
clusters.
According to the results of the discriminant analyses carried out within
each of the clusters, sub-clusters of documents can be observed, though
with a very little differentiation in terms of the homograph contexts. Textcitation
and reference contexts are revealed to have minimum role in
differentiating between the documents within the clusters.
Documents containing synonymous homographs form clusters within
which documents are rather similar in terms of their homograph contexts.
Furthermore, homograph context types are not equal in their power to
determine similarities. Text-citation context and reference context types
showed the highest degree of similarities within the clusters. These two
context types, which show high similarity within clusters, can be used to
improve retrieval results. It is suggested that the results of the comparison of these two contexts can be used as a tool for secondary ranking or clustering of information
retrieval results.
This is the first research of its kind to define different text contexts and compare them in terms
of their power to determine similarity of texts containing synonymous homographs.
عنوان نشريه :
پژوهش نامه پردازش و مديريت اطلاعات
عنوان نشريه :
پژوهش نامه پردازش و مديريت اطلاعات