كليدواژه :
گراف دانش , زبان فارسي , چارچوب توصيف منبع , وب معنايي , داده هاي پيوندي
چكيده فارسي :
گراف دانش به عنوان يكي از بسترهاي مهم جهت ورود به عرصه وب معنايي و توسعه ابزارهاي پردازش زبان طبيعي شناخته مي شود. تاكنون پايگاه هاي دانش مختلفي در زبان هاي گوناگون ايجاد شده است، اما فقدان چنين پايگاهي در كاربردهاي پژوهشي و صنعتي كه به زبان فارسي اختصاص داشته باشد، كاملاً مشهود است. در اين مقاله جامع ترين پايگاه دانش زبان فارسي به صورت عمومي و چند دامنه اي مشتمل بر 500 هزار موجوديت و 7 ميليون رابطه ميان آنها با عنوان «فارس بيس» ارائه مي گردد كه به صورت متن باز در دسترس است. منابع اطلاعاتي «فارس بيس» عبارت اند از: اطلاعات ساخت يافته «ويكي پديا» مانند جعبه هاي اطلاعاتي، جداول وب و همچنين اطلاعاتي كه توسط ماژول استخراج گر رابطه از متن خام استخراج شده اند. موجوديت هاي گراف دانش در يك هستان شناسي برگرفته از «دي بي پديا» و سفارشي شده براي «فارس بيس»، سازماندهي شده است. به منظور پيوند جعبه هاي اطلاعاتي «ويكي پديا» به هستان شناسي بيش از 7000 نگاشت ميان الگوها و خصيصه هاي «ويكي پديا» با هستان شناسي برقرار شده است. همچنين، با روش هاي يادگيري ماشين و با نظارت خبرگان، قسمتي از هستان شناسي و تعدادي از موجوديت ها به «فارس نت» متصل شده اند. مدل دادهاي گراف دانش فارسي بر اساس استاندارد وب معنايي و به صورت RDF پياده سازي شده است. بنابراين، داده ها به صورت سه تايي در پايگاه دانش ذخيره شده و ميتوان از طريق زبان SPARQL پرس و جوهاي معنايي را بيان نمود. در حال حاضر، اطلاعات متنوعي به صورت ساختيافته راجع به اشخاص مشهور، مكان هاي مهم، سازمان ها و شركت ها، آثار ادبي و هنري، گونه هاي زيستي شامل گياهان و حيوانات، رويدادها، زيست شناسي و اخترشناسي در اين گراف قابل دسترسي است. به منظور خدمت رساني به موتورهاي جست و جو يك سامانه جست و جو روي موجوديت ها و گزاره هاي آن پياده سازي شده است. «فارس بيس» از چهار جنبه صحت، فراخواني، پوشش، و تازگي اطلاعات مورد ارزيابي قرار گرفته كه نتايج به دست آمده حكايت از غني بودن آن دارد. بستر گراف دانش مي تواند در كاربردهاي بسياري نظير موتورهاي جست و جو، سامانه پرسش و پاسخ، بازيابي اطلاعات، پردازش زبان طبيعي، تشخيص موجوديت، مشابهت يابي متن و هر كاربردي كه نيازمند موجوديت هاي فارسي و ارتباط ميان آنهاست، مورد استفاده قرار گيرد.
چكيده لاتين :
The knowledge graph plays an important role in the Semantic Web and Natural Language Processing (NLP) tools. There are many
knowledge bases in different languages, however lack of Farsi-specific
knowledge base appears some defects in research and industrial
applications. In this study, the most comprehensive knowledge base in
Farsi language is presented, which consists of more than 500K of entities
and 7 million relations, which is accessible in an open source repository.
Data is supplied from four sources: Farsi Wikipedia and its structured
data such as infoboxes, web tables, Wiki tables, and a relation extraction
module. A variety of challenges of triple extraction from web tables,
especially wiki tables, is addressed and some solutions to tackle these
challenges are offered. According to the semantic web, RDF data model
and OWL2 ontology employed to implement the Farsi Knowledge Graph
(FKG). Resources and their relations are stored in triple format, therefor
access to the knowledge graph is provided by a SPARQL endpoint. The
FKG consists of several main parts including triple extraction from raw
text, triple extraction from structured data, knowledge base creation, a
search system on the knowledge base, and an entity linking module. In
this paper, overall architecture of these parts is discussed in detail. One
of the major contribution of this work is mapping of the ontology to the FarsNet, the Persian WordNet, for research purposes. In this graph, there
are a large amount of information on a variety of topics including famous
people, important places, organizations and companies, literary and art
works, physiology, biology, events, species, astronomy, etc. For evaluation
purposes, a small part of triples were randomly collected to build a test
dataset for manually inspection. Experimental results demonstrate that
more than 94% of triples were obtained correctly through the process
of extraction, conversion, mapping, transformation and store. Future of
internet according to the semantic web will be a complex and huge global
knowledge base, therefor the FKG can play a significant role in developing this emerging technology.