عنوان مقاله :
متن كاوي :مفاهيم و روش ها
پديد آورندگان :
جلالي شيجاني ، فاطمه دانشگاه پيام نور مركز تنكابن , شيرزاد ، مجيد دانشگاه پيام نور مركز تهران - گروه علم اطلاعات و دانش شناسي
كليدواژه :
متنكاوي , كشف دانش , دستهبندي متن , فناوري اطلاعات , دادهكاوي
چكيده فارسي :
مقدمه: در عصرحاضر، حجم عظيمي از اطلاعات موجود در محيط وب، اسناد و مقالات متني هستند. متن كاوي، روشي براي استخراج اطلاعات غيرساختيافته و نيمهساختيافته از اين حجم اطلاعات موجود در اينترنت و نيز، فرآيند استخراج دانش و الگوهاي ناشناخته و غيرقابل فهم و بالقوه، از ميان انبوه مجموعههاي دادههاي متني است.روشها: اين پژوهش از نوع مطالعات كتابخانهاي است. با اينكه روشهاي متنكاوي اكثراً بر روي منابع لاتين انجام گرفته اند، اما با جستجو در پايگاههاي اطلاعاتي فارسي، درمييابيم طي يك دهه گذشته، موضوع متنكاوي براي محققان ايراني به خصوص دانشجويان رشتههاي علوم كامپيوتر و فناوري اطلاعات، اهميتي دوچندان پيدا كرده است؛ به طوري كه بخش قابل توجهي از مقالات كنفرانسهاي مربوط به علوم و فنون كامپيوتر را مقالات مربوط به اين حوزه تشكيل ميدهند.يافتهها: يافتههاي پژوهش نشان ميدهد كه متنكاوي، كاربردي از دادهكاوي است و تفاوت اصلي اين دو، استخراج الگوها از متني با زبان طبيعي در متن كاوي است درحاليكه دادهكاوي بر روي پايگاه دادههاي ساختيافته عمل ميكند. فرايندهاي متنكاوي داراي دو فاز اصلي پيشپردازش مستندات و استخراج دانش هستند. تاكنون هشت تكنيك نيز براي متنكاوي معرفي شده است كه عبارتنداز: استخراج اطلاعات، بازيابي اطلاعات، خلاصهسازي متن، طبقهبندي، خوشهبندي، بصري سازي، پردازش زبان طبيعي و عقيدهكاوي.نتيجهگيري: در ساليان اخير، توجه بسيار زيادي در حوزه بينالمللي و ملي به متنكاوي شده است. افزايش چشمگير دادههاي متني، پژوهشگران را بر آن داشته است كه به دنبال روشهايي جهت كاوش در اين دادهها باشند. طبيعي است كه محققان ايراني نيز ازين امر مستنثنا نبودهاند. متنكاوي به همراه تمامي روشها و تكنيكهاي آن، كوششي است كه پژوهشگران را در استخراج دانش و اطلاعات مفيد و باارزش از انبوه متون غيرساختيافتهاي كه در محيط اينترنت پراكندهاند، ياري ميكند.يافته هاي پژوهش نشان مي دهد كه متن كاوي، كاربردي از داده كاوي است و تفاوت اصلي اين دو، استخراج الگوها از متني با زبان طبيعي در متن كاوي است، درحاليكه داده كاوي بر روي پايگاه داده هاي ساخت يافته عمل مي كند. آشنايي با فرايندهاي متن كاوي و شناسايي تكنيك هاي آن، از جمله اهداف اين پژوهش است. فرايندهاي متن كاوي، داراي دوفاز اصلي پيش پردازش مستندات و استخراج دانش هستند. تاكنون هشت تكنيك نيز براي متن كاوي معرفي شده است كه عبارتنداز: استخراج اطلاعات، بازيابي اطلاعات، خلاصه سازي متن، طبقه بندي، خوشه بندي، بصري سازي، پردازش زبان طبيعي وعقيده كاوي. با اينكه روش هاي متن كاوي اكثراً بر روي منابع لاتين انجام گرفته اند، اما با جست وجو در پايگاه هاي اطلاعاتي فارسي، درمي يابيم طي يك دهه گذشته، موضوع متن كاوي براي محققان ايراني به خصوص دانشجويان رشته هاي علوم كامپيوتر و فناوري اطلاعات، اهميتي دوچندان پيدا كرده است؛ به طوري كه بخش قابل توجهي از مقالات كنفرانس هاي مربوط به علوم و فنون كامپيوتر را مقالات مربوط به اين حوزه تشكيل مي دهند.