مرکز منطقه ای اطلاع رساني علوم و فناوري - تحليل آماري واژه هاي فارسي مقالات علوم انساني بر مبناي قانون زيف

چكيده :

در پي كمبود ابزازهاي ابتدايي پردازش زبان طبيعي فارسي و نياز روزافزون به برنامه هاي ماشيني مبتني بر زبان طبيعي، با مطالعه و اثبات تابعيت زبان فارسي از قوانين زبانشناسي كمي، مي توان پل ارتباطي بين نظام زبان هاي برنامه نويسي و زبان هاي طبيعي ايجاد كرد. قانون زيف از جمله قوانيني است كه در عين سادگي مي تواند نقشي مهم در اين راستا ايفا كند و گام نخست را در پردازش زبان طبيعي فارسي بردارد. چرا كه با استفاده از نتايج و گزارشات حاصل از اين تحليل، ميتوان برنامه ها و ابزارهاي پردازش زبان طبيعي را اصولي تر ساخت. هدف از انجام اين پژوهش، بررسي آماري واژگان زبان فارسي براساس قانون زيف بود و در نتيجه پاسخ به پرسش «آيا قانون زيف در زبان فارسي حاكم است يا خير؟ » مدنظر است. براي رسيدن به نتيجه استاندارد و قابل قبول داده ها بايد پيش پردازش شده و نرمال باشند و چالش هاي موجود در زبان فارسي تا حد امكان در نظر گرفته شوند. داده هاي پژوهش 350 مقاله، از مقالات علوم انساني است و به منظور ايجاد تنوع در داده ها و بررسي قانون زيف در ديگر متون نوشتاري فارسي و مقايسه آنها با يكديگر از سه كتاب داستان بلند(رمان) و همچنين نزديك به هزار چكيده اخبار نيز استفاده شد و پيكره مورد نياز پژوهش ساخته شد. در ايجاد پيكره درصد قابل توجه اي از نرمال سازي انجام شد و سپس قانون زيف بر روي آن پياده سازي شد و واژگان آن مورد تحليل و بررسي قرار گرفت. نتايج بر روي نمودار زيف نمايش داده شد و با منحني نرمال قانون زيف مقايسه گرديد. در آخر به منظور اعتبارسنجي، با استفاده از ضريب همبستگي پيرسون، همبستگي ميان بسامد تخميني براساس قانون زيف و بسامد واقعي واژگان سنجيد شد. همچنين نمودارهاي به دست آمده از پژوهش با نمودارهاي رسم شده در پيكره هاي متفاوت زباني زبان انگليسي نيز مقايسه شد. نتيجه بدست آمده، تبعيت زبان فارسي از قانون زيف بود. در آخر نيز استخراج ليست واژه هاي مانع مبتني بر قانون كه در بازيابي اطلاعات و طبقه بندي اطلاعات موجب افزايش سرعت و دقت مي شود را مي توان از دست آوردهاي اين پژوهش دانست. اين پژوهش مي تواند به عنوان شالوده اي قابل اطمينان و قوي در بهبودي پروژه هاي مختلف در پردازش زبان طبيعي فارسي مورد استفاده قرار گيرد.