شماره ركورد كنفرانس :
3822
عنوان مقاله :
مطالعه و دسته بندي پيكره هاي متني برچسب دار در زبان فارسي
پديدآورندگان :
خدائي آزاده السادات دانشگاه آزاد اسلامي واحد كرج , باستان فرد اعظم دانشگاه آزاد اسلامي واحد كرج
كليدواژه :
پيكره هاي متني , فارسي , پردازش زبان طبيعي , نظركاوي , تحليل متون
عنوان كنفرانس :
چهارمين كنفرانس ملي فناوري اطلاعات، كامپيوتر و مخابرات
چكيده فارسي :
دسترسي به دادههاي زباني شامل پيكرههاي متني، پيكرههاي درختي و واژگانها يكي از نيازمنديهاي اوليه و ملزومات مهم در روشهاي آماري در پردازش زبان طبيعي و تحليل احساسات و نظرات كاربران در وب و انديشهكاوي، است و عدم دسترسي مناسب به چنين دادههايي، مشكلات فراواني را پيش پاي پژوهشگران علوم داده و هوش مصنوعي قرار ميدهد. بسياري از زبانشناسان در پژوهشهاي خود از پيكرههاي زباني بهره ميگيرند و به بررسي ويژگيها و كشف قواعد زبان از طريق اطلاعات موجود در دادههاي زباني ميپردازند.در اين مقاله معرفي جامع وكاملي از پيكره ها و پايگاه داده هاي متني زبان فارسي داراي برچسب از ابتدا تا كنون ارائه شده است، كه در مقايسه با تحقيقات انجام شده ي قبلي بسيار كامل تر و دقيق تر مي باشد.در اين بررسي به مقايسه پيكره ها، ذكر كاربردهاي هر يك از آنها، مزايا و معايب، روش ساخت و ذكر خصوصيات آنها، پرداخته شده است.اين مقاله مي تواند براي پژوهش هاي مربوط به، تصميم گيري ها، تحليل احساسات و نظرات كاربران در زبان فارسي استفاده شود و در روش هاي يادگيري ماشين، در انتخاب پيكره هاي مورد نياز در تحقيقات مرتبط به كار رود و با كشف كمبودها و چالش هاي موجود در اين حوزه، براي يافتن موضوعات تحقيقات مورد نياز در آينده مفيد باشد.