مرکز منطقه ای اطلاع رساني علوم و فناوري - پيكرۀ گفتار محاورهاي زبان فارسي امروز

شماره ركورد كنفرانس :

3848

عنوان مقاله :

پيكرۀ گفتار محاورهاي زبان فارسي امروز

عنوان به زبان ديگر :

Persian colloquial speech corpus

پديدآورندگان :

بي‌جن‌خان محمود mbjkhan@ut.ac.ir استاد زبان‌شناسي دانشگاه تهران

تعداد صفحه :

كليدواژه :

محاوره‌اي , سياق , سبك , تقطيع , نشانه‌گذاري

سال انتشار :

1395

عنوان كنفرانس :

دومين همايش ملي زبان شناسي پيكره اي

زبان مدرك :

فارسي

چكيده فارسي :

هدف از اين مقاله معرفي ويژگي‌هاي اصلي يك طرح پژوهشي براي توليد پيكرۀ گفتار محاوره‌اي زبان فارسي امروز است. اين پيكره مجموعه‌اي از داده‌هاي گفتاري است كه بصورت سيگنال اكوستيكي از گفتار اهل زبان در موقعيت‌هاي مختلف ارتباطي ضبط و با استفاده از برچسب‌هاي زباني و غيرزباني در سطح نوبت و پاره‌گفتار نشانه‌گذاري شده‌اند. تعدادي از ويژگي‌هاي ساختاري گفتار محاوره‌اي كه وابستگي زيادي به سياق محاوره و سبك شركت‌كنندگان دارند، معرفي شده‌اند. شيوۀ جمع‌آوري داده‌هاي پيكره براي سياق‌هاي مكالمۀ رودررو، مكالمۀ تلفني، خاطره‌گويي، برنامه‌هاي راديويي و تلويزيوني، مصاحبه و مناظره توضيح داده شده‌اند. موضوع مكالمات با توجه به علاقۀ شركت‌كنندگان و مباحث روز جامعه انتخاب مي‌شود. حجم داده‌هاي گفتاريِ هر سياق تابع ميزان دسترسي به موقعيت‌هاي ارتباطي در هر سياق است و حجم كل به ميزان 360 ساعت پيش‌بيني شده است. خروجي‌هاي پيكره شامل پروندۀ مشخصات شركت‌كنندگان برحسب سن، جنسيت، لهجه، ميزان تحصيلات، نوع سياق، مدت زمان گفتمان، موضوع گفتمان، پرونده‌هاي صوتي و شبكۀ متنيِ متناظر، پروندۀ متني نشانه‌گذاري نوشتاري، پروندۀ واژگان پيكره و مستندات پيكره خواهد بود.

چكيده لاتين :

Aim of this paper is to report the main characteristics of a project for building a Persian colloquial speech corpus. The corpus contains a set of speech data to form of acoustic signal recorded and gathered in different communicative situations and annotated by linguistic and non-linguistic tags for levels of turns and utterances. A number of structural characteristics of colloquial speech dependent upon register and style of participants are introduced. Data collection for registers like face-to-face conversation, telephone conversation, reminiscence, radio and television broadcast, interview and debate are explained. The subjects of conversations are selected according to the participants’ interests and current topics. The size of the corpus is predicted to be about 360 hours which is distributed over registers according to the degree of data access for each communicative situation. The corpus output files include the participants’ characteristics in terms of age, dialect, education; register type, length of discourse, subject, sound and text grid, colloquial written mark-up, dictionary, and corpus documents.

كشور :

ايران

لينک به اين مدرک :

https://search.ricest.ac.ir/dl/search/defaultta.aspx?DTC=36&DC=200201