شماره ركورد كنفرانس :
3848
عنوان مقاله :
پيكرۀ گفتار محاورهاي زبان فارسي امروز
عنوان به زبان ديگر :
Persian colloquial speech corpus
پديدآورندگان :
بيجنخان محمود mbjkhan@ut.ac.ir استاد زبانشناسي دانشگاه تهران
كليدواژه :
محاورهاي , سياق , سبك , تقطيع , نشانهگذاري
عنوان كنفرانس :
دومين همايش ملي زبان شناسي پيكره اي
چكيده فارسي :
هدف از اين مقاله معرفي ويژگيهاي اصلي يك طرح پژوهشي براي توليد پيكرۀ گفتار محاورهاي زبان فارسي امروز است. اين پيكره مجموعهاي از دادههاي گفتاري است كه بصورت سيگنال اكوستيكي از گفتار اهل زبان در موقعيتهاي مختلف ارتباطي ضبط و با استفاده از برچسبهاي زباني و غيرزباني در سطح نوبت و پارهگفتار نشانهگذاري شدهاند. تعدادي از ويژگيهاي ساختاري گفتار محاورهاي كه وابستگي زيادي به سياق محاوره و سبك شركتكنندگان دارند، معرفي شدهاند. شيوۀ جمعآوري دادههاي پيكره براي سياقهاي مكالمۀ رودررو، مكالمۀ تلفني، خاطرهگويي، برنامههاي راديويي و تلويزيوني، مصاحبه و مناظره توضيح داده شدهاند. موضوع مكالمات با توجه به علاقۀ شركتكنندگان و مباحث روز جامعه انتخاب ميشود. حجم دادههاي گفتاريِ هر سياق تابع ميزان دسترسي به موقعيتهاي ارتباطي در هر سياق است و حجم كل به ميزان 360 ساعت پيشبيني شده است. خروجيهاي پيكره شامل پروندۀ مشخصات شركتكنندگان برحسب سن، جنسيت، لهجه، ميزان تحصيلات، نوع سياق، مدت زمان گفتمان، موضوع گفتمان، پروندههاي صوتي و شبكۀ متنيِ متناظر، پروندۀ متني نشانهگذاري نوشتاري، پروندۀ واژگان پيكره و مستندات پيكره خواهد بود.
چكيده لاتين :
Aim of this paper is to report the main characteristics of a project for building a Persian colloquial speech corpus. The corpus contains a set of speech data to form of acoustic signal recorded and gathered in different communicative situations and annotated by linguistic and non-linguistic tags for levels of turns and utterances. A number of structural characteristics of colloquial speech dependent upon register and style of participants are introduced. Data collection for registers like face-to-face conversation, telephone conversation, reminiscence, radio and television broadcast, interview and debate are explained. The subjects of conversations are selected according to the participants’ interests and current topics. The size of the corpus is predicted to be about 360 hours which is distributed over registers according to the degree of data access for each communicative situation. The corpus output files include the participants’ characteristics in terms of age, dialect, education; register type, length of discourse, subject, sound and text grid, colloquial written mark-up, dictionary, and corpus documents.