• شماره ركورد كنفرانس
    5192
  • عنوان مقاله

    طراحي سيستم تشخيص جنسيت كاربران با استفاده از ويژگيهاي سيگنالهاي صوت و چهره انسان

  • عنوان به زبان ديگر
    Designing a user gender recognition system using the features of human voice and face signals
  • پديدآورندگان

    دنياگر فريده f.donyagar@gmail.com دانشگاه غياث الدين جمشيد كاشاني , قلعه خندابي امير حسين Amir.khandani@outlook.com دانشگاه آزاد اسلامي واحد تهران شمال

  • تعداد صفحه
    21
  • كليدواژه
    كلاسبندي جنسيت , شبكه هاي عصبي كانولوشن عميق , اندازهگيري ويژگيهاي آكوستيك , پردازش صدا , پردازش تصوير
  • سال انتشار
    1402
  • عنوان كنفرانس
    ششمين همايش ملي فناوريهاي نوين در مهندسي برق، كامپيوتر و مكانيك ايران
  • زبان مدرك
    فارسي
  • چكيده فارسي
    با توجه به تمام پيشرفت‌هاي صورت گرفته درزمينه سيستم‌هاي تشخيص جنسيت از روي چهره و صداي افراد هنوز استفاده از اين سيستم‌ها در مكان‌هاي عمومي مانند استخرها، مساجد، كلاس‌هاي جنسيتي و ... كه به تفكيك جنسيت نياز دارد موردتوجه قرار نگرفته است. ازآنجايي‌كه حساسيت در مورد عملكرد سيستم‌هاي هوش مصنوعي در اين مكان هاي خاص بسيار بالاست بنابراين ميزان خطا در اين سيستم‌ها بايد به حداقل برسد. ما در اين پروژه روش‌هايي كه تاكنون به‌منظور تشخيص جنسيت از روي صدا و چهره مورداستفاده قرارگرفته است را بررسي كرديم و درنهايت از روشي كه داراي سرعت خوب و دقت قابل باشد استفاده كرديم. ما در اين پژوهش به‌منظور پردازش صوت ويژگي‌هاي فركانس صدا ، فركانس اساسي صدا و فركانس غالب صدا را استخراج كرديم، سپس اين ويژگي‌ها را با الگوريتم شبكه عصبي مصنوعي آموزش داديم. نتايج اين پژوهش نشان داد كه دقت پيش‌بيني جنسيت از روي صدا در حدود 99% است. همچنين به‌منظور پردازش تصوير از شبكه‌هاي عصبي كانولوشن عميق با عمق كم و تعداد كمتر نورون‌ها (افزايش سرعت و كاهش محاسبات) استفاده كرديم. در ادامه به‌منظور اطمينان بيش‌تر از شبكه مورداستفاده و اينكه آيا شبكه‌هاي با عمق بيش‌تر تا چه حد مي‌توانند باعث بهبود دقت سيستم شوند تصاوير را با شبكه AlexNet آموزش داديم. نتايج اين بررسي نشان داد كه هر دو شبكه دقتي در حدود 86% داشتند و بايد گفت با توجه به نزديك بودن دقت پيش‌بيني اين دو شبكه به يكديگر استفاده از شبكه با عمق كمتر به دليل كاهش محاسبات و افزايش سرعت منطقي‌تر به نظر مي‌رسد.. درنهايت با استفاده از الگوريتم ترتيبي (استفاده از صوت و چهره به‌صورت مكمل) ميزان دقت در تشخيص اين سيستم‌ها را بالاتر برديم. نتايج اين پژوهش نشان داد كه مي‌توان با استفاده از سيگنال‌هاي صوت و چهره انسان به‌صورت الگوريتم ترتيبي ميزان خطا در سيستم طراحي‌شده را كاهش داد.
  • كشور
    ايران