تشخیص احساس از گفتار ممکن شد

کد خبر: ۱۹۱۸۲۶

تاریخ انتشار: ۲۱ آذر ۱۳۹۶ - ۰۴:۴۰

پیشرفت‌های اخیر، محققان را بر آن داشته تا در زمینه بازشناسی احساس از روی گفتار، دست به تحقیقات مهمی بزنند.

در این راستا محققین ایرانی گام بلندی را با استفاده از نوعی سیستم تشخیصی برداشته‌اند که نتایج آن در در ﻣﺠﻠﻪ "مهندسی برق و مهندسی کامپیوتر ایران" وابسته به پژوهشکده برق جهاد دانشگاهی منتشر شده است.

تشخیص و بازشناسی احساس از روی گفتار، کاربردهای مختلفی در سیستم‌های تعاملی انسان و ماشین دارد.به‌طور مثال چنین فرایندی می‌تواند عملکرد سیستم‌های تشخیص گفتار را بهبود بخشد. این فرایند همچنین در زمینه آموزش، بازی‌های کامپیوتری، پزشکی، روانشناسی و خودروهای هوشمند کاربردهای متنوعی دارد.

به گفته دانشمندان، اغلب ویژگی‌هایی که برای بازشناسی احساس از روی گفتار به کار گرفته می‌شوند، می‌توانند در دو گروه «ویژگی‌های عروضی» و «ویژگی‌های طیفی» دسته‌بندی شوند. ویژگی‌های عروضی، بیشتر با لحن و ریتم گفتار در ارتباط هستند. این ویژگی‌ها معمولاً از مشخصات آماری مربوط به منحنی‌های فرکانس گام و انرژی صدا محاسبه می‌شوند و با دربرداشتن اطلاعات مهم احساسی، پرکاربردترین ویژگی‌های این حوزه به شمار می‌آیند. ولی ویژگی‌های طیفی که از طیف سیگنال به دست می‌آیند در سال‌های اخیر جایگاه ویژه‌ای پیدا کرده‌اند. این ویژگی‌ها به‌عنوان مکمل ویژگی‌های عروضی نقش به سزایی در افزایش راندمان تشخیص احساس از روی گفتار داشته‌اند.

تشخیص و بازشناسی احساس از روی گفتار، کاربردهای مختلفی در سیستم‌های تعاملی انسان و ماشین دارد، به‌طور مثال چنین فرایندی می‌تواند عملکرد سیستم‌های تشخیص گفتار را بهبود بخشد.

به تازگی محققینی از دانشگاه آزاد اسلامی واحد شاهرود، دانشگاه صنعتی شاهرود و دانشگاه سمنان، پژوهشی را به انجام رسانده‌اند که در آن سعی شده با استفاده از ویژگی‌های دینامیکی سیگنال صوتی صدای افراد به‌عنوان مکملی برای ویژگی‌های عروضی و طیفی، سیستمی طراحی شود تا بتواند احساس‌های عصبانیت، خوشحالی و همچنین خستگی را از احساس عادی افراد مجزا نموده و تشخیص دهد.

بدین منظور، محققین صداهای استخراج‌شده از زنان و مردان مختلف را با صداهای موجود در پایگاه داده احساسی آلمانی برلین، مورد مقایسه علمی قرار داده‌اند. این پایگاه داده، شامل 535 جمله با 10 محتوای مختلف است که توسط 10گوینده ( 5 زن و 5 مرد) در 7 احساس مختلف بیان شده‌اند. پایگاه داده‌ای فوق، به‌صورت رایگان از طریق اینترنت در اختیار عموم قرار دارد.

نتایج این مطالعه نشان داد که متوسط نرخ تشخیص احساس افراد در این سیستم، برای زنان بیشتر از مردان بوده است. به گفته محققین، سیستم فوق توانست حدود 96 درصد از موارد مربوط به احساسات زنان و 87 درصد از احساسات مردان را به‌درستی تشخیص دهد.

به گفته محققین فوق، نرخ تشخیص بیشتر زنان نسبت به مردان، به دلیل ادراک و بروز بیشتر احساسات توسط زنان در گفتار معمول خود است. بااین‌حال، طبق نتایج حاصله، با در نظر گرفتن 301 جمله زنان و 234 جمله مردان، متوسط نرخ تشخیص کلی افراد، حدود 92 درصد ارزیابی شد.
حریمی و همکاران با اشاره به نتایج به‌دست‌آمده از پژوهش خود گفته‌اند: بر اساس نتایج آزمایش‌های ما، ویژگی‌های دینامیکی غیرخطی مربوط به صدا، حاوی اطلاعات مهمی از سطح جاذبه گفتار هستند.

به گفته این محققین، نتایج قابل توجهی از این مقاله علمی قابل استحصال است: اول این‌که سیستم تشخیصی فوق که اصطلاحا «منحنی فضای فاز بازسازی‌شده» نام دارد، ارتباط مهمی با احساس گفتار دارد، لذا به نظر می‌رسد این منحنی، منبع خوبی برای استخراج ویژگی‌های مرتبط با احساس افراد باشد. دوم این‌که ویژگی‌های متداول عروضی و طیفی صدا برای جداسازی احساس‌ها بر اساس «سطح برانگیختگی» مناسب آن کاربرد دارند. حال‌آنکه این ویژگی‌ها برای جداسازی احساس‌های با سطح برانگیختگی یکسان از کارایی لازم برخوردار نیستند. و بالاخره سوم این‌که، ویژگی‌های مستخرج از منحنی‌های مورداشاره، برای طبقه‌بندی احساس‌های عصبانیت، خوشحالی، خستگی و عادی کارآمد هستند.

گفتنی است نتایج این تحقیق در ﻣﺠﻠﻪ "مهندسی برق و مهندسی کامپیوتر ایران" وابسته به پژوهشکده برق جهاد دانشگاهی منتشر شده است.