رقم المقالة : 13980422190776 زيارة : 6222 الصفحة: 59 - 64

نوع المخطوط: المحکّمة

تفکیک کور منابع گفتار دوکاناله بر اساس مکان‌یابی

الموضوعات :

حسن علی‌صوفی ¹ , مرتضی خادمی ² , عباس ابراهیمی مقدم ³

1 - دانشگاه فردوسی
2 - دانشگاه فردوسی مشهد
3 - دانشگاه فردوسی

تاريخ الإرسال : 10 السبت , ذو القعدة, 1440 تاريخ التأكيد : 04 الثلاثاء , رجب, 1442 تاريخ الإصدار : 27 الإثنين , صفر, 1443

الکلمات المفتاحية: : اسپکتوگرام زاویه‌ای, تابع همبستگی متقابل تعمیم‌یافته, تفکیک کور منابع گفتار,

ملخص المقالة :

در این مقاله یک روش جدید برای تفکیک کور منابع گفتار دوکاناله، بدون نیاز به دانش قبلی در مورد منابع گفتار آمده است. در روش پیشنهادی، با وزن‌دادن به طیف سیگنال ترکیب‌شده بر اساس فاصله منابع گفتار با میکروفون، تفکیک منابع گفتار انجام می‌شود. بنابراین ابتدا با تشکیل اسپکتوگرام زاویه‌ای توسط تابع همبستگی متقابل تعمیم‌یافته، منابع گفتار موجود در سیگنال ترکیب‌شده مکان‌یابی می‌شوند. سپس با توجه به موقعیت مکانی منابع از نظر فاصله با میکروفون‌ها، اندازه طیف سیگنال ترکیب‌شده، وزن‌دهی می‌شود. با ضرب اندازه طیف وزن داده شده در مقادیر حاصل از اسپکتوگرام زاویه‌ای و مقایسه آنها با هم، برای هر منبع یک نقاب باینری ساخته می‌شود. با اعمال نقاب باینری به اندازه طیف سیگنال ترکیب‌شده، منابع گفتار موجود در آن از هم جدا می‌شوند. این روش روی داده‌های پایگاه داده SiSEC آزمایش و از ابزار سنجش و معیارهای موجود در این پایگاه، برای ارزیابی استفاده شده است. نتایج نشان می‌دهد که روش پیشنهادی، از جهت معیارهای موجود در پایگاه مذکور با روش‌های رقیب قابل مقایسه بوده و پیچیدگی محاسباتی کمتری دارد.

المصادر:

[1] S. Haykin and Z. Chen, "The cocktail party problem," Neural Comput., vol. 17, no. 9, pp. 1875-1902, Sept. 2005.
[2] K. Itakura, et al., "Bayesian multichannel audio source separation based on integrated source and spatial models," IEEE/ACM Trans. Audio Speech Lang. Process., vol. 26, no. 4, pp. 831-846, Apr. 2018.
[3] Y. Xie, K. Xie, Z. Wu, and S. Xie, "Underdetermined blind source separation of speech mixtures based on K-means clustering," in Proc. Chinese Control Conf., CCC'19, pp. 42-46, Guangzhou, China, 27-30 Jul. 2019.
[4] M. S. Brandstein and H. F. Silverman, "A robust method for speech signal time-delay estimation in reverberant rooms," in Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, ICASSP'97, vol. 1, pp. 375-378, Munich, Germany, 21-24 Apr. 1997.
[5] Z. Ding, W. Li, and Q. Liao, "Dual-channel speech separation by sub-segmental directional statistics," in Proc. Int. Conf. on Wireless Communications, Signal Processing and Networking, WiSPNET'16, pp. 2287-2291, Chennai, India, 23-35 Mar. 2016.
[6] X. Li, Z. Ding, W. Li, and Q. Liao, "Dual-channel cosine function based ITD estimation for robust speech separation," Sensors, vol. 17, no. 6, Article No.: 1447, 13 pp. 2017.
[7] T. Maitheen and M. S. Lekshmi, "Enhancement of DUET blind source separation using wavelet," International Research Journal of Engineering and Technology, vol. 4, no. 5, pp. 3551-3553, May 2017.
[8] X. Zhang and D. Wang, "Binaural reverberant speech separation based on deep neural networks," in Proc. Interspeech, vol. pp. 2018-2022, Stockholm, Sweden, 20-24 Aug. 2017.
[9] S. U. N. Wood, et al., "Blind speech separation and enhancement with GCC-NMF," IEEE/ACM Trans. Audio, Speech Lang. Process., vol. 25, no. 4, pp. 745-755, Apr. 2017.
[10] Y. Yu, W. Wang, J. Luo, and P. Feng, "Localization based stereo speech separation using deep networks," in Proc. IEEE Int. Conf. Digit. Signal Process, pp. 153-157, Singapore, Singapore, 21-24 Jul. 2015.
[11] S. U. N. Wood and J. Rouat, "Unsupervised low latency speech enhancement with RT-GCC-NMF," IEEE J. Sel. Top. Signal Process., vol. 13, no. 2, pp. 332-346, May 2019.
[12] C. Knapp and G. Carter, "The generalized correlation method for estimation of time delay," IEEE Trans. Acoust., vol. 24, no. 4, pp. 320-327, Aug. 1976.
[13] M. A. J. Sathya and S. P. Victor, Noise Reduction Techniques and Algorithms for Speech Signal Processing, .
[14] A. P. Klapuri, "Multipitch estimation and sound separation by the spectral smoothness principle," in Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, ICASSP'01, vol. 5, pp. 3381-3384, Salt Lake City, UT, USA, 7-11 May 2001.
[15] C. Blandin, A. Ozerov, and E. Vincent, "Multi-source TDOA estimation in reverberant audio using angular spectra and clustering," Signal Processing, vol. 92, no. 8, pp. 1950-1960, Aug. 2012.
[16] F. Nesta, M. Omologo, and P. Svaizer, "A novel robust solution to the permutation problem based on a joint multiple TDOA estimation," in Proc. IWAENC, 4 pp., Seattle, WA, USA, 14-17 Sept. 2008.
[17] B. Loesch and B. Yang, "Blind source separation based on time-frequency sparseness in the presence of spatial aliasing," in Proc. 9th Int Conf. on Latent Variable Analysis and Signal Separation, 8 pp., St. Malo, France, 27-30 Sept. 2010.
[18] N. Madhu, C. Breithaupt, and R. Martin, "Temporal smoothing of spectral masks in the cepstral domain for speech separation," in Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, ICASSP'08, vol. 1, pp. 45-48, Las Vegas, NV, USA, 30 Mar- 4 Apr. 2008.
[19] [Online]. Available: www.itu.com
[20] [Online]. Available: https://sisec.wiki.irisa.fr.
[21] C. Fevotte, R. Gribonval, and E. Vincent, BSS_EVAL Toolbox User Guide--Revision 2.0, 2005.
[22] A. Liutkus, et al., "The 2016 signal separation evaluation campaign," in Proc. Int. Conf. on Latent Variable Analysis and Signal Separation, pp. 323-332, Grenoble, France, Feb. 2017.

نص كامل:

معرفي يک روش جديد خوشه‌يابي خودکار

مقاله پژوهشی

تفکیک کور منابع گفتار دوکاناله بر اساس مکان‌یابی

حسن علی‌صوفی، مرتضی خادمی و عباس ابراهیمی‌مقدم

چكیده: در این مقاله یک روش جدید برای تفکیک کور منابع گفتار دوکاناله، بدون نیاز به دانش قبلی در مورد منابع گفتار آمده است. در روش پیشنهادی، با وزن‌دادن به طیف سیگنال ترکیب‌شده بر اساس فاصله منابع گفتار با میکروفون، تفکیک منابع گفتار انجام می‌شود. بنابراین ابتدا با تشکیل اسپکتوگرام زاویه‌ای توسط تابع همبستگی متقابل تعمیم‌یافته، منابع گفتار موجود در سیگنال ترکیب‌شده مکان‌یابی می‌شوند. سپس با توجه به موقعیت مکانی منابع از نظر فاصله با میکروفون‌ها، اندازه طیف سیگنال ترکیب‌شده، وزن‌دهی می‌شود. با ضرب اندازه طیف وزن داده شده در مقادیر حاصل از اسپکتوگرام زاویه‌ای و مقایسه آنها با هم، برای هر منبع یک نقاب باینری ساخته می‌شود. با اعمال نقاب باینری به اندازه طیف سیگنال ترکیب‌شده، منابع گفتار موجود در آن از هم جدا می‌شوند. این روش روی داده‌های پایگاه داده SiSEC آزمایش و از ابزار سنجش و معیارهای موجود در این پایگاه، برای ارزیابی استفاده شده است. نتایج نشان می‌دهد که روش پیشنهادی، از جهت معیارهای موجود در پایگاه مذکور با روش‌های رقیب قابل مقایسه بوده و پیچیدگی محاسباتی کمتری دارد.

کلیدواژه: اسپکتوگرام زاویه‌ای، تابع همبستگی متقابل تعمیم‌یافته، تفکیک کور منابع گفتار.

1- مقدمه

تفکیک صدا در مهمانی² یک مسئله معروف در حوزه تفکیک منابع گفتار است [1]. صداهای ترکیب‌شده با هم، باید به نحوی از هم جدا شوند که تا حد امکان از اعوجاج و مصنوعی‌شدن صدا جلوگیری شود و تداخل صداهای مزاحم از بین برود.

وجود صداهای مزاحم در ارتباط تلفنی، امری آزاردهنده است که با حذف آنها می‌توان ارتباط بهتری ایجاد کرد. با پیشرفت الگوریتم‌های تفکیک صدا و جداسازی بهتر منابع گفتار موجود در سیگنال ترکیب‌شده از هم، عملکرد ارتباطات تلفنی نیز قابل بهبود است. همچنین با تجهیز‌کردن سمعک یا هدفون به جداکننده صدا، می‌توان صدای اصلی را از تداخل‌های مزاحم و یا نویز محیط جدا کرد و درک شنیداری افراد کم‌شنوا را افزایش داد. ابزارهای تشخیص گوینده و تشخیص گفتار نیز می‌توانند صدای اصلی را از بین صداهای دیگر جدا کنند و این امر باعث افزایش عملکرد آنها می‌شود.

روش‌های متعددی در حوزه تفکیک منابع گفتار وجود دارد. در برخی از روش‌های تفکیک منابع گفتار، بایستی تعداد منابع موجود در سیگنال ترکیب‌شده کوچک‌تر یا مساوی تعداد میکروفون باشد [2]. روش‌های دیگری مانند [3] محدودیت قبل را ندارند ولی برای گفتار ترکیب‌شده بدون انعکاس مناسب هستند. در این تحقیق، دو چالش مهم در تفکیک منابع گفتار بررسی می‌شود. یک چالش‌، مربوط به زمانی است که تعداد منابع موجود در سیگنال ترکیب‌شده از تعداد میکروفون‌ها بیشتر باشد و چالش دیگر وقتی است که محیط ضبط صدا، مشابه با محیط‌های واقعی، انعکاس صدا داشته باشد [4]. اگر سیگنال ترکیب‌شده دریافتی دوکاناله (دومیکروفونه) باشد، از اختلاف شدت و اختلاف زمانی بین دو کانال، می‌توان برای غلبه بر چالش‌های مذکور استفاده کرد [5] و [6]. در بسیاری از تحقیقات اخیر از ترکیب مکان‌یابی [7] با یکی از ابزارهای شبکه عصبی [8] یا تجزیه نامنفی ماتریس [9]، تفکیک منابع گفتار انجام شده است.

مراجع [8] و [10] از ترکیب مکان‌یابی منابع و شبکه عصبی عمیق برای تفکیک منابع گفتار استفاده کرده‌اند. در گفتار دوکاناله، اختلاف فاز و اختلاف شدت بین دو کانال، ورودی‌های شبکه عصبی عمیق هستند. هرچه شبکه عصبی با داده‌های بیشتری آموزش ببیند، تفکیک منابع گفتار به صورت بهتری انجام می‌شود. وابستگی به آموزش، مهم‌ترین ضعف این روش است. همچنین اگر اختلاف بین داده‌های آموزش و آزمایش زیاد باشد، عملکرد شبکه عصبی پایین می‌آید. این روش برای محیط‌های واقعی که در آن انعکاس صدا وجود دارد مناسب است.

مراجع [2]، [9] و [11] از ترکیب مکان‌یابی منابع و تجزیه نامنفی ماتریس برای تفکیک منابع گفتار استفاده کرده‌اند. با استفاده از اختلاف زمانی بین دو کانال، می‌توان منابع موجود در سیگنال ترکیب‌شده را از طریق یافتن تأخیر زمانی بین دو کانال برای هر منبع، مکان‌یابی کرد. در برخی از روش‌های مکان‌یابی، فقط از اختلاف زمانی بین دو میکروفون برای مکان‌یابی منابع استفاده می‌شود و چون اساس عملکرد روش‌های مذکور محاسبه اختلاف فاز است، نیازی به محاسبه اختلاف شدت بین دو میکروفون نیست [2]. استفاده از اطلاعات مکانی و تجزیه نامنفی ماتریس سیگنال ترکیب‌شده، تفکیک منابع گفتار را به خوبی انجام می‌دهد. تجزیه نامنفی ماتریس، ابزاری مناسب برای تفکیک منابع گفتار هم‌زمان است و تداخل را به مقدار قابل قبولی حذف می‌کند ولیکن پیچیدگی محاسباتی این رویکرد زیاد است [9].

در این تحقیق یک روش جدید برای تفکیک منابع گفتار موجود در یک سیگنال ترکیب‌شده دوکاناله ارائه شده که تفکیک منابع گفتار موجود در سیگنال ترکیب‌شده را بر اساس فاصله آنها از میکروفون‌های 1 و 2 انجام می‌دهد. در روش پیشنهادی برای مکان‌یابی منابع، از تابع همبستگی

شکل 1: منبع 1 بین دو میکروفون است و صدای آن در لحظه به میکروفون 1 و در لحظه به میکروفون 2 می‌رسد. منابع 2 و 3 به ترتیب دارای تأخیر و هستند.

متقابل تعمیم‌یافته ³(GCC) استفاده شده است [12]. همچنین از فیلتر میانگین به عنوان یک پیش‌پردازش برای هموارسازی طیف سیگنال ترکیب‌شده جهت بهبود مکان‌یابی منابع استفاده می‌شود [13] و [14]. این روش دارای پیچیدگی محاسباتی کمی بوده و به اطلاعات قبلی از منابع گفتار نیازمند نیست.

در بخش بعدی، مبانی مکان‌یابی با تابع همبستگی متقابل تعمیم‌یافته که روش پیشنهادی بر مبنای آن است، بررسی می‌شود. روش پیشنهادی در بخش 3 شرح داده می‌شود. ارائه نتایج شبیه‌سازی و مقایسه با روش‌های دیگر در بخش 4 انجام می‌گردد و نتیجه‌گیری کلی در بخش 5 بیان می‌شود.

2- مکان‌یابی منابع گفتار با روش GCC-PHAT

با توجه به این که در روش پیشنهادی این مقاله، مکان‌یابی منابع بر مبنای روش مشهور و پرکاربرد ⁴GCC-PHAT می‌باشد، لازم است ابتدا روش مذکور مختصراً معرفی گردد. اگر سیگنال ترکیب‌شده ورودی دوکاناله باشد، از اختلاف زمانی بین کانال‌ها برای مکان‌یابی منابع گفتار موجود در سیگنال ترکیب‌شده استفاده می‌شود. تأخیر در حوزه زمان معادل جابه‌جایی فاز در حوزه فرکانس است و GCC-PHAT از این موضوع و با تشکیل اسپکتوگرام زاویه‌ای، برای یافتن تأخیر زمانی بین دو میکروفون استفاده می‌کند [12]. به عنوان مثال شکل 1 وضعیت قرارگرفتن سه منبع گفتار و دو میکروفون را نشان می‌دهد. همان طور که در این شکل دیده می‌شود، منبع شماره 1 بین دو میکروفون قرار گرفته و صدای آن در لحظه به میکروفون شماره 1 و با تأخیر به میکروفون 2 می‌رسد. اگر فاصله بین دو میکروفون و سرعت صدا باشد آن گاه با توجه به شکل 1، بیشترین تأخیر زمانی (از نظر جبری) بین دو میکروفون و کمترین تأخیر است.

شکل 2 بلوک دیاگرام روش GCC-PHAT [12] را برای مکان‌یابی (یافتن تأخیر زمانی بین دو میکروفون) نشان می‌دهد. در این روش تبدیل فوریه هر دو سیگنال ترکیب‌شده ورودی محاسبه می‌شود. از آنجا که سیگنال گفتار، غیر ایستان است، از تبدیل فوریه زمان‌‌کوتاه (STFT) برای محاسبه طیف آن استفاده شده است. مطابق شکل 2، و دو سیگنال ترکیب‌شده ورودی در حوزه زمان و و به ترتیب تبدیل فوریه زمان‌‌کوتاه (متغیرهای و به ترتیب بیانگر زمان و فرکانس هستند) کانال‌های 1 و 2 می‌باشند. در این روش یکی از میکروفون‌ها (مثلاً میکروفون 1) به عنوان مبنا در نظر گرفته می‌شود. سپس مزدوج مختلط را محاسبه کرده و به ازای مقادیر مختلف تأخیر بین و ، اسپکتوگرام زاویه‌ای سه‌بعدی طبق (1) محاسبه می‌شود [12]

(1)

فاز عبارت (برای ایده‌آل) صفر و قسمت حقیقی آن یک می‌شود ولی در عمل به علت وجود تداخل و انعکاس این مقدار کمتر از یک است. بنابراین برای محاسبه تأخیر بین دو کانال، فقط قسمت حقیقی عبارت فوق در نظر گرفته می‌شود. برای تعیین اختلاف زمانی منابع، بایستی حاصل‌جمع را روی ابعاد فرکانس و زمان محاسبه کرد. شکل 3 نمایش دوبعدی (یعنی حاصل‌جمع روی بعد فرکانس) و شکل 4 نمایش یک‌بعدی (یعنی حاصل‌جمع روی ابعاد فرکانس و زمان) را نشان می‌دهند. سه خط تیره‌رنگ در شکل 3 نشان‌‌دهنده سه منبع گفتار در این شکل است. رابطه (2) نحوه یافتن تأخیر زمانی برای هر منبع را نشان می‌دهد [12]

(2)

در این رابطه تعداد منابع و تأخیر زمانی منبع ام است. این رابطه به تعداد منابع، نقاط ماکسیمم دارد. سه نقطه ماکسیمم در شکل 4، بیانگر وجود سه منبع گفتار و محل حداکثرشدن آنها، نشان‌دهنده تأخیر زمانی بین دو میکروفون برای هر منبع است. وقتی فاصله بین دو میکروفون زیاد است، GCC-PHAT یک ابزار مناسب برای مکان‌یابی منابع است. با افزایش تعداد منابع، اگر دو میکروفون به هم نزدیک باشند و از روش GCC-PHAT برای مکان‌یابی منابع استفاده شود، آن گاه تعداد نقاط حداکثر از تعداد منابع بیشتر و یافتن تأخیر منابع دچار ابهام می‌شود [15]. برای حذف نقاط حداکثر خطا از توابع سیگموئید استفاده می‌شود که مهم‌ترین آنها tanh است [16]. بنابراین وقتی دو میکروفون نزدیک هستند، برای جلوگیری از بروز خطا در یافتن تأخیر زمانی از مدل غیر خطی طبق (3) استفاده می‌شود [15] و [17]

(3)

در این رابطه یک ضریب وزنی و عددی مثبت است که با تغییر آن می‌توان دقت مکان‌یابی را تغییر داد. در این تحقیق برای داده‌های ناشی از دو میکروفون نزدیک به هم، از این مدل غیر خطی استفاده شده است.

3- روش پیشنهادی

شکل 5 بلوک دیاگرام روش پیشنهادی را نشان می‌دهد. در روش پیشنهادی از فیلتر میانگین برای کاهش اثر تداخل و بهبود مکان‌یابی برای تفکیک منابع گفتار موجود در سیگنال ترکیب‌شده دوکاناله استفاده می‌شود. این فیلتر در بخش 3-1 معرفی می‌شود. مکان‌یابی منابع گفتار نیز توسط روش GCC-PHAT انجام می‌شود. مؤثرترین بخش در این روش، دادن وزن مناسب به طیف سیگنال ترکیب‌شده بر اساس مکان منابع نسبت به دو میکروفون است. این موضوع در بخش 3-2 توضیح

[1] این مقاله در تاریخ 22 تير ماه 1398 دریافت و در تاریخ 28 بهمن ماه 1399 بازنگری شد.

حسن علی‌صوفی، گروه برق، دانشکده مهندسی، دانشگاه فردوسی مشهد، مشهد، ایران، (email: hassan_alisoofi@um.ac.ir).

مرتضی خادمی (نویسنده مسئول)، گروه برق، دانشکده مهندسی، دانشگاه فردوسی مشهد، مشهد، ایران، (email: khademi@um.ac.ir).

عباس ابراهیمی‌مقدم، گروه برق، دانشکده مهندسی، دانشگاه فردوسی مشهد، مشهد، ایران، (email: a.ebrahimi@um.ac.ir).

[2] . Cocktail Party Problem

[3] . Generalized Cross Correlation

[4] . GCC-Phase Transform

شکل 2: بلوک دیاگرام روش GCC-PHAT [10].

شکل 3: نمایش دوبعدی اسپکتوگرام زاویه‌ای روی ابعاد و که سه خط تیره‌رنگ بیانگر تأخیر زمانی سه منبع گفتار هستند.

شکل 4: نمایش یک‌بعدی اسپکتوگرام زاویه‌ای روی بعد که سه نقطه مشخص‌شده، تأخیر زمانی سه منبع گفتار را نشان می‌دهند.

شکل 5: بلوک دیاگرام روش پیشنهادی.

داده می‌شود. در بخش 3-3 تولید نقاب باینری و در بخش 3-4 بازسازی منابع گفتار تفکیک‌شده بررسی می‌شوند.

3-1 فیلتر میانگین

تداخل امواج صوتی باعث ایجاد تغییرات شدید در طیف سیگنال گفتار می‌شود. بنابراین در این مقاله از فیلتر میانگین به عنوان یک پیش‌پردازش برای هموارکردن طیف سیگنال ترکیب‌شده جهت بهبود مکان‌یابی منابع استفاده می‌شود. همچنین استفاده از فیلتر میانگین باعث کاهش اثر تداخل در منابع بازسازی‌شده می‌گردد [13] و [18]. مطابق شکل 5 فیلتر میانگین در دو جا استفاده شده است. در مورد اول، ورودی فیلتر، طیف مختلط سیگنال ترکیب‌شده ورودی است و چون تغییرات قسمت حقیقی و موهومی طیف گفتار شبیه هم است لذا فیلتر میانگین مطابق (4) به هر فریم زمانی قسمت حقیقی و موهومی به صورت جداگانه اعمال می‌شود

(4)

در این رابطه اندیس کانال و خروجی فیلتر میانگین است. این فیلتر به صورت تجربی و برای حصول تفکیک بهتر کانال‌ها به دست آمده و در این فیلتر هر نمونه، از نمونه قبلی و بعدی آن تأثیر می‌بیند. تأثیر نمونه‌های بیشتر باعث افزایش محاسبات می‌شود و در برخی موارد، باعث کاهش کیفیت صدای خروجی می‌گردد. ضمناً اوزان فیلتر چنان انتخاب می‌شود که باعث سادگی محاسبات می‌شود. یعنی ضرایب وزنی، توان‌های منفی از عدد دو انتخاب شده‌اند که این موضوع باعث سادگی در پیاده‌سازی سخت‌افزاری می‌گردد. در مورد دوم و طبق (5) فیلتر میانگین به اندازه تبدیل فوریه اعمال می‌شود

(5)

که در آن، اندازه طیف هموارشده است. بعد از هموارسازی طیف سیگنال ترکیب‌شده، مکان‌یابی منابع گفتار انجام می‌شود، با این تفاوت که به جای و از و استفاده می‌گردد. با توجه به تأخیر زمانی پیداشده برای هر منبع ، مطابق روش [12]، از اسپکتوگرام زاویه‌ای به ازای به دست می‌آید یعنی

(6)

3-2 وزن‌دهی کانال‌ها بر اساس مکان منابع

بعد از مکان‌یابی منابع گفتار و یافتن ها‌، می‌توان با وزن‌دادن مناسب

به باعث بهبود کیفیت صدای خروجی شد. روش کار این است: منبعی که به میکروفون 1 نزدیک‌تر باشد، ضرایب تقریب طیف آن منبع برای کانال 1 تقویت می‌گردند و بالعکس ضرایب تقریب طیف آن برای کانال 2 تضعیف می‌شوند و عکس همین موضوع برای منبعی که به میکروفون 2 نزدیک است نیز برقرار است. اگر منبعی در محدوده میانی بین دو میکروفون باشد، ضرایب تقریب طیف آن منبع برای هر دو کانال بدون تغییر است. رابطه زیر نحوه یافتن وزن‌های مناسب را نشان می‌دهد

(7)

در این رابطه و به ترتیب ضرایب وزنی کانال‌های 1 و 2 هستند. همان طور که مشاهده می‌شود محدوده میانی بین دو زمان و در نظر گرفته شده است. ذکر این نکته لازم است که برای ساده‌ترشدن الگوریتم، وقتی دو عدد برای و در نظر گرفته می‌شود و وقتی فقط جای و عوض می‌شود. بعد از اختصاص و ، و وزن‌دهی می‌شوند و در فاز منابع ضرب می‌شوند. و فاز وزن داده شده کانال‌های 1 و 2 هستند و از (8) به دست می‌آیند

(8)

وزن‌دادن به سیگنال ترکیب‌شده بر اساس مکان منابع و ضرب آن در برای ساختن نقاب باینری است. هرچه و بهتر انتخاب شوند، نقاب باینری ساخته‌شده به سمت نقاب ایده‌آل نزدیک‌تر است و تفکیک منابع بهتر انجام می‌شود. انتخاب و بهینه، توسط آزمایش شنیداری منطبق بر استاندارد ITU [19] انجام می‌شود.

3-3 نقاب باینری

هدف از محاسباتی که تا کنون انجام گردید، اختصاص نقاط زمان- فرکانس طیف سیگنال ترکیب‌شده به منابع گفتار بر اساس فاصله آنها نسبت به دو میکروفون است. این بدان معنی است که برای هر کانال از هر منبع، یک نقاب باینری ساخته می‌شود تا بتواند مقادیر زمان فرکانس منبع ام را جدا کرده و تداخل بقیه منابع را حذف کند. با مقایسه مقادیر و برای منابع مختلف، می‌توان نقاب‌های باینری و را به ترتیب برای کانال اول و دوم منبع ام ایجاد کرد. این مقایسه برای تمام نقاط زمان- فرکانس انجام می‌شود. اگر یک نقطه زمان- فرکانس مربوط به منبع ام و کانال ام باشد، مقدار آن یک و در غیر این صورت مقدار آن صفر است. رابطه (9) نحوه ساختن نقاب باینری (نقاب باینری منبع ام و کانال ام) را نشان می‌دهد. بقیه نقاب‌ها به طور مشابه ساخته می‌شوند

(9)

نقاب باینری هر کانال، وظیفه حذف تداخل همان کانال را دارد یعنی تداخل‌های مزاحم را برای کانال 1 و منبع ام حذف می‌کند. به طور مشابه تداخل‌های مزاحم را برای کانال 2 و منبع ام حذف می‌کند. چون نقاب‌ها ایده‌آل نیستند بنابراین هنگام بازسازی گفتار خروجی، برخی تداخل‌ها فقط در یک سمت شنیده می‌شوند. برای بهترشدن عملکرد نقاب‌گذاری در حذف تداخل، نقاب‌ کانال‌های 1 و 2 به دست آمده از (9) به ازای هر منبع در هم ضرب می‌شوند

(10)

که نقاب باینری منبع ام است. این نقاب در هر دو کانال اندازه طیف سیگنال ترکیب‌شده ضرب می‌شود و صدای منبع ام را جدا و تداخل‌های مزاحم را حذف می‌کند.

3-4 بازسازی منابع

بعد از آن که برای هر منبع، نقاب باینری ساخته شد، مطابق شکل 5 نقاب مذکور در ضرب می‌شود و تخمینی از اندازه طیف منابع را می‌دهد

جدول 1: تأثیر تغییرات ضرایب وزنی و بر روی معیارهای ارزیابی SIR، SDR و SAR به صورت میانگین وقتی فاصله بین دو میکروفون 5 سانتی‌متر است.

معیار			ضرایب وزنی
SIR	SDR	SAR
24/7	23/2	03/5	1	1
32/10	57/1	04/4	8/0	2/1
38/11	01/1	98/3	6/0	4/1
91/11	85/0	81/3	4/0	8/1
50/12	64/0	65/3	2/0	2

جدول 3: نتایج مقایسه روش پیشنهادی با روش رقیب و نقاب باینری ایده‌آل با معیارهای SIR، SDR و SAR به صورت میانگین که روی داده‌های 1dev 2016 SiSEC اجرا شده است. نمرات بالاتر نشان‌دهنده تفکیک بهتر منابع گفتار است.

معیار زمان		معیارهای تفکیک
4 گوینده	3 گوینده	SIR	SDR	SAR	روش
74/5	08/5	58/8	46/1	99/3	روش پیشنهادی
60/851	82/644	90/5	00/3	18/6	GCC-NMF [11]
-	-	33/9	99/8	31/9	IBM [19]

(11)

در این رابطه در هر دو کانال ضرب می‌شود. نقاب ساخته‏شده برای هر منبع، در اندازه طیف هموار‏شده ضرب گردیده است. در این تحقیق، فاز هر نمونه زمان- فرکانس، همان فاز سیگنال ترکیب‏شده در نظر گرفته می‌شود. در انتها با افزودن فاز سیگنال ترکیب‌شده به مقادیر اندازه و عکس تبدیل فوریه زمان‌کوتاه شکل زمانی منابع موجود در سیگنال ترکیب‌شده به دست می‌آید

(12)

بدیهی است که سیگنال ترکیب‌شده ورودی دوکاناله بود و سیگنال خروجی منابع تفکیک‌شده نیز دوکاناله است.

4- نتایج شبیه‌سازی و بحث

برای ارزیابی روش پیشنهادی در این مقاله از داده‌ها و معیارهای ارزیابی پایگاه داده ¹SiSEC استفاده شده است [20]. این پایگاه شامل انواع مختلفی از سیگنال ترکیب‌شده است. در این مقاله سیگنال ترکیب‌شده از چند گوینده هم‌زمان و سیگنال ترکیب‌شده از یک گوینده در محیط نویزی بررسی می‌شود. ، شامل 16 سیگنال گفتار ترکیب‌شده بوده که به صورت زنده ضبط شده‌اند و تعداد منابع موجود در سیگنال‌های ترکیب‌شده 3 یا 4 است. در این داده‌ها، سیگنال گفتار، ترکیب‌شده از گفتار سه زن، سه مرد، چهار زن و چهار مرد وجود دارد. همچنین انواع مختلفی از صداهای فوق از نظر فاصله بین دو میکروفون و زمان انعکاس اتاق موجود است. سیگنال ترکیب‌شده، با فاصله بین دو میکروفون 5 سانتی‌متر و 100 سانتی‌متر و همچنین با زمان

جدول 2: تأثیر تغییرات ضرایب وزنی و بر روی معیارهای ارزیابی SIR، SDR و SAR به صورت میانگین وقتی فاصله بین دو میکروفون 100 سانتی‌متر است.

معیار			ضرایب وزنی
SIR	SDR	SAR
87/5	2/2	11/5	1	1
03/6	70/1	51/4	7/0	5/1
85/6	36/1	95/3	5/0	2
09/7	28/1	78/3	3/0	5/2
25/8	20/1	65/3	1/0	3

انعکاس اتاق 130 میلی‌ثانیه و 250 میلی‌ثانیه ساخته شده است. فرکانس نمونه‌برداری سیگنال‌های فوق 16000 هرتز و طول سیگنال 10 ثانیه است. سیگنال‌های گفتار مرجع (ایزوله‌شده) نیز در پایگاه داده برای ارزیابی الگوریتم تفکیک موجود است.

پایگاه داده SiSEC، یک برنامه آماده با کد Matlab به نام BSS_EVAL برای ارزیابی الگوریتم تفکیک در اختیار محققان قرار داده است [21]. سه معیار اصلی در این برنامه، نسبت سیگنال به اعوجاج ²(SDR)، نسبت سیگنال به تداخل ³(SIR) و نسبت سیگنال به مصنوعی‌شدن ⁴(SAR) است.

در این مقاله برای محاسبه ، سیگنال گفتار در پنجره هنینگ به طول 1280 نمونه و مقدار پرش 128 نمونه که به صورت تجربی به دست آمده‌اند، ضرب شده و از حاصل‌ضرب، تبدیل فوریه 2048 نقطه‌ای گرفته شده است. وقتی فاصله دو میکروفون از هم 5 سانتی‌متر است، در (3) ضریب برای مکان‌یابی منابع استفاده شده است. از آنجا که تغییر فاصله بین دو میکروفون باعث تغییر ضرایب وزنی می‌شود، روش پیشنهادی برای فاصله بین دو میکروفون، 5 سانتی‌متر و 100 سانتی‌متر، جدا ارزیابی شده است. جداول 1 و 2 معیارهای ارزیابی را به ازای وزن‌های مختلف و ، برای فاصله بین دو میکروفون 5 سانتی‌متر و 100 سانتی‌متر روی داده‌های نشان می‌دهند. وقتی فاصله بین دو میکروفون 5 سانتی‌متر است، و بوده و وقتی فاصله بین دو میکروفون 100 سانتی‌متر است و می‌باشد. برای یافتن ضرایب وزنی و بهینه، 100 حالت مختلف از تغییرات و آزمایش شده که در جداول 1 و 2 فقط 5 حالت آن نمایش داده شده است. تعیین و بهینه توسط آزمایش شنیداری منطبق بر استاندارد ITU [19] انجام شده است. یعنی به ازای مقادیر مختلف و ، سیگنال منابع گفتار استخراج گردیده و توسط افراد شرکت‌کننده در آزمون شنیداری ارزیابی گردیده است. مقادیر و بهینه، وقتی فاصله بین دو میکروفون 5 سانتی‌متر است، و و برای فاصله 100 سانتی‌متر میکروفون‌ها، و است. البته می‌توان با افزایش و کاهش ، تداخل بیشتری را حذف کرد (افزایش SIR) ولی این امر باعث افزایش اعوجاج (کاهش SDR) و مصنوعی‌شدن (کاهش SAR) صدای خروجی می‌شود. لذا باید یک مصالحه بین معیارهای ارزیابی صورت پذیرد.

نتایج ارزیابی و مقایسه زمان اجرای روش پیشنهادی با روش
GCC-NMF [13] و IBM [22] در جدول 3 آورده شده است. روش (IBM) به معنای اعمال نقاب باینری ایده‌آل است. مقایسه جدول 3 نشان می‌دهد روش پیشنهادی در مقایسه با روش GCC-NMF عملکرد بهتری در حذف تداخل دارد که مهم‌ترین دلیل آن، وزن‌دادن مناسب به سیگنال‌ میکروفون‌ها بر اساس مکان منابع گفتار است. اگرچه صدای خروجی در روش پیشنهادی دارای اعوجاج و مصنوعی‌شدن بیشتری است (کاهش SDR و SAR)، اما این موضوع اثر کمتری نسبت به تداخل روی کیفیت شنیداری انسان دارد. در جدول 3 مقایسه زمان اجرای هر دو الگوریتم با سخت‌افزار یکسان برای سیگنال ترکیب‌شده، شامل سه گوینده و چهار گوینده آورده شده است. زمان اجرای روش پیشنهادی بسیار کمتر است و افزایش تعداد منابع موجود در سیگنال ترکیب‌شده از سه به چهار باعث افزایش 12 درصدی زمان اجرا در روش پیشنهادی و افزایش 32 درصدی در روش رقیب است. همچنین روش GCC-NMF به مقادیر اولیه که به ماتریس‌های پایه و ضرایب داده می‌شود وابسته است و هر بار اجرای آن باعث خروجی متفاوت می‌شود.

5- نتیجه‌گیری

در این مقاله روشی جدید معرفی گردید که تفکیک منابع گفتار را بر اساس موقعیت مکانی منابع گفتار و فاصله آنها از دو میکروفون انجام می‌دهد. از فیلتر میانگین برای هموارکردن طیف و کاهش اثر تداخل استفاده می‌شود. وجود ضرایب وزنی باعث بهبود کیفیت تفکیک منابع گقتار می‌شود. این روش بدون نیاز به آموزش و اطلاعات قبلی از منابع گفتار، تفکیک منابع گفتار موجود در سیگنال ترکیب‌شده را انجام می‌دهد و همچنین دارای پیچیدگی محاسباتی کمتری نسبت به رقیبان است. این روش برای 3 و 4 گوینده هم‌زمان و با وجود انعکاس محیط آزمایش شده است. در داده‌هایی که دو میکروفون به هم نزدیک هستند (فاصله 5 سانتی‌متر)، حذف تداخل به خوبی انجام می‌شود و این موضوع اهمیت روش پیشنهادی را در مکالمات تلفن همراه نشان می‌دهد.

مراجع

[1] S. Haykin and Z. Chen, "The cocktail party problem," Neural Comput., vol. 17, no. 9, pp. 1875-1902, Sept. 2005.

[2] K. Itakura, et al., "Bayesian multichannel audio source separation based on integrated source and spatial models," IEEE/ACM Trans. Audio Speech Lang. Process., vol. 26, no. 4, pp. 831-846, Apr. 2018.

[3] Y. Xie, K. Xie, Z. Wu, and S. Xie, "Underdetermined blind source separation of speech mixtures based on K-means clustering," in Proc. Chinese Control Conf., CCC'19, pp. 42-46, Guangzhou, China, 27-30 Jul. 2019.

[4] M. S. Brandstein and H. F. Silverman, "A robust method for speech signal time-delay estimation in reverberant rooms," in Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, ICASSP'97, vol. 1, pp. 375-378, Munich, Germany, 21-24 Apr. 1997.

[5] Z. Ding, W. Li, and Q. Liao, "Dual-channel speech separation by sub-segmental directional statistics," in Proc. Int. Conf. on Wireless Communications, Signal Processing and Networking, WiSPNET'16, pp. 2287-2291, Chennai, India, 23-35 Mar. 2016.

[6] X. Li, Z. Ding, W. Li, and Q. Liao, "Dual-channel cosine function based ITD estimation for robust speech separation," Sensors, vol. 17, no. 6, Article No.: 1447, 13 pp. 2017.

[7] T. Maitheen and M. S. Lekshmi, "Enhancement of DUET blind source separation using wavelet," International Research Journal of Engineering and Technology, vol. 4, no. 5, pp. 3551-3553, May 2017.

[8] X. Zhang and D. Wang, "Binaural reverberant speech separation based on deep neural networks," in Proc. Interspeech, vol. pp. 2018-2022, Stockholm, Sweden, 20-24 Aug. 2017.

[9] S. U. N. Wood, et al., "Blind speech separation and enhancement with GCC-NMF," IEEE/ACM Trans. Audio, Speech Lang. Process., vol. 25, no. 4, pp. 745-755, Apr. 2017.

[10] Y. Yu, W. Wang, J. Luo, and P. Feng, "Localization based stereo speech separation using deep networks," in Proc. IEEE Int. Conf. Digit. Signal Process, pp. 153-157, Singapore, Singapore, 21-24 Jul. 2015.

[11] S. U. N. Wood and J. Rouat, "Unsupervised low latency speech enhancement with RT-GCC-NMF," IEEE J. Sel. Top. Signal Process., vol. 13, no. 2, pp. 332-346, May 2019.

[12] C. Knapp and G. Carter, "The generalized correlation method for estimation of time delay," IEEE Trans. Acoust., vol. 24, no. 4, pp. 320-327, Aug. 1976.

[13] M. A. J. Sathya and S. P. Victor, Noise Reduction Techniques and Algorithms for Speech Signal Processing, .

[14] A. P. Klapuri, "Multipitch estimation and sound separation by the spectral smoothness principle," in Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, ICASSP'01, vol. 5, pp. 3381-3384, Salt Lake City, UT, USA, 7-11 May 2001.

[15] C. Blandin, A. Ozerov, and E. Vincent, "Multi-source TDOA estimation in reverberant audio using angular spectra and clustering," Signal Processing, vol. 92, no. 8, pp. 1950-1960, Aug. 2012.

[16] F. Nesta, M. Omologo, and P. Svaizer, "A novel robust solution
to the permutation problem based on a joint multiple TDOA estimation," in Proc. IWAENC, 4 pp., Seattle, WA, USA, 14-17 Sept. 2008.

[17] B. Loesch and B. Yang, "Blind source separation based on time-frequency sparseness in the presence of spatial aliasing," in Proc. 9th Int Conf. on Latent Variable Analysis and Signal Separation, 8 pp., St. Malo, France, 27-30 Sept. 2010.

[18] N. Madhu, C. Breithaupt, and R. Martin, "Temporal smoothing of spectral masks in the cepstral domain for speech separation," in Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, ICASSP'08, vol. 1, pp. 45-48, Las Vegas, NV, USA, 30 Mar- 4 Apr. 2008.

[19] [Online]. Available: www.itu.com

[20] [Online]. Available: https://sisec.wiki.irisa.fr.

[21] C. Fevotte, R. Gribonval, and E. Vincent, BSS_EVAL Toolbox User Guide--Revision 2.0, 2005.

[22] A. Liutkus, et al., "The 2016 signal separation evaluation campaign," in Proc. Int. Conf. on Latent Variable Analysis and Signal Separation, pp. 323-332, Grenoble, France, Feb. 2017.

حسن علی‌صوفی مدرک کارشناسی برق گرایش مخابرات خود را در سال 1381 از دانشگاه شهید باهنر کرمان اخذ نموده است. پس از آن مدرک کارشناسی ارشد مخابرات، گرایش سیستم را در سال 1398 از دانشکاه فردوسی دریافت کرد. زمینه‌ی علاقمندی ایشان پردازش سیگنال تصویر و صدا است.

مرتضي خادمي تحصيلات خود را در مقاطع كارشناسي و كارشناسي ارشد مهندسي برق به‌ترتيب در سال‌هاي 1364 و 1366 در دانشگاه صنعتي اصفهان به پايان رسانده است. ايشان از سال 1366 تا 1370 به عنوان عضو هيات علمي (مربي) در دانشگاه فردوسي مشهد به كار مشغول بود. پس از آن به دوره دكتراي مهندسي برق در دانشگاه ولونگونگ (استراليا) وارد گرديده و در سال 1374 موفق به اخذ درجه دكترا در مهندسي برق از دانشگاه مذكور گرديد. دكتر خادمي از سال 1374 مجدداً در دانشكده مهندسي دانشگاه فردوسي مشهد مشغول به فعاليت گرديد و اينك نيز استاد اين دانشكده است. زمينه‌هاي علمي مورد علاقه نام‌برده شامل موضوعاتي مانند مخابرات ويدئويي، فشرده‌سازي ويدئو، پردازش تصوير، پردازش سيگنال‌هاي پزشكي و پنهان‌سازي اطلاعات در ويدئو مي‌باشد.

عباس ابراهيمي مقدم مدرك كارشناسي و كارشناسي ارشد برق گرايش مخابرات خود را به ترتيب از دانشگاه‌هاي صنعتي شريف و صنعتي خواجه نصير اخذ كرده است. ايشان مدرك دكتري خود را از دانشگاه مك‌مستر كانادا دريافت كرده و از سال 1390 در دانشگاه فردوسي مشهد مشغول تدريس و تحقيق مي‌باشد. زمينه‌هاي تحقيقاتي مورد علاقه ايشان پردازش گفتار، پردازش تصوير و ويديو، بينايي ماشين و پردازش سيگنال‌هاي حياتي مي‌باشد.

[1] . Signal Separation Evaluation Campaign

[2] . Source Distortion Ratio

[3] . Source Interference Ratio

[4] . Source Artifact Ratio

شارک

عنوان URL للمقالة

تفکیک کور منابع گفتار دوکاناله بر اساس مکان‌یابی

رایمگ

الروابط

المراكز ذات الصلة

دعامة

الصفحات الرسمية