فشردهسازي وفقي سيگنال صحبت باند وسيع و صوت با استفاده از تبديل موجک
الموضوعات :
1 - دانشگاه شهید بهشتی
الکلمات المفتاحية: فشردهسازي صحبتبسته موجکيمدل روان شنيداريباند بحرانيکدگذاري آنتروپي,
ملخص المقالة :
در اين مقاله طراحي يک کد كننده ديكد كننده جديد در نرخ بيت kb/s 32 براي سيگنال صحبت باند وسيع و صوت بررسي ميشود. اين كدر جايگزين خوبي براي کدرهاي باند وسيع قبلي مثل استاندارد G721 با نرخ بيت kb/s 32 و G722 با نرخ بيت kb/s 64 و 2/4 MOS= ميباشد. فشردهساز يا کدر ما شامل قسمتهاي کدگذار تبديلي، مدل روان شنيداري، چنديکننده و قسمت کدگذار با طول متغير است. در قسمت کدگذار تبديلي از بسته موجکي که داراي باندهاي خروجي نزديک به باندهاي بحراني است استفاده شده است. تفاوت اين قسمت با کارهاي مشابه در استفاده از هسته تبديل موجک توسعه يافته پارامتري جديد و نيز روشي است که شاخه هاي WP را گسترش دادهايم تا انطباق بيشتري با باندهاي بحراني شنوايي داشته باشند. فكر استفاده از مدل روان شنيداري را از MPEG1-Audio گرفتهايم اما به جاي استفاده از طيف توان براي محاسبه نسبت سيگنال به ماسک S/M مستقيماً از دادههاي خروجي بسته موجکي استفاده کردهايم. به اين ترتيب، علاوه بر تطبيق مناسب خروجيهاي بسته موجکي با مدل روان شنيداري، از ميزان محاسبات نيز کاسته شده است. در چنديکننده با توجه به تعداد بيتهاي هر باند بحراني که قبلاً توسط مدل روان شنيداري حساب شده است به چندي کردن خروجيهاي بسته موجکي ميپردازيم. در قسمت VLC، از روش کدگذاري آنتروپي استفاده کردهايم. براي اين کار از جداول دوباره کد کننده استاندارد JPEG استفاده شده است. اما تغييراتي براي تطبيق هر چه بهتر با شرايط سيگنال صحبت اعمال نمودهايم. کدر قابليت استفاده وفقي از هسته موجک پارامتري را داراست. کدر با تغيير نسبت S/M قابليت کم کردن نرخ بيت و کاهش کيفيت در حد کيفيت مورد نياز را دارد. بنابراين، در جاهايي که احتياج به نرخ بيت ثابتي باشد با تغيير S/M در اطراف نقطه کاري نرخ بيت به ميزان خواسته شده ميرسد. در نهايت اين كدر با نرخ بيت kb/s 32 کيفيت بسيار خوبي دارد که به راحتي از سيگنال PCM ورودي با نرخ نمونه برداري kHz 16 تعداد بيت 16 در هر نمونه قابل تشخيص نيست.
[1] N. S. Jayant and P. Noll, Digital Coding of Waveforms, Prentice Hall, INC. Englewood Cliffs, NJ, 1984.
[2] N. Jayant, J. Johnston and R. Safranek, "Signal compression based on models of human perception," Proc. of IEEE, vol. 81, no. 10, pp. 1385-1422, Oct. 1993.
[3] I. Daubechies, Ten Lectures on Wavelets, SIAM, 1992.
[4] S. Mallat, A Wavelet Tour of Signal Processing, Academic Press,1999.
[5] C. S. Burrus, R. A. Gopinath, and H. Guo, Introduction to Wavelets and Wavelet Transforms, Prentice Hall, 1993.
[6] P. Srinivasan and H. Jamieson, "High quality audio compression using an adaptive wavelet packet decomposition and psychoacoustic modeling," IEEE Tran. Signal processing, vol. 46, no. 4, pp. 1085-1093, Apr. 1998.
[7] E. Ambikairajah, A. G. Davis, and W. T. K. Wong, "Auditory masking & MPEG-1 audio compression," Electronics & Communication Engineering Journal, vol. 9, no. 4, pp. 165-175,Aug. 1997.
[8] ISO/IEC JTC 1/SC 29/WG 1, "Call for contributions- lossless compression of continuous-tone still pictures," ISO Working Document ISO/IEC JTC1/SC29/WG1 N41, Mar. 1995.
[9] D. Sinha and A. H. Tewfik, "Low bit rate transparent audio compression using adaptive wavelets," IEEE Trans. Signal Processing, vol. 41, no. 12, pp. 3463-3479, Dec. 1993.
[10] Matlab 5.3 Wavelet Toolbox Users Guide.
[11] K. Brandenburge and M. Bosi, "Overview of MPEG audio: current and future standards for low bit rate audio coding," J. Audio Engineering Society, vol. 45, no. 1-2, pp. 4-21, Jan./Feb. 1997.
[12] ISO/IEC Int'l Standard 11172-3, Information Technology: Coding of Moving Pictures and Associated Audio for Digital Storage Media at up to about 1.5 Mb/s- Part3: Audio.
[13] Digitale Audioverarbeitung, WS 2000, 18.205
[14] D. Y. Pan, "A tutorial on MPEG/Audio compression," IEEE Multimedia, vol. 2, no. 2, pp. 60-74, Summer 1995.