کشف و رده بندی وقایع صوتی محیطی با استفاده از نگاشت سگمنت بر دیکشنری در نمایش تنک

Fa | Ar | En

کشف و رده بندی وقایع صوتی محیطی با استفاده از نگاشت سگمنت بر دیکشنری در نمایش تنک


نویسنده	درخشان مراد ,مروی حسین
منبع	مهندسي برق دانشگاه تبريز - 1397 - دوره : 48 - شماره : 4 - صفحه:1529 -1540
چکیده	در اینجا کشف و رده بندی وقایع صوتی محیطی با استفاده از نگاشت سگمنت بر دیکشنری در نمایش تنک مورد پژوهش قرار گرفته است. یکی از مشکلات رویکردهای مبتنی بر دیکشنری، نبود کنترل لازم در نحوه نگاشت سگمنت‌های ورودی بر بردارهای پایه دیکشنری جهت شناسایی صدای موجود در سگمنت است. این عدم کنترل، سبب تجزیه سگمنت به تعدادی از اصوات کوچک که بخش‌های سگمنت هستند می‌شود. در اینجا الگوریتمی جهت کنترل صریح نگاشت هر سگمنت بر بردارهای پایه دیکشنری پیشنهاد شده است که از طریق به‌کارگیری تابع انحرافبتا و کنترل تنکی تجزیه نامنفی دنبال می‌شود و کل سگمنت را به عنوان یک واقعه صوتی شناسایی می‌کند. در عمل با کنترل میزان تنکی، هر سگمنت با مجموع چند بردار پایه تقریب زده می‌شود به‌طوری که کل سگمنت یکجا شناسایی شود. این الگوریتم در مراحل تست جهت شناسایی صداهای محیط اداری بکار رفته و نتایج به دست آمده گویای رشد نرخ شناسایی صداها می‌باشد که تاییدی بر موثر بودن روش پیشنهادی است.
کلیدواژه	کشف و رده بندی وقایع صوتی، تجزیه نامنفی، تولید دیکشنری، بردارهای پایه، تجزیه تنک، تابع انحراف بتا، نگاشت سگمنت، نمایش زمان-فرکانس
آدرس	دانشگاه صنعتی شاهرود, دانشکده مهندسی کامپیوتر و فناوری اطلاعات, ایران, دانشگاه صنعتی شاهرود, دانشکده مهندسی کامپیوتر و فناوری اطلاعات, ایران
پست الکترونیکی	h.marvi@shahroodut.ac.ir

Audio Event Detection Using the Mapping Segment on the Dictionary in Sparse Representation

Authors	Derakhshan M. ,Marvi H.
Abstract	Audio event detection (AED) is addressed by using a segment mapping on the NMF dictionary in the sparse representation. One problem with dictionary methods is the lack of controls in the decomposition process of the input signal, so the process yields some unstructured sound pieces that are not the valid audio events. We proposed an algorithm which uses sparsity constraint and betadivergence to decompose the input segments into the predefined dictionary atoms instead. Here, the sparsity control in each segment decomposes it into a linear combination of basis vectors thereby the segment is approximated into a hypothetical audio event. This method is applied to the recognition of variety live official sound events and has promising results.
Keywords