|
|
کشف و رده بندی وقایع صوتی محیطی با استفاده از نگاشت سگمنت بر دیکشنری در نمایش تنک
|
|
|
|
|
نویسنده
|
درخشان مراد ,مروی حسین
|
منبع
|
مهندسي برق دانشگاه تبريز - 1397 - دوره : 48 - شماره : 4 - صفحه:1529 -1540
|
چکیده
|
در اینجا کشف و رده بندی وقایع صوتی محیطی با استفاده از نگاشت سگمنت بر دیکشنری در نمایش تنک مورد پژوهش قرار گرفته است. یکی از مشکلات رویکردهای مبتنی بر دیکشنری، نبود کنترل لازم در نحوه نگاشت سگمنتهای ورودی بر بردارهای پایه دیکشنری جهت شناسایی صدای موجود در سگمنت است. این عدم کنترل، سبب تجزیه سگمنت به تعدادی از اصوات کوچک که بخشهای سگمنت هستند میشود. در اینجا الگوریتمی جهت کنترل صریح نگاشت هر سگمنت بر بردارهای پایه دیکشنری پیشنهاد شده است که از طریق بهکارگیری تابع انحرافبتا و کنترل تنکی تجزیه نامنفی دنبال میشود و کل سگمنت را به عنوان یک واقعه صوتی شناسایی میکند. در عمل با کنترل میزان تنکی، هر سگمنت با مجموع چند بردار پایه تقریب زده میشود بهطوری که کل سگمنت یکجا شناسایی شود. این الگوریتم در مراحل تست جهت شناسایی صداهای محیط اداری بکار رفته و نتایج به دست آمده گویای رشد نرخ شناسایی صداها میباشد که تاییدی بر موثر بودن روش پیشنهادی است.
|
کلیدواژه
|
کشف و رده بندی وقایع صوتی، تجزیه نامنفی، تولید دیکشنری، بردارهای پایه، تجزیه تنک، تابع انحراف بتا، نگاشت سگمنت، نمایش زمان-فرکانس
|
آدرس
|
دانشگاه صنعتی شاهرود, دانشکده مهندسی کامپیوتر و فناوری اطلاعات, ایران, دانشگاه صنعتی شاهرود, دانشکده مهندسی کامپیوتر و فناوری اطلاعات, ایران
|
پست الکترونیکی
|
h.marvi@shahroodut.ac.ir
|
|
|
|
|
|
|
|
|
Audio Event Detection Using the Mapping Segment on the Dictionary in Sparse Representation
|
|
|
Authors
|
Derakhshan M. ,Marvi H.
|
Abstract
|
Audio event detection (AED) is addressed by using a segment mapping on the NMF dictionary in the sparse representation. One problem with dictionary methods is the lack of controls in the decomposition process of the input signal, so the process yields some unstructured sound pieces that are not the valid audio events. We proposed an algorithm which uses sparsity constraint and betadivergence to decompose the input segments into the predefined dictionary atoms instead. Here, the sparsity control in each segment decomposes it into a linear combination of basis vectors thereby the segment is approximated into a hypothetical audio event. This method is applied to the recognition of variety live official sound events and has promising results.
|
Keywords
|
|
|
|
|
|
|
|
|
|
|
|