騰訊企業(yè)郵箱,QQ企業(yè)郵箱,企業(yè)郵箱---騰訊音視頻實(shí)驗(yàn)室Interspeech 2017論文：?jiǎn)瓮ǖ勒Z(yǔ)音分離中應(yīng)用深度

2019-04-30

騰訊企業(yè)郵箱,QQ企業(yè)郵箱,唯一與微信完美結(jié)合的企業(yè)郵箱.騰訊企業(yè)郵箱客服電話4008-919-003,騰訊企業(yè)郵箱團(tuán)隊(duì)傾力打造,收費(fèi)版整合了更多企業(yè)應(yīng)用,速度更快,收發(fā)更順暢,服務(wù)更穩(wěn)定.騰訊企業(yè)郵箱登錄入口,QQ企業(yè)郵箱登錄入口,購(gòu)買(mǎi)騰訊企業(yè)郵箱,騰訊QQ企業(yè)郵箱,騰訊免費(fèi)企業(yè)郵箱,騰訊企業(yè)郵箱經(jīng)銷(xiāo)商,深圳騰訊企業(yè)郵箱,廣東騰訊企業(yè)郵箱,東莞騰訊企業(yè)郵箱.

語(yǔ)音通訊領(lǐng)域的國(guó)際頂級(jí)學(xué)術(shù)會(huì)議 Interspeech 2017 在瑞典斯德哥爾摩舉辦，騰訊音視頻試驗(yàn)室王燕南博士的一篇論文中選，并獲邀在大會(huì)作了 oral 陳說(shuō)，本文對(duì)此論文進(jìn)行了介紹。讀者可點(diǎn)擊閱讀原文檢查該論文。

Interspeech 是由國(guó)際語(yǔ)音通訊協(xié)會(huì) ISCA（International Speech Communication Association）安排的語(yǔ)音研討領(lǐng)域的頂級(jí)會(huì)議之一，是全球最大的綜合性語(yǔ)音信號(hào)處理領(lǐng)域的科技盛會(huì)，該會(huì)議每年舉辦一次，每次都會(huì)招引全球語(yǔ)音信號(hào)領(lǐng)域以及人工智能領(lǐng)域出名學(xué)者、企業(yè)以及研發(fā)人員參與。

騰訊音視頻試驗(yàn)室王燕南博士的論文《A Maximum Likelihood Approach to Deep Neural Network Based Nonlinear Spectral Mapping for Single-Channel Speech Separation》中選 Interspeech 2017，并受邀在會(huì)場(chǎng)進(jìn)行了 oral 陳說(shuō)。

王燕南博士的論文主要內(nèi)容是研討在單通道語(yǔ)音分別中運(yùn)用的深度神經(jīng)網(wǎng)絡(luò)的操練優(yōu)化，該技術(shù)旨在從混合的多個(gè)說(shuō)話人的語(yǔ)音信號(hào)中分別出政策說(shuō)話人的語(yǔ)音，在語(yǔ)音辨認(rèn)、語(yǔ)音通話以及殘疾人助聽(tīng)領(lǐng)域等均具有重要運(yùn)用。

瑞典當(dāng)?shù)貢r(shí)間 8 月 22 日下午兩點(diǎn)半，在 Interspeech 2017 會(huì)場(chǎng)，王博士做 oral 陳說(shuō)。

在這篇論文中，王博士的研討著重于改進(jìn)單通道語(yǔ)音分別匯總依據(jù)深度神經(jīng)網(wǎng)絡(luò)的頻譜映射方法中常用的最小均方過(guò)失準(zhǔn)則（MMSE, minimum mean squared error）。在依據(jù)深度神經(jīng)網(wǎng)絡(luò)的單通道語(yǔ)音分別中，通過(guò)多類(lèi)回歸方法從混合語(yǔ)音頻譜中恢復(fù)政策說(shuō)話人的語(yǔ)音，主要是依據(jù) MMSE 準(zhǔn)則最小化網(wǎng)絡(luò)輸出的語(yǔ)音頻譜和政策頻譜的差異。對(duì)此，王博士等人通過(guò)對(duì)深度神經(jīng)網(wǎng)絡(luò)的輸出的猜想過(guò)失進(jìn)行統(tǒng)計(jì)分析，發(fā)現(xiàn)輸出的對(duì)數(shù)功率譜每一維分量都遵守一個(gè)單峰分布，如下圖所示：

由此引入零均值的高斯分布函數(shù)來(lái)描繪神經(jīng)網(wǎng)絡(luò)的猜想過(guò)失矢量，引入對(duì)其進(jìn)行概率分布的學(xué)習(xí)，然后運(yùn)用最大似然估計(jì)方法操練深度神經(jīng)網(wǎng)絡(luò)的參數(shù)，如下圖所示。

通過(guò)試驗(yàn)對(duì)比發(fā)現(xiàn)，依據(jù)該最大似然方法操練的神經(jīng)網(wǎng)絡(luò)分其他語(yǔ)音在不同的客觀指標(biāo)上均超過(guò)了運(yùn)用傳統(tǒng)的最小均方過(guò)失準(zhǔn)則操練的神經(jīng)網(wǎng)絡(luò)。

其他，通過(guò)在驗(yàn)證集上的 reconstruction loss 的改動(dòng)情況對(duì)比，王博士等人發(fā)現(xiàn)該模型有更強(qiáng)的泛化才能，而在收斂速度上，該方法也具有顯著的優(yōu)勢(shì)，對(duì)比情況如下圖所示。

作者簡(jiǎn)介

王燕南，結(jié)業(yè)于中國(guó)科學(xué)技術(shù)大學(xué)語(yǔ)音信號(hào)與信息處理國(guó)家工程試驗(yàn)室，研討領(lǐng)域包括語(yǔ)音增強(qiáng)和分別、語(yǔ)種辨認(rèn)、手寫(xiě)辨認(rèn)等，在 Interspeech 等出名語(yǔ)音國(guó)際會(huì)議以及 IEEE Transaction on Audio,Speech and Language Processing 期刊宣布多篇文章，在無(wú)監(jiān)督語(yǔ)音分別方法上做出了重要貢獻(xiàn)。王博士于 2017 年參與騰訊音視頻試驗(yàn)室，專(zhuān)注于語(yǔ)音增強(qiáng)以及分別等前端信號(hào)處理領(lǐng)域研討。

關(guān)于騰訊音視頻試驗(yàn)室

騰訊音視頻試驗(yàn)室，組建于 2016 年 11 月，專(zhuān)注于音視頻通訊技術(shù)的前瞻性研討，包括全球?qū)崟r(shí)音視頻網(wǎng)絡(luò)優(yōu)化，音視頻編解碼前沿算法研討、計(jì)算機(jī)視覺(jué)圖畫(huà)處理、依據(jù) AI 的音頻語(yǔ)音增強(qiáng)、動(dòng)靜美化及音視頻質(zhì)量評(píng)測(cè)等。

在效力于騰訊外交體系下的海量用戶一同，在實(shí)時(shí)音視頻通訊、圖畫(huà)處理和音視頻處理等技術(shù)領(lǐng)域積累了十幾年的研討閱歷，具有工作搶先的技術(shù)水平?，F(xiàn)在已為工作數(shù)百個(gè)產(chǎn)品供應(yīng)了音視頻技術(shù)支撐與效力，如 QQ 電話、騰訊云、企業(yè)微信、QQ 空間、全民 K 歌、快手、斗魚(yú)、虎牙、蘑菇街等。

文章內(nèi)容來(lái)源于網(wǎng)絡(luò)，侵刪

知識(shí)產(chǎn)權(quán)

工商財(cái)稅

數(shù)字化建設(shè)

資質(zhì)認(rèn)證

人事服務(wù)

騰訊企業(yè)郵箱,QQ企業(yè)郵箱,企業(yè)郵箱---騰訊音視頻實(shí)驗(yàn)室Interspeech 2017論文：?jiǎn)瓮ǖ勒Z(yǔ)音分離中應(yīng)用深度

推薦閱讀