騰訊企業(yè)郵箱,QQ企業(yè)郵箱,唯一與微信完美結(jié)合的企業(yè)郵箱.騰訊企業(yè)郵箱客服電話4008-919-003,騰訊企業(yè)郵箱團(tuán)隊(duì)傾力打造,收費(fèi)版整合了更多企業(yè)應(yīng)用,速度更快,收發(fā)更順暢,服務(wù)更穩(wěn)定.騰訊企業(yè)郵箱登錄入口,QQ企業(yè)郵箱登錄入口,購(gòu)買(mǎi)騰訊企業(yè)郵箱,騰訊QQ企業(yè)郵箱,騰訊免費(fèi)企業(yè)郵箱,騰訊企業(yè)郵箱經(jīng)銷(xiāo)商,深圳騰訊企業(yè)郵箱,廣東騰訊企業(yè)郵箱,東莞騰訊企業(yè)郵箱.
語(yǔ)音通訊領(lǐng)域的國(guó)際頂級(jí)學(xué)術(shù)會(huì)議 Interspeech 2017 在瑞典斯德哥爾摩舉辦,騰訊音視頻試驗(yàn)室王燕南博士的一篇論文中選,并獲邀在大會(huì)作了 oral 陳說(shuō),本文對(duì)此論文進(jìn)行了介紹。讀者可點(diǎn)擊閱讀原文檢查該論文。
Interspeech 是由國(guó)際語(yǔ)音通訊協(xié)會(huì) ISCA(International Speech Communication Association)安排的語(yǔ)音研討領(lǐng)域的頂級(jí)會(huì)議之一,是全球最大的綜合性語(yǔ)音信號(hào)處理領(lǐng)域的科技盛會(huì),該會(huì)議每年舉辦一次,每次都會(huì)招引全球語(yǔ)音信號(hào)領(lǐng)域以及人工智能領(lǐng)域出名學(xué)者、企業(yè)以及研發(fā)人員參與。
騰訊音視頻試驗(yàn)室王燕南博士的論文《A Maximum Likelihood Approach to Deep Neural Network Based Nonlinear Spectral Mapping for Single-Channel Speech Separation》中選 Interspeech 2017,并受邀在會(huì)場(chǎng)進(jìn)行了 oral 陳說(shuō)。
王燕南博士的論文主要內(nèi)容是研討在單通道語(yǔ)音分別中運(yùn)用的深度神經(jīng)網(wǎng)絡(luò)的操練優(yōu)化,該技術(shù)旨在從混合的多個(gè)說(shuō)話人的語(yǔ)音信號(hào)中分別出政策說(shuō)話人的語(yǔ)音,在語(yǔ)音辨認(rèn)、語(yǔ)音通話以及殘疾人助聽(tīng)領(lǐng)域等均具有重要運(yùn)用。
瑞典當(dāng)?shù)貢r(shí)間 8 月 22 日下午兩點(diǎn)半,在 Interspeech 2017 會(huì)場(chǎng),王博士做 oral 陳說(shuō)。
在這篇論文中,王博士的研討著重于改進(jìn)單通道語(yǔ)音分別匯總依據(jù)深度神經(jīng)網(wǎng)絡(luò)的頻譜映射方法中常用的最小均方過(guò)失準(zhǔn)則(MMSE, minimum mean squared error)。在依據(jù)深度神經(jīng)網(wǎng)絡(luò)的單通道語(yǔ)音分別中,通過(guò)多類(lèi)回歸方法從混合語(yǔ)音頻譜中恢復(fù)政策說(shuō)話人的語(yǔ)音,主要是依據(jù) MMSE 準(zhǔn)則最小化網(wǎng)絡(luò)輸出的語(yǔ)音頻譜和政策頻譜的差異。對(duì)此,王博士等人通過(guò)對(duì)深度神經(jīng)網(wǎng)絡(luò)的輸出的猜想過(guò)失進(jìn)行統(tǒng)計(jì)分析,發(fā)現(xiàn)輸出的對(duì)數(shù)功率譜每一維分量都遵守一個(gè)單峰分布,如下圖所示:
由此引入零均值的高斯分布函數(shù)來(lái)描繪神經(jīng)網(wǎng)絡(luò)的猜想過(guò)失矢量,引入對(duì)其進(jìn)行概率分布的學(xué)習(xí),然后運(yùn)用最大似然估計(jì)方法操練深度神經(jīng)網(wǎng)絡(luò)的參數(shù),如下圖所示。
通過(guò)試驗(yàn)對(duì)比發(fā)現(xiàn),依據(jù)該最大似然方法操練的神經(jīng)網(wǎng)絡(luò)分其他語(yǔ)音在不同的客觀指標(biāo)上均超過(guò)了運(yùn)用傳統(tǒng)的最小均方過(guò)失準(zhǔn)則操練的神經(jīng)網(wǎng)絡(luò)。
其他,通過(guò)在驗(yàn)證集上的 reconstruction loss 的改動(dòng)情況對(duì)比,王博士等人發(fā)現(xiàn)該模型有更強(qiáng)的泛化才能,而在收斂速度上,該方法也具有顯著的優(yōu)勢(shì),對(duì)比情況如下圖所示。
作者簡(jiǎn)介
王燕南,結(jié)業(yè)于中國(guó)科學(xué)技術(shù)大學(xué)語(yǔ)音信號(hào)與信息處理國(guó)家工程試驗(yàn)室,研討領(lǐng)域包括語(yǔ)音增強(qiáng)和分別、語(yǔ)種辨認(rèn)、手寫(xiě)辨認(rèn)等,在 Interspeech 等出名語(yǔ)音國(guó)際會(huì)議以及 IEEE Transaction on Audio,Speech and Language Processing 期刊宣布多篇文章,在無(wú)監(jiān)督語(yǔ)音分別方法上做出了重要貢獻(xiàn)。王博士于 2017 年參與騰訊音視頻試驗(yàn)室,專(zhuān)注于語(yǔ)音增強(qiáng)以及分別等前端信號(hào)處理領(lǐng)域研討。
關(guān)于騰訊音視頻試驗(yàn)室
騰訊音視頻試驗(yàn)室,組建于 2016 年 11 月,專(zhuān)注于音視頻通訊技術(shù)的前瞻性研討,包括全球?qū)崟r(shí)音視頻網(wǎng)絡(luò)優(yōu)化,音視頻編解碼前沿算法研討、計(jì)算機(jī)視覺(jué)圖畫(huà)處理、依據(jù) AI 的音頻語(yǔ)音增強(qiáng)、動(dòng)靜美化及音視頻質(zhì)量評(píng)測(cè)等。
在效力于騰訊外交體系下的海量用戶一同,在實(shí)時(shí)音視頻通訊、圖畫(huà)處理和音視頻處理等技術(shù)領(lǐng)域積累了十幾年的研討閱歷,具有工作搶先的技術(shù)水平?,F(xiàn)在已為工作數(shù)百個(gè)產(chǎn)品供應(yīng)了音視頻技術(shù)支撐與效力,如 QQ 電話、騰訊云、企業(yè)微信、QQ 空間、全民 K 歌、快手、斗魚(yú)、虎牙、蘑菇街等。
文章內(nèi)容來(lái)源于網(wǎng)絡(luò),侵刪