Microsoft Azure 人工智能認(rèn)知服務(wù)首席技術(shù)官黃學(xué)東表示,該公司基于“自定義神經(jīng)語音”技術(shù)的文本轉(zhuǎn)語音(TTS)功能已經(jīng)正式推出。據(jù)悉,自 2019 年 9 月開放預(yù)覽以來,這項技術(shù)已被 AT&T、多鄰國、Progressive 和瑞士電信等組織用于開發(fā)讓客戶感到滿意的品牌語音解決方案。

(來自:Microsoft)
黃學(xué)東表示,開發(fā)者可使用其音頻數(shù)據(jù)和深度神經(jīng)網(wǎng)絡(luò)(DNN)打造個性化的語音體驗。不過這項技術(shù)的切實突破,體現(xiàn)在能夠高效利用深度學(xué)習(xí)技術(shù)來處理文本,以確保 TTS 發(fā)音和韻律的準(zhǔn)確無誤。
所謂韻律,特指每個音素的音調(diào)和持續(xù)時間。微軟 AI 技術(shù)研究人員將之無縫地結(jié)合到了一起,以盡可能地再現(xiàn)類似真人的語音。此外,自定義神經(jīng)語音技術(shù)能夠帶來較傳統(tǒng) TTS 語音轉(zhuǎn)換更自然的效果。
具體說來是,微軟借助了“語音字庫”(Voice Fonts)和多種神經(jīng)網(wǎng)絡(luò),來確保持續(xù)時間和每個因素音調(diào)的準(zhǔn)確性,讓機器學(xué)習(xí)模型推導(dǎo)出聽起來更自然的合成語音。
Getting started with Custom Neural Voice(via)
對此感興趣的客戶,只需將其錄制的基礎(chǔ)語音庫上傳到 Custom Neural Voice 平臺展開模型訓(xùn)練,然后就能產(chǎn)出自然的合成語音,且期間無需開發(fā)者的更多干預(yù)。
微軟詳細介紹了包括華納兄弟和 AT&T 在內(nèi)的多家公司的實際用例,比如你可以在達拉斯的 AT&T 體驗店與 Bugs Bunny 展開互動。
對于語音助手、客服聊天機器人、有聲書朗讀、以及在線學(xué)習(xí)等應(yīng)用場景來說,這項技術(shù)顯得特別實用。不過為了防止被惡意利用,微軟還是決定對其開放有限的訪問。
除了需要預(yù)先獲得批準(zhǔn),微軟還計劃在合成語音中加入數(shù)字水印,以便人們可據(jù)此分辨聽到的是由 Custom Neural Voice 技術(shù)創(chuàng)建的合成語音內(nèi)容。
特別提醒:本網(wǎng)內(nèi)容轉(zhuǎn)載自其他媒體,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,并請自行核實相關(guān)內(nèi)容。本站不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系我們,本站將會在24小時內(nèi)處理完畢。