Blizzard Challenge 2020 國際語音合成大賽剛剛落下帷幕。由云知聲-上海師范大學自然人機交互聯(lián)合實驗室申報的系統(tǒng)在強敵環(huán)伺的賽場中突出重圍,首次參賽即斬獲中文普通話、上海話多項關鍵指標第一,再一次印證了云知聲語音合成技術(shù)在業(yè)界的領先水準。

Blizzard Challenge 國際語音合成大賽是由美國卡耐基-梅隆大學和日本名古屋工業(yè)大學聯(lián)合發(fā)起的公開的語音合成技術(shù)評測平臺,是語音合成領域最具權(quán)威性的技術(shù)評測比賽。比賽旨在構(gòu)建一個公開、統(tǒng)一的語音合成技術(shù)評測平臺,加強世界各地語音合成研究機構(gòu)之間的技術(shù)交流與溝通,共同推動語音技術(shù)的快速發(fā)展。
其作為國際上規(guī)模最大、影響力最大的語音合成大賽,至今已成功舉辦過 15 屆,每年都吸引眾多國際一流的科研單位和企業(yè)參賽。以往參賽隊伍包括 CMU(美國卡耐基-梅隆大學)、Cambridge University(英國劍橋大學)、University of Edinburge(英國愛丁堡大學)、Nitech (日本名古屋工業(yè)大學)、科大訊飛、中科院自動化所等國內(nèi)外語音合成領域的頂尖高手。
多指標領跑,強勁的綜合實力
語音作為人工智能技術(shù)發(fā)展的三大方向之一,在應用落地過程中,受外部環(huán)境影響極大,因此對語音系統(tǒng)模型、引擎等要求極為嚴苛。從語音合成需求的角度來看,自然度、相似度和可懂度是實際應用中最為核心的三大核心指標。
Blizzard Challenge 2020 分兩個任務:
1)中文普通話合成(Hub task),以高表現(xiàn)力的聲音作為合成樣本,充分考察參賽者對復雜多變的韻律節(jié)奏的把控能力,旨在輸出高真實感的合成語音,另外這次比賽還考察參賽者對段落韻律的把控能力;
2)上海話合成(Spoke task),提供的聲音數(shù)據(jù)較少,充分考察參賽者在小樣本上的學習能力。
本次比賽中,聯(lián)合實驗室團隊憑借在合成領域的深厚積累,中文普通話合成自然度 MOS 達到 4.2,段落合成所有指標(Overrall impressionpleasantnessspeech pausesstressintonationemotionlistening effort)位列第一,并且通過遷移學習,從零開始快速構(gòu)建了上海話合成系統(tǒng),合成自然度 MOS 達到4.0,雙雙領跑;與此同時,普通話相似度、上海話可懂度兩項指標亦領跑榜單,充分體現(xiàn)了團隊合成技術(shù)的綜合實力。

注:A 為真人聲,B-Q 為參賽隊伍,云知聲-上海師范大學聯(lián)合實驗室隊伍代碼為 I

注:自然度主要評價合成語音是否像真人說話一樣自然流暢,相似度主要評價合成語音與目標說話人在音色和韻律上的相似程度,自然度和相似度是合成系統(tǒng)的最重要的兩個評測指標,分數(shù)越高,說明效果越好。一般大學生發(fā)音自然度為 4.0 分。由于上海話原始數(shù)據(jù)質(zhì)量較低,團隊為了獲得更好的聽感,對原始語音進行了升采樣率的處理,所以相似度方向會有損傷。
本次大賽上,團隊采用業(yè)界主流的端到端合成技術(shù),并針對端到端合成系統(tǒng)普遍存在的穩(wěn)定性和效率問題進行了較多優(yōu)化,在解決穩(wěn)定性的同時,可以實現(xiàn)高效率的合成。目前,該項技術(shù)已經(jīng)在云知聲家居、金融、兒童機器人等業(yè)務領域合作伙伴的產(chǎn)品中廣泛使用,并取得良好反響。
另外,本次比賽涉及大規(guī)模高復雜度的模型訓練,在這過程充分體現(xiàn)了云知聲計算資源優(yōu)勢。實際上,從 2012 年開始,云知聲便開始搭建自身的 DeepFlow 集群,該異構(gòu)化硬件服務器集群可向上提供密集的計算和存儲能力,保證云知聲研發(fā)團隊充足算力的支持。目前該集群規(guī)模為 1000GPU 以上,計算能力達 1 億億次/秒,在以美國的 IBM Summit 超算平臺、我國的神威太湖之光超算平臺為代表的全球超算平臺算力排名中位列前 20 位。

在 DeepFlow 集群的支撐下,云知聲建設完成了 Atlas 分布式機器學習并行計算平臺,可內(nèi)部協(xié)同共享 AI 底層研發(fā)技術(shù)成果,遷移復用至各領域應用,最終完成 ASR、TTS、NLU 等頂層 AI 技術(shù)的輸出與應用。
參賽只是一場自我測試,技術(shù)研究的終點一定是應用。未來,云知聲將以此實驗室研究成果為支撐,生成有溫度的聲音,幫助客戶打造完美的人際交互體驗。
特別提醒:本網(wǎng)內(nèi)容轉(zhuǎn)載自其他媒體,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,并請自行核實相關內(nèi)容。本站不承擔此類作品侵權(quán)行為的直接責任及連帶責任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系我們,本站將會在24小時內(nèi)處理完畢。