久久久久久久视色,久久电影免费精品,中文亚洲欧美乱码在线观看,在线免费播放AV片

<center id="vfaef"><input id="vfaef"><table id="vfaef"></table></input></center>

    <p id="vfaef"><kbd id="vfaef"></kbd></p>

    
    
    <pre id="vfaef"><u id="vfaef"></u></pre>

      <thead id="vfaef"><input id="vfaef"></input></thead>

    1. 站長資訊網(wǎng)
      最全最豐富的資訊網(wǎng)站

      百度語音識別技術(shù)突破,巨頭崛起,傳統(tǒng)沒落?

        語音識別行業(yè)正面臨新一輪的洗牌。

        早在兩年前,大家的普遍認識是語音識別領(lǐng)域?qū)呱鼍揞^公司。所以當(dāng)蘋果、Google、百度、三星和微軟提出要收購當(dāng)時全球語音領(lǐng)域的老大Nuance的時候,Nuance CEO Paul Ricci一口回絕。

        但隨之不久,蘋果、Google和微軟都選擇了擺脫Nuance的依賴,自建團隊開發(fā)語音業(yè)務(wù)。在那之后,Nuance的市場份額節(jié)節(jié)下跌,2014年還高達60%的市場份額,一年時間縮水一半只剩31.1%(Source:Research and Markets)。相比之下,Google語音識別的市場份額增長明顯。

        在英語領(lǐng)域,我們看到的趨勢是作為搜索巨頭的Google逐漸占據(jù)行業(yè)的主導(dǎo)權(quán)。那對于中文領(lǐng)域的市場,是否會重現(xiàn)在英語領(lǐng)域語音識別發(fā)生的歷史呢?當(dāng)百度重兵布局語音領(lǐng)域,是否會成為中國語音識別領(lǐng)域標(biāo)準(zhǔn)的制定者,占據(jù)行業(yè)主導(dǎo)權(quán)呢?

        我們從多個角度分析。

        1.語音識別新架構(gòu):用做圖像的方法做語音

        近些年來,我們發(fā)現(xiàn)在圖像領(lǐng)域有一個明顯的發(fā)展趨勢:越來越深的卷積神經(jīng)網(wǎng)絡(luò)層級(CNN),從最初的8層,到19層、22層、乃至152層的網(wǎng)絡(luò)結(jié)構(gòu)。而隨著網(wǎng)絡(luò)結(jié)構(gòu)的加深,ImageNet競賽的錯誤率也從2012年的16.4%逐步下降到3.57%。

      百度語音識別技術(shù)突破,巨頭崛起,傳統(tǒng)沒落?

      ImageNet競賽中,越來越深的CNN不斷刷新著其性能

        那么,深度學(xué)習(xí)在圖像領(lǐng)域的進展,是否能夠在語音識別上有所突破呢?

        通常情況下,語音識別是基于時頻分析后的語音譜完成的。如果將卷積神經(jīng)網(wǎng)絡(luò)的思想應(yīng)用在語音識別的聲學(xué)建模上,我們就可以把時頻譜當(dāng)作一張圖像來處理。而由于卷積神經(jīng)網(wǎng)絡(luò)的局部連接和權(quán)重共享的特點,它具有很好的平移不變性,所以可以將它應(yīng)用在語音識別中,而且還能克服語音信號本身的多樣性(說話人自身、以及說話人間、環(huán)境等)。

      百度語音識別技術(shù)突破,巨頭崛起,傳統(tǒng)沒落?

      Deep CNN語音識別的建模過程

        但這里遇到一個問題,雖然在ImageNet競賽中得到廣泛關(guān)注的Deep CNN結(jié)構(gòu)能夠顯著提高性能,但由于無法實現(xiàn)實時的計算,其很難在產(chǎn)品模型中得到實際的應(yīng)用。

        一個解決方案是借鑒Residual連接的思想,訓(xùn)練一個數(shù)十層的包含Residual連接的 Deep CNN,以用于工業(yè)產(chǎn)品中。

        百度對此做了對比實驗,最終發(fā)現(xiàn)Deep CNN架構(gòu)不僅能夠顯著提升HMM語音識別系統(tǒng)的性能,而且也能提升CTC語音識別系統(tǒng)的性能。在此同時,百度也嘗試了將LSTM或GRU的循環(huán)隱層和CNN結(jié)合,這是相對較好的選擇。

        這也推導(dǎo)出了百度發(fā)布的新型語音識別架構(gòu):Deep CNN + LSTM + CTC。

        模型結(jié)構(gòu)采用:Deep CNN + Deep LSTM。

        建模方式:基于CTC的端對端建模。

        通過創(chuàng)新的架構(gòu),百度大幅提升了語音識別產(chǎn)品的性能,相對于工業(yè)界現(xiàn)有的CLDNN 結(jié)構(gòu),錯誤率相對降低了10%以上。

        2.新架構(gòu)推動語音大規(guī)模產(chǎn)業(yè)化

        從歷史來看,產(chǎn)品和系統(tǒng)真正的大規(guī)模使用和推廣,一般都來自于基礎(chǔ)性的變革和突破。

        對于語音識別來說,真正能夠?qū)崿F(xiàn)大規(guī)模使用的系統(tǒng),一定要滿足:在不同場景、方言下的穩(wěn)定性,大規(guī)模的訓(xùn)練能力,極短的訓(xùn)練時間,大大降低的機器耗費。這好比 Android 一樣,穩(wěn)定、支持海量應(yīng)用和場景開發(fā)、開發(fā)時間短、開發(fā)成本低。

        而Deep CNN和LSTM、CTC結(jié)合的架構(gòu),在以下幾個方面有顯著的優(yōu)勢:

        1)更強的通用性。使用一個單獨的算法完成從任務(wù)輸入端到輸出端的所有過程。

        2)大規(guī)模訓(xùn)練的能力。能夠在約10萬小時的精準(zhǔn)標(biāo)注語音數(shù)據(jù)中完成訓(xùn)練。

        3)大大降低服務(wù)成本。以CTC為例,它能夠讓語音識別解碼的計算量降下來,光這部分成本就能降低近1倍。

        4)適合工業(yè)界。據(jù)百度Deep Speech中文研發(fā)負責(zé)人李先剛介紹,百度不僅能達到近十萬級的數(shù)據(jù)規(guī)模,而且能夠支持高性能計算,這可以讓優(yōu)秀的模型直接移植到產(chǎn)品線中。

        5)性能更優(yōu)秀。以往語音系統(tǒng)將訓(xùn)練過程拆解,人為干預(yù)多,但效果不一定好。端對端模型減少了人為干預(yù),直接從輸入端到輸出端,一般性能會更好。

        6)層數(shù)越深,效果越好。引入了深層CNN的概念,語音識別的性能得到顯著的提升,正如李先剛博士所言:‘The Deeper , The Better’。

        李先剛博士特意提到了百度語音的研發(fā)側(cè)重點。與學(xué)術(shù)研究不同,百度語音聚焦于技術(shù)的實際應(yīng)用,技術(shù)難度和實現(xiàn)程度更高。針對語音識別產(chǎn)品而言,首先要具備在大規(guī)模語音數(shù)據(jù)庫上體現(xiàn)性能提升,其次就是具有適合語音在線識別產(chǎn)品運行的模型。

        正是基于以上這些優(yōu)勢,讓百度語音識別真正成為大規(guī)模產(chǎn)業(yè)化的基礎(chǔ),帶來真正的人機交互變革。

        3.語音識別以量取勝的同時,也以質(zhì)取勝

        語音識別技術(shù)經(jīng)歷了長達60年的發(fā)展。2006年Hinton提出了深度置信網(wǎng)絡(luò),掀起了深度學(xué)習(xí)的熱潮。2009年,Hinton以及他的學(xué)生D. Mohamed將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于語音的聲學(xué)建模,在小詞匯量連續(xù)語音識別數(shù)據(jù)庫TIMIT上獲得成功。從2010年開始,微軟的俞棟、鄧力等學(xué)者首先嘗試將深度學(xué)習(xí)技術(shù)引入到語音識別,隨后逐漸成為了主流。

        而在以深度學(xué)習(xí)的發(fā)展脈絡(luò)下,語音識別的準(zhǔn)確率和通用性,本質(zhì)就在于:

        數(shù)據(jù)量的多少,這很大程度來自于搜索量、使用量的規(guī)模;

        算法的優(yōu)劣,頂級人才在這方面有極其重要的作用;

        計算能力的水平,尤其是在大規(guī)模產(chǎn)業(yè)化和成本因素下,F(xiàn)PGA等專業(yè)硬件的發(fā)展水平也非常重要。

        而在這三方面的比拼中,巨頭公司將會占據(jù)極大的優(yōu)勢,因為它們擁有最多的數(shù)據(jù),最頂級的人才以及最強大的計算能力水平。所以當(dāng)Google開放語音識別API 后,在英語語音識別的市場中,Google將比Nuance有更大的優(yōu)勢。

        而在中文市場中,百度也將扮演著和Google在英語市場相似的角色。

        4.傳統(tǒng)專利池受到挑戰(zhàn),競爭回歸技術(shù)

        語音識別的模型算法每年都有很大的變化。就以百度自己的語音識別技術(shù)來說,2013 年語音識別技術(shù)主要還是基于美爾子帶CNN模型,2014年發(fā)展出了Sequence Discriminative Training(區(qū)分度模型),2015年初發(fā)展出基于LSTM –HMM的語音識別,年底發(fā)展出基于LSTM-CTC的端對端語音識別系統(tǒng),而現(xiàn)在把Deep CNN模型和 LSTM、CTC結(jié)合了起來。

      百度語音識別技術(shù)突破,巨頭崛起,傳統(tǒng)沒落?

      百度語音識別技術(shù)每年迭代算法模型

        在快速發(fā)展的技術(shù)下,很多公司選擇了采取組建知識產(chǎn)權(quán)產(chǎn)業(yè)聯(lián)盟的方法。2015年 11月,百度開放了上百項智能語音專利,和海爾、京東、中興通訊、中國普天等 20 多家單位組建了智能語音知識產(chǎn)權(quán)產(chǎn)業(yè)聯(lián)盟。

        這種開放式創(chuàng)新和開放式知識產(chǎn)權(quán)許可的結(jié)合,也許會成為智能語音未來的產(chǎn)業(yè)核心模式。這也意味著傳統(tǒng)語音的專利池,在快速發(fā)展、迭代的語音技術(shù)下,在更開放的語音聯(lián)盟下,會失去過去的保護作用。

        所以智能語音的未來發(fā)展,關(guān)鍵還是在于核心技術(shù)的突破,這也就來到了數(shù)據(jù)、算法和計算能力的比拼,這方面百度會有很大優(yōu)勢。

        5.人工智能技術(shù)生態(tài)的重要作用

        當(dāng)Google發(fā)布了語音開放API,其對Nuance的打擊是致命的。這不僅僅是因為Google在產(chǎn)品、技術(shù)上的優(yōu)勢,而且也來自于Google強大的人工智能技術(shù)生態(tài),例如以TensorFlow為代表的深度學(xué)習(xí)引擎,因為大量的一線工作人員使用,其對語音識別領(lǐng)域的開發(fā)選擇有強大的影響力。

        當(dāng)語音技術(shù)逐漸往大規(guī)模產(chǎn)業(yè)化發(fā)展時,公司的技術(shù)生態(tài)會非常重要。對于百度來說,9月份開源的PaddlePaddle,1月份開源的Warp-CTC,都對產(chǎn)業(yè)界有深遠的影響。

        基于上面的分析,我們認為語音識別將進入大規(guī)模產(chǎn)業(yè)化的時代。而在核心技術(shù)和能力的比拼下,語音識別也將進入巨頭崛起,傳統(tǒng)語音公司稍顯沒落的時代。

      特別提醒:本網(wǎng)信息來自于互聯(lián)網(wǎng),目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,并請自行核實相關(guān)內(nèi)容。本站不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系我們,本站將會在24小時內(nèi)處理完畢。

      贊(0)
      分享到: 更多 (0)
      網(wǎng)站地圖   滬ICP備18035694號-2    滬公網(wǎng)安備31011702889846號