探秘小米聲學(xué)實(shí)驗(yàn)室 Daniel Povey為何選擇小米?
在小米科技園舉辦針對(duì)人工智能的媒體開(kāi)放日,網(wǎng)易科技也第一次近距離地接觸了小米“神秘”的人工智能實(shí)驗(yàn)室。小米集團(tuán)副總裁、集團(tuán)技術(shù)委員會(huì)主席崔寶秋博士、人工智能部總經(jīng)理葉航軍博士、AI實(shí)驗(yàn)室主任王斌博士,介紹了小米在AI領(lǐng)域的自主研發(fā)技術(shù)成果、技術(shù)人才引進(jìn)情況。
葉航軍、崔寶秋、王斌(從左至右)
探秘小米聲學(xué)實(shí)驗(yàn)室
首先我們來(lái)到小米聲學(xué)語(yǔ)音實(shí)驗(yàn)室,可以看到,各種以小米智能硬件生態(tài)鏈核心產(chǎn)品小愛(ài)音箱為中樞,四周布滿(mǎn)了供聲學(xué)語(yǔ)音測(cè)試使用的硬件設(shè)備,據(jù)介紹,小米的智能硬件產(chǎn)品中,所有具備麥克風(fēng)、揚(yáng)聲器的語(yǔ)音交互設(shè)備,都要經(jīng)過(guò)這個(gè)實(shí)驗(yàn)室測(cè)試后上線(xiàn)。目前,小愛(ài)音箱語(yǔ)音算法已經(jīng)做到由小米全部自主研發(fā),在這個(gè)實(shí)驗(yàn)室中,以小愛(ài)音箱為代表的小米全系智能語(yǔ)音設(shè)備,均會(huì)進(jìn)行遠(yuǎn)場(chǎng)、近場(chǎng)、靈敏度等一系列詳細(xì)測(cè)試并進(jìn)行調(diào)試,其中近場(chǎng)測(cè)試,主要針對(duì)手機(jī)進(jìn)行。
圖:小米聲學(xué)語(yǔ)音實(shí)驗(yàn)室
據(jù)現(xiàn)場(chǎng)工程師介紹,實(shí)驗(yàn)室中的人工模型及揚(yáng)聲器等設(shè)備,均會(huì)高度會(huì)模擬日常的人聲及環(huán)境音、噪聲干擾等,其中人聲的測(cè)試,機(jī)器可以分別模擬不同性別、不同年齡的聲音并反復(fù)進(jìn)行機(jī)器還原測(cè)試,而無(wú)需人工測(cè)試,既節(jié)省了人力成本,又可以保證精準(zhǔn)的測(cè)試效果。在這個(gè)實(shí)驗(yàn)室中,工程師會(huì)在測(cè)試過(guò)程中發(fā)現(xiàn)算法中可提升的部分,并反饋給小米研發(fā)團(tuán)隊(duì)進(jìn)行優(yōu)化和算法調(diào)試。
圖:小米聲學(xué)語(yǔ)音實(shí)驗(yàn)室
不同于前者,進(jìn)入與硬件強(qiáng)相關(guān)的聲學(xué)實(shí)驗(yàn)室后,馬上會(huì)感覺(jué)有些安靜的不適應(yīng),房間四周布滿(mǎn)了錐形吸引墻,房間整體重量約70噸,用料極其奢侈。據(jù)工程師介紹,該實(shí)驗(yàn)室內(nèi)部各個(gè)角落,都不會(huì)產(chǎn)生聲音的回波,所有聲音都會(huì)被錐形墻體吸收,因此理論上講,房間內(nèi),只存在源頭聲音一個(gè)干擾源。實(shí)驗(yàn)室包括三層墻體,均為實(shí)心磚墻,主要作用為在絕對(duì)安靜的環(huán)境條件下,對(duì)設(shè)備進(jìn)行高靈敏度的測(cè)試,以便準(zhǔn)確找到硬件設(shè)備各類(lèi)極值。
圖:小米聲學(xué)語(yǔ)音實(shí)驗(yàn)室
據(jù)介紹,語(yǔ)音識(shí)別的頂層為云識(shí)別算法,但是在硬件設(shè)備底層,要極大保證設(shè)備的靈敏度,如麥克風(fēng)對(duì)于聲音的采集,只有這樣,才可以在云端更好地進(jìn)行算法識(shí)別,小米不惜成本地打造聲學(xué)語(yǔ)音實(shí)驗(yàn)室,原因也在于此。
圖:小米智能廚衛(wèi)
接下來(lái),在體驗(yàn)了包括智能客廳、智能臥室、智能書(shū)房、智能廚衛(wèi)等以小愛(ài)同學(xué)為智能家庭中樞的小米全系智能家居場(chǎng)景后,可以很直觀地感受到,小米AIoT,已經(jīng)把之前描繪的未來(lái)智能生活場(chǎng)景完全變?yōu)榱爽F(xiàn)實(shí)。
圖:小米智能客廳
Daniel Povey
Daniel Povey是全球公認(rèn)的國(guó)際語(yǔ)音識(shí)別和AI領(lǐng)域知名教授、語(yǔ)音識(shí)別開(kāi)源工具Kaldi之父。他于1993年到2003在劍橋大學(xué)度過(guò)了自己的高等教育經(jīng)歷,獲得語(yǔ)音識(shí)別的博士學(xué)位。2003年至2008年,他在IBM研究院負(fù)責(zé)計(jì)算機(jī)語(yǔ)音識(shí)別的工作,并且獲得了Research Staff Member的角色;隨后在2008年到2012年,Daniel Povey在微軟研究院參與計(jì)算機(jī)語(yǔ)音識(shí)別方面的工作。2012年,Daniel Povey加入約翰霍普金斯大學(xué),擔(dān)任語(yǔ)言和語(yǔ)音處理中心的副教授。
圖:崔寶秋與Daniel Povey
2019年,Daniel Povey在長(zhǎng)達(dá)兩周的中國(guó)之旅中,分別走訪(fǎng)了包括清華、北大等頂級(jí)學(xué)府,以及多個(gè)中國(guó)的頭部科技互聯(lián)網(wǎng)公司,但其最終選擇了加盟小米,崔寶秋認(rèn)為,第一是因?yàn)镈aniel Povey已經(jīng)了解小米“手機(jī)+AIoT”雙引擎戰(zhàn)略生態(tài)的強(qiáng)大,同時(shí)他十分清楚語(yǔ)音識(shí)別在“手機(jī)+AIoT”雙引擎戰(zhàn)略中所扮演的重要角色;第二,Daniel Povey在參觀了小米公司總部后,了解到小米對(duì)于人才和技術(shù)的重視,以及具備大批優(yōu)秀的工程師,以及這也是吸引Daniel Povey加盟的重要原因;第三,小米從云計(jì)算、大數(shù)據(jù)到今天的AI,對(duì)于開(kāi)源的擁抱,也是吸引Daniel Povey的關(guān)鍵點(diǎn)。
崔寶秋透露,在與Daniel Povey談offer的過(guò)程中,Daniel Povey對(duì)于其他入職大部分細(xì)節(jié)基本不關(guān)心,他最關(guān)心的是保證Kaldi100%的開(kāi)源,而崔寶秋給出的回答是:對(duì)于小米來(lái)說(shuō),這根本不是問(wèn)題。Daniel Povey入職當(dāng)天,崔寶秋表示,無(wú)論對(duì)于Daniel Povey本人、對(duì)于小米、對(duì)于中國(guó)的語(yǔ)音識(shí)別屆,今天都是很重要的一天。
人工智能技術(shù)已實(shí)現(xiàn)廣泛產(chǎn)品落地
目前,小米人工智能技術(shù)實(shí)現(xiàn)了廣泛的產(chǎn)品落地,比如AI相機(jī)、小米電視、AI音箱、MIUI、搜索推薦、IoT設(shè)備等,涵蓋聲學(xué)、語(yǔ)音、深度學(xué)習(xí)、視覺(jué)等各個(gè)領(lǐng)域,一句話(huà)概括,AI在小米已經(jīng)無(wú)處不在。此外,據(jù)了解,小米還承建了智能家居國(guó)家新一代人工智能開(kāi)放創(chuàng)新平臺(tái)。
說(shuō)到小愛(ài)同學(xué),其語(yǔ)音識(shí)別技術(shù)包括聲學(xué)和語(yǔ)音,嚴(yán)格來(lái)說(shuō),這是兩個(gè)不同的技術(shù)領(lǐng)域,小米人工智能的聲學(xué)技術(shù)包括:回聲消除,去混響,聲源定位,多通道降噪以及多種麥克風(fēng)陣列解決方案;而語(yǔ)音技術(shù)則包括:?jiǎn)拘?,識(shí)別,聲紋以及語(yǔ)音合成。目前,小米小愛(ài)音箱語(yǔ)音算法已經(jīng)實(shí)現(xiàn)全部自主研發(fā)。
在參觀后的采訪(fǎng)中,葉航軍介紹,在小米“手機(jī)+AIoT”的雙引擎戰(zhàn)略里,AI扮演了非常重要的角色。在手機(jī)上,對(duì)于用戶(hù)經(jīng)常使用的拍照功能,葉航軍認(rèn)為“目前在整個(gè)行業(yè),手機(jī)相機(jī)研發(fā)有一個(gè)明顯的趨勢(shì),就是人工智能的深度整合,具體來(lái)講有兩個(gè)方面,一個(gè)就是手機(jī)相機(jī)的軟件化和算法化,之前很多手機(jī)相機(jī)的體驗(yàn)是靠硬件去做,但是最近這兩年,一些領(lǐng)先的體驗(yàn)是通過(guò)軟件算法實(shí)現(xiàn)。 第二個(gè)趨勢(shì)就是算法AI化,越來(lái)越多的相機(jī)算法從傳統(tǒng)圖像處理算法轉(zhuǎn)變成AI算法。”
王斌博士則分享了小米AI自主研發(fā)技術(shù)成果,目前小米已經(jīng)在聲學(xué)、語(yǔ)音、視覺(jué),NLP、知識(shí)圖譜、機(jī)器學(xué)習(xí)6大方向取得一系列成果。此外,王斌還介紹了小米在視覺(jué)、NLP、知識(shí)圖譜、機(jī)器學(xué)習(xí)等技術(shù)上的進(jìn)展。視覺(jué)方面,自研的人臉識(shí)別、美顏、魔法換天、場(chǎng)景識(shí)別在多款手機(jī)上落地應(yīng)用。小米已經(jīng)打造了自己的NLP平臺(tái)和知識(shí)圖譜,全面支撐公司的多項(xiàng)內(nèi)容業(yè)務(wù)。小米面向移動(dòng)端的深度學(xué)習(xí)開(kāi)源計(jì)算平臺(tái)MACE(Mobile AI Compute Engine)一推出便受到業(yè)界的廣泛關(guān)注,目前廣泛用于公司的各項(xiàng)產(chǎn)品中。
公開(kāi)數(shù)據(jù)顯示,2016年—2018年間,小米在AI領(lǐng)域申請(qǐng)專(zhuān)利684項(xiàng),列居世界第11位。在宣布“手機(jī)+AIoT”雙引擎戰(zhàn)略為未來(lái)5年內(nèi)小米的核心戰(zhàn)略同時(shí),雷軍表示,未來(lái)5年小米將在AIoT領(lǐng)域持續(xù)投入超過(guò)100億元,綜合人才、技術(shù)積累以及資金投入等因素,不難推測(cè),相對(duì)于競(jìng)品,小愛(ài)音箱的線(xiàn)下場(chǎng)景優(yōu)勢(shì)依然具備提升空間。(張楠)