位于英國劍橋的聲紋識別技術供應商Audio Analytic公司,正致力于將以人工智能(AI)為核心的聲音識別技術應用于消費設備中。就像語音識別可以識別說出的語句一樣,這家公司的聲音識別技術也可以分辨出狗的叫聲和嬰兒的哭聲。
Audio Analytic首席執(zhí)行官克里斯·米切爾(Chris Mitchell)表示:“這相當于一種語言模型,但它只適用于聲音。”
Audio Analytic公司的聲音識別AI系統(tǒng)AuditoryNET具有極其廣泛的用途。該公司正與德國耳機制造商Bragi合作,生產擁有AI支持功能的耳機,它可通過識別救護車的警報器,并提醒用戶其接近的方向,來優(yōu)先考慮用戶的安全。
米切爾說,這個想法是為了保護用戶免受“各種危險情況的傷害,因為人們正讓自己在城市里完全失聰”。
Audio Analytic公司還將AuditoryNET嵌入到智能家居設備中,如Hive Home Hub 360,它可以檢測煙霧和一氧化碳探測器、吠叫的狗或窗戶被打破的聲音。AuditoryNET不需要互聯(lián)網(wǎng)連接就能運行,這對注重隱私的人來說是個好消息。
為了訓練AuditoryNET的算法,Audio Analytic公司使用了世界上最大音頻數(shù)據(jù)收集平臺Alexandria提供的數(shù)據(jù)。米切爾說:“我們最近做的事情是繪制出我們整個聲音世界的地圖。”
圖2:Audio Analytic公司的聲音地圖包含600萬份音頻文件,包括六種類型的餐廳窗戶玻璃碎裂的聲音。
Audio Analytic公司已經(jīng)創(chuàng)建了一個包含600多萬個音頻文件的聲音地圖。它看起來就像是個彩虹蜂巢:在視覺上代表著相似的聲音聚集在一起的彩色塊,或稱為“色調島嶼”。
米切爾表示,通過調整音量,他們的技術可以識別出有細微差別的聲音。比如來自餐廳玻璃的破碎聲就有6種,其中由玻璃制成的層壓板的碎裂聲與其他聲音截然不同。
Alexandria的音頻樣本數(shù)據(jù)池必須從頭開始構建。電影中常見的聲音是沒有用的,因為它們并不真實。米切爾說:“如果你去看最新的《復仇者聯(lián)盟》電影,我敢肯定綠巨人會把什么東西掉在車上。”
他說:“那個汽車警報器發(fā)出的聲音并不是真正的汽車警報器。”這種聲音將訓練AI面對虛假的現(xiàn)實,通常是災難性的,比如需要檢測是否有人闖入汽車。因此,該公司建立了自己的實驗室來捕捉原始聲音,并派出團隊在各種環(huán)境中錄制其他聲音。
他們甚至依靠志愿者網(wǎng)絡進入聲音實驗室,或者使用錄音機捕捉真實世界中的各種聲音。
Audio Analytic公司的未來計劃依然處于保密之中,但它的目標十分明確,即繼續(xù)開發(fā)識別家庭內外聲音的技術,包括那些聽起來像警報器的鳥鳴。(選自:WIRED作者:Will Bedingfield編譯:網(wǎng)易智能 參與:小小)