AIoT正在成為科技公司們爭搶的下一座城池。
2016年開始,智能手機行業(yè)紅利開始見頂,手機廠商可爭奪的存量市場不斷被壓縮,這時,硬件領域的新機會延伸到了智能音箱、智能家電,以及可穿戴設備。智能硬件也相應地成為互聯網的新入口,國內外多家巨頭已早早開始爭奪這部分還未被完全挖掘的用戶入口。
其中,語音識別及語音交互毫無疑問是各智能硬件最重要的控制手段之一,同時也是人工智能技術到目前為止落地最快的應用之一。
以智能音箱為例,僅2018年四季度,全球智能音箱出貨量增長95%達到3850萬臺,超過2017全年總量。2018年出貨量更是達到8620萬臺,同比增長100%以上。Strategy Analytics預測,2019年全球智能音箱的出貨量將超過1.34億,到2024年將增加到2.8億。
《語音交互在AIoT的應用》
搜狐科技“智研所”沙龍第6期邀請到科大訊飛OS業(yè)務部總經理林滿佳進行主題演講——
以下是演講精編
林滿佳:大家好,我是來自科大訊飛的林滿佳,目前負責整個語音交互系統iFLYOS,今天我?guī)淼闹黝}是語音交互在AIoT的應用。
信息革命從電腦開始。一開始需要用鍵盤輸入,需要記住很多命令,第二個年代進入圖形化交互的年代,通過簡單的鼠標操作加上一些圖形化的界面,現在到了觸摸時代,但是目前看起來這三個革命來說,帶來的用戶群體已經到頂了。
如果關注現在的互聯網流量,大家會看到移動互聯網的流量已經見頂,意味著我們需要更大規(guī)模,擴大受益群體,所以語音交互時代來臨了,AIoT時代使用門檻進一步降低,讓更多的人去使用。
舉個最簡單的例子,中國還有非常非常多的人只懂說方言不懂說普通話,這些人如何獲取到他需要的服務?這個就是AIoT時代語音交互應該解決的很核心的問題。
銷售量很大,但是各位買到音箱之后放到家里,其實使用頻率沒那么高,這是一個市場現在的怪狀。
目前來說這個時代來臨了沒有?來臨了,目前以iFLYOS訊飛開放平臺或者整個訊飛的流量來看,每天在訊飛里面的交互次數是50億次,意味著語音交互基本上已經進入了一個主流的模式?,F在來說,大家可能覺得這個數字很大,但是在生活之中也會遇到一個問題,或者創(chuàng)業(yè)者也會遇到一個問題——目前來說,智能音箱已經是紅海市場了,大家瘋狂補貼從幾十到幾百不等。其次,
第二個怪狀,形狀很不一樣,其實形態(tài)基本一致,舉個簡單例子,大家都能問天氣,大家都能聽音樂,大家都能ABCD,其實沒有任何差異化,沒有針對場景去做一些很特殊的優(yōu)化。
訊飛在這幾年里面推出非常多的智能硬件,包括最早的智能音箱到現在的翻譯機、錄音筆等等,那么我們在AIoT時代,
第一,真實可見的實際案例,這個硬件不是憑空想象的,而是現實中已經有的產品。
第二,能規(guī)?;茝V的產品,這些東西本來就是某一個領域的剛需,通過人工智能加持,通過語音交互的加持能夠形成更大規(guī)模的推廣。
第三,可用統計數據證實的可用功效,簡單來說就是人工智能在這個領域有實打實的效果。
我們來舉一個很典型的案例,訊飛今年推出的錄音筆,傳統錄音筆來說,很多學生跟很多記者媒體朋友們都會用到錄音筆,但是用著用著大家發(fā)現一個問題,就是很雞肋,我錄了一個小時還得找人聽一個小時寫一個小時,基本就是這樣一個情況。通過人工智能語音交互相關的技術加持之后可以達到一個什么樣的效果?我們在實時錄音的時候把文字轉寫出來,這時候很多學生和很多記者的工作負擔就降低了很多。在這么些年來我們看到的一個情況,AIoT時代人工智能技術落地的要點可以總結三點。
現在的AIoT時代,大家覺得語音是一個強剛需的入口,但是在訊飛我們認為語音是一個主要入口,它會服務于很多的多模態(tài)入口為輔助,
第一,首先基于自然交互,自然交互不單單只是語音,通過語音觸摸視覺甚至一些傳感器,比如體感比如動作等等一系列,訊飛一直會看一些視覺的、觸摸的、甚至腦科學都會去研究。
第二,以智能硬件為載體,為了這個領域,我們去實打實磨智能硬件,從零開始去磨,選擇最合適的元器件,而不是我們草草選一個現有的載體隨便去改,去做一些兼容。
云端跟終端的結合,所謂的云端和終端的結合,云端放大量的數據大模型,在終端里面會用簡單的模型做一些離線可用的操作。
第三,舉個最簡單的例子,訊飛在前裝車機上的落地,其實在車機里面就會一直用大云端去解決檢索問題,然后會用小的客戶端,也就是離線的版本去解決弱網情況下的難題。
前面這些東西,訊飛在這么多年來做了一套系統,就是為了滿足一開始定義的人工智能硬件時代的快速落地——iFLYOS系統
,這里面有很多特點,今天挑幾個最重要的特點給大家分享,大家也可以看這幾個特點來做一些發(fā)散。
第一,語音交互的人性化,
所謂語音交互的人性化就是不要讓我們來去適配機器。在iFLYOS體系內我們?yōu)榱诉@個語音交互的人性化,我們不單單只是通過了語音識別,我們能識別粵語,還要能理解粵語,還要能做出反應。整體來看,就是這樣一個結果。當然這里面還用到了非常多的其它技術,比如翻譯技術。我們還發(fā)現有不少粵語文法其實很難用粵語原始的語義去理解,這里面是一個多模態(tài)技術,不光是語音的合成、識別、理解,還會夾雜翻譯之類的技術。
第二,硬件落地要快,意味著人工智能每個硬件其實針對性很強,所以每個領域都需要大體不同的一些硬件,
所以要求你的落地速度要足夠得快,
第三,產品設計要個性化,
每個領域的需求點都是不一樣,剛剛說到的錄音筆,再比如翻譯機,這些東西里面或多或少都有語音交互的技術存在,但是它們著重的點都會不一樣,那么我們總結了三個比較重要的點:
iFLYOS已經落地七個場景,
這些場景都在訊飛內部有所應用,并且把這些服務場景和應用已經公開出來,讓廣大的開發(fā)者或者是企業(yè)能夠在這個基礎之上去開發(fā)屬于自己的一些硬件。