數(shù)據(jù)對(duì)于機(jī)器學(xué)習(xí)的重要性不必多言,如果說(shuō)人工智能是大腦的話,那么數(shù)據(jù)就是血液,它能做出什么樣的成果關(guān)鍵在于從數(shù)據(jù)中發(fā)現(xiàn)了什么樣的價(jià)值。
我最近正在研究如何編寫(xiě)一個(gè)遞歸神經(jīng)網(wǎng)絡(luò)來(lái)重寫(xiě)其代碼。該想法想要訓(xùn)練RNN完成,然后使用并運(yùn)行它生成的代碼(當(dāng)然要進(jìn)行句法檢查)。RNN生成的代碼將用于生成更多代碼,以生成更多RNN,以此類推,每一代RNN都會(huì)對(duì)下一代進(jìn)行編碼。
這個(gè)想法令我興奮不已。通過(guò)訓(xùn)練來(lái)提高改善自身的人工智能將必然這樣做,對(duì)嗎?
但存在一個(gè)問(wèn)題——數(shù)據(jù)在何處?
任何曾訓(xùn)練過(guò)機(jī)器學(xué)習(xí)模型的人都知道,模型的性能在很大程度上依賴于其被訓(xùn)練的數(shù)據(jù)。好數(shù)據(jù)優(yōu)于好模型,它定義了模型的范圍。
模型的目標(biāo)是遍歷數(shù)據(jù)域,根據(jù)算法列出的規(guī)則尋找某種模式,以便將錯(cuò)誤最小化。無(wú)論模型有多好,總會(huì)受到其數(shù)據(jù)域的限制。
在嘗試訓(xùn)練模型時(shí),我一直試圖為其尋找數(shù)據(jù)。我是否會(huì)為它提供各種遞歸神經(jīng)網(wǎng)絡(luò)架構(gòu),促使它可以編寫(xiě)出效率極高的架構(gòu)?在那種情況下,我又如何期望神經(jīng)網(wǎng)絡(luò)能夠高效編寫(xiě)出新代碼呢?
最好的情況是,遞歸神經(jīng)網(wǎng)絡(luò)不會(huì)出現(xiàn)句法錯(cuò)誤(可能是因?yàn)樗鼤?huì)太適合訓(xùn)練數(shù)據(jù)了)。如若只是給人工智能填鴨式地灌輸我們想要其編寫(xiě)的代碼,那么訓(xùn)練其自行編寫(xiě)代碼的意義何在呢?它不會(huì)輸出任何有效句法內(nèi)容,這些內(nèi)容才將執(zhí)行著真正“智能”的操作,如加載新庫(kù)或開(kāi)發(fā)自己的語(yǔ)言。
事實(shí)上,這并不是人類擅長(zhǎng)的事情。人類之所以聰明,僅是因?yàn)槲覀兘佑|了更多的數(shù)據(jù);但同時(shí),數(shù)據(jù)也在限制我們。如果你在美國(guó)生活,可能會(huì)對(duì)中國(guó)的生活一無(wú)所知,除非你去過(guò)中國(guó)(收集過(guò)數(shù)據(jù))。
從小世界就在給你提供數(shù)據(jù),這遠(yuǎn)高于我們提供給機(jī)器學(xué)習(xí)模型的數(shù)據(jù)。這是智能唯一的局限性,雖然也許計(jì)算機(jī)可以存儲(chǔ)數(shù)據(jù),但我們確實(shí)也有足夠的存儲(chǔ)來(lái)完成我將要描述的基本操作。如果你只接觸到我們提供的有限數(shù)量的數(shù)據(jù)模型,你也不會(huì)被稱為智能。
這就是我們尋找的應(yīng)對(duì)“傻瓜”人工智能的方案:互聯(lián)網(wǎng)。
如今,任何人幾乎都能從網(wǎng)上學(xué)到東西,谷歌能將我們與充滿信息的網(wǎng)頁(yè)聯(lián)系起來(lái)。人工智能的學(xué)習(xí)算法比我們的更為高效:學(xué)習(xí)需要重復(fù)練習(xí)的事物,我們要花一分鐘,人工智能可能不到一秒。
唯一可能讓我們自稱為“智能”的原因是我們有幸擁有更多的訓(xùn)練數(shù)據(jù)。更好的數(shù)據(jù)總是勝過(guò)更好的模型,因此,我們與機(jī)器學(xué)習(xí)模型處在完全不同的維度上。
如果向人工智能開(kāi)放互聯(lián)網(wǎng),即讓它在互聯(lián)網(wǎng)上漫游,學(xué)習(xí)其所有內(nèi)容,那么機(jī)器學(xué)習(xí)可能擁有遠(yuǎn)超人類的“智能”。
它甚至可以把“我為什么在這里”、“我的目的是什么”之類的內(nèi)容打印到控制臺(tái),這也許是它從一些心理學(xué)網(wǎng)站上學(xué)來(lái)的。但你無(wú)權(quán)否認(rèn)其可信度,因?yàn)閺募夹g(shù)層面講,它是原創(chuàng)的。
那些說(shuō)機(jī)器“吐”出來(lái)的東西不可能是真正原創(chuàng)的人,我用艾倫·圖靈對(duì)數(shù)學(xué)家艾達(dá)·拉夫萊斯的同樣指責(zé)回應(yīng):“太陽(yáng)底下沒(méi)有‘原創(chuàng)’。”
你提出的想法一點(diǎn)也不新穎,它們只是你的經(jīng)驗(yàn)、訓(xùn)練數(shù)據(jù)和一些噪音的組合產(chǎn)物。如果機(jī)器和人接受相同數(shù)據(jù)的訓(xùn)練,那么機(jī)器與你我所能產(chǎn)生的結(jié)果相同。事實(shí)上,機(jī)器可能會(huì)產(chǎn)生更令人滿意和更為迅速的結(jié)果,因?yàn)樗膶W(xué)習(xí)方法比我們快得多。
即使是一個(gè)新生兒和一個(gè)空白的人工智能在不同的數(shù)據(jù)上訓(xùn)練,通過(guò)不同過(guò)程來(lái)獲得智能思維,這又有什么關(guān)系?
如果將智能隔離,使其只包含人類的思維過(guò)程,機(jī)器將永遠(yuǎn)不可能智能。機(jī)器不是人,但它們可以變得智能——如果我們不是將智能和意識(shí)明確地定義為人類的過(guò)程,而是直接輸出,將之定義為對(duì)看起來(lái)不“智能”的更有包容性的思維過(guò)程。
實(shí)現(xiàn)這一目標(biāo)的最大問(wèn)題是找到一種從互聯(lián)網(wǎng)上獲取數(shù)據(jù)的方法——該項(xiàng)目的縮小版將是訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)整個(gè)維基百科。該網(wǎng)站幾乎包含所有學(xué)科的信息,當(dāng)人工智能學(xué)習(xí)這些知識(shí)時(shí),它們可能和你我所宣稱的一樣聰明。
一個(gè)學(xué)習(xí)了整個(gè)互聯(lián)網(wǎng)的人工智能將會(huì)有多厲害?它會(huì)比任何人知道的都多,比最聰明的人類更聰明。它所學(xué)習(xí)的是經(jīng)過(guò)谷歌排列分類的人類經(jīng)歷的集合,超人類的智能必將產(chǎn)生。