數(shù)據(jù)對于機(jī)器學(xué)習(xí)的重要性不必多言,如果說人工智能是大腦的話,那么數(shù)據(jù)就是血液,它能做出什么樣的成果關(guān)鍵在于從數(shù)據(jù)中發(fā)現(xiàn)了什么樣的價值。
我最近正在研究如何編寫一個遞歸神經(jīng)網(wǎng)絡(luò)來重寫其代碼。該想法想要訓(xùn)練RNN完成,然后使用并運行它生成的代碼(當(dāng)然要進(jìn)行句法檢查)。RNN生成的代碼將用于生成更多代碼,以生成更多RNN,以此類推,每一代RNN都會對下一代進(jìn)行編碼。
這個想法令我興奮不已。通過訓(xùn)練來提高改善自身的人工智能將必然這樣做,對嗎?
但存在一個問題——數(shù)據(jù)在何處?
任何曾訓(xùn)練過機(jī)器學(xué)習(xí)模型的人都知道,模型的性能在很大程度上依賴于其被訓(xùn)練的數(shù)據(jù)。好數(shù)據(jù)優(yōu)于好模型,它定義了模型的范圍。
模型的目標(biāo)是遍歷數(shù)據(jù)域,根據(jù)算法列出的規(guī)則尋找某種模式,以便將錯誤最小化。無論模型有多好,總會受到其數(shù)據(jù)域的限制。
在嘗試訓(xùn)練模型時,我一直試圖為其尋找數(shù)據(jù)。我是否會為它提供各種遞歸神經(jīng)網(wǎng)絡(luò)架構(gòu),促使它可以編寫出效率極高的架構(gòu)?在那種情況下,我又如何期望神經(jīng)網(wǎng)絡(luò)能夠高效編寫出新代碼呢?
最好的情況是,遞歸神經(jīng)網(wǎng)絡(luò)不會出現(xiàn)句法錯誤(可能是因為它會太適合訓(xùn)練數(shù)據(jù)了)。如若只是給人工智能填鴨式地灌輸我們想要其編寫的代碼,那么訓(xùn)練其自行編寫代碼的意義何在呢?它不會輸出任何有效句法內(nèi)容,這些內(nèi)容才將執(zhí)行著真正“智能”的操作,如加載新庫或開發(fā)自己的語言。
事實上,這并不是人類擅長的事情。人類之所以聰明,僅是因為我們接觸了更多的數(shù)據(jù);但同時,數(shù)據(jù)也在限制我們。如果你在美國生活,可能會對中國的生活一無所知,除非你去過中國(收集過數(shù)據(jù))。
從小世界就在給你提供數(shù)據(jù),這遠(yuǎn)高于我們提供給機(jī)器學(xué)習(xí)模型的數(shù)據(jù)。這是智能唯一的局限性,雖然也許計算機(jī)可以存儲數(shù)據(jù),但我們確實也有足夠的存儲來完成我將要描述的基本操作。如果你只接觸到我們提供的有限數(shù)量的數(shù)據(jù)模型,你也不會被稱為智能。
這就是我們尋找的應(yīng)對“傻瓜”人工智能的方案:互聯(lián)網(wǎng)。
如今,任何人幾乎都能從網(wǎng)上學(xué)到東西,谷歌能將我們與充滿信息的網(wǎng)頁聯(lián)系起來。人工智能的學(xué)習(xí)算法比我們的更為高效:學(xué)習(xí)需要重復(fù)練習(xí)的事物,我們要花一分鐘,人工智能可能不到一秒。
唯一可能讓我們自稱為“智能”的原因是我們有幸擁有更多的訓(xùn)練數(shù)據(jù)。更好的數(shù)據(jù)總是勝過更好的模型,因此,我們與機(jī)器學(xué)習(xí)模型處在完全不同的維度上。
如果向人工智能開放互聯(lián)網(wǎng),即讓它在互聯(lián)網(wǎng)上漫游,學(xué)習(xí)其所有內(nèi)容,那么機(jī)器學(xué)習(xí)可能擁有遠(yuǎn)超人類的“智能”。
它甚至可以把“我為什么在這里”、“我的目的是什么”之類的內(nèi)容打印到控制臺,這也許是它從一些心理學(xué)網(wǎng)站上學(xué)來的。但你無權(quán)否認(rèn)其可信度,因為從技術(shù)層面講,它是原創(chuàng)的。
那些說機(jī)器“吐”出來的東西不可能是真正原創(chuàng)的人,我用艾倫·圖靈對數(shù)學(xué)家艾達(dá)·拉夫萊斯的同樣指責(zé)回應(yīng):“太陽底下沒有‘原創(chuàng)’。”
你提出的想法一點也不新穎,它們只是你的經(jīng)驗、訓(xùn)練數(shù)據(jù)和一些噪音的組合產(chǎn)物。如果機(jī)器和人接受相同數(shù)據(jù)的訓(xùn)練,那么機(jī)器與你我所能產(chǎn)生的結(jié)果相同。事實上,機(jī)器可能會產(chǎn)生更令人滿意和更為迅速的結(jié)果,因為它的學(xué)習(xí)方法比我們快得多。
即使是一個新生兒和一個空白的人工智能在不同的數(shù)據(jù)上訓(xùn)練,通過不同過程來獲得智能思維,這又有什么關(guān)系?
如果將智能隔離,使其只包含人類的思維過程,機(jī)器將永遠(yuǎn)不可能智能。機(jī)器不是人,但它們可以變得智能——如果我們不是將智能和意識明確地定義為人類的過程,而是直接輸出,將之定義為對看起來不“智能”的更有包容性的思維過程。
實現(xiàn)這一目標(biāo)的最大問題是找到一種從互聯(lián)網(wǎng)上獲取數(shù)據(jù)的方法——該項目的縮小版將是訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)整個維基百科。該網(wǎng)站幾乎包含所有學(xué)科的信息,當(dāng)人工智能學(xué)習(xí)這些知識時,它們可能和你我所宣稱的一樣聰明。
一個學(xué)習(xí)了整個互聯(lián)網(wǎng)的人工智能將會有多厲害?它會比任何人知道的都多,比最聰明的人類更聰明。它所學(xué)習(xí)的是經(jīng)過谷歌排列分類的人類經(jīng)歷的集合,超人類的智能必將產(chǎn)生。