久久久久久久视色,久久电影免费精品,中文亚洲欧美乱码在线观看,在线免费播放AV片

<center id="vfaef"><input id="vfaef"><table id="vfaef"></table></input></center>

    <p id="vfaef"><kbd id="vfaef"></kbd></p>

    
    
    <pre id="vfaef"><u id="vfaef"></u></pre>

      <thead id="vfaef"><input id="vfaef"></input></thead>

    1. 站長資訊網(wǎng)
      最全最豐富的資訊網(wǎng)站

      NeurIPS 2018網(wǎng)易推出強(qiáng)化編程框架

      (原標(biāo)題:NeurIPS 2018網(wǎng)易推出強(qiáng)化編程框架,一文解讀如何幫RL落地產(chǎn)業(yè))

      【新智元導(dǎo)讀】人工智能頂會(huì)NeurIPS 2018正在如火如荼的進(jìn)行著,并且首次在第一天增加了Expo Workshop。一共有十家公司有幸拿到了組織workshop的機(jī)會(huì),其中中國有四家,分別是阿里巴巴,百度,Pony.AI和網(wǎng)易。其中,AI方面一向低調(diào)的網(wǎng)易首次公布了自主研發(fā)的創(chuàng)新性強(qiáng)化編程(Reinforced Programing)框架。

      Workshop簡(jiǎn)介

      隨著李世石與AlphaGO的巔峰對(duì)決,強(qiáng)化學(xué)習(xí)為越來越多的人所知曉。強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)是機(jī)器學(xué)習(xí)中的一個(gè)重要分支,智能體(Agent)通過與環(huán)境不斷交互學(xué)習(xí)如何進(jìn)行連續(xù)決策。Agent從環(huán)境中獲取狀態(tài)(State),決策要做的動(dòng)作(Action),并得到環(huán)境反饋(Reward),逐漸學(xué)會(huì)更好的策略(Policy),從而最大化自己的收益。換句話說,強(qiáng)化學(xué)習(xí)可以通過人機(jī)訓(xùn)練或者自我學(xué)習(xí),不斷進(jìn)步,找到解決問題的最佳方法。隨著強(qiáng)化學(xué)習(xí)的爆發(fā)性進(jìn)展,它也被大家寄予了越來越大的期望。

      NeurIPS 2018網(wǎng)易推出強(qiáng)化編程框架

      強(qiáng)化學(xué)習(xí)發(fā)展歷程

      既然強(qiáng)化學(xué)習(xí)這么厲害,已經(jīng)在棋類游戲中打遍人類無敵手。是不是之后所有的事情就可以交給強(qiáng)化學(xué)習(xí)讓機(jī)器自己來學(xué)習(xí)了呢?其實(shí)大部分強(qiáng)化學(xué)習(xí)的研究都還局限在學(xué)術(shù)界,如何把強(qiáng)化學(xué)習(xí)落地到實(shí)踐中來依舊是個(gè)非常大的難題,受著很多條件的限制。因此網(wǎng)易伏羲AI實(shí)驗(yàn)室組織舉辦了主題為“Make Reinforcement Learning in Touch with Industry”的Expo Workshop來討論如何更好的讓強(qiáng)化學(xué)習(xí)應(yīng)用到產(chǎn)業(yè)界中來。在Workshop中,網(wǎng)易除了公布自主研發(fā)的強(qiáng)化編程框架外,還邀請(qǐng)了南京大學(xué)的俞揚(yáng)教授,天津大學(xué)的郝建業(yè)教授,氪信科技的CEO朱明杰博士,和滴滴AI實(shí)驗(yàn)室強(qiáng)化學(xué)習(xí)組負(fù)責(zé)人秦志偉博士等多位學(xué)術(shù)界和產(chǎn)業(yè)界著名專家學(xué)者共同探討強(qiáng)化學(xué)習(xí)落地產(chǎn)業(yè)應(yīng)用的相關(guān)進(jìn)展。

      強(qiáng)化編程框架

      強(qiáng)化學(xué)習(xí)之所以難在產(chǎn)業(yè)界落地,主要有以下幾個(gè)問題:1.知識(shí)依賴:強(qiáng)化學(xué)習(xí)這么前沿,對(duì)理論深刻理解的人自然少之又少,而僅僅想做應(yīng)用也必需掌握一些基本的理論概念。2. 現(xiàn)實(shí)場(chǎng)景的復(fù)雜性和多變性:學(xué)術(shù)研究是把問題簡(jiǎn)單和抽象化,而現(xiàn)實(shí)中產(chǎn)業(yè)應(yīng)用問題通常更加復(fù)雜,需要結(jié)合大量的先驗(yàn)知識(shí),而且場(chǎng)景豐富多變。3.計(jì)算及數(shù)據(jù)量巨大:產(chǎn)業(yè)應(yīng)用中問題的復(fù)雜性同樣帶來更大的計(jì)算量及數(shù)據(jù)樣本量需求。

      強(qiáng)化編程框架的設(shè)計(jì)也正是為了解決這幾個(gè)問題。在解決知識(shí)依賴的問題上,新框架希望最終將學(xué)習(xí)成本降至最低,在傳統(tǒng)編程的基礎(chǔ)上,創(chuàng)新性的將函數(shù)概念擴(kuò)展出可學(xué)習(xí)的“神經(jīng)網(wǎng)絡(luò)函數(shù)”。也就是說,就算你不懂強(qiáng)化學(xué)習(xí),你也可以像調(diào)用普通函數(shù)一樣簡(jiǎn)單的調(diào)用神經(jīng)網(wǎng)絡(luò)函數(shù),而且這個(gè)神經(jīng)網(wǎng)絡(luò)函數(shù)可以自我學(xué)習(xí)。在解決現(xiàn)實(shí)場(chǎng)景復(fù)雜性和多變性的問題上,新框架設(shè)計(jì)了一套可視化的流程圖前端工具,可以快速設(shè)計(jì)及維護(hù)上層邏輯,應(yīng)對(duì)復(fù)雜多變的場(chǎng)景需求;同時(shí),新框架讓傳統(tǒng)編程和強(qiáng)化學(xué)習(xí)無縫銜接,靈活的支持邏輯規(guī)則與強(qiáng)化學(xué)習(xí)混合編程,并支持多網(wǎng)絡(luò)的協(xié)同訓(xùn)練。這通常對(duì)應(yīng)了復(fù)雜問題的分解及分層結(jié)構(gòu)的強(qiáng)化學(xué)習(xí),在這里都可以通過流程圖輕松直觀的表達(dá)。在解決計(jì)算及數(shù)據(jù)量巨大的問題上,伏羲實(shí)驗(yàn)室提供了一整套后端云平臺(tái)作為解決方案。之所以叫強(qiáng)化編程這個(gè)名字,實(shí)際上是一語雙關(guān)。首先是對(duì)現(xiàn)有編程方法的一種增強(qiáng),其次是通過強(qiáng)化學(xué)習(xí)來實(shí)現(xiàn)地這種能力。

      NeurIPS 2018網(wǎng)易推出強(qiáng)化編程框架

      伏羲強(qiáng)化編程框架

      從整個(gè)框架來看,首先提供了一個(gè)面向業(yè)務(wù)方的流程圖工具,以流程圖的形式對(duì)強(qiáng)化學(xué)習(xí)問題進(jìn)行建模,自動(dòng)生成代碼(目前支持Lua、Python及C#語言),嵌入到各種類型的業(yè)務(wù)產(chǎn)品中,實(shí)現(xiàn)與環(huán)境交互,并具有調(diào)試功能。同時(shí)提供一個(gè)基于完整計(jì)算集群的容器云平臺(tái),將各種RL算法(DQN、A3C、Impala等)通過容器化的方式進(jìn)行封裝,支持所有主流的深度學(xué)習(xí)框架(TensorFlow、Mxnet、PyTorch等)?;赗PC連接環(huán)境和訓(xùn)練集群,并對(duì)客戶端獲取的數(shù)據(jù)進(jìn)行有效地封裝和轉(zhuǎn)發(fā),同時(shí)將服務(wù)器產(chǎn)生的策略返回給客戶端,組包在服務(wù)器端進(jìn)行,支持并行及動(dòng)態(tài)擴(kuò)容的訓(xùn)練。網(wǎng)易伏羲實(shí)驗(yàn)室還提供了一套完整的SDK方案,在平臺(tái)上完成訓(xùn)練后,可以方便地將訓(xùn)練結(jié)果導(dǎo)出,部署到服務(wù)器或客戶端。最后可以通過一個(gè)Web控制前端,查看訓(xùn)練數(shù)據(jù)及效果、規(guī)劃計(jì)算資源、改進(jìn)訓(xùn)練方案,從而提升工作效率。

      實(shí)際應(yīng)用

      伏羲實(shí)驗(yàn)室先在Atari游戲Pong上驗(yàn)證了該框架解決經(jīng)典強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)問題的有效性。下圖為相應(yīng)的流程圖和訓(xùn)練效果:

      NeurIPS 2018網(wǎng)易推出強(qiáng)化編程框架Pong游戲訓(xùn)練流程圖

      NeurIPS 2018網(wǎng)易推出強(qiáng)化編程框架Pong訓(xùn)練效果

      然后,伏羲實(shí)驗(yàn)室使用一款1v1動(dòng)作對(duì)戰(zhàn)游戲驗(yàn)證了混合編程和多網(wǎng)絡(luò)編程在解決復(fù)雜問題上的的優(yōu)勢(shì)。通過流程圖的方式可以引入專家經(jīng)驗(yàn),也可以對(duì)訓(xùn)練模型進(jìn)行分層。實(shí)驗(yàn)設(shè)置如下:實(shí)驗(yàn)1為未經(jīng)任何處理的端到端模型,直接由RL算法探索所有空間。實(shí)驗(yàn)2為單個(gè)神經(jīng)網(wǎng)絡(luò)與專家知識(shí)的混合編程模型,神經(jīng)網(wǎng)絡(luò)先選擇技能大類,同一類技能內(nèi)再靠人工規(guī)則實(shí)現(xiàn)選擇。實(shí)驗(yàn)3為結(jié)合經(jīng)驗(yàn)的分層神經(jīng)網(wǎng)絡(luò)模型,在這里,上層策略與底層策略都由神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)。

      NeurIPS 2018網(wǎng)易推出強(qiáng)化編程框架

      NeurIPS 2018網(wǎng)易推出強(qiáng)化編程框架

      NeurIPS 2018網(wǎng)易推出強(qiáng)化編程框架端到端模型、混合編程模型與分層模型

      最終實(shí)驗(yàn)結(jié)果顯示:藍(lán)色線條為端到端的模型,效果最差;紅色為網(wǎng)絡(luò)加規(guī)則的混合模型一開始上升很快,且始終優(yōu)于藍(lán)色;綠色線條為分層模型,最初低于紅色,但在后續(xù)訓(xùn)練過程中逐漸變成收益最高的一條曲線。驗(yàn)證了復(fù)雜問題中引入人工經(jīng)驗(yàn)進(jìn)行混合編程與問題分解進(jìn)行分層網(wǎng)絡(luò)訓(xùn)練的優(yōu)勢(shì)。

      NeurIPS 2018網(wǎng)易推出強(qiáng)化編程框架實(shí)驗(yàn)結(jié)果對(duì)比

      在過去的一年多時(shí)間里,伏羲實(shí)驗(yàn)室已經(jīng)利用該框架將深度強(qiáng)化學(xué)習(xí)應(yīng)用于游戲產(chǎn)業(yè)。目前已在網(wǎng)易的多款自研產(chǎn)品中取得成果并上線,涵蓋MMORPG、籃球、動(dòng)作及休閑等眾多品類。比如在潮人籃球這款游戲中,3V3模式3個(gè)AI Bot勝率達(dá)82%,2個(gè)AI與1個(gè)玩家人機(jī)合作勝率達(dá)70%。

      網(wǎng)易伏羲實(shí)驗(yàn)室

      網(wǎng)易伏羲實(shí)驗(yàn)室是國內(nèi)首家專業(yè)游戲AI研究機(jī)構(gòu),成立于2017年9月,目前已有160名成員。實(shí)驗(yàn)室在強(qiáng)化學(xué)習(xí)、自然語言處理、計(jì)算機(jī)視覺和虛擬人等方向開展學(xué)術(shù)研究及產(chǎn)業(yè)落地嘗試。愿景是“以人工智能技術(shù)點(diǎn)亮游戲未來”,希望運(yùn)用人工智能的尖端技術(shù)為玩家營造新世代的游戲體驗(yàn),同時(shí)借助游戲平臺(tái)的海量數(shù)據(jù)和仿真環(huán)境,推動(dòng)人工智能技術(shù)發(fā)展。

      在本屆NeurIPS Expo研討會(huì)上,伏羲實(shí)驗(yàn)室提出了一種新的強(qiáng)化編程框架,能夠讓沒有任何強(qiáng)化學(xué)習(xí)背景知識(shí)的使用者也能將這項(xiàng)技術(shù)應(yīng)用到現(xiàn)實(shí)問題,促進(jìn)強(qiáng)化學(xué)習(xí)在產(chǎn)業(yè)界落地。該框架是對(duì)傳統(tǒng)編程的增強(qiáng),使用者能夠以調(diào)用一種可學(xué)習(xí)函數(shù)的方式使用強(qiáng)化學(xué)習(xí),方便的實(shí)現(xiàn)邏輯規(guī)則與強(qiáng)化學(xué)習(xí)的混合編程及多網(wǎng)絡(luò)協(xié)同學(xué)習(xí),該框架還提供了可視化的流程圖前端工具和集成各種算法的后端云平臺(tái),能夠更加快捷地實(shí)現(xiàn)上述編程模式。此外,很多后續(xù)工作也在進(jìn)行,如集成AutoML、支持模仿學(xué)習(xí)等。

      在該框架的工作中,南京大學(xué)LAMDA實(shí)驗(yàn)室的俞揚(yáng)教授團(tuán)隊(duì)與伏羲團(tuán)隊(duì)建立了合作,并計(jì)劃將該框架用于星際AI和基于環(huán)境建模的模仿學(xué)習(xí)研究中。該框架已經(jīng)在多款網(wǎng)易的游戲中應(yīng)用,并計(jì)劃和氪信科技一起將其推廣到金融領(lǐng)域。網(wǎng)易方面表示,希望這套強(qiáng)化編程框架不斷改進(jìn)變得更加通用,讓強(qiáng)化學(xué)習(xí)技術(shù)更快的在產(chǎn)業(yè)應(yīng)用中發(fā)揮價(jià)值,未來幫助用戶解決更多實(shí)際問題。同時(shí)也歡迎各界積極交流、探討,共同推進(jìn)AI技術(shù)發(fā)展。

      贊(0)
      分享到: 更多 (0)
      網(wǎng)站地圖   滬ICP備18035694號(hào)-2    滬公網(wǎng)安備31011702889846號(hào)