久久久久久久视色,久久电影免费精品,中文亚洲欧美乱码在线观看,在线免费播放AV片

<center id="vfaef"><input id="vfaef"><table id="vfaef"></table></input></center>

    <p id="vfaef"><kbd id="vfaef"></kbd></p>

    
    
    <pre id="vfaef"><u id="vfaef"></u></pre>

      <thead id="vfaef"><input id="vfaef"></input></thead>

    1. 站長(zhǎng)資訊網(wǎng)
      最全最豐富的資訊網(wǎng)站

      促進(jìn)強(qiáng)化學(xué)習(xí)落地產(chǎn)業(yè)界:網(wǎng)易推出強(qiáng)化編程框架

      人工智能頂會(huì)NeurIPS 2018正在如火如荼的進(jìn)行著,并且首次在第一天增加了Expo Workshop。一共有十家公司有幸拿到了組織workshop的機(jī)會(huì),其中中國(guó)有四家,分別是阿里巴巴,百度,Pony.AI和網(wǎng)易。其中,AI方面一向低調(diào)的網(wǎng)易首次公布了自主研發(fā)的創(chuàng)新性強(qiáng)化編程(Reinforced Programing)框架。下面我們就一起了解下網(wǎng)易在NeurIPS 2018的Workshop,以及這個(gè)強(qiáng)化編程框架吧。

      Workshop簡(jiǎn)介

      隨著李世石與AlphaGO的巔峰對(duì)決,強(qiáng)化學(xué)習(xí)為越來(lái)越多的人所知曉。強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)是機(jī)器學(xué)習(xí)中的一個(gè)重要分支,智能體(Agent)通過與環(huán)境不斷交互學(xué)習(xí)如何進(jìn)行連續(xù)決策。Agent從環(huán)境中獲取狀態(tài)(State),決策要做的動(dòng)作(Action),并得到環(huán)境反饋(Reward),逐漸學(xué)會(huì)更好的策略(Policy),從而最大化自己的收益。換句話說(shuō),強(qiáng)化學(xué)習(xí)可以通過人機(jī)訓(xùn)練或者自我學(xué)習(xí),不斷進(jìn)步,找到解決問題的最佳方法。隨著強(qiáng)化學(xué)習(xí)的爆發(fā)性進(jìn)展,它也被大家寄予了越來(lái)越大的期望。

      促進(jìn)強(qiáng)化學(xué)習(xí)落地產(chǎn)業(yè)界:網(wǎng)易推出強(qiáng)化編程框架

      (圖1強(qiáng)化學(xué)習(xí)發(fā)展歷程)

      既然強(qiáng)化學(xué)習(xí)這么厲害,已經(jīng)在棋類游戲中打遍人類無(wú)敵手。是不是之后所有的事情就可以交給強(qiáng)化學(xué)習(xí)讓機(jī)器自己來(lái)學(xué)習(xí)了呢?其實(shí)大部分強(qiáng)化學(xué)習(xí)的研究都還局限在學(xué)術(shù)界,如何把強(qiáng)化學(xué)習(xí)落地到實(shí)踐中來(lái)依舊是個(gè)非常大的難題,受著很多條件的限制。因此網(wǎng)易伏羲AI實(shí)驗(yàn)室組織舉辦了主題為“Make Reinforcement Learning in Touch with Industry”的Expo Workshop來(lái)討論如何更好的讓強(qiáng)化學(xué)習(xí)應(yīng)用到產(chǎn)業(yè)界中來(lái)。在Workshop中,網(wǎng)易除了公布自主研發(fā)的強(qiáng)化編程框架外,還邀請(qǐng)了南京大學(xué)的俞揚(yáng)教授,天津大學(xué)的郝建業(yè)教授,氪信科技的CEO朱明杰博士,和滴滴AI實(shí)驗(yàn)室強(qiáng)化學(xué)習(xí)組負(fù)責(zé)人秦志偉博士等多位學(xué)術(shù)界和產(chǎn)業(yè)界著名專家學(xué)者共同探討強(qiáng)化學(xué)習(xí)落地產(chǎn)業(yè)應(yīng)用的相關(guān)進(jìn)展。

      強(qiáng)化編程框架

      強(qiáng)化學(xué)習(xí)之所以難在產(chǎn)業(yè)界落地,主要有以下幾個(gè)問題:

      1.知識(shí)依賴:強(qiáng)化學(xué)習(xí)這么前沿,對(duì)理論深刻理解的人自然少之又少,而僅僅想做應(yīng)用也必需掌握一些基本的理論概念。

      2. 現(xiàn)實(shí)場(chǎng)景的復(fù)雜性和多變性:學(xué)術(shù)研究是把問題簡(jiǎn)單和抽象化,而現(xiàn)實(shí)中產(chǎn)業(yè)應(yīng)用問題通常更加復(fù)雜,需要結(jié)合大量的先驗(yàn)知識(shí),而且場(chǎng)景豐富多變。

      3.計(jì)算及數(shù)據(jù)量巨大:產(chǎn)業(yè)應(yīng)用中問題的復(fù)雜性同樣帶來(lái)更大的計(jì)算量及數(shù)據(jù)樣本量需求。

      強(qiáng)化編程框架的設(shè)計(jì)也正是為了解決這幾個(gè)問題。在解決知識(shí)依賴的問題上,新框架希望最終將學(xué)習(xí)成本降至最低,在傳統(tǒng)編程的基礎(chǔ)上,創(chuàng)新性的將函數(shù)概念擴(kuò)展出可學(xué)習(xí)的“神經(jīng)網(wǎng)絡(luò)函數(shù)”。也就是說(shuō),就算你不懂強(qiáng)化學(xué)習(xí),你也可以像調(diào)用普通函數(shù)一樣簡(jiǎn)單的調(diào)用神經(jīng)網(wǎng)絡(luò)函數(shù),而且這個(gè)神經(jīng)網(wǎng)絡(luò)函數(shù)可以自我學(xué)習(xí)。在解決現(xiàn)實(shí)場(chǎng)景復(fù)雜性和多變性的問題上,新框架設(shè)計(jì)了一套可視化的流程圖前端工具,可以快速設(shè)計(jì)及維護(hù)上層邏輯,應(yīng)對(duì)復(fù)雜多變的場(chǎng)景需求;同時(shí),新框架讓傳統(tǒng)編程和強(qiáng)化學(xué)習(xí)無(wú)縫銜接,靈活的支持邏輯規(guī)則與強(qiáng)化學(xué)習(xí)混合編程,并支持多網(wǎng)絡(luò)的協(xié)同訓(xùn)練。這通常對(duì)應(yīng)了復(fù)雜問題的分解及分層結(jié)構(gòu)的強(qiáng)化學(xué)習(xí),在這里都可以通過流程圖輕松直觀的表達(dá)。在解決計(jì)算及數(shù)據(jù)量巨大的問題上,伏羲實(shí)驗(yàn)室提供了一整套后端云平臺(tái)作為解決方案。之所以叫強(qiáng)化編程這個(gè)名字,實(shí)際上是一語(yǔ)雙關(guān)。首先是對(duì)現(xiàn)有編程方法的一種增強(qiáng),其次是通過強(qiáng)化學(xué)習(xí)來(lái)實(shí)現(xiàn)這種能力。

      促進(jìn)強(qiáng)化學(xué)習(xí)落地產(chǎn)業(yè)界:網(wǎng)易推出強(qiáng)化編程框架

      (圖2伏羲強(qiáng)化編程框架)

      從整個(gè)框架來(lái)看,首先提供了一個(gè)面向業(yè)務(wù)方的流程圖工具,以流程圖的形式對(duì)強(qiáng)化學(xué)習(xí)問題進(jìn)行建模,自動(dòng)生成代碼(目前支持Lua、Python及C#語(yǔ)言),嵌入到各種類型的業(yè)務(wù)產(chǎn)品中,實(shí)現(xiàn)與環(huán)境交互,并具有調(diào)試功能。同時(shí)提供一個(gè)基于完整計(jì)算集群的容器云平臺(tái),將各種RL算法(DQN、A3C、Impala等)通過容器化的方式進(jìn)行封裝,支持所有主流的深度學(xué)習(xí)框架(TensorFlow、Mxnet、PyTorch等)。基于RPC連接環(huán)境和訓(xùn)練集群,并對(duì)客戶端獲取的數(shù)據(jù)進(jìn)行有效地封裝和轉(zhuǎn)發(fā),同時(shí)將服務(wù)器產(chǎn)生的策略返回給客戶端,組包在服務(wù)器端進(jìn)行,支持并行及動(dòng)態(tài)擴(kuò)容的訓(xùn)練。網(wǎng)易伏羲實(shí)驗(yàn)室還提供了一套完整的SDK方案,在平臺(tái)上完成訓(xùn)練后,可以方便地將訓(xùn)練結(jié)果導(dǎo)出,部署到服務(wù)器或客戶端。最后可以通過一個(gè)Web控制前端,查看訓(xùn)練數(shù)據(jù)及效果、規(guī)劃計(jì)算資源、改進(jìn)訓(xùn)練方案,從而提升工作效率。

      實(shí)際應(yīng)用

      伏羲實(shí)驗(yàn)室先在Atari游戲Pong上驗(yàn)證了該框架解決經(jīng)典強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)問題的有效性。下圖為相應(yīng)的流程圖和訓(xùn)練效果:

      促進(jìn)強(qiáng)化學(xué)習(xí)落地產(chǎn)業(yè)界:網(wǎng)易推出強(qiáng)化編程框架

      (圖3 Pong游戲訓(xùn)練流程圖)     (GIF1 Pong訓(xùn)練效果)

      然后,伏羲實(shí)驗(yàn)室使用一款1v1動(dòng)作對(duì)戰(zhàn)游戲驗(yàn)證了混合編程和多網(wǎng)絡(luò)編程在解決復(fù)雜問題上的的優(yōu)勢(shì)。通過流程圖的方式可以引入專家經(jīng)驗(yàn),也可以對(duì)訓(xùn)練模型進(jìn)行分層。實(shí)驗(yàn)設(shè)置如下:實(shí)驗(yàn)1為未經(jīng)任何處理的端到端模型,直接由RL算法探索所有空間。實(shí)驗(yàn)2為單個(gè)神經(jīng)網(wǎng)絡(luò)與專家知識(shí)的混合編程模型,神經(jīng)網(wǎng)絡(luò)先選擇技能大類,同一類技能內(nèi)再靠人工規(guī)則實(shí)現(xiàn)選擇。實(shí)驗(yàn)3為結(jié)合經(jīng)驗(yàn)的分層神經(jīng)網(wǎng)絡(luò)模型,在這里,上層策略與底層策略都由神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)。

      促進(jìn)強(qiáng)化學(xué)習(xí)落地產(chǎn)業(yè)界:網(wǎng)易推出強(qiáng)化編程框架

      (圖4端到端模型、混合編程模型與分層模型)

      實(shí)驗(yàn)結(jié)果顯示:藍(lán)色線條為端到端的模型,效果最差;紅色為網(wǎng)絡(luò)加規(guī)則的混合模型一開始上升很快,且始終優(yōu)于藍(lán)色;綠色線條為分層模型,最初低于紅色,但在后續(xù)訓(xùn)練過程中逐漸變成收益最高的一條曲線。驗(yàn)證了復(fù)雜問題中引入人工經(jīng)驗(yàn)進(jìn)行混合編程與問題分解進(jìn)行分層網(wǎng)絡(luò)訓(xùn)練的優(yōu)勢(shì)。

      (圖5實(shí)驗(yàn)結(jié)果對(duì)比)

      在過去的一年多時(shí)間里,伏羲實(shí)驗(yàn)室已經(jīng)利用該框架將深度強(qiáng)化學(xué)習(xí)應(yīng)用于游戲產(chǎn)業(yè)。目前已在網(wǎng)易的多款自研產(chǎn)品中取得成果并上線,涵蓋MMORPG、籃球、動(dòng)作及休閑等眾多品類。

      下面是強(qiáng)化編程框架在潮人籃球這款游戲中的應(yīng)用實(shí)例。以多網(wǎng)絡(luò)的方式實(shí)現(xiàn)了籃球游戲內(nèi)的AI設(shè)計(jì),通過流程圖實(shí)現(xiàn)attack、defense、ball clear、free ball四個(gè)網(wǎng)絡(luò)的建模,編輯對(duì)應(yīng)的神經(jīng)網(wǎng)絡(luò),調(diào)用RL插件接口,在Web前端申請(qǐng)計(jì)算資源進(jìn)行訓(xùn)練。

      視頻2流程圖工具建模實(shí)例

      (視頻2流程圖工具建模實(shí)例)

      可以看到4個(gè)網(wǎng)絡(luò)的訓(xùn)練隨著機(jī)器人的狀態(tài)進(jìn)行切換

      視頻2流程圖工具建模實(shí)例

      (視頻3網(wǎng)絡(luò)訓(xùn)練實(shí)例)

      贊(0)
      分享到: 更多 (0)
      網(wǎng)站地圖   滬ICP備18035694號(hào)-2    滬公網(wǎng)安備31011702889846號(hào)