久久久久久久视色,久久电影免费精品,中文亚洲欧美乱码在线观看,在线免费播放AV片

<center id="vfaef"><input id="vfaef"><table id="vfaef"></table></input></center>

    <p id="vfaef"><kbd id="vfaef"></kbd></p>

    
    
    <pre id="vfaef"><u id="vfaef"></u></pre>

      <thead id="vfaef"><input id="vfaef"></input></thead>

    1. 站長(zhǎng)資訊網(wǎng)
      最全最豐富的資訊網(wǎng)站

      NeurIPS 2019強(qiáng)化學(xué)習(xí)賽事:從肌肉控制仿生人 百度PARL再奪桂冠

        機(jī)器學(xué)習(xí)領(lǐng)域頂級(jí)會(huì)議 NeurIPS 2019 將于 12 月 8 日-14 日在加拿大溫哥華開幕。不久之前,大會(huì)公布了論文評(píng)審結(jié)果,今年大會(huì)共收到 6743 份有效論文,接收了1428篇,錄取率為21.17%。

        作為國(guó)內(nèi)最早投身 AI 領(lǐng)域的科技巨頭,百度今年有多篇論文入選。

        此外,會(huì)議主辦的 NeurIPS 2019: Learn to Move 強(qiáng)化學(xué)習(xí)賽事落下帷幕,百度繼 2018 年奪得冠軍后再度蟬聯(lián)冠軍。本次比賽的難度非常大,在參賽的近 300 支隊(duì)伍中,僅有 3 支隊(duì)伍完成了最后挑戰(zhàn)。百度基于飛槳的強(qiáng)化學(xué)習(xí)框架 PARL 不僅成功完成挑戰(zhàn),還大幅領(lǐng)先第二名 143 分。顯而易見,百度在強(qiáng)化學(xué)習(xí)領(lǐng)域占據(jù)了明顯的優(yōu)勢(shì),冠軍含金量頗高。

        強(qiáng)化學(xué)習(xí)框架 PARL:https://github.com/PaddlePaddle/PARL

      NeurIPS 2019強(qiáng)化學(xué)習(xí)賽事:從肌肉控制仿生人 百度PARL再奪桂冠
      NeurIPS 2019強(qiáng)化學(xué)習(xí)賽事:從肌肉控制仿生人 百度PARL再奪桂冠

      近年,隨著機(jī)械設(shè)計(jì)以及動(dòng)力學(xué)控制技術(shù)的發(fā)展,仿生機(jī)器人正取得不斷的進(jìn)步。比如近來(lái)波士頓動(dòng)力(Boston Dynamics)發(fā)布的機(jī)器人會(huì)跑步,會(huì)拉貨車,甚至還會(huì)“反擊”人類,而控制這些機(jī)器人的主要節(jié)點(diǎn)是動(dòng)力學(xué)關(guān)節(jié)。

        相比于鋼鐵造就、機(jī)械控制的機(jī)器人,人體的復(fù)雜程度有過(guò)之而無(wú)不及。探索和理解人體自身是人類的終極目標(biāo)之一。人體內(nèi)有206塊骨骼、639塊肌肉,正是對(duì)這些骨骼和肌肉的精細(xì)控制,造就了人類出色靈活的運(yùn)動(dòng)能力和平衡保持能力。近年來(lái)有很多研究希望了解人體的運(yùn)動(dòng)機(jī)制,甚至端到端地從肌肉層面直接學(xué)習(xí)控制仿生人體。針對(duì)人體控制這樣復(fù)雜的場(chǎng)景,強(qiáng)化學(xué)習(xí)(Reinforcement Learning)是重要的研究手段。

        強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的范式和方法論之一,用于描述和解決智能體(agent)在與環(huán)境的交互過(guò)程中,通過(guò)學(xué)習(xí)策略以達(dá)成回報(bào)最大化或?qū)崿F(xiàn)特定目標(biāo)的問(wèn)題。但直接使用強(qiáng)化學(xué)習(xí),仍然非常困難。其中一個(gè)原因在于,人體控制的解空間實(shí)在太大了!高達(dá)兩百多維度的連續(xù)狀態(tài)空間,非常復(fù)雜,一般的強(qiáng)化學(xué)習(xí)算法完全無(wú)法奏效。正因?yàn)槿绱?,誕生了很多以控制人體為目標(biāo)的研究和比賽,吸引著各路高手一決雌雄。

        NeurIPS: Learn to Move 強(qiáng)化學(xué)習(xí)賽事的誕生正意在于此。該賽事由斯坦福仿生動(dòng)力學(xué)實(shí)驗(yàn)室舉辦,比賽采用斯坦福國(guó)家醫(yī)學(xué)康復(fù)研究中心研發(fā)的 Opensim 人體骨骼高仿模型。參賽者需要根據(jù)該模型中多達(dá) 100 多維以上的狀態(tài)描述特征,來(lái)決定模型肌肉的信號(hào),控制模型的肌體行走。

        該挑戰(zhàn)賽創(chuàng)辦于 2017 年,今年是第三年舉辦。2017 年第一次挑戰(zhàn)賽上,比賽規(guī)則圍繞誰(shuí)能讓模型肌體行走速度最快,2018 年賽事將整個(gè)模型運(yùn)動(dòng)控制從 2D 改為 3D 外,還引入帶有假肢的模型,而今年比賽難度再次提升。

        據(jù)悉,賽事分為2 輪,首輪主要是增加了實(shí)時(shí)的速度變換要求,而真正的挑戰(zhàn)集中在第 2 輪,參賽選手僅有短短2周時(shí)間來(lái)完成任務(wù)。這一輪不僅要求實(shí)時(shí)切換速度,而且是360° 范圍調(diào)整行走方向,更增加了模型控制難度。由于實(shí)際狀態(tài)空間和動(dòng)作空間稠密并且非常大,導(dǎo)致基于強(qiáng)化學(xué)習(xí)的算法無(wú)法準(zhǔn)確把握模型肌體的行走姿勢(shì)。

        盡管每年的賽事難度都在增加,但今年的百度仍取得了優(yōu)異成績(jī)。據(jù)了解,在百度的最優(yōu)解決方案中,甚至出現(xiàn)了一些普通人也難以做到的動(dòng)作,如從立定狀態(tài)突然平順地向后轉(zhuǎn)向并且同時(shí)以要求的速度行走,而且這個(gè)過(guò)程需要全程保持穩(wěn)定不會(huì)摔倒。

      NeurIPS 2019強(qiáng)化學(xué)習(xí)賽事:從肌肉控制仿生人 百度PARL再奪桂冠

        百度能夠在此次賽事中取得優(yōu)異表現(xiàn)、蟬聯(lián)冠軍的主要因素是在于訓(xùn)練機(jī)制、通用算法庫(kù)、迭代效率三個(gè)方面長(zhǎng)足的技術(shù)積累。

        首先,百度構(gòu)建了「課程學(xué)習(xí)」的訓(xùn)練機(jī)制,先從高速奔跑中學(xué)習(xí)姿態(tài),再逐步降速提升行走穩(wěn)定性,從而學(xué)到了一個(gè)和人類極為相似的行走姿態(tài)。根據(jù)歷屆參賽選手提供的行走視頻來(lái)看,百度通過(guò)這種方法學(xué)習(xí)出來(lái)的行走姿勢(shì)是最為自然的,接近真實(shí)人類行走姿勢(shì)的。這個(gè)行走姿勢(shì)不僅可以維持人體的平衡性,還可以靈活地應(yīng)付各種速度大小、角度的變化。

      NeurIPS 2019強(qiáng)化學(xué)習(xí)賽事:從肌肉控制仿生人 百度PARL再奪桂冠
      NeurIPS 2019強(qiáng)化學(xué)習(xí)賽事:從肌肉控制仿生人 百度PARL再奪桂冠

        其次,百度采用了自主研發(fā)的強(qiáng)化學(xué)習(xí)框架 PARL。通過(guò)復(fù)用通用算法庫(kù)里面已經(jīng)實(shí)現(xiàn)好的算法,參賽選手得以很快地在不同算法間切換,保持了高效的迭代頻率。PARL 的算法庫(kù)涵蓋了經(jīng)典的連續(xù)控制算法 Reinforce,以及主流的 DDPG/PPO 等算法,到最前沿的 model-based 等相關(guān)算法。盡管算法庫(kù)包含了各種類型的復(fù)雜算法,但是其接口是相當(dāng)簡(jiǎn)單的,基本上是 import 即可用的方式。

        最后,百度基于PARL提供的高效靈活的并行化訓(xùn)練能力進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,使得訓(xùn)練效率得以數(shù)百倍地提升。PARL 的并行接口的設(shè)計(jì)思想是用 python 的多線程代碼實(shí)現(xiàn)真正意義上的高并發(fā),參賽選手只需要寫多線程級(jí)別的代碼,然后加上PARL的并行修飾符就可以調(diào)度不同機(jī)器的計(jì)算資源,達(dá)到高并發(fā)的性能。

        而此次獲得冠軍的百度「PARL」,名字來(lái)源于 PaddlePaddle Reinforcement Learning,是基于百度飛槳(PaddlePaddle)研發(fā)的靈活高效的強(qiáng)化學(xué)習(xí)框架。PARL 應(yīng)用了百度多年來(lái)在強(qiáng)化學(xué)習(xí)領(lǐng)域的技術(shù)深耕和產(chǎn)品應(yīng)用經(jīng)驗(yàn),具有更高的可擴(kuò)展性、可復(fù)現(xiàn)性和可復(fù)用性,強(qiáng)大的大規(guī)模并行化支持能力。開發(fā)者可以通過(guò) PARL 用數(shù)行代碼定制自己的模型,一個(gè)修飾符就能實(shí)現(xiàn)并行。此外,PARL 代碼風(fēng)格統(tǒng)一,包含了多個(gè)入門級(jí)別的強(qiáng)化學(xué)習(xí)算法,對(duì)初學(xué)者相當(dāng)友好。

        事實(shí)上百度對(duì)強(qiáng)化學(xué)習(xí)的關(guān)注始于 2012 年,當(dāng)時(shí)的百度就已經(jīng)將多臂老虎機(jī) (Multi-armed bandit) 的研究結(jié)果應(yīng)用在百度搜索和推薦等產(chǎn)品和功能上,此后,強(qiáng)化學(xué)習(xí)相繼落地在了度秘,鳳巢,新聞 Feed 推薦以及越來(lái)越多的相關(guān)產(chǎn)品中。

        今年 1 月,百度正式發(fā)布了深度強(qiáng)化學(xué)習(xí)框架 PARL,更強(qiáng)勁的強(qiáng)化學(xué)習(xí)能力也正在通過(guò)飛槳平臺(tái)賦能給更多開發(fā)者。

      特別提醒:本網(wǎng)內(nèi)容轉(zhuǎn)載自其他媒體,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。本站不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系我們,本站將會(huì)在24小時(shí)內(nèi)處理完畢。

      贊(0)
      分享到: 更多 (0)
      網(wǎng)站地圖   滬ICP備18035694號(hào)-2    滬公網(wǎng)安備31011702889846號(hào)