久久久久久久视色,久久电影免费精品,中文亚洲欧美乱码在线观看,在线免费播放AV片

<center id="vfaef"><input id="vfaef"><table id="vfaef"></table></input></center>

<p id="vfaef"><kbd id="vfaef"></kbd></p>

<pre id="vfaef"><u id="vfaef"></u></pre>

<thead id="vfaef"><input id="vfaef"></input></thead>

<td id="ntn72"><strong id="ntn72"></strong></td>

當(dāng)前位置：站長資訊網(wǎng) > 新聞資訊 > 正文

百度亮相計算機視覺頂會CVPR2021 展現(xiàn)領(lǐng)先學(xué)術(shù)創(chuàng)新能力

2021-04-19 分類：新聞資訊閱讀(1236) 評論(0)

百度亮相計算機視覺頂會CVPR2021 展現(xiàn)領(lǐng)先學(xué)術(shù)創(chuàng)新能力

　　近日，IEEE 國際計算機視覺與模式識別會議CVPR 2021年度論文錄用結(jié)果公布。作為全球計算機視覺三大頂會之一的CVPR，此次共收錄7015篇有效投稿，最終有1663篇突出重圍，接受率為23.7%;據(jù)悉，近兩年CVPR錄用結(jié)果均在25%左右，2020年更是降至22.1%，錄用愈發(fā)嚴(yán)格。百度今年繼續(xù)保持高質(zhì)量輸出，貢獻(xiàn)了多篇計算機視覺相關(guān)的優(yōu)質(zhì)論文，涵蓋圖像語義分割、文本視頻檢索、3D目標(biāo)檢測、風(fēng)格遷移、視頻理解、遷移學(xué)習(xí)等多個研究方向，這些技術(shù)創(chuàng)新和突破將有助于智慧醫(yī)療、自動駕駛、智慧城市、智慧文娛、智能辦公、智慧制造等場景的落地應(yīng)用，進(jìn)一步擴大中國AI技術(shù)的影響力，推進(jìn)全球人工智能的發(fā)展。

　　此外，百度今年也聯(lián)合澳大利亞悉尼科技大學(xué)和美國北卡羅來納大學(xué)舉辦CVPR 2021 NAS Workshop(https://www.cvpr21-nas.com/)，并已啟動了相應(yīng)的國際競賽(https://www.cvpr21-nas.com/competition)，探索神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中的搜索效率和效果問題。當(dāng)前，來自全球的參賽隊伍已超過400支。

　　以下為百度CVPR2021部分精選論文的亮點集錦。

　　1.一種快速元學(xué)習(xí)更新策略及其在有噪聲標(biāo)注數(shù)據(jù)上的應(yīng)用

　　Faster Meta Update Strategy for Noise-Robust Deep Learning

百度亮相計算機視覺頂會CVPR2021 展現(xiàn)領(lǐng)先學(xué)術(shù)創(chuàng)新能力

　　本論文已被CVPR2021接收為oral論文?；趍eta-learning的方法在有噪聲標(biāo)注的圖像分類中取得了顯著的效果。這類方法往往需要大量的計算資源，而計算瓶頸在于meta-gradient的計算上。本文提出了一種高效的meta-learning更新方式：Faster Meta Update Strategy (FaMUS)，加快了meta-learning的訓(xùn)練速度 (減少約2/3的訓(xùn)練時間)，并提升了模型的性能。首先，本文發(fā)現(xiàn)meta-gradient的計算可以轉(zhuǎn)換成一個逐層計算并累計的形式; 并且，meta-learning的更新只需少量層數(shù)在meta-gradient就可以完成?；诖耍疚脑O(shè)計了一個layer-wise gradient sampler 加在網(wǎng)絡(luò)的每一層上。根據(jù)sampler的輸出，模型可以在訓(xùn)練過程中自適應(yīng)地判斷是否計算并收集該層網(wǎng)絡(luò)的梯度。越少層的meta-gradient需要計算，網(wǎng)絡(luò)更新時所需的計算資源越少，從而提升模型的計算效率。并且，本文發(fā)現(xiàn)FaMUS使得meta-learning更加穩(wěn)定，從而提升了模型的性能。本文在有噪聲的分類問題以及長尾分類問題都驗證了本文方法的有效性。最后，在實際應(yīng)用中，本文的方法可以擴展到大多數(shù)帶有噪聲標(biāo)注數(shù)據(jù)的場景或者任務(wù)中，減少了模型對于高質(zhì)量標(biāo)注數(shù)據(jù)的依賴，具有較為廣闊的應(yīng)用空間。

　　2.面向無監(jiān)督域適應(yīng)圖像語義分割的具有域感知能力的元損失校正方法

　　MetaCorrection: Domain-aware Meta Loss Correction for Unsupervised Domain Adaptation in Semantic Segmentation

　　論文鏈接： https://arxiv.org/abs/2103.05254

百度亮相計算機視覺頂會CVPR2021 展現(xiàn)領(lǐng)先學(xué)術(shù)創(chuàng)新能力

　　無監(jiān)督域適應(yīng)在跨域圖像語義分割問題上取得了不錯的效果。已有的基于自訓(xùn)練(self-training)方式的無監(jiān)督域適應(yīng)方法，通過對目標(biāo)域分配偽標(biāo)簽來達(dá)到較好的域適應(yīng)效果，但是這些偽標(biāo)簽不可避免的包含一些標(biāo)簽噪聲。為了解決這一問題，本研究提出了“元校正”的新框架，該新框架利用域可知的元學(xué)習(xí)(Meta Learning)方式來促進(jìn)誤差校正。首先把包含噪聲標(biāo)簽的偽標(biāo)簽通過一個噪聲轉(zhuǎn)移矩陣進(jìn)行表達(dá)，然后通過在構(gòu)建的元數(shù)據(jù)上，對此噪聲轉(zhuǎn)移矩陣進(jìn)行優(yōu)化，從而提高在目標(biāo)域的性能。該新方案在GTA5?CityScapes、SYNHIA?CityScapes 兩個標(biāo)準(zhǔn)自動駕駛場景數(shù)據(jù)庫及Deathlon?NCI-ISBI13醫(yī)學(xué)圖像數(shù)據(jù)庫跨域分割測試上都取得了非常不錯的結(jié)果。該方案以后有望在自動駕駛圖像及醫(yī)學(xué)圖像分割上取得落地。

　　3.基于跨任務(wù)場景結(jié)構(gòu)知識遷移的單張深度圖像超分辨率方法

　　Learning Scene Structure Guidance via Cross-Task Knowledge Transfer for Single Depth Super-Resolution

百度亮相計算機視覺頂會CVPR2021 展現(xiàn)領(lǐng)先學(xué)術(shù)創(chuàng)新能力

　　本項研究針對深度傳感系統(tǒng)獲取的場景深度圖像分辨率低和細(xì)節(jié)丟失等問題，突破現(xiàn)有基于彩色指導(dǎo)的場景深度復(fù)原方法的局限性，首次提出基于跨任務(wù)場景結(jié)構(gòu)知識遷移的單一場景深度圖像超分辨率方法，在訓(xùn)練階段從彩色圖像蒸餾出場景結(jié)構(gòu)信息來輔助提升深度復(fù)原性能，而測試階段僅提供單張降質(zhì)深度圖像作為輸入即可實現(xiàn)深度圖像重建。該算法框架同時構(gòu)造了深度估計任務(wù)(彩色圖像為輸入估計深度信息)及深度復(fù)原任務(wù)(低質(zhì)量深度為輸入估計高質(zhì)量深度)，并提出了基于師生角色交換的跨任務(wù)知識蒸餾策略以及不確定度引導(dǎo)的結(jié)構(gòu)正則化學(xué)習(xí)來實現(xiàn)雙邊知識遷移，通過協(xié)同訓(xùn)練兩個任務(wù)來提升深度超分辨率任務(wù)的性能。

　　在實際部署和測試中，所提出的方法具有模型輕量化、算法速度快等特點，且在缺少高分辨率彩色信息輔助的情況下仍可獲得優(yōu)異的性能。此項研究能有效應(yīng)用于機器人室內(nèi)導(dǎo)航及自動駕駛等領(lǐng)域。

　　4.基于拉普拉斯金字塔網(wǎng)絡(luò)的快速高質(zhì)量藝術(shù)風(fēng)格遷移

　　Drafting and Revision: Laplacian Pyramid Network for Fast High-Quality Artistic Style Transfer

百度亮相計算機視覺頂會CVPR2021 展現(xiàn)領(lǐng)先學(xué)術(shù)創(chuàng)新能力

　　藝術(shù)風(fēng)格遷移是指將一張風(fēng)格圖中的顏色和紋理風(fēng)格遷移到一張內(nèi)容圖上，同時保存內(nèi)容圖的結(jié)構(gòu)。相關(guān)算法在藝術(shù)圖像生成、濾鏡等領(lǐng)域有廣泛的應(yīng)用。目前基于前饋網(wǎng)絡(luò)的風(fēng)格化算法存在紋理遷移不干凈、大尺度復(fù)雜紋理無法遷移等缺點;而目前基于優(yōu)化的風(fēng)格化方法雖然質(zhì)量較高，但速度很慢。因此本文提出了一種能夠生成高質(zhì)量風(fēng)格化圖的快速前饋風(fēng)格化網(wǎng)絡(luò)——拉普拉斯金字塔風(fēng)格化網(wǎng)絡(luò)(LapStyle)。本文在實驗中觀察到，在低分辨率圖像上更容易對結(jié)構(gòu)復(fù)雜的大尺度紋理進(jìn)行遷移，而在高分辨率圖像上則更容易對局部小尺度紋理進(jìn)行遷移。因此本文提出的LapStyle首先在低分辨率下遷移復(fù)雜紋理，再在高分辨率下對紋理的細(xì)節(jié)進(jìn)行修正。在實驗中，LapStyle遷移復(fù)雜紋理的效果顯著超過了現(xiàn)有方法，同時能夠在512分辨率下達(dá)到100fps的速度。本文的方法能夠給用戶帶來新穎的體驗，同時也能夠?qū)崿F(xiàn)移動端上的實時風(fēng)格化效果。

　　5.一種通用的基于渲染的三維目標(biāo)檢測數(shù)據(jù)增強框架

　　LiDAR-Aug: A General Rendering-based Augmentation Framework for 3D Object Detection

百度亮相計算機視覺頂會CVPR2021 展現(xiàn)領(lǐng)先學(xué)術(shù)創(chuàng)新能力

　　在自動駕駛中，感知模塊非常重要，直接影響著后續(xù)的物體跟蹤、軌跡預(yù)測、路徑規(guī)劃等模塊?，F(xiàn)在主流的三維目標(biāo)檢測算法都是基于深度學(xué)習(xí)。而對于基于深度學(xué)習(xí)的三維目標(biāo)檢測任務(wù)而言，帶有標(biāo)注信息的激光雷達(dá)點云數(shù)據(jù)非常關(guān)鍵。但是數(shù)據(jù)標(biāo)注，尤其是基于點云的三維標(biāo)注，本身成本高昂且耗時久，而數(shù)據(jù)增強則可以作為一個在模型訓(xùn)練階段的一個重要的模塊，來減緩對于數(shù)據(jù)標(biāo)注的需求。在三維目標(biāo)檢測領(lǐng)域中，簡單的將物體進(jìn)行復(fù)制粘貼是一種非常常見的數(shù)據(jù)增強策略，但是往往忽略了物體之間的遮擋關(guān)系。為了解決這個問題，本文提出了一種基于計算機圖形學(xué)渲染的激光雷達(dá)點云數(shù)據(jù)增強框架，LiDAR-Aug,來豐富訓(xùn)練數(shù)據(jù)從而提升目標(biāo)檢測的性能。

　　本文提出的數(shù)據(jù)增強模塊使用即插即用的方式，可以很容易的集成到常見的目標(biāo)檢測框架中。同時，本文的增強算法對于檢測算法適用性很廣，可用于基于網(wǎng)格劃分、基于柱狀深度圖表示等等檢測算法中。比起常見的其他三維目標(biāo)檢測數(shù)據(jù)增強方法，本文的方法生成的增強數(shù)據(jù)，具有更廣的多樣性和真實感。最后，實驗結(jié)果表明，本文提出的方法可以應(yīng)用在主流的三維目標(biāo)檢測框架上，給自動駕駛的感知系統(tǒng)帶來檢測性能的提升，尤其是對于稀缺場景和類別，能帶來較大的提升。

　　6.基于細(xì)粒度自適應(yīng)對齊的文本視頻檢索

　　T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval

百度亮相計算機視覺頂會CVPR2021 展現(xiàn)領(lǐng)先學(xué)術(shù)創(chuàng)新能力

　　隨著互聯(lián)網(wǎng)視頻尤其是短視頻的火熱，文本視頻檢索在近段時間獲得了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。在引入多模態(tài)視頻信息后，如何精細(xì)化地配準(zhǔn)局部視頻特征和自然語言特征成為這一問題的難點。本文提出自動化學(xué)習(xí)文本和視頻信息共享的語義中心，并對自適應(yīng)聚類后的局部特征做對應(yīng)匹配，避免了復(fù)雜的計算，同時賦予了模型精細(xì)化理解語言和視頻局部信息的能力。此外，本文的模型可以直接將多模態(tài)的視頻信息(聲音、動作、場景、speech、OCR、人臉等)映射到同一空間，利用同一組語義中心來做聚類融合，在一定程度上解決了多模態(tài)信息難以綜合利用的問題。本文的模型在三個標(biāo)準(zhǔn)的Text-Video Retrieval Dataset上均取得了SOTA。對比Google在ECCV 2020上的發(fā)表的最新工作，本文的模型能在將運算時間降低一半的情況下，僅利用小規(guī)模標(biāo)準(zhǔn)數(shù)據(jù)集，在兩個benchmark上超過其在億級視頻文本數(shù)據(jù)(Howto100M)上pretrain模型的檢索結(jié)果。

　　7.VSPW：大規(guī)模自然視頻場景分割數(shù)據(jù)集

　　VSPW: A Large-scale Dataset for Video Scene Parsing in the Wild

百度亮相計算機視覺頂會CVPR2021 展現(xiàn)領(lǐng)先學(xué)術(shù)創(chuàng)新能力

　　近年來，圖像語義分割方法已經(jīng)有了長足的發(fā)展，而對視頻語義分割的探索比較有限，一個原因是缺少足夠規(guī)模的視頻語義分割數(shù)據(jù)集。本文提出了一個大規(guī)模視頻語義分割數(shù)據(jù)集，VSPW。VSPW數(shù)據(jù)集有著以下特點：(1)大規(guī)模、多場景標(biāo)注：本數(shù)據(jù)集共標(biāo)注3536個視頻、251632幀像素級語義分割圖片，涵蓋了124個語義類別，標(biāo)注數(shù)量遠(yuǎn)超之前的語義分割數(shù)據(jù)集(Cityscapes, CamVid)。與之前數(shù)據(jù)集僅關(guān)注街道場景不同，本數(shù)據(jù)集覆蓋超過200種視頻場景，極大豐富了數(shù)據(jù)集的多樣性;(2)密集標(biāo)注：之前數(shù)據(jù)集對視頻數(shù)據(jù)標(biāo)注很稀疏，比如Cityscapes，在30幀的視頻片段中僅標(biāo)注其中一幀。VSPW 數(shù)據(jù)集按照15f/s的幀率對視頻片段標(biāo)注，提供了更密集的標(biāo)注數(shù)據(jù);(3)高清視頻標(biāo)注：本數(shù)據(jù)集中，超過96%的視頻數(shù)據(jù)分辨率在720P至4K之間。與圖像語義分割相比，視頻語義分割帶來了新的挑戰(zhàn)，比如，如何處理動態(tài)模糊的幀、如何高效地利用時序信息預(yù)測像素語義、如何保證預(yù)測結(jié)果時序上的穩(wěn)定等等。

　　本文提供了一個基礎(chǔ)的視頻語義分割算法，利用時序的上下文信息來提升分割精度和穩(wěn)定性。同時，本文還提出了針對視頻分割時序穩(wěn)定性的新的度量標(biāo)準(zhǔn)。期待VSPW 能促進(jìn)針對視頻語義分割領(lǐng)域的新算法不斷涌現(xiàn)，解決上文提出的視頻語義分割帶來的新挑戰(zhàn)。

　　8.基于視覺算法一次性去除雨滴和雨線

　　Removing Raindrops and Rain Streaks in One Go

百度亮相計算機視覺頂會CVPR2021 展現(xiàn)領(lǐng)先學(xué)術(shù)創(chuàng)新能力

　　現(xiàn)有的去雨算法一般針對的是單一的去除雨線或者是去除雨滴問題，但是在現(xiàn)實場景中兩種不同類型的雨往往同時存在。尤其是在下雨的自動駕駛場景中，空氣中線條狀的雨線和擋風(fēng)玻璃上的橢圓形水滴都會嚴(yán)重影響車載攝像頭捕捉的畫面的清晰度，從而大幅降低了自動駕駛視覺算法的準(zhǔn)確性。針對這一問題，本文首先設(shè)計一種互補型級連網(wǎng)絡(luò)結(jié)構(gòu)—CCN，能夠在一個整體網(wǎng)絡(luò)中以互補的方式去除兩種形狀和結(jié)構(gòu)差異較大的雨。其次，目前公開數(shù)據(jù)集缺少同時含有雨線和雨滴的數(shù)據(jù)，對此本文提出了一個新的數(shù)據(jù)集RainDS，其中包括了雨線和雨滴數(shù)據(jù)以及它們相應(yīng)的Ground Truth，并且該數(shù)據(jù)集同時包含了合成數(shù)據(jù)以及現(xiàn)實場景中拍攝的真實數(shù)據(jù)以用來彌合真實數(shù)據(jù)與合成數(shù)據(jù)之間的領(lǐng)域差異。實驗表明，本文的方法在現(xiàn)有的雨線或者雨滴數(shù)據(jù)集以及提出的RainDS上都能實現(xiàn)很好的去雨效果。在實際應(yīng)用中，使用一個整體的網(wǎng)絡(luò)同時去除視野中的雨滴和雨線，可進(jìn)一步幫助提升在下雨天氣中自動駕駛視覺算法的準(zhǔn)確性。

　　9.弱監(jiān)督聲音-視頻解析中的異類線索探索

　　Exploring Heterogeneous Clues for Weakly-Supervised Audio-Visual Video Parsing

百度亮相計算機視覺頂會CVPR2021 展現(xiàn)領(lǐng)先學(xué)術(shù)創(chuàng)新能力

　　現(xiàn)有的音視頻研究常常假設(shè)聲音和視頻信號中的事件是天然同步的，然而在日常視頻中，同一時間可能音視頻會存在不同的事件內(nèi)容。比如一個視頻畫面播放的是足球賽，而聲音聽到的是解說員的話音。本文旨在精細(xì)化的研究分析視頻中的事件，從視頻和音頻中分析出事件類別和其時間定位。本文針對通用視頻，設(shè)計一套框架來從弱標(biāo)簽中學(xué)習(xí)這種精細(xì)化解析能力。該弱標(biāo)簽只是視頻的標(biāo)簽(比如籃球賽、解說)，并沒有針對音視頻軌道有區(qū)分標(biāo)注，也沒用時間位置標(biāo)注。本文使用MIL(Multiple-instance Learning)來訓(xùn)練模型。然而，因為缺少時間標(biāo)簽，這種總體訓(xùn)練會損害網(wǎng)絡(luò)的預(yù)測能力，可能在不同的時間上都會預(yù)測同樣的事件。因此本文提出引入跨模態(tài)對比學(xué)習(xí)，來引導(dǎo)注意力網(wǎng)絡(luò)關(guān)注到當(dāng)前時刻的底層信息，避免被全局上下文信息主導(dǎo)。此外，本文希望能精準(zhǔn)地分析出到底是視頻還是音頻中包含這個弱標(biāo)簽信息。因此，本文設(shè)計了一套通過交換音視頻軌道來獲取與模態(tài)相關(guān)的標(biāo)簽的算法，來去除掉模態(tài)無關(guān)的監(jiān)督信號。具體來說，本文將一個視頻與一個無關(guān)視頻(標(biāo)簽不重合的視頻)進(jìn)行音視頻軌道互換。本文對互換后的新視頻進(jìn)行標(biāo)簽預(yù)測。如果他對某事件類別的預(yù)測還是非常高的置信度，那么本文認(rèn)為這個僅存的模態(tài)軌道里確實可能包含這個事件。否則，本文認(rèn)為這個事件只在另一個模態(tài)中出現(xiàn)。通過這樣的操作，本文可以為每個模態(tài)獲取不同的標(biāo)簽。本文用這些改過的標(biāo)簽重新訓(xùn)練網(wǎng)絡(luò)，避免了網(wǎng)絡(luò)被模糊的全局標(biāo)簽誤導(dǎo)，從而獲得了更高的視頻解析性能。該方法可以用來幫助精準(zhǔn)定位愛奇藝等網(wǎng)絡(luò)視頻中的各類動作、事件。

　　10.基于雙尺度一致性的六自由度物體姿態(tài)估計學(xué)習(xí)

　　DSC-PoseNet: Learning 6DoF Object Pose Estimation via Dual-scale Consistency

百度亮相計算機視覺頂會CVPR2021 展現(xiàn)領(lǐng)先學(xué)術(shù)創(chuàng)新能力

　　相比較于標(biāo)注目標(biāo)物體的二維外接框，人工標(biāo)注三維姿態(tài)非常困難，特別是當(dāng)物體的深度信息缺失的時候。為了減輕人工標(biāo)注的壓力，本文提出了一個兩階段的物體姿態(tài)估計框架,從物體的二維外接框中學(xué)習(xí)三維空間中的六自由度物體姿態(tài)。在第一階段中，網(wǎng)絡(luò)通過弱監(jiān)督學(xué)習(xí)的方式從二維外接框中提取像素級別的分割掩模。在第二階段中，本文設(shè)計了兩種自監(jiān)督一致性來訓(xùn)練網(wǎng)絡(luò)預(yù)測物體姿態(tài)。這兩種一致性分別為：1、雙尺度預(yù)測一致性;2、分割-渲染的掩模一致性。為驗證方法的有效性和泛化能力，本文在多個常用的基準(zhǔn)數(shù)據(jù)集上進(jìn)行了大量的實驗。在只使用合成數(shù)據(jù)以及外接框標(biāo)注的條件下，本文大幅超越了許多目前的最佳方法，甚至性能上達(dá)到了許多全監(jiān)督方法的水平。

　　11.基于深度動態(tài)信息傳播的單目3D檢測

　　Depth-conditioned Dynamic Message Propagation for Monocular 3D Object Detection

百度亮相計算機視覺頂會CVPR2021 展現(xiàn)領(lǐng)先學(xué)術(shù)創(chuàng)新能力

　　本文首次提出一種基于圖信息傳播模式的深度感知單目3D檢測模型(DDMP-3D)，以有效的學(xué)習(xí)單目圖片3D目標(biāo)的特征。具體來說，將每個特征像素視為圖中的一個節(jié)點，本文首先從特征圖中動態(tài)采樣一個節(jié)點的鄰域。通過自適應(yīng)地選擇圖中最相關(guān)節(jié)點的子集，該操作允許網(wǎng)絡(luò)有效地獲取目標(biāo)上下文信息。對于采樣的節(jié)點，本文模擬圖信息傳播模式，使用深度特征為節(jié)點預(yù)測濾波器權(quán)重和親和度矩陣，以通過采樣的節(jié)點傳播信息。此外，在傳播過程中探索了多尺度深度特征，學(xué)習(xí)了混合濾波器權(quán)重和親和度矩陣以適應(yīng)各種尺度的物體。另外，為了解決先驗深度圖不準(zhǔn)確的問題，本文增強了中心感知深度編碼(CDE)作為在深度分支處附加的輔助任務(wù)。它通過3D目標(biāo)中心回歸任務(wù)，指導(dǎo)深度分支的中間特征具有中心感知能力，并進(jìn)一步改善對象的定位。

　　這種基于單目的3D檢測模型對于設(shè)備的要求較低(僅需要單個攝像頭)，容易在自動駕駛系統(tǒng)中實現(xiàn)應(yīng)用。3D單目檢測作為自動駕駛系統(tǒng)中的第一步，為后續(xù)的物體識別、系統(tǒng)決策等一系列任務(wù)做基礎(chǔ)。

　　12.半監(jiān)督遷移學(xué)習(xí)自適應(yīng)一致性正則化

　　Adaptive Consistency Regularization for Semi-Supervised Transfer Learning

　　論文鏈接：https://arxiv.org/abs/2103.02193

百度亮相計算機視覺頂會CVPR2021 展現(xiàn)領(lǐng)先學(xué)術(shù)創(chuàng)新能力

　　在標(biāo)注樣本稀缺的情況下，半監(jiān)督學(xué)習(xí)作為一種有效利用無標(biāo)簽樣本，進(jìn)而提供模型效果的技術(shù)，受到廣泛關(guān)注。預(yù)訓(xùn)練加遷移學(xué)習(xí)的方式是另一種高效訓(xùn)練優(yōu)質(zhì)模型的重要技術(shù)。本文研究了一個非常實用的場景，即在具備預(yù)訓(xùn)練模型的情況下進(jìn)行半監(jiān)督學(xué)習(xí)。本文提出了自適應(yīng)一致性正則化技術(shù)來充分利用預(yù)訓(xùn)練模型和無標(biāo)簽樣本的價值。具體的，該方法包含知識一致性(Adaptive Knowledge Consistency, AKC)和表征一致性(Adaptive Representation Consistency, ARC)兩個組件。AKC利用全部樣本保持預(yù)訓(xùn)練模型和目標(biāo)模型的知識一致性，來保障目標(biāo)模型的泛化能力;而ARC要求在有標(biāo)簽和無標(biāo)簽的樣本之間保持表征的一致性，來降低目標(biāo)模型的經(jīng)驗損失。自適應(yīng)技術(shù)在這兩項中用于選擇有代表性的樣本，以確保約束的可靠性。相比最新的半監(jiān)督學(xué)習(xí)算法，本文的方法在通用數(shù)據(jù)集CIFAR-10/100，以及動物、場景、醫(yī)療三個特定領(lǐng)域的數(shù)據(jù)集上都獲得明顯的優(yōu)勢，并且能和MixMatch/FixMatch等最新方法疊加使用獲得進(jìn)一步提升，幾乎沒有額外的計算消耗。

特別提醒：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實，對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾，并請自行核實相關(guān)內(nèi)容。本站不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系我們，本站將會在24小時內(nèi)處理完畢。

贊(0)

標(biāo)簽：AI apt NAS set word 互聯(lián)網(wǎng)+人工智能數(shù)據(jù)庫智慧城市機器人愛奇藝百度短視頻美國自動駕駛視頻解析計算機谷歌

相關(guān)推薦

網(wǎng)站地圖滬ICP備18035694號-2

滬公網(wǎng)安備31011702889846號