8月28日,由中國計(jì)算機(jī)學(xué)會(CCF)和中國中文信息學(xué)會(CIPS)共同發(fā)起并聯(lián)合主辦的第六屆語言與智能高峰論壇召開。會上,2021語言與智能技術(shù)競賽頒獎典禮圓滿落幕。

2021語言與智能技術(shù)競賽由中國計(jì)算機(jī)學(xué)會(CCF)和中國中文信息學(xué)會(CIPS)聯(lián)合主辦,百度公司、中國計(jì)算機(jī)學(xué)會自然語言處理專委會和中國中文信息學(xué)會評測工作委員會承辦。本屆競賽設(shè)置了機(jī)器閱讀理解、多技能對話和多形態(tài)信息抽取三大任務(wù),與往屆競賽僅關(guān)注模型在單一數(shù)據(jù)上的效果不同,本屆競賽聯(lián)手“千言”開源數(shù)據(jù)集項(xiàng)目,對每項(xiàng)任務(wù)設(shè)置了更加豐富的數(shù)據(jù)集合和評測維度,重點(diǎn)關(guān)注模型的魯棒性、泛化性和多任務(wù)能力等,從多個(gè)維度對技術(shù)效果進(jìn)行綜合評價(jià)。
雖然賽題難度較往年有所提升,但開發(fā)者們的參賽熱度不減。據(jù)統(tǒng)計(jì),來自產(chǎn)學(xué)研各界4300余人次、3500支隊(duì)伍參與了賽事爭奪,累計(jì)收到有效提交結(jié)果1萬多次,較去年平均單任務(wù)提交數(shù)提升22%,競爭非常激烈。
比賽過程中,選手們提出了很多創(chuàng)新思路和方案,三大任務(wù)效果相對基線大幅提升20%以上,對話任務(wù)甚至達(dá)到80%+,有力推動了相關(guān)任務(wù)的技術(shù)進(jìn)步。在頒獎現(xiàn)場,三個(gè)任務(wù)的優(yōu)勝團(tuán)隊(duì)也進(jìn)行了技術(shù)方案的分享和交流。
本次競賽的機(jī)器閱讀理解任務(wù)從細(xì)粒度、多維度挑戰(zhàn)了機(jī)器理解語言的能力,包括詞匯理解、短語理解、語義角色理解等五大考察維度。該賽道冠軍——來自深圳平安集團(tuán)金融壹賬通的團(tuán)隊(duì),介紹了行為型微調(diào)和注意力機(jī)制改良的兩階段微調(diào)方案。在行為型微調(diào)方案中,針對本次賽題的挑戰(zhàn),分別設(shè)計(jì)了詞匯替換、正/負(fù)短語理解問題構(gòu)造、語義角色互換樣本構(gòu)造和負(fù)推理樣本構(gòu)造的方法進(jìn)行數(shù)據(jù)增強(qiáng)。并將增強(qiáng)的數(shù)據(jù)分為低質(zhì)量和高質(zhì)量兩部分,先用低質(zhì)量數(shù)據(jù)對模型做自適應(yīng)的微調(diào),再用高質(zhì)量數(shù)據(jù)作為訓(xùn)練集擴(kuò)充,從而提高模型的魯棒性。

深圳平安集團(tuán)金融壹賬通團(tuán)隊(duì)方案分享
多技能對話賽道冠軍——來自螞蟻集團(tuán)大安全的團(tuán)隊(duì)利用了百度開源的對話預(yù)訓(xùn)練模型PLATO-2,對多種對話任務(wù)進(jìn)行統(tǒng)一建模,并加入OOV處理、知識篩選、推理優(yōu)化等優(yōu)化點(diǎn),效果大幅提升。同時(shí),該團(tuán)隊(duì)也表示,目前業(yè)界中文的開源對話數(shù)據(jù)較少,“千言”數(shù)據(jù)集的開源開放有助于對話技術(shù)的研究發(fā)展。

螞蟻集團(tuán)大安全團(tuán)隊(duì)方案分享
對于此次參賽的研究成果與自身業(yè)務(wù)的落地結(jié)合,多形態(tài)信息抽取賽道獲獎隊(duì)伍之一——來自小米公司的團(tuán)隊(duì)也給出了肯定的答案。針對本次賽題,該團(tuán)隊(duì)針對關(guān)系抽取、句子級事件抽取和篇章級事件抽取分別設(shè)計(jì)了不同的策略。同時(shí)他們表示,大規(guī)模知識圖譜和事件圖譜的構(gòu)建需要使用準(zhǔn)確度高的信息抽取算法,構(gòu)建好的知識圖譜可以應(yīng)用到廣告、對話機(jī)器人等場景,對于提高廣告CTR和對話機(jī)器人回答準(zhǔn)確率都有一定的價(jià)值。

小米公司團(tuán)隊(duì)方案分享
頒獎典禮現(xiàn)場,百度自然語言處理部主任研發(fā)架構(gòu)師劉璟做了競賽的整體報(bào)告,對本次比賽進(jìn)行全面總結(jié)。他還提到聯(lián)合建設(shè)“千言”數(shù)據(jù)集開源項(xiàng)目的宗旨:“我們的目標(biāo)是構(gòu)建全面的、面向自然語言理解和生成的開源數(shù)據(jù)集合,希望能夠通過多維度的綜合評價(jià),以及覆蓋豐富的任務(wù)類型,共同推動中文信息處理技術(shù)的進(jìn)步”。作為面向自然語言理解和生成任務(wù)的中文開源數(shù)據(jù)集合,“千言”旨在為研究人員帶來一站式的數(shù)據(jù)集瀏覽、整理、下載和評測的科研體驗(yàn)。在本次比賽結(jié)束后,自然語言處理領(lǐng)域的研究者、開發(fā)者可通過“千言”官網(wǎng)(luge.ai)繼續(xù)下載和使用相關(guān)數(shù)據(jù)集,并參與相應(yīng)的常規(guī)評測,不斷打磨和提升相關(guān)任務(wù)的技術(shù)水平,形成創(chuàng)新閉環(huán)。
近年來,學(xué)術(shù)界、產(chǎn)業(yè)界對自然語言處理這一領(lǐng)域持續(xù)深耕,促進(jìn)著人工智能學(xué)科不斷向前發(fā)展。自然語言處理技術(shù)的應(yīng)用不僅改變著人類的生活方式,也為實(shí)際產(chǎn)業(yè)應(yīng)用的升級提供了更多新的可能。語言與智能競賽持續(xù)“以賽促學(xué)”,挖掘和培養(yǎng)更多的AI技術(shù)人才、賦能社會百業(yè),為中國AI產(chǎn)業(yè)的發(fā)展再添動能。
特別提醒:本網(wǎng)信息來自于互聯(lián)網(wǎng),目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,并請自行核實(shí)相關(guān)內(nèi)容。本站不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請及時(shí)聯(lián)系我們,本站將會在24小時(shí)內(nèi)處理完畢。
相關(guān)推薦
- 海外廣告聯(lián)盟評測:日付平臺與CPV模式如何高效變現(xiàn)?
- 華納云香港高防服務(wù)器150G防御4.6折促銷,低至6888元/月,CN2大帶寬直連清洗,終身循環(huán)折扣
- 2025年國內(nèi)免費(fèi)AI工具推薦:文章生成與圖像創(chuàng)作全攻略
- 自媒體推廣實(shí)時(shí)監(jiān)控從服務(wù)器帶寬到用戶行為解決方法
- 站長必讀:從“流量思維”到“IP思維”的品牌升級之路
- 從流量變現(xiàn)到信任變現(xiàn):個(gè)人站長的私域運(yùn)營方法論
- 傳統(tǒng)網(wǎng)站如何借力短視頻?從SEO到“內(nèi)容種草”的轉(zhuǎn)型策略
- AI時(shí)代,個(gè)人站長如何用AI工具實(shí)現(xiàn)“一人公司”