2018機器閱讀理解技術競賽在機器閱讀理解領域掀起了熱潮,自3月1日正式開放報名至今,已經(jīng)有800多支團隊或個人報名參賽。3月31日,競賽將停止報名,同時開放百度DuReader新數(shù)據(jù)集,參賽者可登錄競賽官網(wǎng)(http://mrc2018.cipsc.org.cn/)下載,并開啟競賽任務。還未報名的研究團隊,也可抓住最后的時間,登錄官網(wǎng)報名參賽。3月31日報名的隊伍當天即可下載新數(shù)據(jù)集。

2018機器閱讀理解技術競賽由百度公司、中國中文信息學會(CIPS)、中國計算機學會(CCF)聯(lián)手舉辦,旨在為研究者提供學術交流平臺,進一步提升閱讀理解的研究水平, 推動語言理解和人工智能領域技術和應用的發(fā)展,是中文機器閱讀理解領域的重大賽事。
大賽信息一經(jīng)公布,便受到了全球機器閱讀理解領域研究者的廣泛關注。截至3月25日,全球參與競賽的隊伍和個人注冊報名數(shù)量達到824個,其中國際隊伍109個,國內(nèi)報名隊伍715個。參賽的國際團隊來自美國、英國、加拿大、新加坡等十余個國家。高校、科研院所和企業(yè)是參賽隊伍中的主力,333支報名團隊來自高校和科研院所,112支團隊來自企業(yè)。據(jù)統(tǒng)計信息,全國116所211高校中,將近一半有研究團隊報名參賽。
為了給本次參賽的研究者們提供有力的支撐,百度將提供來自搜索引擎真實應用場景的大規(guī)模中文閱讀理解數(shù)據(jù)集DuReader,包含百度搜索用戶的30萬個真實問題,每個問題對應5個候選文檔文本,以及人工撰寫的優(yōu)質(zhì)答案。同時,數(shù)據(jù)集還標注了問題類型、實體和觀點等豐富信息,并且劃分為27萬的訓練集,1萬開發(fā)集和2萬測試集。其中,去年11月百度首批發(fā)布的DuReader數(shù)據(jù)集中的20萬問題數(shù)據(jù),參賽者可自由下載用于訓練和測試,本次競賽的30萬數(shù)據(jù)集(包括新增的10萬問題數(shù)據(jù)集)將于3月31日凌晨0點正式在官網(wǎng)數(shù)據(jù)下載區(qū)公布,參賽者可以重點關注。
機器閱讀理解(Machine Reading Comprehension)是指讓機器閱讀文本,然后回答和閱讀內(nèi)容相關的問題。閱讀理解是自然語言處理和人工智能領域的重要前沿課題,對于提升機器智能水平、使機器具有持續(xù)知識獲取能力具有重要價值,近年來受到學術界和工業(yè)界的廣泛關注。百度在自然語言處理(NLP)領域已經(jīng)過十余年積累與沉淀,具備了最前沿、最全面、最領先的技術布局,不僅專注于前瞻技術探索,更致力通過技術應用解決實際問題。
目前,世界機器閱讀理解領域經(jīng)典賽事多集中在英文領域,比如由斯坦福大學發(fā)起的SQuAD挑戰(zhàn)賽以及微軟的MS MARCO機器閱讀理解測試,而基于百度DuReader的2018機器閱讀理解技術競賽無疑將成為中文機器閱讀理解領域的一大盛事。報名地址及賽事詳情可登錄2018機器閱讀理解技術競賽官網(wǎng)了解。