近日,知識分享平臺知乎宣布與NLPCC(自然語言處理與中文計算會議)合作,開放自身所匯集的問題標簽預測數(shù)據(jù),并全部使用明文提供,供業(yè)界研究和討論。
據(jù)悉,此次開放的問題標簽預測數(shù)據(jù)來源于2017年8月知乎與 IEEE 聯(lián)合舉辦的首屆“知乎 · 看山杯機器學習挑戰(zhàn)賽”,該比賽共吸引近千支來自全球各個院校以及工業(yè)界的算法挑戰(zhàn)隊伍參與。此次公布的數(shù)據(jù)內容包含問題的Title、描述、話題的名字等,此外,知乎對其中的一些錯誤標簽進行了人工糾正,并對數(shù)據(jù)進行了嚴格的脫敏及審查,確保數(shù)據(jù)內容僅包含提問內容及內容標簽,不涉及用戶的知乎帳號等信息,用戶的個人隱私和信息安全將享有高優(yōu)先級的保護。
知乎方面表示:歡迎學術界和工業(yè)界同仁下載并參與討論。也希望通過比賽和開放數(shù)據(jù),為自然語言理解(NLU)領域在國內的發(fā)展提供助力。相比國外的ImageNet、Gigaword等高質量數(shù)據(jù)集,中文互聯(lián)網(wǎng)相關的高質量數(shù)據(jù)集相對缺乏。而作為中文互聯(lián)網(wǎng)最大的知識分享平臺,知乎累積了較多高質量文本語料及數(shù)據(jù)。目前,知乎機器學習團隊已經搭建了一套基礎生態(tài)體系,通過算法實現(xiàn)了用戶畫像、內容分析、內容個性化推送等,其效率比過去的人工運營方式提高了數(shù)十倍。
未來,知乎還希望通過機器學習和算法滿足用戶的閱讀興趣,進一步滿足關乎用戶自我提升的優(yōu)質信息獲取需求。作為一個擁有超過 3400 萬日活用戶,每天有數(shù)以十萬計的高質量的 UGC 內容產生的網(wǎng)站。機器學習技術可以幫知乎做到的不只是“分發(fā)”內容,還能更深入地“理解”內容,從而幫助用戶更好地獲取有價值信息。
而作為此次的合作的另一方,NLPCC在業(yè)內也可謂“鼎鼎大名”。NLPCC全稱為CCF國際自然語言處理與中文計算會議,由中國計算機學會(CCF)主辦,CCF中文信息技術專業(yè)委員會(CCF TCCI)及高校(每年通過投票選舉)承辦。會議內容主要圍繞自然語言處理(NLP)和中文計算(CC)兩方面來進行。目前,NLPCC已成為國內自然語言處理領域的年度盛會,同時也在逐漸走向國際化道路。
特別提醒:本網(wǎng)內容轉載自其他媒體,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點。其原創(chuàng)性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,并請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網(wǎng)有任何內容侵犯您的權益,請及時聯(lián)系我們,本站將會在24小時內處理完畢。