近日,知識分享平臺知乎宣布與NLPCC(自然語言處理與中文計算會議)合作,開放自身所匯集的問題標簽預測數(shù)據(jù),并全部使用明文提供,供業(yè)界研究和討論。
據(jù)悉,此次開放的問題標簽預測數(shù)據(jù)來源于2017年8月知乎與 IEEE 聯(lián)合舉辦的首屆“知乎 · 看山杯機器學習挑戰(zhàn)賽”,該比賽共吸引近千支來自全球各個院校以及工業(yè)界的算法挑戰(zhàn)隊伍參與。此次公布的數(shù)據(jù)內(nèi)容包含問題的Title、描述、話題的名字等,此外,知乎對其中的一些錯誤標簽進行了人工糾正,并對數(shù)據(jù)進行了嚴格的脫敏及審查,確保數(shù)據(jù)內(nèi)容僅包含提問內(nèi)容及內(nèi)容標簽,不涉及用戶的知乎帳號等信息,用戶的個人隱私和信息安全將享有高優(yōu)先級的保護。
知乎方面表示:歡迎學術(shù)界和工業(yè)界同仁下載并參與討論。也希望通過比賽和開放數(shù)據(jù),為自然語言理解(NLU)領(lǐng)域在國內(nèi)的發(fā)展提供助力。相比國外的ImageNet、Gigaword等高質(zhì)量數(shù)據(jù)集,中文互聯(lián)網(wǎng)相關(guān)的高質(zhì)量數(shù)據(jù)集相對缺乏。而作為中文互聯(lián)網(wǎng)最大的知識分享平臺,知乎累積了較多高質(zhì)量文本語料及數(shù)據(jù)。目前,知乎機器學習團隊已經(jīng)搭建了一套基礎(chǔ)生態(tài)體系,通過算法實現(xiàn)了用戶畫像、內(nèi)容分析、內(nèi)容個性化推送等,其效率比過去的人工運營方式提高了數(shù)十倍。
未來,知乎還希望通過機器學習和算法滿足用戶的閱讀興趣,進一步滿足關(guān)乎用戶自我提升的優(yōu)質(zhì)信息獲取需求。作為一個擁有超過 3400 萬日活用戶,每天有數(shù)以十萬計的高質(zhì)量的 UGC 內(nèi)容產(chǎn)生的網(wǎng)站。機器學習技術(shù)可以幫知乎做到的不只是“分發(fā)”內(nèi)容,還能更深入地“理解”內(nèi)容,從而幫助用戶更好地獲取有價值信息。
而作為此次的合作的另一方,NLPCC在業(yè)內(nèi)也可謂“鼎鼎大名”。NLPCC全稱為CCF國際自然語言處理與中文計算會議,由中國計算機學會(CCF)主辦,CCF中文信息技術(shù)專業(yè)委員會(CCF TCCI)及高校(每年通過投票選舉)承辦。會議內(nèi)容主要圍繞自然語言處理(NLP)和中文計算(CC)兩方面來進行。目前,NLPCC已成為國內(nèi)自然語言處理領(lǐng)域的年度盛會,同時也在逐漸走向國際化道路。
特別提醒:本網(wǎng)內(nèi)容轉(zhuǎn)載自其他媒體,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,并請自行核實相關(guān)內(nèi)容。本站不承擔此類作品侵權(quán)行為的直接責任及連帶責任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系我們,本站將會在24小時內(nèi)處理完畢。
相關(guān)推薦
- 華納云香港高防服務(wù)器150G防御4.6折促銷,低至6888元/月,CN2大帶寬直連清洗,終身循環(huán)折扣
- 站長必讀:從“流量思維”到“IP思維”的品牌升級之路
- 從流量變現(xiàn)到信任變現(xiàn):個人站長的私域運營方法論
- 傳統(tǒng)網(wǎng)站如何借力短視頻?從SEO到“內(nèi)容種草”的轉(zhuǎn)型策略
- 個人站長消亡論?從“消失”到“重生”的三大破局路徑
- 選擇站群VPS時必須關(guān)注的六大核心需求
- 26億!普洛斯中國首支數(shù)據(jù)中心基金完成募集 AI驅(qū)動算力資產(chǎn)升溫
- 普洛斯中國首支數(shù)據(jù)中心基金完成募集,投資規(guī)模約26億人民幣