5月21日,知乎聯(lián)合清華大學對外開放基于知乎的大規(guī)模富文本查詢和推薦數(shù)據(jù)集“ZhihuRec”。該數(shù)據(jù)集包含了知乎上的1億個行為數(shù)據(jù),是目前為止,國內(nèi)用于個性化推薦的最大的實際交互數(shù)據(jù)集。

作為一個大型數(shù)據(jù)集,ZhihuRec具有社交化問答場景中的詳細信息,覆蓋了知乎10天內(nèi)、79.8萬用戶、16.5萬個問題、55.4萬個回答、24萬個作者、7萬話題以及50.1萬用戶搜索行為日志,保留了完整的用戶交互(例如點擊、跳過、搜索等)、時機和內(nèi)容信息,且所有數(shù)據(jù)均經(jīng)過脫敏處理。
該數(shù)據(jù)集可用于評估常規(guī)top-N推薦、順序推薦和上下文感知推薦中的算法應用,還可用于集成搜索和推薦以及帶有負反饋的推薦。 此外,該數(shù)據(jù)集不僅可以用于推薦研究,還可以應用于用戶建模(例如,性別預測,用戶興趣預測),搜索和推薦系統(tǒng)的組合以及其他有趣的主題。
個性化推薦技術已經(jīng)廣泛應用于購物、視頻、閱讀、社交等互聯(lián)網(wǎng)場景。但開放式大規(guī)模真實場景數(shù)據(jù)集十分罕有。ZhihuRec數(shù)據(jù)集的開放,不僅豐富了開放式大規(guī)模真實場景數(shù)據(jù)集的研究樣本,更填補了推薦系統(tǒng)中用戶交互日志的空白。
知乎成立十年來,聚集了超過3 .53億條內(nèi)容,每天會新增超過2000萬條創(chuàng)作和互動,為中文互聯(lián)網(wǎng)貢獻了寶貴的文本財富。
2018年,知乎曾聯(lián)合中國信息檢索學術會議(CCIR)、清華大學計算機系信息檢索課題組(THUIR)共同舉辦了“移動環(huán)境下知識分享平臺上的內(nèi)容推薦”大賽,首次在比賽中開放ZhihuRec數(shù)據(jù)集,吸引了眾多高校和企業(yè)技術團隊參賽和關注。此次知乎聯(lián)合清華大學將該數(shù)據(jù)集進一步豐富并全面開放,旨在通過更大范圍的數(shù)據(jù)開源,為行業(yè)算法技術突破與演進提供更多數(shù)據(jù)和場景支持。
特別提醒:本網(wǎng)信息來自于互聯(lián)網(wǎng),目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,并請自行核實相關內(nèi)容。本站不承擔此類作品侵權(quán)行為的直接責任及連帶責任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系我們,本站將會在24小時內(nèi)處理完畢。