(從左至右:百度商務搜索部賈寧 蘇州大學葉蕓 百度商務搜索部張翼)
“ 在線學習 的 主題建模 算 法 ” 攻破互聯(lián)網海量數(shù)據挑戰(zhàn)
海量數(shù)據的分析能力被 IT 界視為最具商業(yè)價值的技術突破口之一,而這也是影響互聯(lián)網用戶體驗的重要關鍵點。搜索引擎是互聯(lián)網分發(fā)流量最大的入口,每天數(shù)十億次的搜索請求包含了眾多信息,目前百度收納的網頁已經超過 2000 億,如何從大規(guī)模數(shù)據集中快速獲得有效信息可謂是技術界機器學習領域的最大熱點。 “ Topic Model( 主題模型 ) 技術是分析和理解海量文本信息的有效手段,在百度網頁搜索質量和商業(yè)流量變現(xiàn)中都發(fā)揮著非常重要的作用”,百度商務搜索部高級工程師賈寧說到。賈寧所在的商務搜索部是百度負責搜索流量變現(xiàn)的核心部門,“ 每天都有新想法在嘗試, 技術創(chuàng)新是推動鳳巢 ( 百度搜索廣告系統(tǒng)的代號 ) 不斷提升的重要動力” 。
來自蘇州大學的葉蕓今年七月實現(xiàn)了主題建模領域一項 重大 的技術突破,經她 改進 的在線學習 主題建模 算法 ( online-topic-model ) 可以快速處理大規(guī)模的數(shù)據集, 高 效實時的處理大規(guī)模數(shù)據流,及時捕獲億萬網民搜索需求的變化趨勢,獲得更準確有效的主題。 葉蕓在介紹她的技術成果時說:“ 這種方法就好比一個生產流水線,我們傳統(tǒng)的數(shù)據處理方式相當于把一個產品的各個零部件湊齊后再組裝,也就是收集大量數(shù)據后統(tǒng)一進行分析,而在線學習就等于流水線上來一個零件我們就組裝一個,整個過程非常高效,不必等待全部的零件聚齊才能組裝。 ”
而 從效能的角度上來看,葉蕓解釋道,在線學習比起離線學習算法來說有 三大優(yōu)勢 。“首先,離線算法將整個數(shù)據集作為處理對象,因此對內存容量要求很高,但在線學習就可以分段處理,節(jié)約內存。其次,這種在線學習算法可以容納更海量的數(shù)據處理要求,在數(shù)據量達 到一定規(guī)模時就呈現(xiàn)出極好的優(yōu)勢,能縮短耗時,并完成傳統(tǒng)算法不能解決的任務。第三,離線算法對數(shù)據流形式的數(shù)據集束手無策,可在線學習算法卻能在不耗費更多成本的情況下輕松完成。”
百度校園 主題研究項目 :做“以問題為導向”的研究
談起這項成果的產出,葉蕓認為, 正是蘇州大學與 百度校園 在主題研究項目上的合作為 自己 創(chuàng)造了與百度結緣的機遇 ,葉蕓在百度實習 期間 同時得到了基礎架構部和 百度資深工程師 賈寧和張翼 的全力支持, 她認為百度技術 導師對她的啟發(fā) 是最大的, 幫她克服了項目實現(xiàn)過程中不少技術困難。 “在新開發(fā)的技術和原有底層技術上做研發(fā),既要具備很強的學習理解能力,也要拿出具有兼容性的創(chuàng)新方案。在百度海量的數(shù)據集和高性能的硬件支持下進行科研工作, 跳脫出理論階段, 驗證自己的觀點, 做有用的研究 是件極有成就感的事。”
百度商務搜索部的賈寧和張翼作為葉蕓的技術導師也為這項 突破性的技術成果 而感到振奮。 張翼說:“ 在百度,即使是實時數(shù)據流,也是非常巨大的,動輒以千萬甚至億計。葉蕓把在線學習和大規(guī)模并行學習做了一個出色的融合,能夠處理“大規(guī)模數(shù)據流”,因此才能深入挖掘和建模百度的海量數(shù)據,準確捕捉網民的需求變化,并優(yōu)化廣告檢索,提升網民體驗。” 百度商務搜索部的賈寧也認為葉蕓實現(xiàn)了百度數(shù)據訓練的處理能力的重大 創(chuàng)新和 突破。 “ 在數(shù)據訓練這個模塊,我們原本只能處理四五千萬的數(shù)據,現(xiàn)在可以逐步分析多達幾億甚至幾十億的數(shù)據量,數(shù)據處理能力大大提升,對數(shù)據流的變化 也 有 了 更好的掌握。 ”
百度校園品牌 總監(jiān)張高博士表示:“ 我們把百度工程師在實際工作中遇到的技術問題與高校分享,通過 開放研究計劃的形式和各大高校合作 , 力求找到切實可行的 解決 方法 。我們設計的基于百度數(shù)據的主題研究項目, 每個學校都有機會參與進來,獲取百度提供的相關數(shù)據,共同開展研究。我們希望創(chuàng)造 出 更多符合互聯(lián)網實際應用 需求的新技術,為數(shù)億網民的搜索體驗帶來提升,也為互聯(lián)網技術的創(chuàng)新 注入更多 的 新能量。 ”
三. 新 技術有望申請專利
蘇州 大學的特聘教授曾嘉是葉蕓的導師,他認為這項研發(fā)成果是校企聯(lián)合過程中一個非常可喜的成果。 “ 我們在學校計劃開發(fā)在線消息傳遞算法( online belief propagation )是對主題模型 LDA ( latent Dirichlet allocation )的優(yōu)化 , 葉蕓同學在百度實習的過程中,在兼顧企業(yè)原有底層技術的同時,經過優(yōu)化研發(fā)出了真正適用于實際情況的在線學習算法,甚至結合了 百度 技術部門最新開發(fā)的技術,使得在線學習 的主題建模 算法更為貼合企業(yè)實際應用的創(chuàng)新。學術力量產出真正具有商業(yè)價值的成果,確實是一個令人興奮的消息。”
8 月底,此項技術將在百度正式投入應用, 并計劃開展 技術 專利 的申請 工作 。
特別提醒:本網內容轉載自其他媒體,目的在于傳遞更多信息,并不代表本網贊同其觀點。其原創(chuàng)性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,并請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網有任何內容侵犯您的權益,請及時聯(lián)系我們,本站將會在24小時內處理完畢。