(從左至右:百度商務(wù)搜索部賈寧 蘇州大學(xué)葉蕓 百度商務(wù)搜索部張翼)
“ 在線學(xué)習(xí) 的 主題建模 算 法 ” 攻破互聯(lián)網(wǎng)海量數(shù)據(jù)挑戰(zhàn)
海量數(shù)據(jù)的分析能力被 IT 界視為最具商業(yè)價(jià)值的技術(shù)突破口之一,而這也是影響互聯(lián)網(wǎng)用戶體驗(yàn)的重要關(guān)鍵點(diǎn)。搜索引擎是互聯(lián)網(wǎng)分發(fā)流量最大的入口,每天數(shù)十億次的搜索請(qǐng)求包含了眾多信息,目前百度收納的網(wǎng)頁(yè)已經(jīng)超過(guò) 2000 億,如何從大規(guī)模數(shù)據(jù)集中快速獲得有效信息可謂是技術(shù)界機(jī)器學(xué)習(xí)領(lǐng)域的最大熱點(diǎn)。 “ Topic Model( 主題模型 ) 技術(shù)是分析和理解海量文本信息的有效手段,在百度網(wǎng)頁(yè)搜索質(zhì)量和商業(yè)流量變現(xiàn)中都發(fā)揮著非常重要的作用”,百度商務(wù)搜索部高級(jí)工程師賈寧說(shuō)到。賈寧所在的商務(wù)搜索部是百度負(fù)責(zé)搜索流量變現(xiàn)的核心部門,“ 每天都有新想法在嘗試, 技術(shù)創(chuàng)新是推動(dòng)鳳巢 ( 百度搜索廣告系統(tǒng)的代號(hào) ) 不斷提升的重要?jiǎng)恿?rdquo; 。
來(lái)自蘇州大學(xué)的葉蕓今年七月實(shí)現(xiàn)了主題建模領(lǐng)域一項(xiàng) 重大 的技術(shù)突破,經(jīng)她 改進(jìn) 的在線學(xué)習(xí) 主題建模 算法 ( online-topic-model ) 可以快速處理大規(guī)模的數(shù)據(jù)集, 高 效實(shí)時(shí)的處理大規(guī)模數(shù)據(jù)流,及時(shí)捕獲億萬(wàn)網(wǎng)民搜索需求的變化趨勢(shì),獲得更準(zhǔn)確有效的主題。 葉蕓在介紹她的技術(shù)成果時(shí)說(shuō):“ 這種方法就好比一個(gè)生產(chǎn)流水線,我們傳統(tǒng)的數(shù)據(jù)處理方式相當(dāng)于把一個(gè)產(chǎn)品的各個(gè)零部件湊齊后再組裝,也就是收集大量數(shù)據(jù)后統(tǒng)一進(jìn)行分析,而在線學(xué)習(xí)就等于流水線上來(lái)一個(gè)零件我們就組裝一個(gè),整個(gè)過(guò)程非常高效,不必等待全部的零件聚齊才能組裝。 ”
而 從效能的角度上來(lái)看,葉蕓解釋道,在線學(xué)習(xí)比起離線學(xué)習(xí)算法來(lái)說(shuō)有 三大優(yōu)勢(shì) 。“首先,離線算法將整個(gè)數(shù)據(jù)集作為處理對(duì)象,因此對(duì)內(nèi)存容量要求很高,但在線學(xué)習(xí)就可以分段處理,節(jié)約內(nèi)存。其次,這種在線學(xué)習(xí)算法可以容納更海量的數(shù)據(jù)處理要求,在數(shù)據(jù)量達(dá) 到一定規(guī)模時(shí)就呈現(xiàn)出極好的優(yōu)勢(shì),能縮短耗時(shí),并完成傳統(tǒng)算法不能解決的任務(wù)。第三,離線算法對(duì)數(shù)據(jù)流形式的數(shù)據(jù)集束手無(wú)策,可在線學(xué)習(xí)算法卻能在不耗費(fèi)更多成本的情況下輕松完成。”
百度校園 主題研究項(xiàng)目 :做“以問(wèn)題為導(dǎo)向”的研究
談起這項(xiàng)成果的產(chǎn)出,葉蕓認(rèn)為, 正是蘇州大學(xué)與 百度校園 在主題研究項(xiàng)目上的合作為 自己 創(chuàng)造了與百度結(jié)緣的機(jī)遇 ,葉蕓在百度實(shí)習(xí) 期間 同時(shí)得到了基礎(chǔ)架構(gòu)部和 百度資深工程師 賈寧和張翼 的全力支持, 她認(rèn)為百度技術(shù) 導(dǎo)師對(duì)她的啟發(fā) 是最大的, 幫她克服了項(xiàng)目實(shí)現(xiàn)過(guò)程中不少技術(shù)困難。 “在新開(kāi)發(fā)的技術(shù)和原有底層技術(shù)上做研發(fā),既要具備很強(qiáng)的學(xué)習(xí)理解能力,也要拿出具有兼容性的創(chuàng)新方案。在百度海量的數(shù)據(jù)集和高性能的硬件支持下進(jìn)行科研工作, 跳脫出理論階段, 驗(yàn)證自己的觀點(diǎn), 做有用的研究 是件極有成就感的事。”
百度商務(wù)搜索部的賈寧和張翼作為葉蕓的技術(shù)導(dǎo)師也為這項(xiàng) 突破性的技術(shù)成果 而感到振奮。 張翼說(shuō):“ 在百度,即使是實(shí)時(shí)數(shù)據(jù)流,也是非常巨大的,動(dòng)輒以千萬(wàn)甚至億計(jì)。葉蕓把在線學(xué)習(xí)和大規(guī)模并行學(xué)習(xí)做了一個(gè)出色的融合,能夠處理“大規(guī)模數(shù)據(jù)流”,因此才能深入挖掘和建模百度的海量數(shù)據(jù),準(zhǔn)確捕捉網(wǎng)民的需求變化,并優(yōu)化廣告檢索,提升網(wǎng)民體驗(yàn)。” 百度商務(wù)搜索部的賈寧也認(rèn)為葉蕓實(shí)現(xiàn)了百度數(shù)據(jù)訓(xùn)練的處理能力的重大 創(chuàng)新和 突破。 “ 在數(shù)據(jù)訓(xùn)練這個(gè)模塊,我們?cè)局荒芴幚硭奈迩f(wàn)的數(shù)據(jù),現(xiàn)在可以逐步分析多達(dá)幾億甚至幾十億的數(shù)據(jù)量,數(shù)據(jù)處理能力大大提升,對(duì)數(shù)據(jù)流的變化 也 有 了 更好的掌握。 ”
百度校園品牌 總監(jiān)張高博士表示:“ 我們把百度工程師在實(shí)際工作中遇到的技術(shù)問(wèn)題與高校分享,通過(guò) 開(kāi)放研究計(jì)劃的形式和各大高校合作 , 力求找到切實(shí)可行的 解決 方法 。我們?cè)O(shè)計(jì)的基于百度數(shù)據(jù)的主題研究項(xiàng)目, 每個(gè)學(xué)校都有機(jī)會(huì)參與進(jìn)來(lái),獲取百度提供的相關(guān)數(shù)據(jù),共同開(kāi)展研究。我們希望創(chuàng)造 出 更多符合互聯(lián)網(wǎng)實(shí)際應(yīng)用 需求的新技術(shù),為數(shù)億網(wǎng)民的搜索體驗(yàn)帶來(lái)提升,也為互聯(lián)網(wǎng)技術(shù)的創(chuàng)新 注入更多 的 新能量。 ”
三. 新 技術(shù)有望申請(qǐng)專利
蘇州 大學(xué)的特聘教授曾嘉是葉蕓的導(dǎo)師,他認(rèn)為這項(xiàng)研發(fā)成果是校企聯(lián)合過(guò)程中一個(gè)非常可喜的成果。 “ 我們?cè)趯W(xué)校計(jì)劃開(kāi)發(fā)在線消息傳遞算法( online belief propagation )是對(duì)主題模型 LDA ( latent Dirichlet allocation )的優(yōu)化 , 葉蕓同學(xué)在百度實(shí)習(xí)的過(guò)程中,在兼顧企業(yè)原有底層技術(shù)的同時(shí),經(jīng)過(guò)優(yōu)化研發(fā)出了真正適用于實(shí)際情況的在線學(xué)習(xí)算法,甚至結(jié)合了 百度 技術(shù)部門最新開(kāi)發(fā)的技術(shù),使得在線學(xué)習(xí) 的主題建模 算法更為貼合企業(yè)實(shí)際應(yīng)用的創(chuàng)新。學(xué)術(shù)力量產(chǎn)出真正具有商業(yè)價(jià)值的成果,確實(shí)是一個(gè)令人興奮的消息。”
8 月底,此項(xiàng)技術(shù)將在百度正式投入應(yīng)用, 并計(jì)劃開(kāi)展 技術(shù) 專利 的申請(qǐng) 工作 。
特別提醒:本網(wǎng)內(nèi)容轉(zhuǎn)載自其他媒體,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。本站不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系我們,本站將會(huì)在24小時(shí)內(nèi)處理完畢。
相關(guān)推薦
- 華納云618大促,166元買8H16G5M香港cn2云服務(wù)器,大帶寬服務(wù)器688起
- RAKsmart防護(hù)配置實(shí)戰(zhàn):10Gbps套餐部署指南
- 華納云香港高防服務(wù)器150G防御4.6折促銷,低至6888元/月,CN2大帶寬直連清洗,終身循環(huán)折扣
- RakSmart服務(wù)器成本優(yōu)化策略
- 2025年國(guó)內(nèi)免費(fèi)AI工具推薦:文章生成與圖像創(chuàng)作全攻略
- 站長(zhǎng)必讀:從“流量思維”到“IP思維”的品牌升級(jí)之路
- 從流量變現(xiàn)到信任變現(xiàn):個(gè)人站長(zhǎng)的私域運(yùn)營(yíng)方法論
- 傳統(tǒng)網(wǎng)站如何借力短視頻?從SEO到“內(nèi)容種草”的轉(zhuǎn)型策略