久久久久久久视色,久久电影免费精品,中文亚洲欧美乱码在线观看,在线免费播放AV片

<center id="vfaef"><input id="vfaef"><table id="vfaef"></table></input></center>

    <p id="vfaef"><kbd id="vfaef"></kbd></p>

    
    
    <pre id="vfaef"><u id="vfaef"></u></pre>

      <thead id="vfaef"><input id="vfaef"></input></thead>

    1. 站長(zhǎng)資訊網(wǎng)
      最全最豐富的資訊網(wǎng)站

      聽(tīng)云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        中國(guó)應(yīng)用性能管理行業(yè)盛宴——2016中國(guó)應(yīng)用性能管理大會(huì)(簡(jiǎn)稱APMCon 2016)于8月18日至19日在北京新云南皇冠假日酒店隆重召開(kāi)。APMCon由聽(tīng)云、極客邦和InfoQ聯(lián)合主辦的作為國(guó)內(nèi)APM領(lǐng)域最具影響力的技術(shù)大會(huì),首次舉辦的APMCon以“驅(qū)動(dòng)應(yīng)用架構(gòu)優(yōu)化與創(chuàng)新”為主題,致力于推動(dòng)APM在國(guó)內(nèi)的成長(zhǎng)與發(fā)展。

        清華大學(xué)計(jì)算機(jī)系副教授 裴丹于運(yùn)維自動(dòng)化專場(chǎng)發(fā)表了題為《基于機(jī)器學(xué)習(xí)的智能運(yùn)維》的演講,現(xiàn)場(chǎng)分享了基于機(jī)器學(xué)習(xí)的智能運(yùn)維目前面臨的挑戰(zhàn)和解決思路。

      聽(tīng)云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        以下為演講實(shí)錄:

        我今天分享的題目是《基于機(jī)器學(xué)習(xí)的智能運(yùn)維》,下面是今天這個(gè)報(bào)告的大概內(nèi)容:

      聽(tīng)云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        首先會(huì)做一個(gè)背景的介紹;為什么清華大學(xué)的老師做的科研跟運(yùn)維有那么多關(guān)系?智能運(yùn)維現(xiàn)在已經(jīng)有一個(gè)很清晰的趨勢(shì),從基于規(guī)則的智能運(yùn)維自動(dòng)化逐漸轉(zhuǎn)為基于機(jī)器學(xué)習(xí)了;再介紹幾個(gè)跟百度的運(yùn)維部門、搜索部門進(jìn)行合作的案例;最后,還要講一下挑戰(zhàn)與思路。

        一、背景介紹

        談一下參加這次大會(huì)的感受,昨天各位講師們的報(bào)告,特別是今天早上幾位講師的報(bào)告特別精彩,講到了在生產(chǎn)一線過(guò)程中遇到的各種挑戰(zhàn)以及大家的實(shí)踐和經(jīng)驗(yàn),我們又加了運(yùn)維的群,對(duì)于像我這樣在科研領(lǐng)域做運(yùn)維相關(guān)科研的工作者來(lái)說(shuō),感覺(jué)找到了組織。介紹一下我的經(jīng)驗(yàn),特別是跟海峰老師開(kāi)場(chǎng)的時(shí)候,講的一個(gè)概念是相關(guān)的。海峰老師提到說(shuō)我們做運(yùn)維很苦,正好我大概在去年這個(gè)時(shí)候,我在百度的運(yùn)維部門,講了一下做運(yùn)維如何做得更高大上一些,我的題目叫做《我的運(yùn)維之路》。我們先簡(jiǎn)單看一下,我個(gè)人學(xué)術(shù)上的官方簡(jiǎn)歷。

      聽(tīng)云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        我讀了博士,然后在AT&T研究院實(shí)習(xí),AT&T研究院前身是貝爾實(shí)驗(yàn)室的一部分,這里面大概有200個(gè)博士,有C++發(fā)明者、防火墻之父,當(dāng)然我其實(shí)沒(méi)有怎么見(jiàn)到過(guò)他們,但是辦公室是在一起的。之后在里面做了大概6年時(shí)間,發(fā)了不少論文,得了一些獎(jiǎng),發(fā)表了23項(xiàng)運(yùn)維相關(guān)的專利。然后,回清華做了不少科研,這是我的官方簡(jiǎn)歷。

        實(shí)際上我在做什么事情?我就是一個(gè)運(yùn)維人員。在一個(gè)30萬(wàn)人的大公司里面做運(yùn)維,當(dāng)然主要是通過(guò)大數(shù)據(jù)分析的方法。我讀博期間跟美國(guó)各種運(yùn)維人員打交道了五年;在實(shí)習(xí)過(guò)程中,喜歡上了分析實(shí)際的運(yùn)維數(shù)據(jù);真正在那邊工作的時(shí)候,基本上就是一個(gè)第五級(jí)的運(yùn)維,做的事情是基于大數(shù)據(jù)技術(shù)管理網(wǎng)絡(luò)和應(yīng)用的性能,各種網(wǎng)絡(luò)協(xié)議、IPTV、Video等等;回到清華做科研的時(shí)候,開(kāi)設(shè)的也是網(wǎng)絡(luò)性能管理/應(yīng)用性能管理相關(guān)的課程,所有的科研都是跟運(yùn)維相關(guān)的,在國(guó)內(nèi)有一些合作者,包括百度的運(yùn)維部門、搜索部門以及中石油數(shù)據(jù)中心等等。我可以認(rèn)為自己是一個(gè)運(yùn)維人員,很高興在這里跟大家分享我們之前的一些經(jīng)驗(yàn)。

        為什么說(shuō)運(yùn)維是可以做得很高大上的事情?這是一個(gè)會(huì)議叫SIGCOMM,網(wǎng)絡(luò)里面最頂級(jí)的會(huì)議,如果計(jì)算機(jī)網(wǎng)絡(luò)的事情是像電影一樣,這就是奧斯卡,每年大概錄用三四十篇論文,錄用一篇,就跟中彩票一樣。我們看它的submission,就是這么多,跟我們運(yùn)維相關(guān)的占了40%。

      聽(tīng)云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        再看評(píng)委會(huì),我只列出了AT&T研究院里面的前實(shí)習(xí)人員和前員工的一些同事們,基本上現(xiàn)在都到大學(xué)里當(dāng)教授了。所以說(shuō)運(yùn)維苦不苦,是不是可以做得更高大上一些,取決于怎么做。數(shù)據(jù)分析、機(jī)器學(xué)習(xí),這是很好的路線。再看評(píng)委會(huì),我只列出了AT&T研究院里面的前實(shí)習(xí)人員和前員工的一些同事們,基本上現(xiàn)在都到大學(xué)里當(dāng)教授了。所以說(shuō)運(yùn)維苦不苦,是不是可以做得更高大上一些,取決于怎么做。數(shù)據(jù)分析、機(jī)器學(xué)習(xí),這是很好的路線。

      聽(tīng)云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        不光是最頂級(jí)的會(huì)議,我們還有一個(gè)專門做運(yùn)維相關(guān)的會(huì)議。這個(gè)會(huì)議,就是這撥人里面,覺(jué)得SIGCOMM這個(gè)會(huì)一年30多篇,實(shí)在是收得太少了,我們?cè)匍_(kāi)一個(gè)會(huì)議,全部都是運(yùn)維相關(guān)的,這是一個(gè)頂級(jí)的會(huì)議,是我科研領(lǐng)域一個(gè)主要的戰(zhàn)場(chǎng)之一。

        鋪墊一下,就是說(shuō)運(yùn)維是有很多可以鉆研的地方,有很多科研問(wèn)題。

        簡(jiǎn)單介紹一下我在清華大學(xué)的實(shí)驗(yàn)室,叫NetMan。我的網(wǎng)絡(luò)管理實(shí)驗(yàn)室做的科研,基本上都是跟NPM、APM運(yùn)維相關(guān)的。我們跟互聯(lián)網(wǎng)公司做一些合作,主要做運(yùn)維相關(guān)的自動(dòng)化工作,跟SmoothAPP相關(guān)的運(yùn)維工作,跟清華校園網(wǎng)WiFi做一些網(wǎng)絡(luò)性能優(yōu)化的工作。我們做了一個(gè)核心的基于云的運(yùn)維算法平臺(tái),具體這些運(yùn)維的應(yīng)用,下面都有一個(gè)核心的算法,再下面還有一個(gè)大數(shù)據(jù)分析的平臺(tái),就是常用的各種開(kāi)源工具。

      聽(tīng)云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        前面所講的是背景部分。我想要表達(dá)的一點(diǎn),工業(yè)界、學(xué)術(shù)界應(yīng)該在運(yùn)維領(lǐng)域里面能夠密切合作,各取所需。工業(yè)界有很多實(shí)際問(wèn)題,有很多的經(jīng)驗(yàn),也有實(shí)際的數(shù)據(jù),學(xué)術(shù)界老師們有時(shí)間,有算法,有學(xué)生,大家一起結(jié)合,這樣就會(huì)產(chǎn)生很好的效果。

      聽(tīng)云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        值得各位運(yùn)維界同仁們關(guān)注的就是學(xué)術(shù)界的頂級(jí)會(huì)議,我比較推薦的是上面圖中的這些會(huì)議,這些會(huì)基本上一年三五十篇論文的樣子,簡(jiǎn)單瀏覽一下,跟大家做得工作是不是相關(guān),瀏覽一下最新的會(huì)議論文集,看看有沒(méi)有相關(guān)的,還是很有幫助的。美國(guó)的工業(yè)界,像谷歌、Facebook都已經(jīng)在這些會(huì)議上發(fā)表過(guò)一些論文,包括他們?cè)诠こ躺系囊恍?shí)踐。

        二、智能運(yùn)維:從基于規(guī)則到基于學(xué)習(xí)

        簡(jiǎn)單介紹一下智能運(yùn)維大概的歷程,基于規(guī)則到基于機(jī)器學(xué)習(xí)。我簡(jiǎn)單回顧一下,我們這個(gè)趨勢(shì),不光是說(shuō)我們這個(gè)領(lǐng)域的趨勢(shì),整個(gè)人工智能領(lǐng)域發(fā)展的趨勢(shì)。人工智能也是經(jīng)歷了起起伏伏,最近又非?;??;練v程,就是從基于專家?guī)煲?guī)則到逐漸變成機(jī)器學(xué)習(xí),再到深度學(xué)習(xí)。

        我講一下幾年前基于專家?guī)煲?guī)則到機(jī)器學(xué)習(xí)的經(jīng)歷。我們?cè)谧鼋稻S分析的時(shí)候,需要一個(gè)規(guī)則集,什么事件導(dǎo)致另外一個(gè)事件,再導(dǎo)致額外頂級(jí)的事件,最后倒推回來(lái),什么導(dǎo)致了這個(gè)事情。我們當(dāng)時(shí)針對(duì)骨干網(wǎng)做的各種事件的關(guān)聯(lián)分析,基本上是基于規(guī)則的。當(dāng)時(shí)CDN的性能事件,這個(gè)事件導(dǎo)致這個(gè)事件,單獨(dú)對(duì)它進(jìn)行分析,如果這個(gè)事件發(fā)生,可以通過(guò)監(jiān)測(cè)到的各種事件一直推到這兒。當(dāng)時(shí)做出來(lái)的時(shí)候,起到了很好的效果,發(fā)表了論文,審稿評(píng)價(jià)也很高,也有專利,現(xiàn)在還在非常常規(guī)地使用,并且用得很好,效果很好。但是這里面有個(gè)問(wèn)題,規(guī)則是由運(yùn)維人員給出來(lái)的,為什么能夠運(yùn)行的很好?因?yàn)樵诰W(wǎng)絡(luò)骨干網(wǎng)上面情況不是那么復(fù)雜,網(wǎng)絡(luò)協(xié)議一層接一層,事件比較少,所以比較容易把規(guī)則弄出來(lái)。

        我們跟百度進(jìn)行合作的時(shí)候,發(fā)現(xiàn)不是那么好做。因?yàn)樵诨ヂ?lián)網(wǎng)公司里面,大家都在講微服務(wù),模塊特別多,規(guī)模很大,百度這邊一百多個(gè)產(chǎn)品線,上萬(wàn)個(gè)微服務(wù)模塊,上萬(wàn)臺(tái)機(jī)器,每天上萬(wàn)個(gè)軟件更新,想通過(guò)人把這些規(guī)則表達(dá)出來(lái),運(yùn)行到你的系統(tǒng)里,根本就不行。我們?cè)嚵艘幌?,很快就碰壁了。最后怎么辦?我們采用了基于機(jī)器學(xué)習(xí),把這些規(guī)則挖出來(lái)。我們?cè)谧龅倪^(guò)程中不斷總結(jié),不斷遇到新的問(wèn)題,實(shí)現(xiàn)了基于規(guī)則的智能運(yùn)維過(guò)渡到基于機(jī)器學(xué)習(xí)。

        機(jī)器學(xué)習(xí)本身已經(jīng)有很多年了,有很多成熟的算法。要想把機(jī)器學(xué)習(xí)的應(yīng)用做成功,要有數(shù)據(jù),有標(biāo)注數(shù)據(jù),還要有工具(算法和系統(tǒng)),還要有應(yīng)用。

        對(duì)于我們運(yùn)維領(lǐng)域來(lái)說(shuō),這幾點(diǎn)到底是怎么做的?

        第一點(diǎn)是數(shù)據(jù),互聯(lián)網(wǎng)的應(yīng)用天然就有海量日志作為特征數(shù)據(jù),想各種辦法做優(yōu)化存儲(chǔ)。在運(yùn)行過(guò)程中遇到數(shù)據(jù)不夠用還能按需自主生成,這是很好的。

        第二點(diǎn),在運(yùn)維日常工作中還會(huì)產(chǎn)生各種標(biāo)注數(shù)據(jù),比如說(shuō)工單系統(tǒng),發(fā)生一次運(yùn)維事件之后,具體負(fù)責(zé)診斷的人員會(huì)記錄下過(guò)程,這個(gè)過(guò)程會(huì)被反饋到系統(tǒng)里面,我們可以從里面學(xué)到東西,反過(guò)來(lái)提升運(yùn)維水平。

        第三點(diǎn)就是應(yīng)用,做出來(lái)的系統(tǒng),我們運(yùn)維人員就是用戶,我們可以設(shè)計(jì)、部署、使用、并受益于智能運(yùn)維系統(tǒng),形成有效閉環(huán)。建模、測(cè)量、分析、決策、控制,很容易形成一個(gè)閉環(huán)。我們能夠形成閉環(huán),因?yàn)槲覀冇羞@樣的優(yōu)勢(shì)。

        總結(jié)一下,基于機(jī)器學(xué)習(xí)的智能運(yùn)維具有得天獨(dú)厚的基礎(chǔ),互聯(lián)網(wǎng)應(yīng)用天然有海量日志作為特征數(shù)據(jù),運(yùn)維日常工作本身就是產(chǎn)生標(biāo)注數(shù)據(jù)的來(lái)源,擁有大量成熟的機(jī)器學(xué)習(xí)算法和開(kāi)源系統(tǒng),可以直接用于改善我們的應(yīng)用,所以我個(gè)人有一個(gè)預(yù)測(cè),智能運(yùn)維在今后若干年會(huì)有飛速的發(fā)展。

        三、百度案例

        下面講一下實(shí)際的案例,這邊有三個(gè)案例:

      聽(tīng)云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        第一個(gè)場(chǎng)景,橫軸是時(shí)間,縱軸是百度的搜索流量,大概是一天幾億條的級(jí)別,隨著時(shí)間的變化,每天早上到中午上升,到下午到晚上下去,我們要在這個(gè)曲線里面找到它的異常點(diǎn),要在這樣一個(gè)本身就在變化的曲線里面,能夠自動(dòng)化的找到它的坑,并且進(jìn)行告警。那么多算法,如何挑選算法?如何把閾值自動(dòng)設(shè)出來(lái)?這是第一個(gè)場(chǎng)景。

        第二個(gè)場(chǎng)景,我們要秒級(jí)。對(duì)于搜索引擎來(lái)說(shuō),就是要1秒的指標(biāo),這個(gè)時(shí)候有30%超過(guò)1秒,我們的目標(biāo)是要降到20%及以下,如何找到具體的優(yōu)化方法把它降下來(lái)?我們有很多優(yōu)化工具,但是不知道到底用哪個(gè),因?yàn)閿?shù)據(jù)太復(fù)雜了,這是第二個(gè)應(yīng)用場(chǎng)景。

        第三個(gè)場(chǎng)景,自動(dòng)關(guān)聯(lián)KPI異常與版本上線。上線的過(guò)程中,隨時(shí)都有可能發(fā)生問(wèn)題,發(fā)生問(wèn)題的時(shí)候,如何迅速判斷出來(lái)是你這次上線導(dǎo)致發(fā)生的問(wèn)題?有可能是你上線導(dǎo)致的,也有可能不是,那么多因素,剛才說(shuō)了幾十萬(wàn)臺(tái)機(jī)器,你怎么判斷出來(lái)?這是百度實(shí)際搜索廣告的收入,我們看到有一個(gè)上線事件,收入在上線之后掉下來(lái)了。

        下面這個(gè)是我們一個(gè)學(xué)生在百度實(shí)習(xí)的時(shí)候做出來(lái)的一個(gè)方案,基于機(jī)器學(xué)習(xí)的KPI自動(dòng)化異常檢測(cè)。

      聽(tīng)云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        橫軸是時(shí)間,縱軸是流量,要找到異常。我們要迅速識(shí)別出來(lái),并且準(zhǔn)確識(shí)別出來(lái),幫助我們迅速進(jìn)行診斷和修復(fù),進(jìn)一步阻止?jié)撛陲L(fēng)險(xiǎn)。

        我們學(xué)術(shù)界,包括其他的領(lǐng)域,包括股票市場(chǎng),已經(jīng)研究幾十年了,如何根據(jù)持續(xù)的曲線預(yù)測(cè)到下一個(gè)值是多少?有很多算法。我們的運(yùn)維人員,就是我們的領(lǐng)域?qū)<遥瑫?huì)對(duì)自己檢測(cè)的KPI進(jìn)行負(fù)責(zé),但是我們有海量的數(shù)據(jù),這KPI又是千變?nèi)f化各種各樣的,三個(gè)曲線就很不一樣,如何在這些具體的KPI曲線里取得良好的匹配?這是非常難的一件事情。

      聽(tīng)云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        我們看看為什么是這樣的?有一個(gè)運(yùn)維人員負(fù)責(zé)檢測(cè)這樣的曲線,假如說(shuō)要試用一下算法,學(xué)術(shù)界的常規(guī)算法,要跟算法開(kāi)發(fā)人員進(jìn)行一些描述。算法開(kāi)發(fā)人員說(shuō),你看我這兒有三個(gè)參數(shù),把你的異常按照我的三個(gè)參數(shù)描述一下,運(yùn)維人員肯定不干這個(gè)事情。開(kāi)發(fā)人員還不了解KPI的專業(yè)知識(shí),就想差不多做一做吧,做完了之后說(shuō)你看看效果怎么樣?往往效果差強(qiáng)人意,再來(lái)迭代一下,可能幾個(gè)月就過(guò)去了。

      聽(tīng)云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        運(yùn)維人員難以事先給出準(zhǔn)確、量化的異常定義;對(duì)于開(kāi)發(fā)人員來(lái)說(shuō),選擇和綜合不同的檢測(cè)器需要很多人力;檢測(cè)器算法復(fù)雜,參數(shù)調(diào)節(jié)不直觀,這些都是存在的問(wèn)題。

        所以我們方法的主要思想是,做一個(gè)機(jī)器學(xué)習(xí)的工具。我們跟著運(yùn)維人員學(xué),做一個(gè)案例學(xué)一個(gè),把他的知識(shí)學(xué)下來(lái),不需要挑具體的檢測(cè)算法,把這個(gè)事情做出來(lái),根據(jù)歷史的數(shù)據(jù)以及它的異常學(xué)到這個(gè)東西。

        運(yùn)維人員需要做什么事情?我看著這些KPI的曲線,這段是異常,標(biāo)注出來(lái),就有了標(biāo)注數(shù)據(jù)。本身就是有特征數(shù)據(jù)的,提供一下,說(shuō)你這個(gè)小徒弟,你要想把它做好,我有一個(gè)要求,準(zhǔn)確率要超過(guò)80%,小徒弟就拼命的跟師傅學(xué)。

      聽(tīng)云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        具體做的時(shí)候,比如說(shuō)KPI的具體曲線,假如說(shuō)這里有一個(gè)異常點(diǎn),我們把能拿到的理論界上,學(xué)術(shù)界上的各種算法都已經(jīng)實(shí)現(xiàn)了,它還有各種參數(shù),把參數(shù)空間掃一遍,大概100多種,用集體的智慧把KPI到底是不是異常,通過(guò)跟運(yùn)維人員去學(xué),把這個(gè)學(xué)出來(lái)。為什么能夠工作?就是因?yàn)樗幕竟ぷ髟恚褪俏視?huì)學(xué)歷史信息,學(xué)到了之后生成一些信號(hào),對(duì)于同樣的異常會(huì)有預(yù)測(cè)值,紅色是檢測(cè)出來(lái)的信號(hào)。檢測(cè)出來(lái)的信號(hào)略有不同,但是我們覺(jué)得集體的智慧,能夠最后給出一個(gè)非常好的效果,這就是一個(gè)基本的思路。

      聽(tīng)云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        如何把它轉(zhuǎn)化成機(jī)器學(xué)習(xí)的問(wèn)題?我們有特征數(shù)據(jù)、有標(biāo)注,想要的就是它是異常還是非異常,就是一個(gè)簡(jiǎn)單的監(jiān)督機(jī)器學(xué)習(xí)分類的問(wèn)題。運(yùn)維人員進(jìn)行標(biāo)注,產(chǎn)生各種特征數(shù)據(jù),這就是剛才100多種檢測(cè)器給出的特征數(shù)據(jù),然后進(jìn)行分類,效果還是比較理想的。

      聽(tīng)云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        ? 但是,還是有很多實(shí)際的挑戰(zhàn),我們簡(jiǎn)單提一個(gè)挑戰(zhàn)。第一個(gè)挑戰(zhàn),我們運(yùn)維人員需要標(biāo)注,我得花多長(zhǎng)時(shí)間去標(biāo)注?在實(shí)際運(yùn)維過(guò)程中,那些真正的異常并沒(méi)有那么多,本身數(shù)量相對(duì)比較少。如果能做出一些比較高效的標(biāo)記工具,是能夠很好的幫助我們的。如果把這個(gè)標(biāo)注工具像做一個(gè)互聯(lián)網(wǎng)產(chǎn)品一樣,做得非常好,能夠節(jié)省標(biāo)注人員很多的時(shí)間。我們做了很多工作,鼠標(biāo)加鍵盤(pán),瀏覽同比、環(huán)比的數(shù)據(jù),上面有放大縮小,想標(biāo)注一個(gè)數(shù)據(jù),拿著鼠標(biāo)拖一下就OK了。一個(gè)月里面的異常數(shù)據(jù),最后由運(yùn)維人員實(shí)際進(jìn)行標(biāo)注,大概一個(gè)月也就花五六分鐘的時(shí)間,就搞定了。

      聽(tīng)云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        ?還有很多其他的挑戰(zhàn),比如說(shuō)歷史數(shù)據(jù)中異常種類比較少,類別不均衡問(wèn)題,還有冗余和無(wú)關(guān)特征等。

      聽(tīng)云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        下面是一個(gè)整體的設(shè)計(jì)。

      聽(tīng)云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        那么,拿實(shí)際運(yùn)維的數(shù)據(jù)進(jìn)行檢測(cè)的時(shí)候效果怎么樣呢?

      聽(tīng)云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        ? 這里拿了四組數(shù)據(jù),三組是百度的,一組是清華校園網(wǎng)的。一般的操作,分別對(duì)這些數(shù)據(jù)配一組閾值。我們不管這個(gè)數(shù)據(jù)是什么樣的,就是用一種算法把它搞定,就拿剛才給出的運(yùn)維小徒弟這樣的算法,把100多種其他的算法都跑了一遍,比較了一下,在四組數(shù)據(jù)里面,我們算法的準(zhǔn)確率不是第一就是第二,而且我們的好處是不用調(diào)參數(shù)。超過(guò)我們這個(gè)算法,普通的可能要把100多種試一下,我們這個(gè)不用試,直接就出來(lái)。

      聽(tīng)云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        為了讓運(yùn)維更高效,可以讓告警工作更智能,無(wú)需人工選擇繁雜的檢測(cè)器,無(wú)需調(diào)參,把它做得像一個(gè)互聯(lián)網(wǎng)產(chǎn)品一樣好。這是第一個(gè)案例,關(guān)于智能告警的。理論上學(xué)術(shù)界有很多漂亮的算法,如何在實(shí)際中落地的問(wèn)題,在這個(gè)過(guò)程中我們使用的是機(jī)器學(xué)習(xí)的方案。

        我們看一下第二個(gè)案例,剛才說(shuō)的秒級(jí)。先看一個(gè)概念,搜索響應(yīng)時(shí)間:

      聽(tīng)云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        搜索響應(yīng)時(shí)間,這個(gè)就是首屏?xí)r間了。對(duì)于綜合搜索來(lái)說(shuō),用戶在瀏覽器上輸入一個(gè)關(guān)鍵字,點(diǎn)一下按紐,直到首屏搜索結(jié)果返回來(lái),當(dāng)然這里面有一些過(guò)程。

        這個(gè)為什么很重要?這就是錢。對(duì)于亞馬遜來(lái)說(shuō),如果響應(yīng)時(shí)間增加100毫秒,銷量降低1%。對(duì)于谷歌來(lái)說(shuō),每增加100毫秒到400毫秒搜索,用戶數(shù)就會(huì)下降0.2%到0.6%,所以非常重要。

        看一下在實(shí)際中搜索響應(yīng)時(shí)間是什么樣的?

      聽(tīng)云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        橫軸是搜索響應(yīng)時(shí)間,縱軸是CDF。70%的搜索響應(yīng)時(shí)間是低于1秒,是符合要求的。30%的時(shí)間是高于1秒的,是不達(dá)標(biāo)的。那怎么辦呢?大于1秒的搜索原因到底是什么?如何改進(jìn)?這里面也是一個(gè)機(jī)器學(xué)習(xí)的問(wèn)題。各種日志非常多,答案就藏在日志里面,問(wèn)題是如何拿到日志分析出來(lái)。我們看一下日志的形式:

      聽(tīng)云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        對(duì)于用戶每一次搜索,都有他來(lái)自于哪個(gè)運(yùn)營(yíng)商,瀏覽器內(nèi)核是什么,返回結(jié)果里面圖片有多少,返回結(jié)果有沒(méi)有廣告,后臺(tái)負(fù)載如何等信息。這次響應(yīng),它的響應(yīng)時(shí)間是多少,大于1秒就是不理想,小于1秒就是比較理想,我們有足夠多的數(shù)據(jù),一天上億,還有標(biāo)注,這個(gè)標(biāo)注比較簡(jiǎn)單了。

        我們現(xiàn)在來(lái)回答幾個(gè)問(wèn)題,在這么多維度的數(shù)據(jù)里邊,如何找出它響應(yīng)時(shí)間比較高的時(shí)候,高響應(yīng)時(shí)間容易發(fā)生的條件是什么?哪些HSRT條件比較流行?如果找出流行的條件,我們就找到了一些線索,就知道如何去優(yōu)化。我們能不能在實(shí)際優(yōu)化之前,事先看一下,有可能優(yōu)化的結(jié)果是什么?基本上想做的就是這么一個(gè)事情。這里面有些細(xì)節(jié)我們就跳過(guò),想表達(dá)的意思是說(shuō)對(duì)于多維度數(shù)據(jù),如果只看單維度的數(shù)據(jù),會(huì)有各種各樣的問(wèn)題。

        在分析多維屬性搜索日志的時(shí)候也會(huì)有很多挑戰(zhàn):

        第一,單維度屬性分析方法無(wú)法揭示不同條件屬性的組合帶來(lái)的影響。

        第二,屬性之間還存在著潛在的依賴關(guān)系,所以單維度分析的結(jié)論可能是片面的。

        第三,得到的HSRT條件可重疊,每次HSRT被計(jì)算多次,不易理解。你如果單維度看,圖片數(shù)量大于30%,貢獻(xiàn)了50%的響應(yīng)時(shí)間,看一下其他的維度,加起來(lái)發(fā)現(xiàn)120%,這都是單維度看存在的問(wèn)題。

        因?yàn)槊總€(gè)維度有各種各樣的取值,一旦組合,空間就爆炸了,人是不可能做的,就算是做了可視化的工具,人是不可能一個(gè)個(gè)試來(lái)得出結(jié)論,必須靠機(jī)器學(xué)習(xí)的方法,所以我們把這個(gè)問(wèn)題建模成分類問(wèn)題,利用監(jiān)督機(jī)器學(xué)習(xí)算法,決策樹(shù)得到直觀分類模型。

        下面這個(gè)是我們當(dāng)時(shí)設(shè)計(jì)的一個(gè)架構(gòu)圖,每天日志來(lái)了之后,輸入到機(jī)器學(xué)習(xí)決策樹(shù)的模型里面,分析出每天高響應(yīng)時(shí)間的條件,跨天進(jìn)行分析,之后再去做一些準(zhǔn)實(shí)驗(yàn),最后得出一些結(jié)果。

      聽(tīng)云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        下面這個(gè)是我們第一步完成了之后,得出的一個(gè)決策樹(shù),生成決策樹(shù)的過(guò)程,基本上拿一些現(xiàn)成的工具,把數(shù)據(jù)導(dǎo)進(jìn)去,調(diào)一些參數(shù)就OK了。

      聽(tīng)云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        我們會(huì)看一個(gè)月的時(shí)間內(nèi),每天都獲得的數(shù)據(jù),我們得出一個(gè)月里面,哪些條件比較流行,然后,在此基礎(chǔ)上,做一些準(zhǔn)實(shí)驗(yàn)。不是說(shuō)分析出來(lái)了之后,就真的上線調(diào)這些優(yōu)化條件,比如說(shuō)得出這樣的組合,當(dāng)圖片數(shù)量大于10,它的瀏覽器引擎不是WebKit,里面沒(méi)有打廣告,它會(huì)容易響應(yīng)時(shí)間比較高。給了我們一些啟示,具體哪個(gè)條件導(dǎo)致的?優(yōu)化哪個(gè)維度會(huì)產(chǎn)生比較好的結(jié)果?這不知道。我如果把每個(gè)條件調(diào)一下,這個(gè)大于10,變成小于10,這個(gè)條件的組合,在實(shí)際的日志數(shù)據(jù)里面就是存在的,把這個(gè)數(shù)據(jù)取出來(lái),看一下它的響應(yīng)延遲到底是高還是低,這就是準(zhǔn)實(shí)驗(yàn),諸如此類都做一些,很容易得出一些結(jié)論。

        我們針對(duì)當(dāng)時(shí)的場(chǎng)景,圖片數(shù)量過(guò)多是導(dǎo)致響應(yīng)時(shí)間比較長(zhǎng)的主要瓶頸,是當(dāng)時(shí)最重要的瓶頸,具體對(duì)這個(gè)進(jìn)行了優(yōu)化,大家可能就比較熟悉了,部署了base64 encoding來(lái)提高“數(shù)量多、體積小”的圖片傳輸速度。

        這里想強(qiáng)調(diào)一點(diǎn),這個(gè)優(yōu)化方式,大家都知道,但是在沒(méi)有這樣分析的情況下,你并沒(méi)有把握上線之后,就有效果。假如說(shuō)你運(yùn)維部門的KPI指標(biāo),超過(guò)20%就不達(dá)標(biāo),如果低于20%就達(dá)標(biāo)了,上線這一個(gè)就達(dá)標(biāo)了。各種比較都很清晰,就是這樣的一個(gè)工具,有很多日志,你做一些基于機(jī)器學(xué)習(xí)的分析,找到目前最重要的瓶頸,把這些瓶頸跟拿到手的各種優(yōu)化的方式方法,應(yīng)用一下,就能得到很好的效果,這個(gè)效果是很不錯(cuò)的,通用性也比較高。

        第三個(gè)案例跳過(guò)去吧,大概意思是說(shuō)自動(dòng)更新會(huì)產(chǎn)生很多問(wèn)題,我簡(jiǎn)單直接把案例給出來(lái)就好了。

        最后給出一個(gè)案例,這個(gè)案例就是說(shuō)百度上線了一個(gè)反點(diǎn)擊作弊的版本,上線之后,廣告收入就出現(xiàn)了下降,實(shí)際上用我們這個(gè)系統(tǒng)做了一下,10分鐘能夠準(zhǔn)確檢測(cè)出問(wèn)題。而人在具體做的時(shí)候,要客戶申述、檢查KPI、定位問(wèn)題,要一個(gè)半小時(shí),差異還是很大的。

      聽(tīng)云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        剛才舉了幾個(gè)具體的案例,其實(shí)還有其他的很多案例:

        • 異常檢測(cè)之后的故障定位

        • 故障止損建議

        • 故障根因分析

        • 數(shù)據(jù)中心交換機(jī)故障預(yù)測(cè)

        ▪ 海量Syslog日志壓縮成少量有意義的事件

        • 基于機(jī)器學(xué)習(xí)的系統(tǒng)優(yōu)化(如TCP運(yùn)行參數(shù))

        我們?cè)趯W(xué)術(shù)界來(lái)說(shuō),我們也不做產(chǎn)品,我們是針對(duì)一線生產(chǎn)環(huán)境中遇到的各種有挑戰(zhàn)性的問(wèn)題,做一些具體的算法。我們的目標(biāo)就是做一些智能運(yùn)維算法的集合,運(yùn)行在云上面,它會(huì)有一些標(biāo)準(zhǔn)的API。標(biāo)準(zhǔn)的API支持任意時(shí)序數(shù)據(jù),它有一個(gè)時(shí)間戳,有一個(gè)關(guān)鍵指標(biāo),這個(gè)關(guān)鍵指標(biāo)針對(duì)不同場(chǎng)景會(huì)不一樣,有銷售額、利潤(rùn)、訂單數(shù)、轉(zhuǎn)化率等等不同屬性,經(jīng)過(guò)這樣的分析之后,跑到云里面,就能得出一些通用性的結(jié)果。

      聽(tīng)云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        四、挑戰(zhàn)與思路

        這里我想給大家一些具體的啟示,包括我們自己的一些思考。

        智能運(yùn)維到底有哪些可行的目標(biāo)?我們的步子不能邁得太大,又不能太保守,我們到底想達(dá)到什么樣的效果?誰(shuí)拿著槍,誰(shuí)就處于主導(dǎo)地位。像R2-D2是運(yùn)維人員的可靠助手,最后還是人來(lái)起主導(dǎo)作用。

      聽(tīng)云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        很重要的就取決于人工智能本身發(fā)展到哪個(gè)地步,下面是我們清華大學(xué)張?jiān)菏康囊粋€(gè)報(bào)告。第一個(gè)圖中人工智能解決了一些問(wèn)題,知其然,又知其所以然。第二個(gè)圖是知其然,不知其所以然,這個(gè)棋我知道它下的好,但是為什么好,計(jì)算機(jī)算出來(lái)的,我并不知道。人工智能發(fā)展到現(xiàn)在的階段,比較可靠的是這個(gè)地步:知其然,而不知其所以然,技術(shù)方面,通過(guò)機(jī)器學(xué)習(xí)相對(duì)成熟,在一定條件下比人好。到后面既不知其然,又不知其所以然,以及連問(wèn)題都不知道,人工智能還沒(méi)有到那個(gè)地步。我們要自動(dòng)化那些“知其然而不知其所以然”的運(yùn)維任務(wù)。

      聽(tīng)云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        2、如何更系統(tǒng)的應(yīng)用機(jī)器學(xué)習(xí)技術(shù)。機(jī)器學(xué)習(xí)紛繁復(fù)雜,簡(jiǎn)單說(shuō)一下。特征選取的時(shí)候,早期可以用一些全部數(shù)據(jù)+容忍度高的算法,如隨機(jī)森林,還有特征工程、自動(dòng)選取(深度學(xué)習(xí));不同機(jī)器學(xué)習(xí)算法適用不同的問(wèn)題;一個(gè)比較行之有效的方法,大家做日常運(yùn)維過(guò)程中,可以跟學(xué)術(shù)界進(jìn)行具體探討,針對(duì)眼前問(wèn)題一起探討一下,可能比較容易找到適合的起點(diǎn)。工業(yè)界跟學(xué)術(shù)界針對(duì)具體問(wèn)題進(jìn)行密切合作是一個(gè)有效的策略。

        3、如何從現(xiàn)有ticket數(shù)據(jù)中提取有價(jià)值信息。我們可以把ticketing系統(tǒng)作為智能運(yùn)維的一部分來(lái)設(shè)計(jì)。

        4、如何把智能運(yùn)維延伸到智能運(yùn)營(yíng)?我們有各種各樣的數(shù)據(jù),數(shù)據(jù)都在那兒,企業(yè)的痛點(diǎn)是,光有海量數(shù)據(jù),缺乏真正精準(zhǔn)的運(yùn)營(yíng)和行動(dòng)之間有效轉(zhuǎn)化的工具。其實(shí)我們思考一下,我們看的那些KPI,如果抽象成時(shí)序數(shù)據(jù),跟電商的銷售數(shù)據(jù),跟游戲的KPI指標(biāo)沒(méi)有本質(zhì)的區(qū)別。如果抽象成算法層面,可能都有很好的應(yīng)用場(chǎng)景,具體還會(huì)有一些額外的挑戰(zhàn),但是如果在算法層面進(jìn)行更多投入,可以跳出運(yùn)維本身到智能運(yùn)營(yíng)這塊。

        總結(jié)一下今天的報(bào)告。

      聽(tīng)云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        • 基于機(jī)器學(xué)習(xí)的智能運(yùn)維,在今后幾年會(huì)有飛速的發(fā)展,因?yàn)樗械锰飒?dú)厚的數(shù)據(jù)、標(biāo)注和應(yīng)用。

        • 智能運(yùn)維的終極可行目標(biāo),是運(yùn)維人員高效可靠的助手。

        • 智能運(yùn)維能夠更系統(tǒng)應(yīng)用機(jī)器學(xué)習(xí)技術(shù),學(xué)術(shù)界和工業(yè)界應(yīng)能夠在一些具體問(wèn)題上密切合作。

        • 更系統(tǒng)的數(shù)據(jù)采集和標(biāo)注會(huì)幫助智能運(yùn)維更快發(fā)展

        • 下一步把智能運(yùn)維的技術(shù)延伸到智能運(yùn)營(yíng)里面。

        Q&A

        Q1:第一個(gè)案例中有標(biāo)注過(guò)程,您做了一個(gè)工具加速了標(biāo)注,我想問(wèn)一下,因?yàn)槟髞?lái)說(shuō)你們的準(zhǔn)確率已經(jīng)達(dá)到100%了。

        裴丹:沒(méi)有到100%,是說(shuō)它性能比別的好,取決于不同的情況70%、80%、90%的都有。

        Q2:做到80%、90%的標(biāo)注,標(biāo)注樣本有多少數(shù)量級(jí)?另外,肯定要持續(xù)運(yùn)行,一共運(yùn)行了多少個(gè)月達(dá)到80%多?

        裴丹:標(biāo)注樣本一個(gè)月大概十幾個(gè)、幾十個(gè)。一共大概運(yùn)行了七、八個(gè)月,我們還在做另外一件事情,人工地注入一些異常,根據(jù)歷史數(shù)據(jù)學(xué)到異常的特征,人工注入,讓運(yùn)維人員能夠進(jìn)行標(biāo)注。

        Q3:人工注入是百度在線注入?可以手工去改嗎?

        裴丹:歷史數(shù)據(jù)注入,可能在線注入。不能手工改的,是load到標(biāo)注界面里去的。

        Q4:特征提取和特征工程您是分開(kāi)來(lái)說(shuō)的,特征工程是指一些方法特征?還是什么意思?

        裴丹:主要是推動(dòng)各種統(tǒng)計(jì)方法學(xué)選哪些特征應(yīng)該用在機(jī)器學(xué)習(xí)模型里,以及對(duì)哪些特征進(jìn)行轉(zhuǎn)換。

        Q5:剛才咱們那些所謂的算法都是已知算法?還是說(shuō)我們能夠在這里面自己學(xué)習(xí)一些算法?

        裴丹:我們現(xiàn)在正在用卷積神經(jīng)網(wǎng)絡(luò)等,通過(guò)深度學(xué)習(xí)的方法,數(shù)據(jù)來(lái)了,我就把它自動(dòng)學(xué)出來(lái)了,不用已知的算法。

        Q6:剛才咱們那個(gè)采樣,很多都是指定的關(guān)鍵數(shù)據(jù),關(guān)鍵數(shù)據(jù)的篩選能不能也是智能化的去做?

        裴丹:這倒是一個(gè)很好的方向,目前還都是運(yùn)維人員比較關(guān)心,并且已經(jīng)檢測(cè)了的數(shù)據(jù),數(shù)據(jù)已經(jīng)采集上來(lái)了,我們做監(jiān)控和異常檢測(cè)。下一步可以朝您剛才說(shuō)的方向去做一下嘗試,就是說(shuō)如何動(dòng)態(tài)的、智能的去選取檢測(cè)哪些KPI,目前還沒(méi)有做這方面的嘗試。

        Q7:咱們現(xiàn)在所有的數(shù)據(jù)都采集上來(lái)以后,是挑選了一些影響最大的數(shù)據(jù)進(jìn)行處理和分析的嗎?

        裴丹:剛才說(shuō)的是,凡是已經(jīng)進(jìn)行監(jiān)控的這些KPI,我們剛才聽(tīng)到幾位老師介紹的,基本上可以監(jiān)控的都監(jiān)控,我說(shuō)的進(jìn)行智能的異常檢測(cè)是已經(jīng)監(jiān)控的KPI里面做更好的工作。

        Q8:是有動(dòng)作的成分了嗎?

        裴丹:這個(gè)動(dòng)作的成分是在很早之前發(fā)生的,沒(méi)有數(shù)據(jù),我也沒(méi)法異常檢測(cè),數(shù)據(jù)已經(jīng)被采集了,前面做了很多大量的基礎(chǔ)工作,我們就常規(guī)采集了數(shù)據(jù)進(jìn)行監(jiān)測(cè)就行了。

      特別提醒:本網(wǎng)內(nèi)容轉(zhuǎn)載自其他媒體,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。本站不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系我們,本站將會(huì)在24小時(shí)內(nèi)處理完畢。

      贊(0)
      分享到: 更多 (0)
      網(wǎng)站地圖   滬ICP備18035694號(hào)-2    滬公網(wǎng)安備31011702889846號(hào)