久久久久久久视色,久久电影免费精品,中文亚洲欧美乱码在线观看,在线免费播放AV片

<center id="vfaef"><input id="vfaef"><table id="vfaef"></table></input></center>

    <p id="vfaef"><kbd id="vfaef"></kbd></p>

    
    
    <pre id="vfaef"><u id="vfaef"></u></pre>

      <thead id="vfaef"><input id="vfaef"></input></thead>

    1. 站長資訊網(wǎng)
      最全最豐富的資訊網(wǎng)站

      聽云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        中國應(yīng)用性能管理行業(yè)盛宴——2016中國應(yīng)用性能管理大會(簡稱APMCon 2016)于8月18日至19日在北京新云南皇冠假日酒店隆重召開。APMCon由聽云、極客邦和InfoQ聯(lián)合主辦的作為國內(nèi)APM領(lǐng)域最具影響力的技術(shù)大會,首次舉辦的APMCon以“驅(qū)動應(yīng)用架構(gòu)優(yōu)化與創(chuàng)新”為主題,致力于推動APM在國內(nèi)的成長與發(fā)展。

        清華大學(xué)計算機(jī)系副教授 裴丹于運(yùn)維自動化專場發(fā)表了題為《基于機(jī)器學(xué)習(xí)的智能運(yùn)維》的演講,現(xiàn)場分享了基于機(jī)器學(xué)習(xí)的智能運(yùn)維目前面臨的挑戰(zhàn)和解決思路。

      聽云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        以下為演講實錄:

        我今天分享的題目是《基于機(jī)器學(xué)習(xí)的智能運(yùn)維》,下面是今天這個報告的大概內(nèi)容:

      聽云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        首先會做一個背景的介紹;為什么清華大學(xué)的老師做的科研跟運(yùn)維有那么多關(guān)系?智能運(yùn)維現(xiàn)在已經(jīng)有一個很清晰的趨勢,從基于規(guī)則的智能運(yùn)維自動化逐漸轉(zhuǎn)為基于機(jī)器學(xué)習(xí)了;再介紹幾個跟百度的運(yùn)維部門、搜索部門進(jìn)行合作的案例;最后,還要講一下挑戰(zhàn)與思路。

        一、背景介紹

        談一下參加這次大會的感受,昨天各位講師們的報告,特別是今天早上幾位講師的報告特別精彩,講到了在生產(chǎn)一線過程中遇到的各種挑戰(zhàn)以及大家的實踐和經(jīng)驗,我們又加了運(yùn)維的群,對于像我這樣在科研領(lǐng)域做運(yùn)維相關(guān)科研的工作者來說,感覺找到了組織。介紹一下我的經(jīng)驗,特別是跟海峰老師開場的時候,講的一個概念是相關(guān)的。海峰老師提到說我們做運(yùn)維很苦,正好我大概在去年這個時候,我在百度的運(yùn)維部門,講了一下做運(yùn)維如何做得更高大上一些,我的題目叫做《我的運(yùn)維之路》。我們先簡單看一下,我個人學(xué)術(shù)上的官方簡歷。

      聽云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        我讀了博士,然后在AT&T研究院實習(xí),AT&T研究院前身是貝爾實驗室的一部分,這里面大概有200個博士,有C++發(fā)明者、防火墻之父,當(dāng)然我其實沒有怎么見到過他們,但是辦公室是在一起的。之后在里面做了大概6年時間,發(fā)了不少論文,得了一些獎,發(fā)表了23項運(yùn)維相關(guān)的專利。然后,回清華做了不少科研,這是我的官方簡歷。

        實際上我在做什么事情?我就是一個運(yùn)維人員。在一個30萬人的大公司里面做運(yùn)維,當(dāng)然主要是通過大數(shù)據(jù)分析的方法。我讀博期間跟美國各種運(yùn)維人員打交道了五年;在實習(xí)過程中,喜歡上了分析實際的運(yùn)維數(shù)據(jù);真正在那邊工作的時候,基本上就是一個第五級的運(yùn)維,做的事情是基于大數(shù)據(jù)技術(shù)管理網(wǎng)絡(luò)和應(yīng)用的性能,各種網(wǎng)絡(luò)協(xié)議、IPTV、Video等等;回到清華做科研的時候,開設(shè)的也是網(wǎng)絡(luò)性能管理/應(yīng)用性能管理相關(guān)的課程,所有的科研都是跟運(yùn)維相關(guān)的,在國內(nèi)有一些合作者,包括百度的運(yùn)維部門、搜索部門以及中石油數(shù)據(jù)中心等等。我可以認(rèn)為自己是一個運(yùn)維人員,很高興在這里跟大家分享我們之前的一些經(jīng)驗。

        為什么說運(yùn)維是可以做得很高大上的事情?這是一個會議叫SIGCOMM,網(wǎng)絡(luò)里面最頂級的會議,如果計算機(jī)網(wǎng)絡(luò)的事情是像電影一樣,這就是奧斯卡,每年大概錄用三四十篇論文,錄用一篇,就跟中彩票一樣。我們看它的submission,就是這么多,跟我們運(yùn)維相關(guān)的占了40%。

      聽云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        再看評委會,我只列出了AT&T研究院里面的前實習(xí)人員和前員工的一些同事們,基本上現(xiàn)在都到大學(xué)里當(dāng)教授了。所以說運(yùn)維苦不苦,是不是可以做得更高大上一些,取決于怎么做。數(shù)據(jù)分析、機(jī)器學(xué)習(xí),這是很好的路線。再看評委會,我只列出了AT&T研究院里面的前實習(xí)人員和前員工的一些同事們,基本上現(xiàn)在都到大學(xué)里當(dāng)教授了。所以說運(yùn)維苦不苦,是不是可以做得更高大上一些,取決于怎么做。數(shù)據(jù)分析、機(jī)器學(xué)習(xí),這是很好的路線。

      聽云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        不光是最頂級的會議,我們還有一個專門做運(yùn)維相關(guān)的會議。這個會議,就是這撥人里面,覺得SIGCOMM這個會一年30多篇,實在是收得太少了,我們再開一個會議,全部都是運(yùn)維相關(guān)的,這是一個頂級的會議,是我科研領(lǐng)域一個主要的戰(zhàn)場之一。

        鋪墊一下,就是說運(yùn)維是有很多可以鉆研的地方,有很多科研問題。

        簡單介紹一下我在清華大學(xué)的實驗室,叫NetMan。我的網(wǎng)絡(luò)管理實驗室做的科研,基本上都是跟NPM、APM運(yùn)維相關(guān)的。我們跟互聯(lián)網(wǎng)公司做一些合作,主要做運(yùn)維相關(guān)的自動化工作,跟SmoothAPP相關(guān)的運(yùn)維工作,跟清華校園網(wǎng)WiFi做一些網(wǎng)絡(luò)性能優(yōu)化的工作。我們做了一個核心的基于云的運(yùn)維算法平臺,具體這些運(yùn)維的應(yīng)用,下面都有一個核心的算法,再下面還有一個大數(shù)據(jù)分析的平臺,就是常用的各種開源工具。

      聽云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        前面所講的是背景部分。我想要表達(dá)的一點,工業(yè)界、學(xué)術(shù)界應(yīng)該在運(yùn)維領(lǐng)域里面能夠密切合作,各取所需。工業(yè)界有很多實際問題,有很多的經(jīng)驗,也有實際的數(shù)據(jù),學(xué)術(shù)界老師們有時間,有算法,有學(xué)生,大家一起結(jié)合,這樣就會產(chǎn)生很好的效果。

      聽云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        值得各位運(yùn)維界同仁們關(guān)注的就是學(xué)術(shù)界的頂級會議,我比較推薦的是上面圖中的這些會議,這些會基本上一年三五十篇論文的樣子,簡單瀏覽一下,跟大家做得工作是不是相關(guān),瀏覽一下最新的會議論文集,看看有沒有相關(guān)的,還是很有幫助的。美國的工業(yè)界,像谷歌、Facebook都已經(jīng)在這些會議上發(fā)表過一些論文,包括他們在工程上的一些實踐。

        二、智能運(yùn)維:從基于規(guī)則到基于學(xué)習(xí)

        簡單介紹一下智能運(yùn)維大概的歷程,基于規(guī)則到基于機(jī)器學(xué)習(xí)。我簡單回顧一下,我們這個趨勢,不光是說我們這個領(lǐng)域的趨勢,整個人工智能領(lǐng)域發(fā)展的趨勢。人工智能也是經(jīng)歷了起起伏伏,最近又非?;??;練v程,就是從基于專家?guī)煲?guī)則到逐漸變成機(jī)器學(xué)習(xí),再到深度學(xué)習(xí)。

        我講一下幾年前基于專家?guī)煲?guī)則到機(jī)器學(xué)習(xí)的經(jīng)歷。我們在做降維分析的時候,需要一個規(guī)則集,什么事件導(dǎo)致另外一個事件,再導(dǎo)致額外頂級的事件,最后倒推回來,什么導(dǎo)致了這個事情。我們當(dāng)時針對骨干網(wǎng)做的各種事件的關(guān)聯(lián)分析,基本上是基于規(guī)則的。當(dāng)時CDN的性能事件,這個事件導(dǎo)致這個事件,單獨對它進(jìn)行分析,如果這個事件發(fā)生,可以通過監(jiān)測到的各種事件一直推到這兒。當(dāng)時做出來的時候,起到了很好的效果,發(fā)表了論文,審稿評價也很高,也有專利,現(xiàn)在還在非常常規(guī)地使用,并且用得很好,效果很好。但是這里面有個問題,規(guī)則是由運(yùn)維人員給出來的,為什么能夠運(yùn)行的很好?因為在網(wǎng)絡(luò)骨干網(wǎng)上面情況不是那么復(fù)雜,網(wǎng)絡(luò)協(xié)議一層接一層,事件比較少,所以比較容易把規(guī)則弄出來。

        我們跟百度進(jìn)行合作的時候,發(fā)現(xiàn)不是那么好做。因為在互聯(lián)網(wǎng)公司里面,大家都在講微服務(wù),模塊特別多,規(guī)模很大,百度這邊一百多個產(chǎn)品線,上萬個微服務(wù)模塊,上萬臺機(jī)器,每天上萬個軟件更新,想通過人把這些規(guī)則表達(dá)出來,運(yùn)行到你的系統(tǒng)里,根本就不行。我們試了一下,很快就碰壁了。最后怎么辦?我們采用了基于機(jī)器學(xué)習(xí),把這些規(guī)則挖出來。我們在做的過程中不斷總結(jié),不斷遇到新的問題,實現(xiàn)了基于規(guī)則的智能運(yùn)維過渡到基于機(jī)器學(xué)習(xí)。

        機(jī)器學(xué)習(xí)本身已經(jīng)有很多年了,有很多成熟的算法。要想把機(jī)器學(xué)習(xí)的應(yīng)用做成功,要有數(shù)據(jù),有標(biāo)注數(shù)據(jù),還要有工具(算法和系統(tǒng)),還要有應(yīng)用。

        對于我們運(yùn)維領(lǐng)域來說,這幾點到底是怎么做的?

        第一點是數(shù)據(jù),互聯(lián)網(wǎng)的應(yīng)用天然就有海量日志作為特征數(shù)據(jù),想各種辦法做優(yōu)化存儲。在運(yùn)行過程中遇到數(shù)據(jù)不夠用還能按需自主生成,這是很好的。

        第二點,在運(yùn)維日常工作中還會產(chǎn)生各種標(biāo)注數(shù)據(jù),比如說工單系統(tǒng),發(fā)生一次運(yùn)維事件之后,具體負(fù)責(zé)診斷的人員會記錄下過程,這個過程會被反饋到系統(tǒng)里面,我們可以從里面學(xué)到東西,反過來提升運(yùn)維水平。

        第三點就是應(yīng)用,做出來的系統(tǒng),我們運(yùn)維人員就是用戶,我們可以設(shè)計、部署、使用、并受益于智能運(yùn)維系統(tǒng),形成有效閉環(huán)。建模、測量、分析、決策、控制,很容易形成一個閉環(huán)。我們能夠形成閉環(huán),因為我們有這樣的優(yōu)勢。

        總結(jié)一下,基于機(jī)器學(xué)習(xí)的智能運(yùn)維具有得天獨厚的基礎(chǔ),互聯(lián)網(wǎng)應(yīng)用天然有海量日志作為特征數(shù)據(jù),運(yùn)維日常工作本身就是產(chǎn)生標(biāo)注數(shù)據(jù)的來源,擁有大量成熟的機(jī)器學(xué)習(xí)算法和開源系統(tǒng),可以直接用于改善我們的應(yīng)用,所以我個人有一個預(yù)測,智能運(yùn)維在今后若干年會有飛速的發(fā)展。

        三、百度案例

        下面講一下實際的案例,這邊有三個案例:

      聽云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        第一個場景,橫軸是時間,縱軸是百度的搜索流量,大概是一天幾億條的級別,隨著時間的變化,每天早上到中午上升,到下午到晚上下去,我們要在這個曲線里面找到它的異常點,要在這樣一個本身就在變化的曲線里面,能夠自動化的找到它的坑,并且進(jìn)行告警。那么多算法,如何挑選算法?如何把閾值自動設(shè)出來?這是第一個場景。

        第二個場景,我們要秒級。對于搜索引擎來說,就是要1秒的指標(biāo),這個時候有30%超過1秒,我們的目標(biāo)是要降到20%及以下,如何找到具體的優(yōu)化方法把它降下來?我們有很多優(yōu)化工具,但是不知道到底用哪個,因為數(shù)據(jù)太復(fù)雜了,這是第二個應(yīng)用場景。

        第三個場景,自動關(guān)聯(lián)KPI異常與版本上線。上線的過程中,隨時都有可能發(fā)生問題,發(fā)生問題的時候,如何迅速判斷出來是你這次上線導(dǎo)致發(fā)生的問題?有可能是你上線導(dǎo)致的,也有可能不是,那么多因素,剛才說了幾十萬臺機(jī)器,你怎么判斷出來?這是百度實際搜索廣告的收入,我們看到有一個上線事件,收入在上線之后掉下來了。

        下面這個是我們一個學(xué)生在百度實習(xí)的時候做出來的一個方案,基于機(jī)器學(xué)習(xí)的KPI自動化異常檢測。

      聽云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        橫軸是時間,縱軸是流量,要找到異常。我們要迅速識別出來,并且準(zhǔn)確識別出來,幫助我們迅速進(jìn)行診斷和修復(fù),進(jìn)一步阻止?jié)撛陲L(fēng)險。

        我們學(xué)術(shù)界,包括其他的領(lǐng)域,包括股票市場,已經(jīng)研究幾十年了,如何根據(jù)持續(xù)的曲線預(yù)測到下一個值是多少?有很多算法。我們的運(yùn)維人員,就是我們的領(lǐng)域?qū)<遥瑫ψ约簷z測的KPI進(jìn)行負(fù)責(zé),但是我們有海量的數(shù)據(jù),這KPI又是千變?nèi)f化各種各樣的,三個曲線就很不一樣,如何在這些具體的KPI曲線里取得良好的匹配?這是非常難的一件事情。

      聽云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        我們看看為什么是這樣的?有一個運(yùn)維人員負(fù)責(zé)檢測這樣的曲線,假如說要試用一下算法,學(xué)術(shù)界的常規(guī)算法,要跟算法開發(fā)人員進(jìn)行一些描述。算法開發(fā)人員說,你看我這兒有三個參數(shù),把你的異常按照我的三個參數(shù)描述一下,運(yùn)維人員肯定不干這個事情。開發(fā)人員還不了解KPI的專業(yè)知識,就想差不多做一做吧,做完了之后說你看看效果怎么樣?往往效果差強(qiáng)人意,再來迭代一下,可能幾個月就過去了。

      聽云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        運(yùn)維人員難以事先給出準(zhǔn)確、量化的異常定義;對于開發(fā)人員來說,選擇和綜合不同的檢測器需要很多人力;檢測器算法復(fù)雜,參數(shù)調(diào)節(jié)不直觀,這些都是存在的問題。

        所以我們方法的主要思想是,做一個機(jī)器學(xué)習(xí)的工具。我們跟著運(yùn)維人員學(xué),做一個案例學(xué)一個,把他的知識學(xué)下來,不需要挑具體的檢測算法,把這個事情做出來,根據(jù)歷史的數(shù)據(jù)以及它的異常學(xué)到這個東西。

        運(yùn)維人員需要做什么事情?我看著這些KPI的曲線,這段是異常,標(biāo)注出來,就有了標(biāo)注數(shù)據(jù)。本身就是有特征數(shù)據(jù)的,提供一下,說你這個小徒弟,你要想把它做好,我有一個要求,準(zhǔn)確率要超過80%,小徒弟就拼命的跟師傅學(xué)。

      聽云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        具體做的時候,比如說KPI的具體曲線,假如說這里有一個異常點,我們把能拿到的理論界上,學(xué)術(shù)界上的各種算法都已經(jīng)實現(xiàn)了,它還有各種參數(shù),把參數(shù)空間掃一遍,大概100多種,用集體的智慧把KPI到底是不是異常,通過跟運(yùn)維人員去學(xué),把這個學(xué)出來。為什么能夠工作?就是因為它的基本工作原理,就是我會學(xué)歷史信息,學(xué)到了之后生成一些信號,對于同樣的異常會有預(yù)測值,紅色是檢測出來的信號。檢測出來的信號略有不同,但是我們覺得集體的智慧,能夠最后給出一個非常好的效果,這就是一個基本的思路。

      聽云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        如何把它轉(zhuǎn)化成機(jī)器學(xué)習(xí)的問題?我們有特征數(shù)據(jù)、有標(biāo)注,想要的就是它是異常還是非異常,就是一個簡單的監(jiān)督機(jī)器學(xué)習(xí)分類的問題。運(yùn)維人員進(jìn)行標(biāo)注,產(chǎn)生各種特征數(shù)據(jù),這就是剛才100多種檢測器給出的特征數(shù)據(jù),然后進(jìn)行分類,效果還是比較理想的。

      聽云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        ? 但是,還是有很多實際的挑戰(zhàn),我們簡單提一個挑戰(zhàn)。第一個挑戰(zhàn),我們運(yùn)維人員需要標(biāo)注,我得花多長時間去標(biāo)注?在實際運(yùn)維過程中,那些真正的異常并沒有那么多,本身數(shù)量相對比較少。如果能做出一些比較高效的標(biāo)記工具,是能夠很好的幫助我們的。如果把這個標(biāo)注工具像做一個互聯(lián)網(wǎng)產(chǎn)品一樣,做得非常好,能夠節(jié)省標(biāo)注人員很多的時間。我們做了很多工作,鼠標(biāo)加鍵盤,瀏覽同比、環(huán)比的數(shù)據(jù),上面有放大縮小,想標(biāo)注一個數(shù)據(jù),拿著鼠標(biāo)拖一下就OK了。一個月里面的異常數(shù)據(jù),最后由運(yùn)維人員實際進(jìn)行標(biāo)注,大概一個月也就花五六分鐘的時間,就搞定了。

      聽云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        ?還有很多其他的挑戰(zhàn),比如說歷史數(shù)據(jù)中異常種類比較少,類別不均衡問題,還有冗余和無關(guān)特征等。

      聽云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        下面是一個整體的設(shè)計。

      聽云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        那么,拿實際運(yùn)維的數(shù)據(jù)進(jìn)行檢測的時候效果怎么樣呢?

      聽云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        ? 這里拿了四組數(shù)據(jù),三組是百度的,一組是清華校園網(wǎng)的。一般的操作,分別對這些數(shù)據(jù)配一組閾值。我們不管這個數(shù)據(jù)是什么樣的,就是用一種算法把它搞定,就拿剛才給出的運(yùn)維小徒弟這樣的算法,把100多種其他的算法都跑了一遍,比較了一下,在四組數(shù)據(jù)里面,我們算法的準(zhǔn)確率不是第一就是第二,而且我們的好處是不用調(diào)參數(shù)。超過我們這個算法,普通的可能要把100多種試一下,我們這個不用試,直接就出來。

      聽云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        為了讓運(yùn)維更高效,可以讓告警工作更智能,無需人工選擇繁雜的檢測器,無需調(diào)參,把它做得像一個互聯(lián)網(wǎng)產(chǎn)品一樣好。這是第一個案例,關(guān)于智能告警的。理論上學(xué)術(shù)界有很多漂亮的算法,如何在實際中落地的問題,在這個過程中我們使用的是機(jī)器學(xué)習(xí)的方案。

        我們看一下第二個案例,剛才說的秒級。先看一個概念,搜索響應(yīng)時間:

      聽云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        搜索響應(yīng)時間,這個就是首屏?xí)r間了。對于綜合搜索來說,用戶在瀏覽器上輸入一個關(guān)鍵字,點一下按紐,直到首屏搜索結(jié)果返回來,當(dāng)然這里面有一些過程。

        這個為什么很重要?這就是錢。對于亞馬遜來說,如果響應(yīng)時間增加100毫秒,銷量降低1%。對于谷歌來說,每增加100毫秒到400毫秒搜索,用戶數(shù)就會下降0.2%到0.6%,所以非常重要。

        看一下在實際中搜索響應(yīng)時間是什么樣的?

      聽云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        橫軸是搜索響應(yīng)時間,縱軸是CDF。70%的搜索響應(yīng)時間是低于1秒,是符合要求的。30%的時間是高于1秒的,是不達(dá)標(biāo)的。那怎么辦呢?大于1秒的搜索原因到底是什么?如何改進(jìn)?這里面也是一個機(jī)器學(xué)習(xí)的問題。各種日志非常多,答案就藏在日志里面,問題是如何拿到日志分析出來。我們看一下日志的形式:

      聽云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        對于用戶每一次搜索,都有他來自于哪個運(yùn)營商,瀏覽器內(nèi)核是什么,返回結(jié)果里面圖片有多少,返回結(jié)果有沒有廣告,后臺負(fù)載如何等信息。這次響應(yīng),它的響應(yīng)時間是多少,大于1秒就是不理想,小于1秒就是比較理想,我們有足夠多的數(shù)據(jù),一天上億,還有標(biāo)注,這個標(biāo)注比較簡單了。

        我們現(xiàn)在來回答幾個問題,在這么多維度的數(shù)據(jù)里邊,如何找出它響應(yīng)時間比較高的時候,高響應(yīng)時間容易發(fā)生的條件是什么?哪些HSRT條件比較流行?如果找出流行的條件,我們就找到了一些線索,就知道如何去優(yōu)化。我們能不能在實際優(yōu)化之前,事先看一下,有可能優(yōu)化的結(jié)果是什么?基本上想做的就是這么一個事情。這里面有些細(xì)節(jié)我們就跳過,想表達(dá)的意思是說對于多維度數(shù)據(jù),如果只看單維度的數(shù)據(jù),會有各種各樣的問題。

        在分析多維屬性搜索日志的時候也會有很多挑戰(zhàn):

        第一,單維度屬性分析方法無法揭示不同條件屬性的組合帶來的影響。

        第二,屬性之間還存在著潛在的依賴關(guān)系,所以單維度分析的結(jié)論可能是片面的。

        第三,得到的HSRT條件可重疊,每次HSRT被計算多次,不易理解。你如果單維度看,圖片數(shù)量大于30%,貢獻(xiàn)了50%的響應(yīng)時間,看一下其他的維度,加起來發(fā)現(xiàn)120%,這都是單維度看存在的問題。

        因為每個維度有各種各樣的取值,一旦組合,空間就爆炸了,人是不可能做的,就算是做了可視化的工具,人是不可能一個個試來得出結(jié)論,必須靠機(jī)器學(xué)習(xí)的方法,所以我們把這個問題建模成分類問題,利用監(jiān)督機(jī)器學(xué)習(xí)算法,決策樹得到直觀分類模型。

        下面這個是我們當(dāng)時設(shè)計的一個架構(gòu)圖,每天日志來了之后,輸入到機(jī)器學(xué)習(xí)決策樹的模型里面,分析出每天高響應(yīng)時間的條件,跨天進(jìn)行分析,之后再去做一些準(zhǔn)實驗,最后得出一些結(jié)果。

      聽云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        下面這個是我們第一步完成了之后,得出的一個決策樹,生成決策樹的過程,基本上拿一些現(xiàn)成的工具,把數(shù)據(jù)導(dǎo)進(jìn)去,調(diào)一些參數(shù)就OK了。

      聽云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        我們會看一個月的時間內(nèi),每天都獲得的數(shù)據(jù),我們得出一個月里面,哪些條件比較流行,然后,在此基礎(chǔ)上,做一些準(zhǔn)實驗。不是說分析出來了之后,就真的上線調(diào)這些優(yōu)化條件,比如說得出這樣的組合,當(dāng)圖片數(shù)量大于10,它的瀏覽器引擎不是WebKit,里面沒有打廣告,它會容易響應(yīng)時間比較高。給了我們一些啟示,具體哪個條件導(dǎo)致的?優(yōu)化哪個維度會產(chǎn)生比較好的結(jié)果?這不知道。我如果把每個條件調(diào)一下,這個大于10,變成小于10,這個條件的組合,在實際的日志數(shù)據(jù)里面就是存在的,把這個數(shù)據(jù)取出來,看一下它的響應(yīng)延遲到底是高還是低,這就是準(zhǔn)實驗,諸如此類都做一些,很容易得出一些結(jié)論。

        我們針對當(dāng)時的場景,圖片數(shù)量過多是導(dǎo)致響應(yīng)時間比較長的主要瓶頸,是當(dāng)時最重要的瓶頸,具體對這個進(jìn)行了優(yōu)化,大家可能就比較熟悉了,部署了base64 encoding來提高“數(shù)量多、體積小”的圖片傳輸速度。

        這里想強(qiáng)調(diào)一點,這個優(yōu)化方式,大家都知道,但是在沒有這樣分析的情況下,你并沒有把握上線之后,就有效果。假如說你運(yùn)維部門的KPI指標(biāo),超過20%就不達(dá)標(biāo),如果低于20%就達(dá)標(biāo)了,上線這一個就達(dá)標(biāo)了。各種比較都很清晰,就是這樣的一個工具,有很多日志,你做一些基于機(jī)器學(xué)習(xí)的分析,找到目前最重要的瓶頸,把這些瓶頸跟拿到手的各種優(yōu)化的方式方法,應(yīng)用一下,就能得到很好的效果,這個效果是很不錯的,通用性也比較高。

        第三個案例跳過去吧,大概意思是說自動更新會產(chǎn)生很多問題,我簡單直接把案例給出來就好了。

        最后給出一個案例,這個案例就是說百度上線了一個反點擊作弊的版本,上線之后,廣告收入就出現(xiàn)了下降,實際上用我們這個系統(tǒng)做了一下,10分鐘能夠準(zhǔn)確檢測出問題。而人在具體做的時候,要客戶申述、檢查KPI、定位問題,要一個半小時,差異還是很大的。

      聽云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        剛才舉了幾個具體的案例,其實還有其他的很多案例:

        • 異常檢測之后的故障定位

        • 故障止損建議

        • 故障根因分析

        • 數(shù)據(jù)中心交換機(jī)故障預(yù)測

        ▪ 海量Syslog日志壓縮成少量有意義的事件

        • 基于機(jī)器學(xué)習(xí)的系統(tǒng)優(yōu)化(如TCP運(yùn)行參數(shù))

        我們在學(xué)術(shù)界來說,我們也不做產(chǎn)品,我們是針對一線生產(chǎn)環(huán)境中遇到的各種有挑戰(zhàn)性的問題,做一些具體的算法。我們的目標(biāo)就是做一些智能運(yùn)維算法的集合,運(yùn)行在云上面,它會有一些標(biāo)準(zhǔn)的API。標(biāo)準(zhǔn)的API支持任意時序數(shù)據(jù),它有一個時間戳,有一個關(guān)鍵指標(biāo),這個關(guān)鍵指標(biāo)針對不同場景會不一樣,有銷售額、利潤、訂單數(shù)、轉(zhuǎn)化率等等不同屬性,經(jīng)過這樣的分析之后,跑到云里面,就能得出一些通用性的結(jié)果。

      聽云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        四、挑戰(zhàn)與思路

        這里我想給大家一些具體的啟示,包括我們自己的一些思考。

        智能運(yùn)維到底有哪些可行的目標(biāo)?我們的步子不能邁得太大,又不能太保守,我們到底想達(dá)到什么樣的效果?誰拿著槍,誰就處于主導(dǎo)地位。像R2-D2是運(yùn)維人員的可靠助手,最后還是人來起主導(dǎo)作用。

      聽云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        很重要的就取決于人工智能本身發(fā)展到哪個地步,下面是我們清華大學(xué)張院士的一個報告。第一個圖中人工智能解決了一些問題,知其然,又知其所以然。第二個圖是知其然,不知其所以然,這個棋我知道它下的好,但是為什么好,計算機(jī)算出來的,我并不知道。人工智能發(fā)展到現(xiàn)在的階段,比較可靠的是這個地步:知其然,而不知其所以然,技術(shù)方面,通過機(jī)器學(xué)習(xí)相對成熟,在一定條件下比人好。到后面既不知其然,又不知其所以然,以及連問題都不知道,人工智能還沒有到那個地步。我們要自動化那些“知其然而不知其所以然”的運(yùn)維任務(wù)。

      聽云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        2、如何更系統(tǒng)的應(yīng)用機(jī)器學(xué)習(xí)技術(shù)。機(jī)器學(xué)習(xí)紛繁復(fù)雜,簡單說一下。特征選取的時候,早期可以用一些全部數(shù)據(jù)+容忍度高的算法,如隨機(jī)森林,還有特征工程、自動選取(深度學(xué)習(xí));不同機(jī)器學(xué)習(xí)算法適用不同的問題;一個比較行之有效的方法,大家做日常運(yùn)維過程中,可以跟學(xué)術(shù)界進(jìn)行具體探討,針對眼前問題一起探討一下,可能比較容易找到適合的起點。工業(yè)界跟學(xué)術(shù)界針對具體問題進(jìn)行密切合作是一個有效的策略。

        3、如何從現(xiàn)有ticket數(shù)據(jù)中提取有價值信息。我們可以把ticketing系統(tǒng)作為智能運(yùn)維的一部分來設(shè)計。

        4、如何把智能運(yùn)維延伸到智能運(yùn)營?我們有各種各樣的數(shù)據(jù),數(shù)據(jù)都在那兒,企業(yè)的痛點是,光有海量數(shù)據(jù),缺乏真正精準(zhǔn)的運(yùn)營和行動之間有效轉(zhuǎn)化的工具。其實我們思考一下,我們看的那些KPI,如果抽象成時序數(shù)據(jù),跟電商的銷售數(shù)據(jù),跟游戲的KPI指標(biāo)沒有本質(zhì)的區(qū)別。如果抽象成算法層面,可能都有很好的應(yīng)用場景,具體還會有一些額外的挑戰(zhàn),但是如果在算法層面進(jìn)行更多投入,可以跳出運(yùn)維本身到智能運(yùn)營這塊。

        總結(jié)一下今天的報告。

      聽云APMCon:基于機(jī)器學(xué)習(xí)的智能運(yùn)維

        • 基于機(jī)器學(xué)習(xí)的智能運(yùn)維,在今后幾年會有飛速的發(fā)展,因為它有得天獨厚的數(shù)據(jù)、標(biāo)注和應(yīng)用。

        • 智能運(yùn)維的終極可行目標(biāo),是運(yùn)維人員高效可靠的助手。

        • 智能運(yùn)維能夠更系統(tǒng)應(yīng)用機(jī)器學(xué)習(xí)技術(shù),學(xué)術(shù)界和工業(yè)界應(yīng)能夠在一些具體問題上密切合作。

        • 更系統(tǒng)的數(shù)據(jù)采集和標(biāo)注會幫助智能運(yùn)維更快發(fā)展

        • 下一步把智能運(yùn)維的技術(shù)延伸到智能運(yùn)營里面。

        Q&A

        Q1:第一個案例中有標(biāo)注過程,您做了一個工具加速了標(biāo)注,我想問一下,因為您后來說你們的準(zhǔn)確率已經(jīng)達(dá)到100%了。

        裴丹:沒有到100%,是說它性能比別的好,取決于不同的情況70%、80%、90%的都有。

        Q2:做到80%、90%的標(biāo)注,標(biāo)注樣本有多少數(shù)量級?另外,肯定要持續(xù)運(yùn)行,一共運(yùn)行了多少個月達(dá)到80%多?

        裴丹:標(biāo)注樣本一個月大概十幾個、幾十個。一共大概運(yùn)行了七、八個月,我們還在做另外一件事情,人工地注入一些異常,根據(jù)歷史數(shù)據(jù)學(xué)到異常的特征,人工注入,讓運(yùn)維人員能夠進(jìn)行標(biāo)注。

        Q3:人工注入是百度在線注入?可以手工去改嗎?

        裴丹:歷史數(shù)據(jù)注入,可能在線注入。不能手工改的,是load到標(biāo)注界面里去的。

        Q4:特征提取和特征工程您是分開來說的,特征工程是指一些方法特征?還是什么意思?

        裴丹:主要是推動各種統(tǒng)計方法學(xué)選哪些特征應(yīng)該用在機(jī)器學(xué)習(xí)模型里,以及對哪些特征進(jìn)行轉(zhuǎn)換。

        Q5:剛才咱們那些所謂的算法都是已知算法?還是說我們能夠在這里面自己學(xué)習(xí)一些算法?

        裴丹:我們現(xiàn)在正在用卷積神經(jīng)網(wǎng)絡(luò)等,通過深度學(xué)習(xí)的方法,數(shù)據(jù)來了,我就把它自動學(xué)出來了,不用已知的算法。

        Q6:剛才咱們那個采樣,很多都是指定的關(guān)鍵數(shù)據(jù),關(guān)鍵數(shù)據(jù)的篩選能不能也是智能化的去做?

        裴丹:這倒是一個很好的方向,目前還都是運(yùn)維人員比較關(guān)心,并且已經(jīng)檢測了的數(shù)據(jù),數(shù)據(jù)已經(jīng)采集上來了,我們做監(jiān)控和異常檢測。下一步可以朝您剛才說的方向去做一下嘗試,就是說如何動態(tài)的、智能的去選取檢測哪些KPI,目前還沒有做這方面的嘗試。

        Q7:咱們現(xiàn)在所有的數(shù)據(jù)都采集上來以后,是挑選了一些影響最大的數(shù)據(jù)進(jìn)行處理和分析的嗎?

        裴丹:剛才說的是,凡是已經(jīng)進(jìn)行監(jiān)控的這些KPI,我們剛才聽到幾位老師介紹的,基本上可以監(jiān)控的都監(jiān)控,我說的進(jìn)行智能的異常檢測是已經(jīng)監(jiān)控的KPI里面做更好的工作。

        Q8:是有動作的成分了嗎?

        裴丹:這個動作的成分是在很早之前發(fā)生的,沒有數(shù)據(jù),我也沒法異常檢測,數(shù)據(jù)已經(jīng)被采集了,前面做了很多大量的基礎(chǔ)工作,我們就常規(guī)采集了數(shù)據(jù)進(jìn)行監(jiān)測就行了。

      特別提醒:本網(wǎng)內(nèi)容轉(zhuǎn)載自其他媒體,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,并請自行核實相關(guān)內(nèi)容。本站不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系我們,本站將會在24小時內(nèi)處理完畢。

      贊(0)
      分享到: 更多 (0)
      網(wǎng)站地圖   滬ICP備18035694號-2    滬公網(wǎng)安備31011702889846號