我認為,在未來 3 年內,這三個類別——APM、監(jiān)測/指標、日志,可能還有其他類別——都可能不復存在。將只存在一個類別:可觀測性。并且它將包含您需要了解的,系統可以進入任何狀態(tài)所需的所有見解。
——Charity Majors, CEO Honeycomb
近日,由中國信通院發(fā)布的《中國數字經濟發(fā)展報告(2022年)》數據顯示,中國數字經濟發(fā)展始終呈現穩(wěn)中向好的發(fā)展態(tài)勢,產業(yè)規(guī)模持續(xù)快速增長,已數年穩(wěn)居世界第二。在 2021 年,中國數字經濟規(guī)模已超 45 萬億元,占國內生產總值 39.8%,在國民經濟中的地位更加穩(wěn)固、支撐作用更加明顯。
在產業(yè)數字化轉型提速升級過程中,基于云計算的技術創(chuàng)新與產品應用起到了重要作用,從底層的基礎設施框架,到上層的業(yè)務流程定義,都在持續(xù)進化并已顛覆很多傳統思維與模式。今年,又誕生許多新熱點技術和方法,「可觀測性」(Observability)成為其中佼佼者之一。

日趨成熟的可觀測性工具,配合已實踐多年的「系統可靠性工程」(SRE),打破了對原有開發(fā)運維體系的認知瓶頸。系統本身是否具備可觀測性,和是否有合適的可觀測方案守護,已成為能否保障系統穩(wěn)定性的最關鍵前提。運維不再限制于僵化的變更流程,開發(fā)可以隨時享受可編程基礎設施帶來的便利,測試和安全加固貫穿整個開發(fā)運維過程,系統所有的實時運行狀態(tài)都盡在掌控,潛在的風險可被提前預測,用數字化的手段,才是管理數字系統的最佳方案。
大型企業(yè)或可憑借自身強大的技術實力與持續(xù)性的產研投入,自建一套全鏈路可觀測平臺,但即便如此,隨著應用不斷迭代,或技術棧版本快速更新,仍要面對頻繁調整監(jiān)測參數的巨大工作量;若中小企業(yè)或初創(chuàng)團隊,僅建設這樣一套全鏈路可觀測平臺,就已大大超出其技術和運維能力承受范圍。

8 月 27 日,觀測云首席布道師——吳亞昆作為「DataFunSummit2022:數據治理在線峰會」的「數據可觀測性」主題論壇出品人,特別邀請到了觀測云、睿象云、貨拉拉、中國 SRE 聯盟、阿里云、同創(chuàng)永益等業(yè)內知名企業(yè)和團隊的技術專家,在線分享討論具備代表性的超大平臺可觀測性解決方案與行業(yè)實踐,以及如何讓初創(chuàng)企業(yè)也能開啟全面可觀測能力的落地場景。
觀測云與合作伙伴的應用實踐探索
1、睿象云:告警,為可觀測性平臺分析提供可靠「現象」
睿象云技術總監(jiān)王金良從可觀測性的整體形態(tài)出發(fā),圍繞告警在可觀測系統的核心功能、價值和最佳實踐展開,發(fā)表《可觀測系統中的告警管理實踐》主題分享。
王金良表示,可觀測性并不是在取代監(jiān)控,它更像是描述一種屬性的范疇,是一種能力的體現形式,越復雜的系統越需要這種屬性或能力。

告警作為 IT 運維信號總量的金字塔尖,對于可觀測性接下來的流轉及判斷起著至關重要作用。而統一的、準確的、智能化的告警平臺的誕生,為可觀測性平臺的分析,提供了更為可靠的「現象」,可幫助運維人員接下來分析原因引導方向。
2、 觀測云:數據治理視角下的可觀測性
觀測云高級技術專家張?zhí)锇l(fā)表《數據治理視角下的可觀測性》主題分享,并以數據資產管理場景為例,深入淺出地闡述可觀測性對系統穩(wěn)定運行的重要性。
張?zhí)锉硎荆缚捎^測性」表示收集一個系統的所有指標、日志以及鏈路追蹤數據,并通過一定的治理手段使這些數據有機結合,以合適的方式呈現出來,最終幫助用戶更好地來理解和解釋系統當前所處的狀態(tài)。

以數據資產管理場景為例,治理后資產用什么方式對上層應用提供服務,這些對外服務如何管控,誰使用了數據,用了多少數據,使用體驗如何,都是對治理效果的一次定量化衡量。這個衡量過程的核心就是系統的可觀測性。觀測云目前的統一可觀測能力已經非常成熟,實現這個能力的基礎就是數據關聯,做到統一數據展示、數據查詢、數據分析與數據報表展示。
3、貨拉拉:依托強大的技術團隊,實現全鏈路可視化監(jiān)控
在本期主題論壇現場,貨拉拉架構師曹偉帶來《貨拉拉全鏈路監(jiān)控的落地與實踐》精彩主題分享。
曹偉介紹道,貨拉拉成立于 2013 年,是互聯網貨運物流市場中的頭部品牌,隨著貨拉拉的業(yè)務規(guī)模不斷壯大,原來的系統架構已無法滿足業(yè)務需求,因此自 2020 年起,貨拉拉便著手對業(yè)務系統監(jiān)控全面改革。
依托強大的技術團隊和深厚的技術積累,歷經兩年重重測試與不斷調整,貨拉拉串聯 Metric、Trace、Log 和業(yè)務,實現全鏈路可視化監(jiān)控閉環(huán),完成「所見即所得」的監(jiān)控可視化建設。

曹偉現場表示,貨拉拉自研的可觀測系統得益于公司多年深厚的技術積累和研發(fā)恒心,目前貨拉拉監(jiān)控 3.x 已實現快速定位、全局穩(wěn)定性、微服務治理、高 ROI 等效果,未來將對自研存儲、根因分析、指標告警聯動、服務拓撲、回饋開源社區(qū)等方面持續(xù)投入。
4、 中國 SRE 聯盟 :首席布道師劉峰 , SRE 的核心理念與可觀測性
在本次「數據可觀測性」主題論壇直播間,中國 SRE 聯盟首席布道師劉峰為觀看直播的觀眾帶來《SRE 的核心理念與可觀測性》精彩主題演講。
劉峰表示,分布式、復雜的服務以不可預測的用戶和可變吞吐量大規(guī)模運行,這意味著有數百萬種不同的方法出錯,但卻不能預測它們,將服務的所有輸出外部化,使我們能夠推斷該服務的內部狀態(tài),即服務的可觀測性是建設云時代 IT 系統時的剛需。伴隨 DevOps、SRE 的全面到來和技術棧持續(xù)升級迭代,可觀測性與 SRE 工程 、開發(fā)和運維、應用與系統環(huán)境、軟件工程與系統工程等之間逐漸形成引入和推動的「奇點」效應:同根同源,共生共進;無中生有,有中生新。

SRE 工程、可觀測性技術與應用實踐的最終目的,都是通過新興科學技術構建穩(wěn)定的系統,用可靠的服務提升企業(yè)交付價值,助力數字化業(yè)務增長。
5、SLS:云原生可觀測平臺,助力業(yè)務數字化創(chuàng)新
隨著云計算技術不斷升級,承載業(yè)務的 IT 基礎設施規(guī)模擴大,各個應用之間的鏈路關系變得越來越復雜,每時每刻都在產生海量級的日志。對日志數據的采集、存儲與分析處理方式,是衡量企業(yè)系統數字化程度的重要標志。

來自阿里云的智能產品專家孟威表示,面對業(yè)務數字化,傳統的 IT 運維方案存在多種挑戰(zhàn),需要能打通可觀測數據,快速根因診斷與問題定位,方便易用的新一代運維方案。日志服務 SLS,可提供一站式日志數據采集、加工、查詢與分析、可視化、告警、消費與投遞等功能,全面提升研發(fā)、運維、運營、安全等場景的數字化能力。
6、同創(chuàng)永益:數字韌性,數字化業(yè)務連續(xù)性下一站
同創(chuàng)永益鄭陽作為最后一位嘉賓出場,帶來《數字韌性:數字化業(yè)務連續(xù)性下一站》主題分享。
鄭陽表示,企業(yè)上云在為業(yè)務增長帶來提升的同時,也帶來了新的風險與挑戰(zhàn)。伴隨業(yè)務云化程度加深,最大的挑戰(zhàn)就是系統鏈路的復雜性,一個小的變更就有可能觸發(fā)大面積的系統混亂、故障和服務中斷。

混沌工程的出現,讓人們對復雜分布式系統在生產環(huán)境中抵御突發(fā)事件的能力有了信心。利用混沌工程可驗證、保障系統穩(wěn)定性,比如在 Kubernetes 平臺上快速驗證其高可用性、彈性、可觀測性。
縱觀全國上下各企業(yè)的可觀測性建設,目前普遍處于探索階段,但站在中國可觀測性的起點,從技術范式顛覆的視角來看,系統的可觀測性將成為企業(yè)數字化轉型的典型特征。
中國的可觀測性始于觀測云
作為中國可觀測性領域的領頭羊,觀測云自今年 4 月正式發(fā)布以來,已榮獲中國信通院頒發(fā)的「可觀測性平臺技術能力」最高級別「先進級」認證、可信云企業(yè)級 SaaS 服務認證等多項國家級獎項,入選 CNCF 云原生全景圖的 Observability and Analysis 板塊,全面兼容 OpenTelemetry,數據接口全部開放。此外還提供強大的自定義編程功能,可接入物聯網、云平臺賬單等各種跨平臺數據源。


除提供開源組件外,觀測云還支持 SaaS 版按量計費模式,以及全功能的,可以本地部署的「社區(qū)版」供廣大技術愛好者免費試用體驗,極大降低了可觀測能力平臺的建設門檻,讓初創(chuàng)團隊甚至個人,都可以快速體驗到最先進和完整的可觀測能力。

聰明的團隊會觀測 ,一個成熟的技術團隊就應該掌握通過數據視角去分析問題,統一地建立整個系統可觀測性是 DevOps 和 SRE 能夠落地的充分必要條件。
觀測云始終堅持以數據為核心、價值為驅動,秉承開放創(chuàng)新發(fā)展的理念,持續(xù)增強技術與產品研發(fā)投入,提供優(yōu)質的可觀測性產品體驗,助力企業(yè)、技術團隊及個人系統的可觀測性系統建設,為企業(yè)數字化轉型提供最大化的價值,并攜手各方生態(tài)合作伙伴,共同為中國可觀測性的發(fā)展貢獻力量。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!