本文以云杉網(wǎng)絡DeepFlow®近幾年在客戶落地的方案實踐為主線,聚焦混合云、容器環(huán)境下的需求演進,介紹在新環(huán)境下云監(jiān)控的方案價值以及發(fā)展思考。
在云原生環(huán)境下企業(yè)客戶主要面臨的挑戰(zhàn)主要體現(xiàn)在網(wǎng)絡分層以及彈性業(yè)務充分體現(xiàn)了監(jiān)控保障的難度,由此可以將挑戰(zhàn)歸納為三點:對象數(shù)量大、波動性強以及關系復雜。舉兩個例子,應用在SOA、MSA架構下,更多地以Ingress、Service、POD在呈現(xiàn),網(wǎng)絡IP動態(tài)變化。如果仍然單獨以傳統(tǒng)的IP視角進行可視化以及運維保障,明顯是不夠的,存在短板。迫切需要將網(wǎng)絡視角與平臺、事件、應用關聯(lián)起來。另一個典型的例子是“端到端分析”,在物理網(wǎng)絡段,可以通過有限的分光鏡像點來描述、展示路徑,但中斷于池內(nèi)或云內(nèi)網(wǎng)絡段。云內(nèi)網(wǎng)絡處于“黑盒”狀態(tài),云內(nèi)又包含有服務間交互訪問、東西向網(wǎng)關、負載均衡、地址轉化等各個環(huán)節(jié),缺乏有效的保障手段,這對一個生產(chǎn)環(huán)境來說是不能接受的。
那么,云杉DeepFlow®賦予自身的使命是什么呢?就是要“為客戶補齊云架構中保障側的那塊拼圖”。去打開“黑盒”;去將采集與分析解耦;去繪制一張全網(wǎng)的網(wǎng)絡知識圖譜;去提升分布式業(yè)務系統(tǒng)的可觀測性,實現(xiàn)一個與云等量齊觀的完全可擴展的監(jiān)控架構。
簡單回顧一下DeepFlow®的實踐發(fā)展。
DeepFlow®流量采集分發(fā):解決東西向流量采集難題以及流量引出
2016年起我們就開始了客戶落地。當時,客戶的訴求很直接,就是要看到虛擬網(wǎng)絡中的流量,其中存在的挑戰(zhàn)包括避免對生產(chǎn)環(huán)境的侵擾、保障性能的同時限制采集系統(tǒng)對資源的使用、能實現(xiàn)策略跟隨以及支持隧道分發(fā)??蛻舻沫h(huán)境與現(xiàn)在還是有些區(qū)別,資源池類型主要是ESXi、XEN以及KVM,理念上也是關注全包。DeepFlow®方案的重點就是采集與分發(fā),為客戶解決虛擬機間的東西向流量采集難題以及流量引出。需要做到避免侵擾數(shù)據(jù)面,在有限的資源使用下保障性能,在虛擬機發(fā)生遷移后,確保采集分發(fā)策略的統(tǒng)一及跟隨。通過隧道封裝,保時保序地將數(shù)據(jù)包分發(fā)至各類分析工具處。在這個階段,DeepFlow®實現(xiàn)了面向各類資源池的網(wǎng)絡流量“采集處理抽象層”,統(tǒng)一提供采集、多維過濾、去重、壓縮、截短等預處理功能。抽象層中的各類型采集器本身也是一套分布式系統(tǒng),為后期面向大規(guī)模多類型的云環(huán)境監(jiān)控中高性能數(shù)據(jù)處理提供基礎保障。
DeepFlow云網(wǎng)分析:解決分布在各地的資源池網(wǎng)絡監(jiān)控缺失
在中期階段,客戶業(yè)務逐步上云,云建設的規(guī)模更大,同時開始關注容器網(wǎng)絡以及業(yè)務保障。這時客戶更多地關注多區(qū)域多資源池以及underlay和overlay的統(tǒng)一管理、對于多云異構環(huán)境有統(tǒng)一網(wǎng)絡全景圖的需求、對虛擬網(wǎng)絡的故障診斷需求也浮出水面??蛻衾砟钌弦膊辉僬J為云環(huán)境的網(wǎng)絡保障可單純地通過存儲、分析全包來解決。此時面臨的多點多地管理,Overlay網(wǎng)絡中的Trouble shooting等問題也很突出。DeepFlow®方案著重面向客戶大規(guī)模混合云網(wǎng)絡的整體監(jiān)控,包括多數(shù)據(jù)中心、多分支機構、私有云和公有云的整體網(wǎng)絡全景圖,解決專線鏈路負載、公有云網(wǎng)絡性能、私有云故障排查等系列問題。在此階段,DeepFlow®控制器集群不僅具備了管理10萬采集點規(guī)模的能力,而且廣泛地與云平臺、CMDB對接,使網(wǎng)絡IP、流量與VPC、虛擬機、POD、服務、平臺事件等關聯(lián),繪制一整張網(wǎng)絡知識圖譜。
DeepFlow分布式業(yè)務的可觀測性:解決云原生應用保障及容器平臺的網(wǎng)絡監(jiān)控
在目前階段,云杉看到客戶處容器環(huán)境發(fā)展迅猛,云建設思路更清晰,也更有規(guī)劃。同時也在體系化地考慮監(jiān)控保障側的建設,將應用、網(wǎng)絡及基礎設施的Metric、Log、Tracing統(tǒng)一地加以規(guī)劃整合。此時客戶需求更多地面向業(yè)務側、更注重隨云擴展的架構實現(xiàn)、以及在此基礎上提供高性能數(shù)據(jù)服務的能力。比較典型的一個方案就是支撐微服務平臺的監(jiān)控中心建設,通過DeepFlow®各功能展現(xiàn)服務依賴關系、訪問指標、網(wǎng)絡性能等,基于網(wǎng)絡流日志獲取業(yè)務Trace ID、容器Labels等鍵值,關聯(lián)Log平臺和Tracing框架,完善分布式應用系統(tǒng)的可觀測性。
容器、虛擬機、宿主機的結合,也是常見的全棧場景,產(chǎn)品通過“全景圖”不同維度的查詢展示來描述各層面的關系。圖中的“點”可以是數(shù)據(jù)中心、可用區(qū),可以是虛擬機、容器POD,可以是VPC、網(wǎng)段、IP,也可以是Service、資源組等。“點”與“點”之間的連線可以設置為流量、調(diào)用關系的吞吐、延時、TCP連接狀態(tài)等指標。當看到兩個容器POD的連接延時超過閾值時,客戶面臨的是一個復雜的全棧環(huán)境,涉及到POD、Bridge、vSwitch,再到東西向的Gateway,中間已進行過多次地址轉換。DeepFlow®清晰地將每一步的指標呈現(xiàn)出來,快速高效地定位問題點。這就是云杉為客戶提供的全棧跟蹤能力。
DeepFlow全?;旌显票O(jiān)控
經(jīng)過這些年的積累演進,云杉DeepFlow®產(chǎn)品實現(xiàn)了隨云擴展的網(wǎng)絡監(jiān)控架構。面向物理網(wǎng)絡、虛擬化以及容器等多類型的監(jiān)控對象,通過“采集處理抽象層”,首先確??蛻羝交貜奈锢憝h(huán)境向虛擬環(huán)境的監(jiān)控擴展;第二,得益于采集器的優(yōu)勢,針對資源池類型、品牌、規(guī)模以及后續(xù)發(fā)展都可以實現(xiàn)橫向擴展,統(tǒng)一具備流量采集及處理能力;第三,采集與分析解耦,通過分發(fā)功能實現(xiàn)“一次采集、多處分析”擴展分析工具的能力,涵蓋客戶多種專業(yè)分析場景;第四,DeepFlow®高性能分布式時序數(shù)據(jù)節(jié)點橫向擴展保障Metric、流日志以及PCAP等數(shù)據(jù)的存儲與處理;最后,通過API、隊列等方式為安全、業(yè)務等其他數(shù)據(jù)平臺提供網(wǎng)絡數(shù)據(jù)服務。
對于以上方案的實踐,涉及到各個行業(yè)的領先客戶群,DeepFlow®的演進離不開客戶的信任、幫助以及支持。在實踐過程中,云杉網(wǎng)絡也深入地與云、容器平臺進行合作與探討,真切感受到技術人對于云原生的熱愛與追求,并在此基礎上團隊之間的惺惺相惜。云杉將不斷進步、保持先進,讓更多的客戶在云架構保障側安心。
責任編輯: 李穎