Flannel是CoreOS團隊針對Kubernetes設計的一個網(wǎng)絡規(guī)劃服務,簡單來說,它的功能是讓集群中的不同節(jié)點主機創(chuàng)建的Docker容器都具有全集群唯一的虛擬IP地址。
在Kubernetes的網(wǎng)絡模型中,假設了每個物理節(jié)點應該具備一段“屬于同一個內(nèi)網(wǎng)IP段內(nèi)”的“專用的子網(wǎng)IP”。例如:
節(jié)點A:10.0.1.0/24 節(jié)點B:10.0.2.0/24 節(jié)點C:10.0.3.0/24
但在默認的Docker配置中,每個節(jié)點上的Docker服務會分別負責所在節(jié)點容器的IP分配。這樣導致的一個問題是,不同節(jié)點上容器可能獲得相同的內(nèi)外IP地址。并使這些容器之間能夠之間通過IP地址相互找到,也就是相互ping通。
Flannel的設計目的就是為集群中的所有節(jié)點重新規(guī)劃IP地址的使用規(guī)則,從而使得不同節(jié)點上的容器能夠獲得“同屬一個內(nèi)網(wǎng)”且”不重復的”IP地址,并讓屬于不同節(jié)點上的容器能夠直接通過內(nèi)網(wǎng)IP通信。
2Flannel的工作原理
Flannel實質(zhì)上是一種“覆蓋網(wǎng)絡(overlay network)”,也就是將TCP數(shù)據(jù)包裝在另一種網(wǎng)絡包里面進行路由轉(zhuǎn)發(fā)和通信,目前已經(jīng)支持UDP、VxLAN、AWS VPC和GCE路由等數(shù)據(jù)轉(zhuǎn)發(fā)方式。
默認的節(jié)點間數(shù)據(jù)通信方式是UDP轉(zhuǎn)發(fā),在Flannel的GitHub頁面有如下的一張原理圖:

這張圖的信息量很全,下面簡單的解讀一下。
數(shù)據(jù)從源容器中發(fā)出后,經(jīng)由所在主機的docker0虛擬網(wǎng)卡轉(zhuǎn)發(fā)到flannel0虛擬網(wǎng)卡,這是個P2P的虛擬網(wǎng)卡,flanneld服務監(jiān)聽在網(wǎng)卡的另外一端。
Flannel通過Etcd服務維護了一張節(jié)點間的路由表,在稍后的配置部分我們會介紹其中的內(nèi)容。
源主機的flanneld服務將原本的數(shù)據(jù)內(nèi)容UDP封裝后根據(jù)自己的路由表投遞給目的節(jié)點的flanneld服務,數(shù)據(jù)到達以后被解包,然后直 接進入目的節(jié)點的flannel0虛擬網(wǎng)卡,然后被轉(zhuǎn)發(fā)到目的主機的docker0虛擬網(wǎng)卡,最后就像本機容器通信一下的有docker0路由到達目標容器。
這樣整個數(shù)據(jù)包的傳遞就完成了,這里需要解釋三個問題。
第一個問題,UDP封裝是怎么一回事?
我們來看下面這個圖,這是在其中一個通信節(jié)點上抓取到的ping命令通信數(shù)據(jù)包??梢钥吹皆赨DP的數(shù)據(jù)內(nèi)容部分其實是另一個ICMP(也就是ping命令)的數(shù)據(jù)包。

原始數(shù)據(jù)是在起始節(jié)點的Flannel服務上進行UDP封裝的,投遞到目的節(jié)點后就被另一端的Flannel服務還原成了原始的數(shù)據(jù)包,兩邊的Docker服務都感覺不到這個過程的存在。
第二個問題,為什么每個節(jié)點上的Docker會使用不同的IP地址段?
這個事情看起來很詭異,但真相十分簡單。其實只是單純的因為Flannel通過Etcd分配了每個節(jié)點可用的IP地址段后,偷偷的修改了Docker的啟動參數(shù),見下圖。

這個是在運行了Flannel服務的節(jié)點上查看到的Docker服務進程運行參數(shù)。
注意其中的“–bip=172.17.18.1/24”這個參數(shù),它限制了所在節(jié)點容器獲得的IP范圍。
這個IP范圍是由Flannel自動分配的,由Flannel通過保存在Etcd服務中的記錄確保它們不會重復。
第三個問題,為什么在發(fā)送節(jié)點上的數(shù)據(jù)會從docker0路由到flannel0虛擬網(wǎng)卡,在目的節(jié)點會從flannel0路由到docker0虛擬網(wǎng)卡?
我們來看一眼安裝了Flannel的節(jié)點上的路由表。下面是數(shù)據(jù)發(fā)送節(jié)點的路由表:

這個是數(shù)據(jù)接收節(jié)點的路由表:

例如現(xiàn)在有一個數(shù)據(jù)包要從IP為172.17.18.2的容器發(fā)到IP為172.17.46.2的容器。根據(jù)數(shù)據(jù)發(fā)送節(jié)點的路由表,它只與 172.17.0.0/16匹配這條記錄匹配,因此數(shù)據(jù)從docker0出來以后就被投遞到了flannel0。同理在目標節(jié)點,由于投遞的地址是一個容 器,因此目的地址一定會落在docker0對于的172.17.46.0/24這個記錄上,自然的被投遞到了docker0網(wǎng)卡。
3Flannel的安裝和配置
Flannel是Golang編寫的程序,因此的安裝十分簡單。
從 https://github.com/coreos/flannel/releases和 https://github.com/coreos/etcd/releases分別下載Flannel和Etcd的最新版本二進制包。
解壓后將Flannel的二進制文件“flanneld”和腳本文件“mk-docker-opts.sh”、以及Etcd的二進制文件“etcd”和“etcdctl”放到系統(tǒng)的PATH目錄下面安裝就算完成了。
配置部分要復雜一些。
首先啟動Etcd,參考 https://github.com/coreos/etcd … overy。
訪問這個地址: https://discovery.etcd.io/new?size=3 獲得一個“Discovery地址”
在每個節(jié)點上運行以下啟動命令:
etcd -initial-advertise-peer-urls http://<當前節(jié)點IP>:2380 -listen-peer-urls http://<當前節(jié)點IP>:2380 -listen-client-urlshttp://<當前節(jié)點IP>:2379,http://<當前節(jié)點IP>:2379 -advertise-client-urls http://<當前節(jié)點IP>:2379 -discovery <剛剛獲得的Discovery地址> &
啟動完Etcd以后,就可以配置Flannel了。
Flannel的配置信息全部在Etcd里面記錄,往Etcd里面寫入下面這個最簡單的配置,只指定Flannel能用來分配給每個Docker節(jié)點的擬IP地址段:
etcdctl set /coreos.com/network/config '{ "Network": "172.17.0.0/16" }'
然后在每個節(jié)點分別啟動Flannel:
flanneld &
最后需要給Docker動一點手腳,修改它的啟動參數(shù)和docker0地址。
在每個節(jié)點上執(zhí)行:
sudo mk-docker-opts.sh -i source /run/flannel/subnet.env sudo rm /var/run/docker.pid sudo ifconfig docker0 ${FLANNEL_SUBNET}
重啟動一次Docker,這樣配置就完成了。
現(xiàn)在在兩個節(jié)點分別啟動一個Docker容器,它們之間已經(jīng)通過IP地址直接相互ping通了。
到此,整個Flannel集群也就正常運行了。
最后,前面反復提到過Flannel有一個保存在Etcd的路由表,可以在Etcd數(shù)據(jù)中找到這些路由記錄,如下圖。

Q&A
問:數(shù)據(jù)從源容器中發(fā)出后,經(jīng)由所在主機的docker0虛擬網(wǎng)卡轉(zhuǎn)發(fā)到flannel0虛擬網(wǎng)卡,這種P2P實際生產(chǎn)中是否存在丟包,或者此機制有高可用保障么?
答:只是本機的P2P網(wǎng)卡,沒有經(jīng)過外部網(wǎng)絡,應該還比較穩(wěn)定。但我這里沒有具體數(shù)據(jù)。
問:UDP數(shù)據(jù)封裝,轉(zhuǎn)發(fā)的形式也是UDP么?我們一般知道UDP發(fā)送數(shù)據(jù)是無狀態(tài)的,可靠么?
答:轉(zhuǎn)發(fā)的是UDP,高并發(fā)數(shù)據(jù)流時候也許會有問題,我這里同樣沒有數(shù)據(jù)。
問:實際上,kubernates是淡化了容器ip,外圍用戶只需關注所調(diào)用的服務,并不關心具體的ip,這里fannel將IP分開且唯一,這樣做有什么好處?有實際應用的業(yè)務場景么?
答: IP唯一是Kubernetes能夠組網(wǎng)的條件之一,不把網(wǎng)絡拉通后面的事情都不好整。
問:Flannel通過Etcd分配了每個節(jié)點可用的IP地址段后,偷偷的修改了Docker的啟動參數(shù):那么如果增加節(jié)點,或刪除節(jié)點,這些地址段(ETCD上)會動態(tài)變化么?如果不是動態(tài)變化,會造成IP地址的浪費么?
答會造成一些浪費,一般使用10.x.x.x的IP段。
問:sudo mk-docker-opts.sh -i 這個命令具體干什么了?非coreos上使用flannel有什么不同?
答:生成了一個Docker啟動的環(huán)境變量文件,里面給Docker增加了啟動參數(shù)。
沒有什么不同,只是CoreOS集成了Flannel,在CoreOS上面啟動Flannel只是一行命令:systemctl start flanneld。
問:容器IP都是固定的嗎?外網(wǎng)與物理主機能ping通,也能ping通所有Docker集群的容器IP?
答:不是固定的,IP分配還是Docker在做,F(xiàn)lannel只是分配了子網(wǎng)。
問:Flannel的能否實現(xiàn)VPN?你們有沒有研究過?
答: 應該不能,它要求這些容器本來就在一個內(nèi)網(wǎng)里面。
問:Flannl是誰開發(fā)的?全是對k8s的二次開發(fā)嗎?
答: CoreOS公司,不是k8s的二次開發(fā),獨立的開源項目,給k8s提供基礎網(wǎng)絡環(huán)境。
問:Flannel支持非封包的純轉(zhuǎn)發(fā)嗎?這樣性能就不會有損失了?
答:非封裝怎樣路由呢?發(fā)出來的TCP包本身并沒有在網(wǎng)絡間路由的信息,別忘了,兩個Flannel不是直連的,隔著普通的局域網(wǎng)絡。
問: Flanel現(xiàn)在到哪個版本了,后續(xù)版本有什么側(cè)重點?性能優(yōu)化,還是功能擴展?
答:還沒到1.0,在GitHub上面有他們的發(fā)展計劃,性能是很大的一部分。
問: 就是在CoreOS中,客戶還需要安裝Flannel嗎?
答:不需要,在啟動的Cloudinit配置里面給Etcd寫入Flannel配置,然后加上flanneld.service command: start 就可以了,啟動完直接可用,文檔連接我不找了,有這段配置,現(xiàn)成的。
問: 可不可以直接用命令指定每個主機的ip范圍,然后做gre隧道實現(xiàn)節(jié)點之間的通信?這樣也可以實現(xiàn)不同主機上的容器ip不同且可以相互通信吧?
答:還不支持指定哪個節(jié)點用那段IP,不過貌似可以在Etcd手改。
問: Flannel只是負責通信服務,那是不是還要安裝k8s?
答:是的,k8s是單獨的。
問:現(xiàn)在Docker的網(wǎng)絡組件還有什么可以選擇或者推薦的?
答:Overlay網(wǎng)絡的常用就是Flannel和Weave,其他OVS之類的另說了。