帶你搞懂 Kubernetes Flannel 高性能網(wǎng)絡(luò)插件的兩種常用工作模式


Flannel是為Kubernetes設(shè)計(jì)的一種簡單易用的容器網(wǎng)絡(luò)解決方案,將所有的Pod都組織在同一個(gè)子網(wǎng)的虛擬大二層網(wǎng)絡(luò)中。Flannel支持的后端轉(zhuǎn)發(fā)方式有許多種,本文將介紹其中兩種,VXLAN以及host-gw。
01
?VXLAN 簡介?
VXLAN (Virtual Extensible LAN)是一種網(wǎng)絡(luò)虛擬化技術(shù),它使用一種隧道協(xié)議,將二層以太網(wǎng)幀封裝在四層UDP報(bào)文中,通過三層網(wǎng)絡(luò)傳輸,組成一個(gè)虛擬的二層網(wǎng)絡(luò)。VXLAN的報(bào)文格式如下:

VXLAN使用VTEP(VXLAN Tunnel Endpoint)來進(jìn)行封包和解包,它是VXLAN隧道的起點(diǎn)或終點(diǎn):
在發(fā)送端,源VTEP將原始報(bào)文封裝成VXLAN報(bào)文,通過UDP發(fā)送到對端VTEP。
在接收端,VTEP將解開VXLAN報(bào)文,將原始的2層數(shù)據(jù)幀轉(zhuǎn)發(fā)給目的的接收方。
VTEP可以是獨(dú)立的網(wǎng)絡(luò)設(shè)備,例如交換機(jī),也可以是部署在服務(wù)器上的虛擬設(shè)備。例如使用置頂交換機(jī)(TOR)作為VTEP時(shí),VXLAN的網(wǎng)絡(luò)模型如下圖:

但顯然,在flannel中,VTEP的能力是通過linux的虛機(jī)網(wǎng)絡(luò)設(shè)備實(shí)現(xiàn)的。在VXLAN模式下,VTEP的角色由 flannel.1 虛擬網(wǎng)卡充當(dāng)。
02
?VXLAN模式?
VXLAN是Flannel默認(rèn)和推薦的模式。當(dāng)我們使用默認(rèn)配置安裝Flannel時(shí),它會為每個(gè)節(jié)點(diǎn)分配一個(gè)24位子網(wǎng),并在每個(gè)節(jié)點(diǎn)上創(chuàng)建兩張?zhí)摍C(jī)網(wǎng)卡:cni0?和 flannel.1 。cni0?是一個(gè)網(wǎng)橋設(shè)備,類似于 docker0?,節(jié)點(diǎn)上所有的Pod都通過veth pair的形式與 cni0?相連。flannel.1 則是一個(gè)VXLAN類型的設(shè)備,充當(dāng)VTEP的角色,實(shí)現(xiàn)對VXLAN報(bào)文的封包解包。
從內(nèi)核3.7版本開始,Linux就開始支持VXLAN,到3.12版本,支持已經(jīng)完備。
節(jié)點(diǎn)內(nèi)通信
顯然,節(jié)點(diǎn)內(nèi)的容器間通信通過 cni0 網(wǎng)橋就能完成,不涉及任何VXLAN報(bào)文的封包解包。例如在下面的圖例中,Node1的子網(wǎng)為10.244.0.1/24, PodA 10.244.0.20 和 PodB 10.224.0.21通過 cni0 網(wǎng)橋?qū)崿F(xiàn)互通。

跨節(jié)點(diǎn)通信
下面重點(diǎn)分析一下跨節(jié)點(diǎn)的容器通信過程。假設(shè)有兩個(gè)節(jié)點(diǎn)Node1和Node2,其中Node1的PodA要跟Node2的PodB通信,則它們之間的通信過程如下圖所示:

大致概括一下整個(gè)過程:
發(fā)送端:在PodA中發(fā)起 ping 10.244.1.21 ,ICMP 報(bào)文經(jīng)過 cni0?網(wǎng)橋后交由 flannel.1 設(shè)備處理。flannel.1 設(shè)備是一個(gè)VXLAN類型的設(shè)備,負(fù)責(zé)VXLAN封包解包。因此,在發(fā)送端,flannel.1 將原始L2報(bào)文封裝成VXLAN UDP報(bào)文,然后從 eth0?發(fā)送。
接收端:Node2收到UDP報(bào)文,發(fā)現(xiàn)是一個(gè)VXLAN類型報(bào)文,交由 flannel.1 進(jìn)行解包。根據(jù)解包后得到的原始報(bào)文中的目的IP,將原始報(bào)文經(jīng)由 cni0?網(wǎng)橋發(fā)送給PodB。
哪些IP要交由 flannel.1?處理
flanneld 從 etcd 中可以獲取所有節(jié)點(diǎn)的子網(wǎng)情況,以此為依據(jù)為各節(jié)點(diǎn)配置路由,將屬于非本節(jié)點(diǎn)的子網(wǎng)IP都路由到 flannel.1 處理,本節(jié)點(diǎn)的子網(wǎng)路由到 cni0?網(wǎng)橋處理。
[root@Node1 ~]# ip r...10.244.0.0/24 dev cni0 proto kernel scope link src 10.244.0.1 # Node1子網(wǎng)為10.224.0.0/24, 本機(jī)PodIP都交由cni0處理10.244.1.0/24 via 10.244.1.0 dev flannel.1 onlink # Node2子網(wǎng)為10.224.1.0/24,Node2的PodID都交由flannel.1處理...
如果節(jié)點(diǎn)信息有變化, flanneld 也會同步的對路由信息做修改。
flannel.1?的封包過程
VXLAN的封包是將二層以太網(wǎng)幀封裝到四層UDP報(bào)文中的過程。
原始L2幀
要生成原始的L2幀, flannel.1 需要得知:
內(nèi)層源/目的IP地址
內(nèi)層源/目的MAC地址
內(nèi)層的源/目的IP地址是已知的,即為PodA/PodB的PodIP,在圖例中,分別為10.224.0.20和10.224.1.20。內(nèi)層源/目的MAC地址要結(jié)合路由表和ARP表來獲取。根據(jù)路由表①得知:
下一跳地址是10.224.1.0,關(guān)聯(lián)ARP表②,得到下一跳的MAC地址,也就是目的MAC地址:Node2_flannel.1_MAC;
報(bào)文要從 flannel.1 虛擬網(wǎng)卡發(fā)出,因此源MAC地址為 flannel.1 的MAC地址。
要注意的是,這里ARP表的表項(xiàng)②并不是通過ARP學(xué)習(xí)得到的,而是 flanneld 預(yù)先為每個(gè)節(jié)點(diǎn)設(shè)置好的,由 flanneld負(fù)責(zé)維護(hù),沒有過期時(shí)間。
# 查看ARP表[root@Node1 ~]# ip n | grep flannel.110.244.1.0?dev?flannel.1?lladdr?ba:74:f9:db:69:c1?PERMANENT?#?PERMANENT?表示永不過期
有了上面的信息, flannel.1 就可以構(gòu)造出內(nèi)層的2層以太網(wǎng)幀:

外層VXLAN UDP報(bào)文
要將原始L2幀封裝成VXLAN UDP報(bào)文, flannel.1 還需要填充源/目的IP地址。前面提到,VTEP是VXLAN隧道的起點(diǎn)或終點(diǎn)。因此,目的IP地址即為對端VTEP的IP地址,通過FDB表獲取。在FDB表③中,dst字段表示的即為VXLAN隧道目的端點(diǎn)(對端VTEP)的IP地址,也就是VXLAN DUP報(bào)文的目的IP地址。FDB表也是由 flanneld 在每個(gè)節(jié)點(diǎn)上預(yù)設(shè)并負(fù)責(zé)維護(hù)的。
FDB表(Forwarding database)用于保存二層設(shè)備中MAC地址和端口的關(guān)聯(lián)關(guān)系,就像交換機(jī)中的MAC地址表一樣。在二層設(shè)備轉(zhuǎn)發(fā)二層以太網(wǎng)幀時(shí),根據(jù)FDB表項(xiàng)來找到對應(yīng)的端口。例如cni0網(wǎng)橋上連接了很多veth pair網(wǎng)卡,當(dāng)網(wǎng)橋要將以太網(wǎng)幀轉(zhuǎn)發(fā)給Pod時(shí),F(xiàn)DB表根據(jù)Pod網(wǎng)卡的MAC地址查詢FDB表,就能找到其對應(yīng)的veth網(wǎng)卡,從而實(shí)現(xiàn)聯(lián)通。
可以使用 bridge fdb show 查看FDB表:
[root@Node1 ~]# bridge fdb show | grep flannel.1ba:74:f9:db:69:c1?dev?flannel.1?dst?192.168.50.3?self?permanent
源IP地址信息來自于 flannel.1 網(wǎng)卡設(shè)置本身,根據(jù) local 192.168.50.2 可以得知源IP地址為192.168.50.2。
[root@Node1 ~]# ip -d a show flannel.16: flannel.1:mtu 1450 qdisc noqueue state UNKNOWN group default link/ether 32:02:78:2f:02:cb brd ff:ff:ff:ff:ff:ff promiscuity 0vxlan id 1 local 192.168.50.2 dev eth0 srcport 0 0 dstport 8472 nolearning ageing 300 noudpcsum noudp6zerocsumtx noudp6zerocsumrx numtxqueues 1 numrxqueues 1 gso_max_size 65536 gso_max_segs 65535inet 10.244.0.0/32 brd 10.244.0.0 scope global flannel.1valid_lft forever preferred_lft foreverinet6 fe80::3002:78ff:fe2f:2cb/64 scope link???????valid_lft?forever?preferred_lft?forever
至此, flannel.1 已經(jīng)得到了所有完成VXLAN封包所需的信息,最終通過 eth0?發(fā)送一個(gè)VXLAN UDP報(bào)文:

Flannel的VXLAN模式通過靜態(tài)配置路由表,ARP表和FDB表的信息,結(jié)合VXLAN虛擬網(wǎng)卡 flannel.1 ,實(shí)現(xiàn)了一個(gè)所有Pod同屬一個(gè)大二層網(wǎng)絡(luò)的VXLAN網(wǎng)絡(luò)模型。
03
?host-gw模式?
在上述的VXLAN的示例中,Node1和Node2其實(shí)是同一宿主機(jī)中的兩臺使用橋接模式的虛機(jī),也就是說它們在一個(gè)二層網(wǎng)絡(luò)中。在二層網(wǎng)絡(luò)互通的情況下,直接配置節(jié)點(diǎn)的三層路由即可互通,不需要使用VXLAN隧道。要使用host-gw模式,需要修改 ConfigMap kube-flannel-cfg ,將 Backend.Type 從vxlan改為host-gw,然后重啟所有kube-flannel Pod即可:
...net-conf.json: |{"Network": "10.244.0.0/16","Backend": {"Type": "host-gw" // <- 改成host-gw}}?...
host-gw模式下的通信過程如下圖所示:

在host-gw模式下,由于不涉及VXLAN的封包解包,不再需要flannel.1虛機(jī)網(wǎng)卡。flanneld 負(fù)責(zé)為各節(jié)點(diǎn)設(shè)置路由 ,將對應(yīng)節(jié)點(diǎn)Pod子網(wǎng)的下一跳地址指向?qū)?yīng)的節(jié)點(diǎn)的IP,如圖中路由表①所示。
[root@Node1 ~]# ip r...10.244.0.0/24 dev cni0 proto kernel scope link src 10.244.0.110.244.1.0/24 via 192.168.50.3 dev eth0 # Node2子網(wǎng)的下一跳地址指向Node2的public ip。...
由于沒有封包解包帶來的消耗,host-gw是性能最好的。不過一般在云環(huán)境下,都不支持使用host-gw的模式,在私有化部署的場景下,可以考慮。
? ?參考:
What is VXLAN
深入理解CNI
bridge man page
ip-route man page
ip-neighbour man page
flannel原理之vxlan模式
文章轉(zhuǎn)載:奇妙的Linux世界
(版權(quán)歸原作者所有,侵刪)
![]()

點(diǎn)擊下方“閱讀原文”查看更多
