Linux 路由三大件
對於 Linux 網絡,好奇心強的同學一定思考過兩個問題:
-
當我們發出一個包的時候,Linux 是如何決策該從哪個網卡(假設有多個網卡)、哪個下一跳發出這個包,用什麼 IP 作爲 source......
-
當 Linux 收到一個包時,又是如何決定往哪裏送的,是發送給本地程序、其他虛擬接口,還是轉發到其他機器......
今天,我們就來分析這兩個問題的核心所在:路由。
我們學習計算機網絡的時候,一般都會了解到基於目的地址(cidr)的路由(ip route),但是在 Linux 2.0 之後,RPDB (Routing Policy DataBase)誕生了,引入了更豐富的路由策略(ip rule)。除此以外,我們還可以通過 iptables 來操縱數據包,作爲路由策略實施的依據,間接地影響路由過程。
至此,我們就認識了 Linux 路由的三大件。那麼,三大件分別是什麼原理,又是是如何交互的呢?且看下文分析。
注:雖然 Linux 提出了 nftables 來替換 iptables,但 iptables 仍然是事實上的標準
RPDB
首先我們來看看 RPDB,RPDB 由兩部分組成,一個是 rule 列表,一個是 routing table 列表。
rule
ip rule
命令可以展示所有的 rule,每個 rule 由 selector(依據什麼特徵選擇包) 和對應 action(對包做什麼) 組成。
selector 主要有幾種類型:
-
出 / 入接口的 index,如 eth0、eth1
-
fwmark: 包攜帶的標記
-
Tunnel id
-
src/dst addr/port
-
type of service
-
priority
-
......
action 主要由幾種類型:
-
傳遞給特定的 route
-
跳轉到其它的 rule
-
Drop/reject 這個包
-
......
routing table
routing table 最開始只有一個,RPDB 後引入了多個(可以通過 cat /etc/iproute2/rt_tables
查看),默認有三個:
-
local,dst 爲本地或者廣播地址的路由
-
main,默認的路由
-
default,一般爲空,爲後處理預留空間
ip route
命令默認展示的是 main table,ip route show table local
形式可以展示其它 table。
routing table 裏面每個 route 代表了 dst 爲某個 / 些 / 類地址 的數據包應該 通過哪個渠道 轉發。route 由幾部分組成:
-
types
-
unicast,單播,最常見
-
unreachable,丟包並返回 ICMP 消息
-
blackhole, 默默丟包
-
......
-
socpe,目標地址的範圍:
cat /etc/iproute2/rt_scopes
,默認有三個 -
link,只在本設備有效,通常是直連
-
host,只在本機有效
-
global,全局有效,可傳播,是默認值
-
......
-
proto,路由由誰創建和維護:
/etc/iproute2/rt_protos
,默認有三個 -
kernel,內核創建,長期有效
-
boot,臨時的
-
static,手動創建,override 動態路由(由路由協議維護 entry)
-
......
-
preference,優先級,一般都是數字越小,優先級越高
-
dev,通過的設備名字,如 eth0
-
nexthop,下一跳
-
src,設置發出包的 src ip
-
......
RPDB 運行邏輯
參考 fib_lookup 函數:如果你沒有動過 RPDB,那麼直接用 mian table 進行路由查找(fib_table_lookup)了;如果動過,則通過 __fib_lookup/fib_rules_lookup 進行 rule 匹配,匹配邏輯爲:
-
無論是出還是入方向的每個包,都會遍歷所有 rule,按照 priority,由 0 開始
-
第一個匹配的 rule 會執行 action
-
如果 action 是 lookup route table,則用對應 table 進行路由查找(fib_table_lookup),如果查找失敗,則繼續執行下一個 rule
-
如果沒有任何 rule 匹配,則報錯
路由查找邏輯爲:
-
最長前綴匹配(也是被認爲最精準的)的 route 被選中
-
如果有多個匹配,則 preference、tos/dscp、自然順序都會被進行考慮,最後僅剩一個匹配
-
如果沒有匹配,則返回 rule 匹配,繼續檢查下一個 rule
iptables
iptables 主要用於包過濾、修改和 NAT。再次拿出下面這張神圖,來闡釋它五大表和五大鏈,及其生效順序和範圍:
原圖:https://upload.wikimedia.org/wikipedia/commons/3/37/Netfilter-packet-flow.svg
三大件的交互過程
瞭解了各自原理之後,我們當然想知道它們是怎麼交互的。上面那張圖實際上已經闡釋了他們之間的交互,不過下面這張圖能看得更清晰:
原圖:http://www.adminsehow.com/2011/09/iptables-packet-traverse-map/
實踐
這是一個完全沒動過的環境:
我們現在來設計一個需求:源端口爲 30300 的包,默默丟棄;源端口爲 30301 的包,丟棄並報錯;源端口爲 30302 的包,用新的 route table 轉發。
先看看實施前的結果,用 taobao.com 來測試
雖然實現這個需求有很多方式,但是我這裏爲了演示三大件的交互而選擇了下面的這種方式:
首先需要標記這三種類型的包,由於是本地發包,我們採用 mangle output
iptables -A OUTPUT -t mangle -o enp0s1 -p tcp --sport 30300 -j MARK --set-mark 1
iptables -A OUTPUT -t mangle -o enp0s1 -p tcp --sport 30301 -j MARK --set-mark 2
iptables -A OUTPUT -t mangle -o enp0s1 -p tcp --sport 30302 -j MARK --set-mark 3
iptables -t mangle -L
展示,iptables -t mangle -F
清理。
然後增加相應的 route table
echo 2 custom >> /etc/iproute2/rt_tables
ip route add default via 192.168.64.1 dev enp0s1 src 192.168.64.4 table custom
以及 rule
ip rule add from all fwmark 1 blackhole
ip rule add from all fwmark 2 prohibited
ip rule add from all fwmark 3 table custom
結果發現 30302 依然能通,但是 30300 和 30301 都超時了,沒看出來返回的錯誤。
採用 traceroute 的 tcp 模式作爲測試工具則能夠看出一些差別。
ip rule add from all fwmark 2 unreachable
對應結果也確實符合期望
traceroute -T --sport=30301 --port=443 tabao.com
traceroute to tabao.com (128.14.151.194), 30 hops max, 60 byte packets
send: Network is unreachable
參考
-
ip-rule(8) - Linux manual page: https://www.man7.org/linux/man-pages/man8/ip-rule.8.html
-
ip-route(8) - Linux manual page: https://www.man7.org/linux/man-pages/man8/ip-route.8.html
-
iptables(8) - Linux manual page: https://www.man7.org/linux/man-pages/man8/iptables.8.html
-
fib_rule_match: https://elixir.bootlin.com/linux/v6.1.11/source/net/core/fib_rules.c#L259
-
fib4_rule_match: https://elixir.bootlin.com/linux/v6.1.11/source/net/ipv4/fib_rules.c#L177
-
https://elixir.bootlin.com/linux/v6.1.11/source/include/uapi/linux/fib_rules.h#L75
-
fib_table: https://elixir.bootlin.com/linux/v6.1.11/source/include/net/ip_fib.h#L251
-
fib_info: https://elixir.bootlin.com/linux/v6.1.11/source/include/net/ip_fib.h#L134
-
https://serverfault.com/questions/63014/ip-address-scope-parameter
-
https://linux.die.net/man/8/ebtables
-
fib_table_lookup:https://elixir.bootlin.com/linux/v6.1.11/source/net/ipv4/fib_trie.c#L1444
-
https://blogs.manageengine.com/network/netflowanalyzer/2012/04/24/understanding-ip-precedence-tos-dscp.html
本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源:https://mp.weixin.qq.com/s/x_uBpI3lq8AqG2HmjyDg5A