Linux 路由三大件

對於 Linux 網絡,好奇心強的同學一定思考過兩個問題:

今天,我們就來分析這兩個問題的核心所在:路由。

我們學習計算機網絡的時候,一般都會了解到基於目的地址(cidr)的路由(ip route),但是在 Linux 2.0 之後,RPDB (Routing Policy DataBase)誕生了,引入了更豐富的路由策略(ip rule)。除此以外,我們還可以通過 iptables 來操縱數據包,作爲路由策略實施的依據,間接地影響路由過程。

至此,我們就認識了 Linux 路由的三大件。那麼,三大件分別是什麼原理,又是是如何交互的呢?且看下文分析。

注:雖然 Linux 提出了 nftables 來替換 iptables,但 iptables 仍然是事實上的標準

RPDB

首先我們來看看 RPDB,RPDB 由兩部分組成,一個是 rule 列表,一個是 routing table 列表。

rule

ip rule 命令可以展示所有的 rule,每個 rule 由 selector(依據什麼特徵選擇包) 和對應 action(對包做什麼) 組成。

selector 主要有幾種類型:

action 主要由幾種類型:

routing table

routing table 最開始只有一個,RPDB 後引入了多個(可以通過 cat /etc/iproute2/rt_tables 查看),默認有三個:

ip route 命令默認展示的是 main table,ip route show table local 形式可以展示其它 table。

routing table 裏面每個 route 代表了 dst 爲某個 / 些 / 類地址 的數據包應該 通過哪個渠道 轉發。route 由幾部分組成:

RPDB 運行邏輯

參考 fib_lookup 函數:如果你沒有動過 RPDB,那麼直接用 mian table 進行路由查找(fib_table_lookup)了;如果動過,則通過 __fib_lookup/fib_rules_lookup 進行 rule 匹配,匹配邏輯爲:

路由查找邏輯爲:

iptables

iptables 主要用於包過濾、修改和 NAT。再次拿出下面這張神圖,來闡釋它五大表和五大鏈,及其生效順序和範圍:

原圖:https://upload.wikimedia.org/wikipedia/commons/3/37/Netfilter-packet-flow.svg

三大件的交互過程

瞭解了各自原理之後,我們當然想知道它們是怎麼交互的。上面那張圖實際上已經闡釋了他們之間的交互,不過下面這張圖能看得更清晰:

原圖:http://www.adminsehow.com/2011/09/iptables-packet-traverse-map/

實踐

這是一個完全沒動過的環境:

我們現在來設計一個需求:源端口爲 30300 的包,默默丟棄;源端口爲 30301 的包,丟棄並報錯;源端口爲 30302 的包,用新的 route table 轉發。
先看看實施前的結果,用 taobao.com 來測試

雖然實現這個需求有很多方式,但是我這裏爲了演示三大件的交互而選擇了下面的這種方式:

首先需要標記這三種類型的包,由於是本地發包,我們採用 mangle output

iptables -A OUTPUT -t mangle -o enp0s1 -p tcp --sport 30300 -j MARK --set-mark 1
iptables -A OUTPUT -t mangle -o enp0s1 -p tcp --sport 30301 -j MARK --set-mark 2
iptables -A OUTPUT -t mangle -o enp0s1 -p tcp --sport 30302 -j MARK --set-mark 3

iptables -t mangle -L 展示,iptables -t mangle -F 清理。

然後增加相應的 route table

echo 2 custom >> /etc/iproute2/rt_tables
ip route add default via 192.168.64.1 dev enp0s1 src 192.168.64.4 table custom

以及 rule

ip rule add from all fwmark 1 blackhole
ip rule add from all fwmark 2 prohibited
ip rule add from all fwmark 3 table custom

結果發現 30302 依然能通,但是 30300 和 30301 都超時了,沒看出來返回的錯誤。
採用 traceroute 的 tcp 模式作爲測試工具則能夠看出一些差別。

ip rule add from all fwmark 2 unreachable 對應結果也確實符合期望

traceroute -T --sport=30301 --port=443 tabao.com
traceroute to tabao.com (128.14.151.194), 30 hops max, 60 byte packets
send: Network is unreachable

參考

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/x_uBpI3lq8AqG2HmjyDg5A