需要多久才能看完 linux 內核源碼?

一、內核行數

Linux 內核分爲 CPU 調度、內存管理、網絡和存儲四大子系統,針對硬件的驅動成百上千。代碼的數量更是大的驚人。

先說說最早的內核 linux 0.11,下面這本書可以說很多驅動工程師都學習過,我花了大概 1 個半月,勉強看了一遍。

再來看看內核代碼量的統計。

2020 年 1 月 1 日,Linux 內核 Git 源碼樹中的代碼達到了 2780 萬行。

phoronix 網站統計了 Linux 內核在進入 2020 年時的一些源碼數據並作了總結。

從統計數據來看,Linux 內核源碼樹共有:

27852148 行 (包括文檔、Kconfig 文件、樹中的用戶空間實用程序等)

887925 次 commit

21074 位不同的作者

2780 萬行代碼分佈在 66492 個文件中

Linux 內核從最初的 10000 行代碼到現在的 2780 萬行代碼就是全球精英共同貢獻的結果。

按照一天一萬行的速度,也需要 2700 天,也需要 7 年多。

這還是建立在所有單次都認識,

所有代碼邏輯看了的都懂,

而且都不忘記的基礎上。

實際上即使我們真的看完了,

幾年後內核又會有非常大的變化,

可以說一輩子都看不完 Linux 內核的代碼。

Linux 內核 Git 源碼樹中的代碼達到了 2780 萬行,核心代碼只有 2% 是由李納斯 • 託瓦茲自己編寫的,其他均是其他個人和組織貢獻的,李納斯 • 託瓦茲公開了 Linux 但保留了選擇新代碼和需要合併的新方法的最終裁定權。

除了 Linus Torvalds,對內核貢獻最多的是 David S.Miller、 Mark Brown、Takashi Iwai、Arnd Bergmann、Al Viro 和 Mauro Carvalho Chehab。

而參與貢獻的公司,從域名統計來看,谷歌、Intel 與 Red Hat 排在了最前列。

二、內核目錄文件大小

然而,現在的內核已經膨脹的不成樣子了,以還不算最新的 linux-4.1.15 爲例:

整個內核源碼一共約 793M:

驅動代碼佔了大概一半,大約 380M:

體系相關的代碼大約 134M:網路子系統相關的代碼 26M:文件系統相關的代碼 37M:

linux 內核核心代碼大約 6.8M:

這些目錄任意一個目錄想完全看明白都非常不容易。

三、內核子系統

什麼是內核:

在計算機科學中是一個用來管理軟件發出的數據 I/O(輸入與輸出)要求的計算機程序,將這些要求轉譯爲數據處理的指令並交由中央處理器(CPU)及計算機中其他電子組件進行處理,是現代操作系統中最基本的部分。

它是爲衆多應用程序提供對計算機硬件的安全訪問的一部分軟件,這種訪問是有限的,並由內核決定一個程序在什麼時候對某部分硬件操作多長時間。

linux 內核代碼涉及知識點包括彙編指令、c 語言、硬件組成原理、操作系統、數據結構和算法、各種外設總線、驅動、網絡協議棧。

直接對硬件操作是非常複雜的。所以內核通常提供一種硬件抽象的方法,來完成這些操作。

通過進程間通信機制及系統調用,應用進程可間接控制所需的硬件資源(特別是處理器及 IO 設備)。

最上面是用戶(或應用程序)空間。這是用戶應用程序執行的地方。用戶空間之下是內核空間,Linux 內核正是位於這裏。

GNU C Library (glibc)也在這裏。它提供了連接內核的系統調用接口,還提供了在用戶空間應用程序和內核之間進行轉換的機制。

內核和用戶空間的應用程序使用的是不同的保護地址空間。

每個用戶空間的進程都使用自己的虛擬地址空間,而內核則佔用單獨的地址空間。

Linux 內核可以進一步劃分成 3 層。最上面是系統調用接口,它實現了一些基本的功能,例如 read 和 write。

系統調用接口之下是內核代碼,可以更精確地定義爲獨立於體系結構的內核代碼。這些代碼是 Linux 所支持的所有處理器體系結構所通用的。

在這些代碼之下是依賴於體系結構的代碼,構成了通常稱爲 BSP(Board Support Package)的部分。這些代碼用作給定體系結構的處理器和特定於平臺的代碼。

內核主要系統包括:SCI:系統調用接口 PM:進程管理 VFS:虛擬文件系統 MM:內存管理 Network Stack:內核協議棧 Arch:體系架構 DD:設備驅動

1 系統調用接口

SCI 層提供了某些機制執行從用戶空間到內核的函數調用。這個接口依賴於體系結構,甚至在相同的處理器家族內也是如此。

SCI 實際上是一個非常有用的函數調用多路複用和多路分解服務。

在 ./linux/kernel 中您可以找到 SCI 的實現,並在 ./linux/arch 中找到依賴於體系結構的部分。

2 進程管理

進程管理的重點是進程的執行。

在內核中,這些進程稱爲線程,代表了單獨的處理器虛擬化(線程代碼、數據、堆棧和 CPU 寄存器)。

在用戶空間,通常使用進程 這個術語,不過 Linux 實現並沒有區分這兩個概念(進程和線程)。

內核通過 SCI 提供了一個應用程序編程接口(API)來創建一個新進程(fork、exec 或 Portable Operating System Interface [POSIX] 函數),停止進程(kill、exit),並在它們之間進行通信和同步(signal 或者 POSIX 機制)。

3 內存管理

內核所管理的另外一個重要資源是內存。爲了提高效率,如果由硬件管理虛擬內存,內存是按照所謂的內存頁方式進行管理的(對於大部分體系結構來說都是 4KB)。

Linux 包括了管理可用內存的方式,以及物理和虛擬映射所使用的硬件機制。

4 虛擬文件系統

虛擬文件系統(VFS)是 Linux 內核中非常有用的一個方面,因爲它爲文件系統提供了一個通用的接口抽象。VFS 在 SCI 和內核所支持的文件系統之間提供了一個交換層。

在 VFS 上面,是對諸如 open、close、read 和 write 之類的函數的一個通用 API 抽象。在 VFS 下面是文件系統抽象,它定義了上層函數的實現方式。

它們是給定文件系統(超過 50 個)的插件。文件系統的源代碼可以在 ./linux/fs 中找到。

文件系統層之下是緩衝區緩存,它爲文件系統層提供了一個通用函數集(與具體文件系統無關)。

這個緩存層通過將數據保留一段時間(或者隨即預先讀取數據以便在需要是就可用)優化了對物理設備的訪問。緩衝區緩存之下是設備驅動程序,它實現了特定物理設備的接口。

5 網絡堆棧

網絡堆棧在設計上遵循模擬協議本身的分層體系結構。

回想一下,Internet Protocol (IP) 是傳輸協議(通常稱爲傳輸控制協議或 TCP)下面的核心網絡層協議。TCP 上面是 socket 層,它是通過 SCI 進行調用的。

socket 層是網絡子系統的標準 API,它爲各種網絡協議提供了一個用戶接口。

從原始幀訪問到 IP 協議數據單元(PDU),再到 TCP 和 User Datagram Protocol (UDP),socket 層提供了一種標準化的方法來管理連接,並在各個終點之間移動數據。內核中網絡源代碼可以在 ./linux/net 中找到。

6 設備驅動程序

Linux 內核中有大量代碼都在設備驅動程序中,它們能夠運轉特定的硬件設備。

Linux 源碼樹提供了一個驅動程序子目錄,這個目錄又進一步劃分爲各種支持設備,例如 Bluetooth、I2C、serial 等。設備驅動程序的代碼可以在 ./linux/drivers 中找到。

下面這個圖形象的講解了 Linux 內核都有哪些東西!

四、如何學習內核?

1. 學習主線

linux 內核源碼大而全,一個人,即使再聰明、再有精力,也不可能完全看完、看懂所有的 linux 內核源碼。

一口君建議按照以下主線進行深入研究:

沿着某一個主線,深入進去,在研究清楚這個主線的同時,向其他的主線擴展、滲透和學習。

此處之所以將驅動列爲學習內核的入口,是因爲內核爲很多外設驅動實現了架構, 比如 I2C、SPI、UART、PCIE、字符設備、網絡設備、塊設備, 我們可以從最基本的字符設備學起, 學習如何編寫一個簡單的模塊 學習如何如何爲一些簡單的設備比如 LED、KEY、ADC 等編寫驅動 可以說驅動是我們學習內核最簡單的入口,

由點到線、由線到面、由面到體,層層深入、不斷精進,是學習 linux 內核源碼的一個有效的方法。

2. 代碼閱讀工具

對於代碼閱讀方法從兩個角度來介紹,一個方面是需要選擇一個比較有效閱讀代碼的工具。

一口君強烈推薦:source insight 這款閱讀代碼神器!

也可以使用 vscode 或者 vim+ctags 的組合。

不過一口君十幾年的從業經驗,

99% 以上的開發人員都選擇 SI 閱讀內核代碼。

代碼並不是寫給人看的,而是交給機器運行的。

所以我們去理解別人的代碼時,並不能像看小說一樣去通篇的閱讀代碼,而應該是像研究化石一樣去調查它,解密它。

有時我們往往也需要把對方的一段代碼親手的實現一遍,然後自己舉一反三看自己會怎麼去實現它,才能真正的理解。

3. 學習的內核版本

有些人推薦先閱讀一些低版本的內核,比如 0.01 版的,總代碼量才 1 萬行左右。

閱讀這個代碼大概一個月應該能比較清晰了。

但是,改代碼與現在的代碼差異巨大,閱讀後可以理解基本思想,但對理解現有代碼的幫助不是特別明顯。

3.10 版本之後的內核都支持設備樹!

所以一口君建議是儘量選擇 3.10 版本之後的代碼閱讀學習。

最好選擇一款開發板學習!

開發板的選擇一定要選擇資料比較全,

售後比較好的品牌!

否則學習中遇到的一個小問題都可能被卡個一兩週。

無形中增加了學習的成本,

要知道時間就是金錢!

對於初學者來說,

強烈推薦正點原子的開發板!

4. 學習 Linux 最重要的是培養自己寫代碼的能力和對 Linux 框架結構的瞭解

Linux 內核中絕大部分代碼都是由這個地球上頂尖的技術大牛所編寫,

這些代碼的高內聚低耦合,

其精準度,簡潔度、質量都相當的高,

每每看到一段高質量的代碼,

一口君都會被那一行行枯燥的代碼背後隱藏的設計思想所震撼,所折服!

閱讀內核的代碼簡直就是在欣賞藝術品!

很多粉絲問我如何提高自己的 C 語言編程水平, 一口君不厭其煩的 重複着同樣一句話:看 Linux 內核!

代碼中自由顏如玉!代碼中自有黃金屋!

我們一定要像泡妞一樣來泡內核!

時刻保持激情,任性和耐性!

耐住寂寞,天天讀它,泡她!

從量變到質變!

水滴石穿!

願各位都能夠熟練掌握 Linux,

實現從程序員涅槃成爲真正的軟件大師!

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/K_Ix6C9d_03cb1Hfpz461g