需要多久才能看完 linux 內核源碼?
一、內核行數
Linux 內核分爲 CPU 調度、內存管理、網絡和存儲四大子系統,針對硬件的驅動成百上千。代碼的數量更是大的驚人。
先說說最早的內核 linux 0.11,下面這本書可以說很多驅動工程師都學習過,我花了大概 1 個半月,勉強看了一遍。
再來看看內核代碼量的統計。
2020 年 1 月 1 日,Linux 內核 Git 源碼樹中的代碼達到了 2780 萬行。
phoronix 網站統計了 Linux 內核在進入 2020 年時的一些源碼數據並作了總結。
從統計數據來看,Linux 內核源碼樹共有:
27852148 行 (包括文檔、Kconfig 文件、樹中的用戶空間實用程序等)、
887925 次 commit
21074 位不同的作者
2780 萬行代碼分佈在 66492 個文件中。
Linux 內核從最初的 10000 行代碼到現在的 2780 萬行代碼就是全球精英共同貢獻的結果。
按照一天一萬行的速度,也需要 2700 天,也需要 7 年多。
這還是建立在所有單次都認識,
所有代碼邏輯看了的都懂,
而且都不忘記的基礎上。
實際上即使我們真的看完了,
幾年後內核又會有非常大的變化,
可以說一輩子都看不完 Linux 內核的代碼。
Linux 內核 Git 源碼樹中的代碼達到了 2780 萬行,核心代碼只有 2% 是由李納斯 • 託瓦茲自己編寫的,其他均是其他個人和組織貢獻的,李納斯 • 託瓦茲公開了 Linux 但保留了選擇新代碼和需要合併的新方法的最終裁定權。
除了 Linus Torvalds,對內核貢獻最多的是 David S.Miller、 Mark Brown、Takashi Iwai、Arnd Bergmann、Al Viro 和 Mauro Carvalho Chehab。
而參與貢獻的公司,從域名統計來看,谷歌、Intel 與 Red Hat 排在了最前列。
二、內核目錄文件大小
然而,現在的內核已經膨脹的不成樣子了,以還不算最新的 linux-4.1.15 爲例:
整個內核源碼一共約 793M:
這些目錄任意一個目錄想完全看明白都非常不容易。
三、內核子系統
什麼是內核:
在計算機科學中是一個用來管理軟件發出的數據 I/O(輸入與輸出)要求的計算機程序,將這些要求轉譯爲數據處理的指令並交由中央處理器(CPU)及計算機中其他電子組件進行處理,是現代操作系統中最基本的部分。
它是爲衆多應用程序提供對計算機硬件的安全訪問的一部分軟件,這種訪問是有限的,並由內核決定一個程序在什麼時候對某部分硬件操作多長時間。
linux 內核代碼涉及知識點包括彙編指令、c 語言、硬件組成原理、操作系統、數據結構和算法、各種外設總線、驅動、網絡協議棧。
直接對硬件操作是非常複雜的。所以內核通常提供一種硬件抽象的方法,來完成這些操作。
通過進程間通信機制及系統調用,應用進程可間接控制所需的硬件資源(特別是處理器及 IO 設備)。
最上面是用戶(或應用程序)空間。這是用戶應用程序執行的地方。用戶空間之下是內核空間,Linux 內核正是位於這裏。
GNU C Library (glibc)也在這裏。它提供了連接內核的系統調用接口,還提供了在用戶空間應用程序和內核之間進行轉換的機制。
內核和用戶空間的應用程序使用的是不同的保護地址空間。
每個用戶空間的進程都使用自己的虛擬地址空間,而內核則佔用單獨的地址空間。
Linux 內核可以進一步劃分成 3 層。最上面是系統調用接口,它實現了一些基本的功能,例如 read 和 write。
系統調用接口之下是內核代碼,可以更精確地定義爲獨立於體系結構的內核代碼。這些代碼是 Linux 所支持的所有處理器體系結構所通用的。
在這些代碼之下是依賴於體系結構的代碼,構成了通常稱爲 BSP(Board Support Package)的部分。這些代碼用作給定體系結構的處理器和特定於平臺的代碼。
內核主要系統包括:SCI:系統調用接口 PM:進程管理 VFS:虛擬文件系統 MM:內存管理 Network Stack:內核協議棧 Arch:體系架構 DD:設備驅動
1 系統調用接口
SCI 層提供了某些機制執行從用戶空間到內核的函數調用。這個接口依賴於體系結構,甚至在相同的處理器家族內也是如此。
SCI 實際上是一個非常有用的函數調用多路複用和多路分解服務。
在 ./linux/kernel 中您可以找到 SCI 的實現,並在 ./linux/arch 中找到依賴於體系結構的部分。
2 進程管理
進程管理的重點是進程的執行。
在內核中,這些進程稱爲線程,代表了單獨的處理器虛擬化(線程代碼、數據、堆棧和 CPU 寄存器)。
在用戶空間,通常使用進程 這個術語,不過 Linux 實現並沒有區分這兩個概念(進程和線程)。
內核通過 SCI 提供了一個應用程序編程接口(API)來創建一個新進程(fork、exec 或 Portable Operating System Interface [POSIX] 函數),停止進程(kill、exit),並在它們之間進行通信和同步(signal 或者 POSIX 機制)。
3 內存管理
內核所管理的另外一個重要資源是內存。爲了提高效率,如果由硬件管理虛擬內存,內存是按照所謂的內存頁方式進行管理的(對於大部分體系結構來說都是 4KB)。
Linux 包括了管理可用內存的方式,以及物理和虛擬映射所使用的硬件機制。
4 虛擬文件系統
虛擬文件系統(VFS)是 Linux 內核中非常有用的一個方面,因爲它爲文件系統提供了一個通用的接口抽象。VFS 在 SCI 和內核所支持的文件系統之間提供了一個交換層。
在 VFS 上面,是對諸如 open、close、read 和 write 之類的函數的一個通用 API 抽象。在 VFS 下面是文件系統抽象,它定義了上層函數的實現方式。
它們是給定文件系統(超過 50 個)的插件。文件系統的源代碼可以在 ./linux/fs 中找到。
文件系統層之下是緩衝區緩存,它爲文件系統層提供了一個通用函數集(與具體文件系統無關)。
這個緩存層通過將數據保留一段時間(或者隨即預先讀取數據以便在需要是就可用)優化了對物理設備的訪問。緩衝區緩存之下是設備驅動程序,它實現了特定物理設備的接口。
5 網絡堆棧
網絡堆棧在設計上遵循模擬協議本身的分層體系結構。
回想一下,Internet Protocol (IP) 是傳輸協議(通常稱爲傳輸控制協議或 TCP)下面的核心網絡層協議。TCP 上面是 socket 層,它是通過 SCI 進行調用的。
socket 層是網絡子系統的標準 API,它爲各種網絡協議提供了一個用戶接口。
從原始幀訪問到 IP 協議數據單元(PDU),再到 TCP 和 User Datagram Protocol (UDP),socket 層提供了一種標準化的方法來管理連接,並在各個終點之間移動數據。內核中網絡源代碼可以在 ./linux/net 中找到。
6 設備驅動程序
Linux 內核中有大量代碼都在設備驅動程序中,它們能夠運轉特定的硬件設備。
Linux 源碼樹提供了一個驅動程序子目錄,這個目錄又進一步劃分爲各種支持設備,例如 Bluetooth、I2C、serial 等。設備驅動程序的代碼可以在 ./linux/drivers 中找到。
下面這個圖形象的講解了 Linux 內核都有哪些東西!
四、如何學習內核?
1. 學習主線
linux 內核源碼大而全,一個人,即使再聰明、再有精力,也不可能完全看完、看懂所有的 linux 內核源碼。
一口君建議按照以下主線進行深入研究:
-
linux 驅動架構
-
linux 網絡子系統
-
linux 內核啓動過程
-
linux 內存管理機制
-
linux 調度器
-
linux 進程管理
-
linux 虛擬機制 (kvm)
-
linux 內核實時化技術
沿着某一個主線,深入進去,在研究清楚這個主線的同時,向其他的主線擴展、滲透和學習。
此處之所以將驅動列爲學習內核的入口,是因爲內核爲很多外設驅動實現了架構, 比如 I2C、SPI、UART、PCIE、字符設備、網絡設備、塊設備, 我們可以從最基本的字符設備學起, 學習如何編寫一個簡單的模塊 學習如何如何爲一些簡單的設備比如 LED、KEY、ADC 等編寫驅動 可以說驅動是我們學習內核最簡單的入口,
由點到線、由線到面、由面到體,層層深入、不斷精進,是學習 linux 內核源碼的一個有效的方法。
2. 代碼閱讀工具
對於代碼閱讀方法從兩個角度來介紹,一個方面是需要選擇一個比較有效閱讀代碼的工具。
一口君強烈推薦:source insight 這款閱讀代碼神器!
也可以使用 vscode 或者 vim+ctags 的組合。
不過一口君十幾年的從業經驗,
99% 以上的開發人員都選擇 SI 閱讀內核代碼。
代碼並不是寫給人看的,而是交給機器運行的。
所以我們去理解別人的代碼時,並不能像看小說一樣去通篇的閱讀代碼,而應該是像研究化石一樣去調查它,解密它。
有時我們往往也需要把對方的一段代碼親手的實現一遍,然後自己舉一反三看自己會怎麼去實現它,才能真正的理解。
3. 學習的內核版本
有些人推薦先閱讀一些低版本的內核,比如 0.01 版的,總代碼量才 1 萬行左右。
閱讀這個代碼大概一個月應該能比較清晰了。
但是,改代碼與現在的代碼差異巨大,閱讀後可以理解基本思想,但對理解現有代碼的幫助不是特別明顯。
3.10 版本之後的內核都支持設備樹!
所以一口君建議是儘量選擇 3.10 版本之後的代碼閱讀學習。
最好選擇一款開發板學習!
開發板的選擇一定要選擇資料比較全,
售後比較好的品牌!
否則學習中遇到的一個小問題都可能被卡個一兩週。
無形中增加了學習的成本,
要知道時間就是金錢!
對於初學者來說,
強烈推薦正點原子的開發板!
4. 學習 Linux 最重要的是培養自己寫代碼的能力和對 Linux 框架結構的瞭解
Linux 內核中絕大部分代碼都是由這個地球上頂尖的技術大牛所編寫,
這些代碼的高內聚低耦合,
其精準度,簡潔度、質量都相當的高,
每每看到一段高質量的代碼,
一口君都會被那一行行枯燥的代碼背後隱藏的設計思想所震撼,所折服!
閱讀內核的代碼簡直就是在欣賞藝術品!
很多粉絲問我如何提高自己的 C 語言編程水平, 一口君不厭其煩的 重複着同樣一句話:看 Linux 內核!
代碼中自由顏如玉!代碼中自有黃金屋!
我們一定要像泡妞一樣來泡內核!
時刻保持激情,任性和耐性!
耐住寂寞,天天讀它,泡她!
從量變到質變!
水滴石穿!
願各位都能夠熟練掌握 Linux,
實現從程序員涅槃成爲真正的軟件大師!
本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源:https://mp.weixin.qq.com/s/K_Ix6C9d_03cb1Hfpz461g