一文剖析 Linux 內核的內存管理

內存管理的主要工作就是對物理內存進行組織,然後對物理內存的分配和回收。但是 Linux 引入了虛擬地址的概念。

虛擬地址的作用

如果用戶進程直接操作物理地址會有以下的壞處:

1、 用戶進程可以直接操作內核對應的內存,破壞內核運行。

2、 用戶進程也會破壞其他進程的運行

CPU 中寄存器中存儲的是邏輯地址,需要進行映射才能轉化爲對應的物理地址,然後獲取對應的內存。

通過引入邏輯地址,每個進程都擁有單獨的邏輯地址範圍。

當進程申請內存的時候,會爲其分配邏輯地址和物理地址,並將邏輯地址和物理地址做一個映射。

所以,Linux 內存管理涉及到了以下三個部分:

1、物理內存

物理內存的組織

Linux 中內存分爲 3 個級別,從下到上依次爲:

1、Page: 一個 page 的大小爲 4k, Page 是內存的一個最基本的單位。

2、Zone: Zone 中提供了多個隊列來管理 page。

Zone 分爲 3 種

 2.1、 ZONE_DMA:用來存放 DMA 讀取 IO 設備的數據,內核專用

 2.2、 ZONE_NORMAL:用來存放內核的相關數據,內核專用

 2.3、 ZONE_HIGHMEM:高端內存,用來存放用戶進程數據

3、Node 節點,一個 CPU 對應着一個 Node,一個 Node 包括一個 Zone_DMA、 ZONE_NORMAL、ZONE_HIGHMEM。

同時當一個 CPU 對應的內存用光後,可以申請其他 CPU 對應的內存。

物理內存的分配

Linux 將內存分配分爲兩種:

1、大內存

大內存 利用夥伴系統 分配。

夥伴系統的做法是將 ZONE 中的 Page 分組,然後組裝爲多個鏈表。鏈表中存放的是 頁塊 的集合。頁塊對應着有不同的大小,分別爲 1、2、4、8 … 1024 個頁。

當請求 (2i-1 ,2i] 大小的 page 的時候,會直接請求 2i 個頁, 如果對應的鏈表中有對應的頁塊,就直接分配。如果對應的鏈表沒有,就往上找 2i+1,如果 2i+1 存在,就將其分爲 2 個 2i 頁塊,將其中 1 個 2i 加入到對應的鏈表中,將另外一個分配出去。

例如,要請求一個 128 個頁的頁塊時,先檢查 128 個頁的頁塊鏈表是否有空閒塊。如果沒有,則查 256 個

的頁塊鏈表;如果有空閒塊的話,則將 256 個頁的頁塊分成兩份,一份使用,一份插入 128 個頁的頁塊鏈表中。如果還是沒有,就查 512 個頁的頁塊鏈表;如果有的話,就分裂爲 128、128、256 三個頁塊,一個 128 的使用,剩餘兩個插入對應頁塊鏈表。

2、小內存分配

小內存分配利用 slub 分配,比如對象等數據 slub 就是 將幾個頁單獨拎出來作爲緩存,裏面維護了鏈表。每次直接從鏈表中獲取對應的內存,用完之後也不用清空,就直接掛到鏈表上,然後等待下次利用。

2、如何組織虛擬地址

虛擬地址對應的是虛擬空間,虛擬空間只不過是一個虛擬地址的集合,用來映射物理內存。

虛擬空間分爲 用戶態內核態

32 位系統中 將虛擬空間按照 1:3 的比例分配給 內核態用戶態。

64 位系統中 分別給 內核態 和 用戶態 分配了 128T。

用戶態結構

每個進程 都會 對應一個 用戶態虛擬空間, 裏面存放了 Text(代碼)的內存虛擬地址範圍、 Data(數據)的內存虛擬地址範圍、BSS(全局變量)的內存虛擬地址範圍、堆的虛擬地址範圍、棧的虛擬地址範圍,以及 mmap 內存映射區。

其中 mmap 用於申請動態內存的時候的映射,堆和棧都是動態變化的。

一個進程對應的用戶態中的 各個方面的虛擬地址信息都通過一個 struct  來存儲在內存中,當創建進程的時候會爲其分配內存存儲對應的虛擬地址信息。

內核態結構

Linux 的內核程序共用一個內核態虛擬空間。其中分爲了以下幾部分:

1、直接映射區

896M,內核空間直接映射到對應的 ZONE_DMA 和 ZONE_NORMAL 中。爲什麼叫做直接映射呢?邏輯地址 直接 減去對應的差值就可以得到對應的物理地址。固定死了。

2、動態映射

爲什麼要引入動態映射呢?因爲所有物理內存的分配都需要內核程序進行申請,用戶進程沒有這個權限。所以內核空間一定要能映射到所有的物理內存地址。

那麼如果都採用直接映射的話,1G 大小邏輯地址的內核空間只能映射 1G 大小的物理內存。

所以引入了動態映射,動態映射就是 內核空間的邏輯地址可以映射到 物理內存中的 ZONE_HIGHMEM(高端內存)中的任何一個地址,並且在對應的物理內存使用完之後,可以再映射其他物理內存地址。

動態映射分爲三種:

1、動態內存映射: 使用完對應的物理內存後,就可以映射其他物理內存了。

2、永久內存映射: 一個虛擬地址只能映射一個物理地址。如果需要映射其他物理地址,需要解綁。

3、固定內存映射: 只能被某些特定的函數來調用引用物理地址。

動態內存映射和直接映射的區別

動態映射和直接映射的區別就是邏輯地址到物理地址的轉化規則。

直接映射

直接映射的規則是死的,一個邏輯地址對應的物理地址是固定的。通過邏輯地址加或者減去一個數,就可以得到對應的物理地址。

動態映射

動態映射是動態的綁定,每個邏輯地址對應的物理地址是動態的,通過頁表進行查詢。

用戶空間映射:

用戶空間採用動態映射,每個虛擬地址可以被映射到一個物理地址,映射到 ZONE_HIGHMEM。

爲什麼用戶空間不採用直接映射呢?

因爲物理內存是多個進程所有的,每個進程都有一個用戶空間。如果採用直接映射的話,對應的物理地址是會衝突的。其用戶空間的邏輯地址大小都爲 3G,所以存在邏輯地址相同,但是對應的物理地址不同。需要通過頁表來轉化,一個進程會對應一個頁表。

3、如何將虛擬地址映射到物理內存

虛擬地址通過 頁表虛擬地址 轉化爲 **物理地址,****每個進程都對應着一個頁表,**內核只有一個頁表。

虛擬空間 和 物理內存 都按照 4k 來分頁,一個虛擬空間中的頁 和 物理內存中頁 是 一一對應的。

頁表映射

如上圖所示,將虛擬地址中的頁號 通過頁錶轉化爲 對應的物理頁號,然後通過頁內偏移量 就可以得到對應的 物理地址了。

但是 1 個進程就需要一個頁表,一個 4G 的內存條,就需要 1M 個頁表記錄來描述,假如 1 個 頁表記錄需要 4 個字節,那麼就需要 4MB。而且頁表記錄是通過下標來對應的,通過虛擬頁號來乘以對應的頁表項大小來計算得到對應的地址的。

所以 Linux 將 4M 分爲 1K 個 4K, 一個 4K 對應着一個 page,用來存儲對應的真正的頁表記錄。將 1K 個 page 分開存放,就不要求連續的 4M 了。

如果將 4M 分成 1K 個離散的 page 的話,怎麼虛擬地址對應的頁表號呢?

利用指針,存儲 1K 個地址,分別指向這 1K 個 page, 地址的大小爲 4 個字節,也就是 32 位,完全可以表示整個內存的地址範圍。

1K * 4 個字節,正好是一個 page 4k,所以 也就是利用 1 個 page 來存儲對應的頁表記錄索引。

所以 我們的虛擬地址尋找過程如下:

1、找到對應的頁表記錄索引位置,因爲有 1K 個索引,所以用 10 位就可以表示了

2、通過索引可以找到對應的真正的頁表地址,對應的有 1K 個頁表記錄,所以用 10 位就可以表示了

3、1 個頁有 4K,通過 12 位就可以表示其頁內偏移量了。

所以虛擬地址被分爲了三部分:

1、10 位 表示索引偏移

2、10 位 表示頁表記錄偏移

3、 12 位 表示頁內偏移

雖然這種方式增加了索引項,進一步增加了內存,但是減少了連續內存的使用,通過離散的內存就可以存儲頁表。

這是對於 32 位系統,而 64 位系統採用了 5 級頁表。

映射流程圖

用戶態申請內存時,只會申請對應的虛擬地址,不會直接爲其分配物理內存,而是等到真正訪問內存的時候,產生缺頁中斷,然後內核纔會爲其分配,然後爲其建立映射,也就是建立對應的頁表項。

TLB

TLB 就是一個緩存,放在 CPU 中。用來將虛擬地址和對應的物理地址進行緩存。當查詢對應的物理地址的時候,首先查詢 TLB,如果 TLB 中存在對應的記錄,就直接返回。如果不存在,就再去查詢頁表。

虛擬內存

虛擬內存 指的是 將硬盤中劃出一段 swap 分區 當作 虛擬的內存,用來存放內存中暫時用不到的內存頁,等到需要的時候再從 swap 分區中 將對應的內存頁調入到 內存中。硬盤此時相當於一個虛擬的內存。

從邏輯上能夠運行更大內存的程序,因爲程序運行的時候並不需要把所有數據都加載到內存中,只需要將當前運行必要的相關程序和數據加載到內存中就可以了,當需要其他數據和程序的時候,再將其調入。

相較於真正的內存加載,虛擬內存需要將數據在內存和磁盤中不斷切換,這是一個耗時的操作,所以速度比不上真正的內存加載。

總結

虛擬空間 和 物理內存 都分爲 內核空間 和 用戶空間。

虛擬地址需要通過頁錶轉化爲物理地址,然後才能訪問。

用戶虛擬空間 只能映射 物理內存中的用戶內存,無法映射到物理內存中的內核內存,也就是說,用戶進程只能操作用戶內存。

內核空間 只能被 內核 申請使用,用戶進程只能操作用戶空間的物理內存和虛擬空間。

當用戶進程 調用系統調用的時候,會將其對應的代碼和數據運行在內核空間中。

所以當調用 內核空間 讀取文件或者網絡數據的時候,首先會將數據拷貝到內存空間,然後在將數據從內核空間拷貝到用戶空間。因爲 用戶進程不能訪問內核空間。

原文:

https://kernel.0voice.com/forum.php?mod=viewthread&tid=1769&extra=

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/9qgrQ5WkHNcPmLTY3pyrpg