CPU 緩存一致性：從理論到實戰

01 存儲體系結構

速度快的存儲硬件成本高、容量小，速度慢的成本低、容量大。爲了權衡成本和速度，計算機存儲分了很多層次，揚長避短，有寄存器、L1 cache、L2 cache、L3 cache、主存（內存）和硬盤等。圖 1 展示了現代存儲體系結構。

根據程序的空間局部性和時間局部性原理，緩存命中率可以達到 70～90% 。因此，增加緩存可以讓整個存儲系統的性能接近寄存器，並且每字節的成本都接近內存，甚至是磁盤。

所以緩存是存儲體系結構的靈魂。

02 緩存原理

2.1 緩存的工作原理

cache line（緩存行） 是緩存進行管理的最小存儲單元，也叫緩存塊，每個 cache line 包含 Flag、Tag 和 Data ，通常 Data 大小是 64 字節，但不同型號 CPU 的 Flag 和 Tag 可能不相同。從內存向緩存加載數據是按整個緩存行加載的，一個緩存行和一個相同大小的 內存塊 對應。

圖 2 中，緩存是按照矩陣方式排列 (M × N)，橫向是組 (Set)，縱向是路 (Way)。每一個元素是緩存行 (cache line)。

那麼給定一個虛擬地址 addr 如何在緩存中定位它呢？首先把它所在的組號找到，即：

//左移6位是因爲 Block Offset 佔 addr 的低 6 位，Data 爲 64 字節
Set Index = (addr >> 6) % M;

然後遍歷該組所有的路，找到 cache line 中的 Tag 與 addr 中 Tag 相等爲止，所有路都沒有匹配成功，那麼緩存未命中。

整個緩存容量 = 組數 × 路數 × 緩存行大小

我電腦的 CPU 信息：

我電腦的緩存信息：

通過緩存行大小和路數可以倒推出緩存的組數，即：

緩存組數 = 整個緩存容量 ÷ 路數 ÷ 緩存行大小

2.2 緩存行替換策略

目前最常用的緩存替換策略是最近最少使用算法（Least Recently Used ，LRU）或者是類似 LRU 的算法。

LRU 算法比較簡單，如圖 3，緩存有 4 路，並且訪問的地址都哈希到了同一組，訪問順序是 D1、D2、D3、D4 和 D5，那麼 D1 會被 D5 替換掉。算法的實現方式有很多種，最簡單的實現方式是位矩陣。

首先，定義一個行、列都與緩存路數相同的矩陣。當訪問某個路對應的緩存行時，先將該路對應的所有行置爲 1，然後再將該路對應的所有列置爲 0。

最近最少使用的緩存行所對應的矩陣行中 1 的個數最少，最先被替換出去。

2.3 緩存缺失

緩存缺失就是緩存未命中，需要把內存中數據加載到緩存，所以運行速度會變慢。

就拿我的電腦來測試，L1d 的緩存大小是 32KB（32768B），8 路，緩存行大小 64B，那麼

緩存組數 = 32 × 1024 ÷ 8 ÷ 64 = 64

運行下面的代碼

char *a = new char(64 * 64 * 8); //32768B
for(int i = 0; i < 20000000; i++) 
    for(int j = 0; j < 32768; j += 4096) 
        a[j]++;

結果：循環 160000000 次，耗時 301 ms。除了第一次未命中緩存，後面每次讀寫數據都能命中緩存。

調整上面的代碼，並運行

char *a = new char(64 * 64 * 8 * 2); //65536B
for(int i = 0; i < 10000000; i++)
    for(int j = 0; j < 65536; j += 4096)
        a[j]++;

結果：循環 160000000 次，耗時 959 ms。每一次讀寫數據都沒有命中緩存，所以耗時增加了 2 倍。

2.4 程序局部性

程序局部性就是讀寫內存數據時讀寫連續的內存空間，目的是讓緩存可以命中，減少緩存缺失導致替換的開銷。

我電腦上運行下面代碼

int M = 10000, N = 10000;
char (*a)[N] = (char(*)[N])calloc(M * N, sizeof(char));
for(int i = 0; i < M; i++)
    for(int j = 0; j < N; j++)
        a[i][j]++;

結果：循環 100000000 次，耗時 314 ms。利用了程序局部性原理，緩存命中率高。

修改上面的代碼如下，並運行

int M = 10000, N = 10000;
char (*a)[N] = (char(*)[N])calloc(M * N, sizeof(char));
for(int j = 0; j < N; j++)
    for(int i = 0; i < M; i++)
        a[i][j]++;

結果：循環 100000000 次，耗時 1187 ms。沒有利用程序局部性原理，緩存命中率低，所以耗時增加了 2 倍。

2.5 僞共享（false-sharing）

當兩個線程同時各自修改兩個相鄰的變量，由於緩存是按緩存行來整體組織的，當一個線程對緩存行中數據執行寫操作時，必須通知其他線程該緩存行失效，導致另一個線程從緩存中讀取其想修改的數據失敗，必須從內存重新加載，導致性能下降。

我電腦運行下面代碼

struct S {
    long long a;
    long long b;
} s;
std::thread t1([&]() {
    for(int i = 0; i < 100000000; i++)
        s.a++;
});
std::thread t2([&]() {
    for(int i = 0; i < 100000000; i++)
        s.b++;
});

結果：耗時 512 ms，原因上面提到了，就是兩個線程互相影響，使對方的緩存行失效，導致直接從內存讀取數據。

解決辦法是對上面代碼做如下修改：

struct S {
    long long a;
    long long noop[8];
    long long b;
} s;

結果：耗時 181 ms，原因是通過 long long noop[8] 把兩個數據（a 和 b）劃分到兩個不同的緩存行中，不再互相使對方的緩存失效，所以速度變快了。

本小節的測試代碼都沒有開啓編譯器優化，即編譯選項爲 -O0 。

03 緩存一致性協議

在單核時代，增加緩存可以大大提高讀寫速度，但是到了多核時代，卻引入了緩存一致性問題，如果有一個核心修改了緩存行中的某個值，那麼必須有一種機制保證其他核心能夠觀察到這個修改。

3.1 緩存寫策略

從緩存和內存的更新關係來看，分爲：

寫回（write-back） 對緩存的修改不會立刻傳播到內存，只有當緩存行被替換時，這些被修改的緩存行纔會寫回並覆蓋內存中過時的數據。
寫直達（write through） 緩存中任何一個字節的修改，都會立刻穿透緩存直接傳播到內存，這種比較耗時。

從寫緩存時 CPU 之間的更新策略來看，分爲：

寫更新（Write Update） 每次緩存寫入新的值，該核心必須發起一次總線請求，通知其他核心更新他們緩存中對應的值。
壞處：寫更新會佔用很多總線帶寬；
好處：其他核心能立刻獲得最新的值。
寫無效（Write Invalidate） 每次緩存寫入新的值，都將其他核心緩存中對應的緩存行置爲無效。
壞處：當其他核心再次訪問該緩存時，發現緩存行已經失效，必須從內存中重新載入最新的數據；
好處：多次寫操作只需發一次總線事件，第一次寫已經將其他核心緩存行置爲無效，之後的寫不必再更新狀態，這樣可以有效地節省核心間總線帶寬。

從寫緩存時數據是否被加載來看，分爲：

寫分配（Write Allocate） 在寫入數據前將數據讀入緩存。當緩存塊中的數據在未來讀寫概率較高，也就是程序空間局部性較好時，寫分配的效率較好。
寫不分配（Not Write Allocate） 在寫入數據時，直接將數據寫入內存，並不先將數據塊讀入緩存。當數據塊中的數據在未來使用的概率較低時，寫不分配性能較好。

3.2 MESI 協議

MESI 協議是⼀個基於失效的緩存⼀致性協議，是⽀持 寫回（write-back） 緩存的最常⽤協議。也稱作伊利諾伊協議 (Illinois protocol，因爲是在伊利諾伊⼤學厄巴納 - ⾹檳分校被髮明的)。

爲了解決多個核心之間的數據傳播問題，提出了總線嗅探（Bus Snooping）策略。本質上就是把所有的讀寫請求都通過總線（Bus）廣播給所有的核心，然後讓各個核心去嗅探這些請求，再根據本地的狀態進行響應。

3.2.1 狀態

已修改 Modified (M)：緩存⾏是髒的，與主存的值不同。如果別的 CPU 內核要讀主存這塊數據，該緩存⾏必須回寫到主存，狀態變爲共享 (S).
獨佔 Exclusive (E)：緩存⾏只在當前緩存中，但是⼲淨的，緩存數據等於主存數據。當別的緩存讀取它時，狀態變爲共享；當前寫數據時，變爲已修改狀態。
共享 Shared (S)：緩存⾏也存在於其它緩存中且是⼲淨的。緩存⾏可以在任意時刻拋棄。
⽆效 Invalid (I)：緩存⾏是⽆效的。

這些狀態信息實際上存儲在緩存行（cache line）的 Flag 裏。

3.2.2 事件

處理器對緩存的請求:
PrRd：核心請求從緩存塊中讀出數據；
PrWr：核心請求向緩存塊寫入數據。
總線對緩存的請求:
BusRd：總線嗅探器收到來自其他核心的讀出緩存請求；
BusRdX：總線嗅探器收到另一核心寫⼀個其不擁有的緩存塊的請求；
BusUpgr：總線嗅探器收到另一核心寫⼀個其擁有的緩存塊的請求；
Flush：總線嗅探器收到另一核心把一個緩存塊寫回到主存的請求；
FlushOpt：總線嗅探器收到一個緩存塊被放置在總線以提供給另一核心的請求，和 Flush 類似，但只不過是從緩存到緩存的傳輸請求。

3.2.3 狀態機

表 1 是對狀態機圖 4 的詳解講解（選讀）

FkhNbU

3.2.4 動畫演示

各家 CPU 廠商沒有都完全按照 MESI 實現緩存一致性協議，導致 MESI 有很多變種，例如：Intel 採用的 MESIF 和 AMD 採用的 MOESI，ARM 大部分採用的是 MESI，少部分使用的是 MOESI 。

3.3 MOESI 協議（選讀）

MOESI 是一個完整的緩存一致性協議，它包含了其他協議中常用的所有可能狀態。除了四種常見的 MESI 協議狀態之外，還有第五種 Owned 狀態，表示修改和共享的數據。

這就避免了在共享數據之前將修改過的數據寫回主存的需要。雖然數據最終仍然必須寫回，但寫回可能是延遲的。

已修改 Modified (M)：緩存⾏是髒的（dirty），與主存的值不同，並且緩存具有系統中唯一有效數據。處於修改狀態的緩存可以將數據提供給另一個讀取器，而無需將其傳輸到內存，然後狀態變爲 O，讀取者變爲 S。
擁有 Owned(O)：緩存⾏是髒的（dirty），與主存的值不同，但不是系統中唯一有效副本，一定存在其他的 S。爲其他核心提供讀請求，較少核心間總線帶寬。
獨佔 Exclusive (E)：緩存⾏只在當前緩存中，但是⼲淨的（clean），緩存數據同於主存數據。當別的緩存讀取它時，狀態變爲共享；當前寫數據時，變爲已修改狀態。
共享 Shared (S)：緩存⾏也存在於其它緩存中且不一定是⼲淨的。如果 O 存在，就是髒的，反之亦然。
⽆效 Invalid (I)：緩存⾏是⽆效的。

3.4 MESIF 協議（選讀）

MESIF 是一個 緩存一致性 和 記憶連貫 協議，該協議由五個狀態組成：已修改（M），互斥（E），共享（S），無效（I） 和 轉發（F）。

M，E，S 和 I 狀態與 MESI 協議一致。F 狀態是 S 狀態的一種特殊形式，當系統中有多個 S 時，必須選取一個轉換爲 F，只有 F 狀態的負責應答。通常是最後持有該副本的轉換爲 F，注意 F 是乾淨的數據。

該協議與 MOESI 協議有較大的不同，也遠比 MOESI 協議複雜。該協議由 Intel 的快速通道互聯 QPI（QuickPath Interconnect）技術引入，其主要目的是解決 “基於點到點互聯的非一致性內存訪問（Non-uniform memory access，NUMA）處理器系統” 的緩存一致性問題，而不是 “基於共享總線的一致性內存訪問（Uniform Memory Access，UMA）處理器系統” 的緩存一致性問題。

04 內存屏障（Memory Barriers）

編譯器和處理器都必須遵守重排序規則。在單處理器的情況下，不需要任何額外的操作便能保持正確的順序。但是對於多處理器來說，保證一致性通常需要增加內存屏障指令。即使編譯器可以優化掉字段的訪問（例如因爲未使用加載到的值），編譯器仍然需要生成內存屏障，就好像字段訪問仍然存在一樣（可以單獨將內存屏障優化掉）。

內存屏障只與內存模型中的高級概念（例如 acquire 和 release）間接相關。內存屏障指令只直接控制 CPU 與其緩存的交互，以及它的寫緩衝區（持有等待刷新到內存的數據的存儲）和它的用於等待加載或推測執行指令的緩衝。這些影響可能導致緩存、主內存和其他處理器之間的進一步交互。

幾乎所有的處理器都至少支持一個粗粒度的屏障指令（通常稱爲 Fence，也叫全屏障），它保證了嚴格的有序性：在 Fence 之前的所有讀操作（load）和寫操作（store）先於在 Fence 之後的所有讀操作（load）和寫操作（store）執行完。對於任何的處理器來說，這通常都是最耗時的指令之一（它的開銷通常接近甚至超過原子操作指令）。大多數處理器還支持更細粒度的屏障指令。

LoadLoad Barrier（讀讀屏障）

指令 Load1; LoadLoad; Load2 保證了 Load1 先於 Load2 和後續所有的 load 指令加載數據。通常情況下，在執行預測讀（speculative loads）或亂序處理（out-of-order processing）的處理器上需要顯式的 LoadLoad Barrier。在始終保證讀順序（load ordering）的處理器上，這些屏障相當於無操作（no-ops）。
StoreStore Barrier（寫寫屏障）

指令 Store1; StoreStore; Store2 保證了 Store1 的數據先於 Store2 及後續 store 指令的數據對其他處理器可見（刷新到內存）。通常情況下，在不保證嚴格按照順序從寫緩衝區（store buffers）或者緩存（caches）刷新到其他處理器或內存的處理器上，需要使用 StoreStore Barrier。
LoadStore Barrier（讀寫屏障）

指令 Load1; LoadStore; Store2 保證了 Load1 的加載數據先於 Store2 及後續 store 指令刷新數據到主內存。只有在亂序（out-of-order）處理器上，等待寫指令（waiting store instructions）可以繞過讀指令（loads）的情況下，纔會需要使用 LoadStore 屏障。
StoreLoad Barrier（寫讀屏障）刷新寫緩衝區，最耗時

指令 Store1; StoreLoad; Load2 保證了 Store1 的數據對其他處理器可見（刷新數據到內存）先於 Load2 及後續的 load 指令加載數據。StoreLoad 屏障可以防止後續的讀操作錯誤地使用了 Store1 寫的數據，而不是使用來自另一個處理器的更近的對同一位置的寫。因此只有需要將對同一個位置的寫操作（stores）和隨後的讀操作（loads）分開時，才嚴格需要 StoreLoad 屏障。StoreLoad 屏障通常是開銷最大的屏障，幾乎所有的現代處理器都需要該屏障。之所以開銷大，部分原因是它需要禁用繞過緩存（cache）從寫緩衝區（Store Buffer）讀取數據的機制。這可以通過讓緩衝區完全刷新，外加暫停其他操作來實現，這就是 Fence 的效果。一般用 **Fence **代替 StoreLoad Barrier ，所以事實上，執行 StoreLoad 指令同時也獲得了其他三個屏障的效果，但是通過組合其他屏障通常不能獲得與 StoreLoad Barrier 相同的效果。

表 2 是各處理器支持的內存屏障和原子操作

4.1 寫緩衝與寫屏障

嚴格按照 MESI 協議，核心 0 在修改本地緩存之前，需要向其他核心發送 Invalid 消息，其他核心收到消息後，使他們本地對應的緩存行失效，並返回 Invalid acknowledgement 消息，核心 0 收到後修改緩存行。這裏核心 0 等待其他核心返回確認消息的時間對核心來說是漫長的。

爲了解決這個問題，引入了 Store Buffer ，當核心想修改緩存時，直接寫入 Store uffer ，無需等待，繼續處理其他事情，由 Store Buffer 完成後續工作。

這樣一來寫的速度加快了，但是引來了新問題，下面代碼的 bar 函數中的斷言可能會失敗。

int a = 0, b = 0;
// CPU0
void foo() {
    a = 1;
    b = 1;
}
// CPU1
void bar() {
    while (b == 0) continue;
    assert(a == 1);
}

第一種情況：CPU 爲了提升運行效率和提高緩存命中率，採用了亂序執行；

第二種情況：Store Buffer 在寫入時，b 所對應的緩存行是 E 狀態，a 所對應的緩存行是 S 狀態，因爲對 b 的修改不需要核心間同步，但是修改 a 則需要，也就是 b 會先寫入緩存。與之對應 CPU1 中 a 是 S 狀態，b 是 I 狀態，由於 b 所對應的緩存區域是 I 狀態，它就會向總線發出 BusRd 請求，那麼 CPU1 就會先把 b 的最新值讀到本地，完成變量 b 值的更新，但是從緩存直接讀取 a 值是 0 。

舉一個更極端的例子

// CPU0
void foo() {
    a = 1;
    b = a;
}

第一種情況不會發生了，原因是代碼有依賴，不會亂序執行。但由於 Store Buffer 的存在，第二種情況仍然可能發生，原因同上。這會讓人感到更加匪夷所思。

爲了解決上面問題，引入了內存屏障，屏障的作用是前邊的讀寫操作未完成的情況下，後面的讀寫操作不能發生。這就是 Arm 上 dmb 指令的由來，它是數據內存屏障（Data Memory Barrier）的縮寫。

int a = 0, b = 0; 
// CPU0
void foo() {
    a = 1;
    smp_mb(); //內存屏障，各CPU平臺實現不一樣
    b = 1;
}
// CPU1
void bar() {
    while (b == 0) continue;
    assert(a == 1);
}

加上內存屏障後，保證了 a 和 b 的寫入緩存順序。

總的來說，Store Buffer 提升了寫性能，但放棄了緩存的順序一致性，這種現象稱爲****弱緩存一致性。通常情況下，多個 CPU 一起操作同一個變量的情況是比較少的，所以 Store Buffer 可以大幅提升程序的性能。但在需要核間同步的情況下，還是需要通過手動添加內存屏障來保證緩存一致性。

上面解決了核間同步的寫問題，但是核間同步還有一個瓶頸，那就是讀。

4.2 失效隊列與讀屏障

前面引入 Store Buffer 提升了寫入速度，那麼 invalid 消息確認速度相比起來就慢了，帶來了速度不匹配，很容易導致 Store Buffer 的內容還沒及時寫到緩存裏，自己就滿了，從而失去了加速的作用。

爲了解決這個問題，又引入了 Invalid Queue。收到 Invalid 消息的核心立刻返回 Invalid acknowledgement 消息，然後把 Invalid 消息加入 Invalid Queue ，等到空閒的時候再去處理 Invalid 消息。

運行上面增加內存屏障的代碼，第 11 行的斷言又可能失敗了。

核心 0 中 a 所對應的緩存行是 S 狀態，b 所對應的緩存行是 E 狀態；核心 1 中 a 所對應的緩存行是 S 狀態，b 所對應的緩存行是 I 狀態；

因爲有內存屏障在，a 和 b 的寫入緩存的順序不會亂。
a 先向其他核心發送 Invalid 消息，並且等待 Invalid 確認消息；
Invalid 消息先入核心 1 對應的 Invalid Queue 並立刻返回確認消息，等待核心 1 處理；
核心 0 收到確認消息後把 a 寫入緩存，繼續處理 b 的寫入，由於 b 是 E 狀態，直接寫入緩存；
核心 1 發送 BusRd 消息，讀取到新的 b 值，然後獲取 a（S 狀態）值是 0，因爲使其無效的消息還在 Invalid Queue 中，第 11 行斷言失敗。

引入 Invalid Queue 後，對核心 1 來說看到的 a 和 b 的寫入又出現亂序了。

解決辦法是繼續加內存屏障，核心 1 想越過屏障必須清空 Invalid Queue，及時處理了對 a 的無效，然後讀取到新的 a 值，如下代碼：

int a = 0, b = 0;
// CPU0
void foo() {
    a = 1;
    smp_mb();
    b = 1;
}
// CPU1
void bar() {
    while (b == 0) continue;
    smp_mb(); //繼續加內存屏障
    assert(a == 1);
}

這裏使用的內存屏障是全屏障，包括讀寫屏障，過於嚴格了，會導致性能下降，所以有了細粒度的讀屏障和寫屏障。

4.3 讀寫屏障分離

**分離的寫屏障和讀屏障的出現，是爲了更加精細地控制 Store Buffer 和 Invalid Queue 的順序。

讀屏障不允許其前後的讀操作越過屏障；
寫屏障不允許其前後的寫操作越過屏障；

優化前面的代碼如下

int a = 0, b = 0;
// CPU0
void foo() {
  a = 1;
  smp_wmb(); //寫屏障
  b = 1;
}
// CPU1
void bar() {
  while (b == 0) continue;
  smp_rmb(); //讀屏障
  assert(a == 1);
}

這種修改只有在區分讀寫屏障的體系結構裏纔會有作用，比如 alpha 結構。在 x86 和 Arm 中是沒有作用的，因爲 x86 採用了 TSO 模型，後面會詳細介紹，而 Arm 採用了單向屏障。

4.4 單向屏障

單向屏障 (half-way barrier) 也是一種內存屏障，但它不是以讀寫來區分的，而是像單行道一樣，只允許單向通行，例如 ARM 中的 stlr 和 ldar 指令就是這樣。

stlr 的全稱是 store release register，包括 StoreStore barrier 和 LoadStore barrier（場景少），通常使用 release 語義將寄存器的值寫入內存；
ldar 的全稱是 load acquire register，包括 LoadLoad barrier 和 LoadStore barrier（對，你沒看錯，我沒寫錯），通常使用 acquire 語義從內存中將值加載入寄存器；
release 語義的內存屏障只不允許其前面的讀寫向後越過屏障，擋前不擋後；
acquire 語義的內存屏障只不允許其後面的讀寫向前越過屏障，擋後不擋前;
StoreLoad barrier 就只能使用 dmb（全屏障）代替了。

理論普及的差不多了，接下單獨來說說服務端同學工作中最常用的 x86 內存模型，填一下 4.3 中留下的坑。

05 x86-TSO

x86-TSO（Total Store Order）採用的是圖 10 模型。

x86-TSO 有下面幾個特點：

Store Buffer 被實現爲 FIFO 隊列，CPU 務必優先讀取本地 Store Buffer 中的值（如果有的話），否則去緩存或內存裏讀取；
因爲 Store Buffer 是 FIFO，所以寫寫不會重排，也就不需要 StoreStore barrier；
MFENCE 指令用於清空本地 Store Buffer，並將數據刷到緩存和內存；
某 CPU 執行 lock 前綴 的指令時，會去爭搶全局鎖，拿到鎖後其他線程的讀取操作會被阻塞，在釋放鎖之前，會清空該線程的本地的 Store Buffer，這裏和 MFENCE 執行邏輯類似；
Store Buffer 被寫入變量後，除了被其他線程持有鎖以外的情況，在任何時刻均有可能寫回內存。
因爲沒有引入 Invalid Queue，所以不需要 LoadLoad barrier；
LoadStore barrier 僅在亂序 (out-of-order) 處理器上有效，因爲等待寫指令可以繞過讀指令；而 x86-TSO 相對其他平臺緩存一致性是最嚴格的，讀操作不會延後，不會使讀寫重排；
那麼最後只有 StoreLoad barrier 是有效的，其他屏障都是 no-op。

下面的代碼是 Linux 在 x86 下的內存屏障定義

06 基準測試

6.1 關於 Store Buffer 的測試

6.1.1 測試核心內是否存在 Store Buffer

解析
如果核心 0 和核心 1 各有自己的 Store Buffer，會造成上述情況；
核心 0 將 x = 1 緩存在自己的 Store Buffer 裏，同樣核心 1 也將 y = 1 緩存在自己的 Store Buffer 裏，核心 0 從共享存儲中獲取 y = 0；
同理，核心 1 從共享存儲中獲取 x = 0，無法見到 x = 1；
現代 Intel CPU 和 AMD x86 中都有 Store Buffer 結構。
解決
這個測試中從其他核心角度看當前核心的讀操作提前了，就是因爲有 Store Buffer 的存在，導致了從其他核心角度看寫操作被延後了；
所以需要引入 StoreLoad barrier 來防止讀操作提前寫操作延後；
在 x86 中，帶 lock前綴 的指令 / XCHG 指令 / MFENCE，會清空 Store Buffer，使得當前核心之前的寫操作立馬可以被其他核心看見。
下面有兩種解決辦法示意圖：

在我的電腦上使用 smp_mb、mb 或 rmb 可以使上述情況不再出現，而使用 barrier 或 wmb 問題還在；
除此之外，還可**以使用高級語言的 原子變量 來解決。

6.1.2 測試核心間是否共享 Store Buffer

解析
如果核心 0 和核心 2 共享一個 Store Buffer，核心 1 和核心 3 共享一個 Store Buffer 會出現上述情況；
因爲讀取時會先去 Store Buffer 讀取修改，所以核心 0 執行的 x = 1 會被核心 2 讀取到，故 EAX = 1 ；
因爲核心 1 和核心 2 不共享 StoreBuffer，核心 1 的 y = 1 操作緩存在自己和核心 3 的共享 Store Buffer 中，所以 EBX = 0 ；
核心 3 的 ECX = 1 和 EDX = 0 與上述同理。
總結
實際上，上述現象不允許在任何 CPU 上觀察到，在我的電腦上沒有出現；
本例子違反了共享存儲一致性，刷到共享存儲的數據一定被所有核心可見，並且是一致的。

6.1.3 測試 Store Forwarding （轉發）是否生效

解析
如果核心 0 和核心 1 有各自的 Store Buffer；
核心 0 將 x = 1 緩存在自己的 Store Buffer 中，並且根據 Store Forwarding 原則，核心 0 讀取 x 到 EAX 的時候會讀取自己的 Store Buffer (中 x = 1)，故 EAX = 1；
同理，核心 1 也會緩存自己的寫操作，即緩存 y = 2 和 x = 2 到自己的 Store Buffer，因此 y = 2 這個操作不會被核心 0 觀察到，核心 0 從共享存儲中讀到 y = 0 ，故 EBX = 0；
總結
出現上述情況就說明核心存在 Store Buffer，並且有轉發功能；
在我的電腦（i7）上可以出現上述現象；
其實還有一個更直接的測試用例，如下：

6.2 測試 CPU 是否亂序執行

6.2.1 測試：StoreStore 亂序

解析
在 x86-TSO 上，從核心 1 的角度看核心 0，x 和 y 的寫入順序不能顛倒；
因爲寫操作會按照 FIFO 的規則進入 Store Buffer，並且按照 FIFO 的順序刷入共享存儲，所以寫操作無法重排序；
所以 x = 1 先入 Store Buffer 隊列，接着 y = 1 入；
接着 x = 1 先刷入緩存和內存，y = 1 後刷入；
所以，如果 EAX 讀到 1 的話，那麼 EBX 一定不是 0。
總結
在 x86 上 Store Buffer 是 FIFO 隊列，寫操作不允許重排序，無論是從自己還是其他核心角度看都不會發生重排序；
在亂序（out-of-order）CPU 上，比如 Arm 上可能發生 StoreStore 重排序，所以需要 StoreStore barrier ；

6.2.2 測試：LoadStore 亂序

解析
在 x86-TSO 上，如果 EAX = 1，那麼說明 x = 1 操作已經從 Store Buffer 中刷入到共享存儲，並且優先 EAX = x 執行；
由於 x86-TSO 的 讀操縱不能延後，所以 EBX = y 的操作在 x = 1 之前執行；
同理，EAX = x 這個讀操作也不能延後到 y = 1 之後執行;
所以 EBX = y 先於 x = 1 ，x = 1 先於 EAX = x, EAX = x 先於 y = 1 , 所以 EBX 不可能等於 1；
總結
在 x86 上 讀操作不能延 後，但是可以提前（9.1.1 中就是讀提前了）；
在亂序（out-of-order）CPU 上，因爲 等待寫指令 可以繞過 讀指令，比如 Arm 上可能發生 LoadStore 重排序，所以需要 LoadStore barrier；

6.3 測試 n5 / n4b：兩個核心同時修改同一個變量

6.3.1 測試：n5

解析
假如核心 0 和核心 1 都有自己的 Store Buffer；
如果 EAX = 2，那麼說明核心 1 的 Store Buffer 中 x = 2 已經刷到了共享存儲，那麼 x = 2 必然在 x = 1 和 EAX = x 之間執行，因爲 EAX 會優先讀取 Store Buffer 中的 x ，既然 EAX = 2，說明核心 0 的 Store Buffer 中的 x = 1 已經刷到了共享存儲，並且在 x = 2 之前執行的；
EBX 會優先讀取核心 1 中的 Store Buffer ，所以 EBX 不可能等於 1 ；
總結
n5 實際上不應該在任何 CPU 上觀察到。

6.3.2 測試：n4b

解析
假如核心 0 和核心 1 都有自己的 Store Buffer；
如果 EAX = 2 ，說明核心 1 的 x = 2 操作已經刷到共享存儲，並被核心 0 觀察到，所以 x = 2 先於 EAX = x 執行；
在 x86 上讀操作不會延後，即 EX = x 和 x = 2 不會重排，故 EBX = x 先於 EAX = x 執行，更先於 x = 1 執行，所以 EBX 不可能等於 1；
總結
n4b 實際上不應該在任何 CPU 上觀察到。

6.4 測試：寫操作的可見性是否傳遞（如果 A 能看到 B 的動作，B 能看到 C 的動作，那麼 A 是否能看到 C 的動作）

解析
在 x86-TSO 上，對於核心 1，如果 EAX = 1 ，那麼說明核心 1 已經見到了核心 0 的動作；
對於核心 2，EBX = 1，說明核心 2 已經見到了核心 1 的動作，又根據之前的 x86-TSO 上讀操作不能延後，EAX = x 不能延遲到 y = 1 之後，所以核心 2 必能見到核心 0 的動作，所以 ECX = x 不能爲 0。
總結
在 x86-TSO 上寫操作的可見性是傳遞的；
在亂序（out-of-order）CPU 上，寫寫和讀寫都是亂序，就不可能保證寫的傳遞性了；

07 CAS 原理

比較並交換 (compare and swap, CAS)，是原子操作的一種，可用於在多線程編程中實現不被打斷的數據交換操作，從而避免多線程同時改寫某一數據時由於執行順序不確定性以及中斷的不可預知性產生的數據不一致問題。該操作通過將內存中的值與指定數據進行比較，當數值一樣時將內存中的數據替換爲新的值。

下面代碼是使用 CAS 的一個例子（無鎖隊列 Pop 函數）

template <typename T>
bool AtomQueue<T>::Pop(T& v)
{
    uint64_t tail = tail_;
    if (tail == head_ || !valid_[tail])
        return false;
    if (!__sync_bool_compare_and_swap(&tail_, tail, (tail + 1) & mod_)) 
        return false;
    v = std::move(data_[tail]);
    valid_[tail] = 0;
    return true;
}

在使用上，通常會記錄下某塊內存中的舊值，通過對舊值進行一系列的操作後得到新值，然後通過 CAS 操作將新值與舊值進行交換。

如果這塊內存的值在這期間內沒被修改過，則舊值會與內存中的數據相同，這時 CAS 操作將會成功執行，使內存中的數據變爲新值。

如果內存中的值在這期間內被修改過，則一般來說 _舊值 _ 會與內存中的數據不同，這時 CAS 操作將會失敗，新值將不會被寫入內存。

7.1 應用

在應用中 CAS 可以用於實現 無鎖數據結構，常見的有 無鎖隊列（先入先出）以及 無鎖棧（先入後出）。對於可在任意位置插入數據的 鏈表以及雙向鏈表，實現無鎖操作的 難度較大。

7.2 ABA 問題

ABA 問題是無鎖結構實現中常見的一種問題，可基本表述爲：

線程 P1 讀取了一個數值 A；
P1 被掛起 (時間片耗盡、中斷等)，線程 P2 開始執行；
P2 修改數值 A 爲數值 B，然後又修改回 A；
P1 被喚醒，比較後發現數值 A 沒有變化，程序繼續執行。

對於 P1 來說，數值 A 未發生過改變，但實際上 A 已經被變化過了，繼續使用可能會出現問題。在 CAS 操作中，由於比較的多是指針，這個問題將會變得更加嚴重。試想如下情況：

有一個棧 (先入後出) 中有 top 和 NodeA，NodeA 目前位於棧頂，top 指針指向 A。現在有一個線程 P1 想要 pop 一個節點，因此按照如下無鎖操作進行

pop()
{
  do{
    ptr = top;            // ptr = top = NodeA
    next_ptr = top->next; // next_ptr = NodeX
  } while(CAS(top, ptr, next_ptr) != true);
  return ptr;   
}

而線程 P2 在 P1 執行 CAS 操作之前把它打斷了，並對棧進行了一系列的 pop 和 push 操作，使棧變爲如下結構：

線程 P2 首先 pop 出 NodeA，之後又 push 了兩個 NodeB 和 C，由於內存管理機制中廣泛使用的內存重用機制，導致 NodeC 的地址與之前的 NodeA 一致。

這時 P1 又開始繼續運行，在執行 CAS 操作時，由於 top 依舊指向的是 NodeA 的地址 (實際上已經變爲 NodeC)，因此將 top 的值修改爲了 NodeX，這時棧結構如下：

經過 CAS 操作後，top 指針錯誤地指向了 NodeX 而不是 NodeB。

簡單的解決辦法是採用 DCAS（雙長度 CAS），一個 CAS 長度保存原始有效數據，另一個 CAS 長度保存累計變化的次數，第一個 CAS 可能出現 ABA 問題，但是第二個 CAS 極難出現 ABA 問題。

7.3 實現

CAS 操作基於 CPU 提供的原子操作指令實現。對於 Intel X86 處理器，可通過在彙編指令前增加 lock 前綴來鎖定系統總線，使系統總線在彙編指令執行時無法訪問相應的內存地址。而各個編譯器根據這個特點實現了各自的原子操作函數。

C 語言，C11 的頭文件 <stdatomic.h>。由 GNU 提供了對應的__sync 系列函數完成原子操作。
C++11，STL 提供了 atomic 系列函數。
JAVA，sun.misc.Unsafe 提供了 compareAndSwap 系列函數。
C#，通過 Interlocked 方法實現。
Go，通過 import "sync/atomic" 包實現。
Windows，通過 Windows API 實現了 InterlockedCompareExchangeXYZ 系列函數。

08 原子操作

程序代碼最終都會被翻譯爲 CPU 指令，一條最簡單的加減法語句都會被翻譯成幾條指令執行；爲了避免語句在 CPU 這一層級上的指令交叉帶來的不可預知行爲，在多線程程序設計時必須通過一些方式來進行規範，最常見的做法就是引入互斥鎖，但互斥鎖是操作系統這一層級的，最終映射到 CPU 上也是一堆指令，是指令就必然會帶來額外的開銷。

既然 CPU 指令是多線程不可再分的最小單元，那我們如果有辦法將代碼語句和指令對應起來，不就不需要引入互斥鎖從而提高性能了嗎? 而這個對應關係就是所謂的原子操作；在 C++11 的 atomic 中有兩種做法:

常用類型，長度等於 1、2、4 和 8 字節的整形數據，有相應的 CPU 層級的對應，這就是一個標準的 lock-free 類型；
大數據類型，結構體等非常用類型數據，採用互斥鎖模擬，比如說對於一個 atomic 類型，我們可以給他附帶一個 mutex，操作時 lock / unlock 一下，這種在多線程下進行訪問，必然會導致線程阻塞；

可以通過 is_lock_free 函數，判斷一個 atomic 是否是 lock-free 類型。

原子操作有三類：

讀：在讀取的過程中，讀取位置的內容不會發生任何變動。
寫：在寫入的過程中，其他執行線程不會看到部分寫入的結果。
讀‐修改‐寫：讀取內存、修改數值、然後寫回內存，整個操作的過程中間不會有其他寫入操作插入，其他執行線程不會看到部分寫入的結果。

8.1 自旋鎖

使用原子操作模擬互斥鎖的行爲就是自旋鎖，互斥鎖狀態是由操作系統控制的，自旋鎖的狀態是程序員自己控制的，常用的自旋鎖模型有：

TAS，Test-and-set，有且只有 atomic_flag 類型與之對應；
CAS，Compare-and-swap，對應 atomic 的 compare_exchange_strong 和 compare_exchange_weak，這兩個版本的區別是：
weak 版本如果數據符合條件被修改，其也可能返回 false，就好像不符合修改狀態一致；
strong 版本不會有這個問題，但在某些平臺上 strong 版本比 Weak 版本慢（在 x86 平臺他們之間沒有任何性能差距）；絕大多數情況下，優先選擇使用 strong 版本；

LOCK 時自旋鎖是自己輪詢狀態，如果不引入中斷機制，會有大量計算資源浪費到輪詢本身上；常用的做法是使用 yield 切換到其他線程執行，或直接使用 sleep 暫停當前線程.

8.2 C++ 內存模型

C++11 原子操作的很多函數都有個 std::memory_order 參數，這個參數就是這裏所說的內存模型，對應緩存一致性模型，其作用是對同一時間的讀寫操作進行排序，一共定義了 6 種類型如下：

memory_order_relaxed：鬆散內存序，只用來保證對原子對象的操作是原子的，在不需要保證順序時使用；
memory_order_release：釋放操作，在寫入某原子對象時，當前線程的任何前面的讀寫操作都不允許重排到這個操作的後面去，並且當前線程的所有內存寫入都在對同一個原子對象進行獲取的其他線程可見；通常與 memory_order_acquire 或 memory_order_consume 配對使用；
memory_order_acquire：獲得操作，在讀取某原子對象時，當前線程的任何後面的讀寫操作都不允許重排到這個操作的前面去，並且其他線程在對同一個原子對象釋放之前的所有內存寫入都在當前線程可見；
memory_order_consume：同 memory_order_acquire 類似，區別是它僅對依賴於該原子變量操作涉及的對象，比如這個操作發生在原子變量 a 上，而 s = a + b；那 s 依賴於 a，但 b 不依賴於 a；當然這裏也有循環依賴的問題，例如：t = s + 1，因爲 s 依賴於 a，那 t 其實也是依賴於 a 的；在大多數平臺上，這隻會影響編譯器的優化；不建議使用；
memory_order_acq_rel：獲得釋放操作，一個讀‐修改‐寫操作同時具有_獲得_語義和_釋放_語義，即它前後的任何讀寫操作都不允許重排，並且其他線程在對同一個原子對象釋放之前的所有內存寫入都在當前線程可見，當前線程的所有內存寫入都在對同一個原子對象進行獲取的其他線程可見；
memory_order_seq_cst：順序一致性語義，對於讀操作相當於_獲得_，對於寫操作相當於_釋放_，對於讀‐修改‐寫操作相當於_獲得釋放_，是所有原子操作的 **默認內存序**，並且會對所有使用此模型的原子操作建立一個 **全局順序**，保證了 **多個原子變量** 的操作在所有線程裏觀察到的操作順序相同，當然它是最慢的同步模型。

在不同的 CPU 架構上，這些模型的具體實現方式可能不同，但是 C++11 幫你屏蔽了內部細節，不用考慮內存屏障，只要符合上面的使用規則，就能得到想要的效果。可能有時使用的模型粒度比較大，會損耗性能，當然還是使用各平臺底層的內存屏障粒度更準確，效率也會更高，對程序員的功底要求也高。

8.3 C++ volatile

這個關鍵字僅僅保證數據只在內存中讀寫，直接操作它既不能保證操作是原子的，也不能通用地達到內存同步的效果；

由於 volatile 不能在多處理器的環境下確保多個線程能看到同樣順序的數據變化，在今天的通用應用程序中，不應該再看到 volatile 的出現。

09 無鎖隊列

本節是 CPU 緩存一致性的實戰部分，通過運用前面的理論知識實現一個 無鎖隊列，達到學以致用的目的。

下面是我採用 CAS 實現了一個多生產者多消費者無鎖隊列，設計參考 Disruptor ，最高可達 660 萬 QPS（單生產者單消費者）和 160 萬 QPS（10 個生產者 10 個消費者）。

9.1 設計思路

1、如圖 15，使用 2 個環形數組，數組元素均非原子變量，一個存儲 T 範型數據（一般爲指針），另一個是可用性檢查數組（uint8_t）。Head 是所有生產者的競爭標記，Tail 是所有消費者的競爭標記。紅色區表示待生產位置，綠色區表示待消費位置。

2、生產者們通過 CAS 來競爭和移動 Head，搶到 Head 的生產者，先將 Head 加 1，再生產原 Head 位置的數據；同樣的消費者們通過 CAS 來競爭和移動 Tail，搶到 Tail 的消費者，先將 Tail 加 1，再消費原 Tail 位置的數據。

9.2 實現細節

下面多生產者多消費者無鎖隊列的代碼是在 x86-64（x86-TSO）平臺上編寫和測試的。

Talk is cheap. Show me the code.

9.2.1 AtomQueue 類模板定義

template <typename T>
class AtomQueue
{
public:
    AtomQueue(uint64_t size);
    ~AtomQueue();
    bool Push(const T& v);
    bool Pop(T& v);
private:
    uint64_t    P0[8];  //頻繁變化數據, 避免僞共享, 採用Padding
    uint64_t    head_;  //生產者標記, 表示生產到這個位置，但還沒有生產該位置
    uint64_t    P1[8];
    uint64_t    tail_;  //消費者標記, 表示消費到這個位置，但還沒有消費該位置
    uint64_t    P2[8];
    uint64_t    size_;  //數組最大容量, 必須滿足2^N
    int         mod_;   //取模 % -> & 減少2ns
    T*          data_;  //環形數據數組
    uint8_t*    valid_; //環形可用數組，與數據數組大小一致
};

細心的你會看到 **head_** 和 **tail_** 還有後面的變量中加添加了無意義的字段 **P0**、**P1** 和 **P2** ，因爲 **head_** 和 **tail_** 頻繁變化，目的是防止出現前面講過的 **僞共享** 導致性能下降問題。

9.2.2 構造函數與析構函數

template <typename T> 
AtomQueue<T>::AtomQueue(uint64_t size) : size_(size << 1), head_(0), tail_(0) 
{
    if ((size_ & (size_ - 1))) 
    {
        printf("AtomQueue::size_ must be 2^N !!!\n");
        exit(0);
    }
    mod_    = size_ - 1;
    data_   = new T[size_];
    valid_  = new uint8_t[size_];
    std::memset(valid_, 0, sizeof(valid_));
}
template <typename T>
AtomQueue<T>::~AtomQueue()
{
    delete[] data_;
    delete[] valid_; 
}

構造函數中強制傳入的隊列大小（size）必須爲 2 的冪數，目的是想用 & 而不是 % 取模，因爲 & 比 % 快 2ns，最求極致性能。

9.2.3 生產者調用的 Push 函數和消費者調用的 Pop 函數

template <typename T>
bool AtomQueue<T>::Push(const T& v)
{
    uint64_t head = head_, tail = tail_;
    if (tail <= head ? tail + size_ <= head + 1 : tail <= head + 1)
        return false;
    if (valid_[head])
        return false;
    if (!__sync_bool_compare_and_swap(&head_, head, (head + 1) & mod_))
        return false;
    data_[head] = v;
    valid_[head] = 1;
    return true;
}
template <typename T>
bool AtomQueue<T>::Pop(T& v)
{
    uint64_t tail = tail_;
    if (tail == head_ || !valid_[tail])
        return false;
    if (!__sync_bool_compare_and_swap(&tail_, tail, (tail + 1) & mod_)) 
        return false;
    v = std::move(data_[tail]);
    valid_[tail] = 0;
    return true;
}

分析一下上述 Push 和 Pop 函數中讀寫操作是否需要增加內存屏障，讀寫操作可以抽象描述如下表格：

在讀寫操作亂序的 CPU 上可以出現上述情況，會導出線 Bug，解釋一下：

當剛初始化的隊列，隊列還是空的，這時核心 0 執行 Push 函數，同時核心 1 執行 Pop 函數；
Push 裏的條件 **（tail <= head ? tail + size_ <= head + 1 : tail <= head + 1）** 爲 **true**，表示隊列已經滿了，所以生產失敗，其實隊列還是空的；
Pop 裏的條件 **（tail == head_ || !valid_[tail]）** 爲 **false**，表示隊列有數據，並且消費 **tail** 位置數據，實際上 **tail** 位置還沒數據；
導致生產和消費都發生了錯誤。

解決辦法是添加讀寫屏障（LoadStore barrier），如下表格：

在 Arm 等亂序執行的平臺上可以解決問題；幸好 x86-TSO 平臺上讀操作不能延後，也就不需要讀寫屏障，手動加了也是空操作（no-op）。

通過執行反彙編命令（objdump -S a.out）得到 Push 中下面代碼的彙編代碼。

if (!__sync_bool_compare_and_swap(&tail_, tail, (tail + 1) & mod_)) 
400a61:  48 8b 45 f8            mov    -0x8(%rbp),%rax
400a65:  48 8d 50 01            lea    0x1(%rax),%rdx
400a69:  48 8b 45 e8            mov    -0x18(%rbp),%rax
400a6d:  8b 80 d8 00 00 00      mov    0xd8(%rax),%eax
400a73:  48 98                  cltq   
400a75:  48 89 d1               mov    %rdx,%rcx
400a78:  48 21 c1               and    %rax,%rcx
400a7b:  48 8b 45 e8            mov    -0x18(%rbp),%rax
400a7f:  48 8d 90 88 00 00 00   lea    0x88(%rax),%rdx
400a86:  48 8b 45 f8            mov    -0x8(%rbp),%rax
400a8a:  f0 48 0f b1 0a         lock cmpxchg %rcx,(%rdx)
400a8f:  0f 94 c0               sete   %al
400a92:  83 f0 01               xor    $0x1,%eax
400a95:  84 c0                  test   %al,%al
400a97:  74 07                  je     400aa0 <_ZN9AtomQueueIiE3PopERi+0x8c>
return false;
400a99:  b8 00 00 00 00         mov    $0x0,%eax
400a9e:  eb 40                  jmp    400ae0 <_ZN9AtomQueueIiE3PopERi+0xcc>

發現 __sync_bool_compare_and_swap 函數對應的彙編代碼爲：

400a8a:  f0 48 0f b1 0a         lock cmpxchg %rcx,(%rdx)

是帶 lock 前綴的命令，前面講過，在 x86-TSO 上，帶有 lock 前綴的命令具有刷新 Store Buffer 的功能，也就是 **head_** 和 **tail_** 的修改都能及時被其他核心觀察到，可以做到及時生產和消費。

10 參考資料

Alder Lake - 維基百科，自由的百科全書
CPU Cache：訪存速度是如何大幅提升的？
MESI 協議 - 維基百科，自由的百科全書
MESI 協議：多核 CPU 是如何同步高速緩存的？
內存模型：有了 MESI 爲什麼還需要內存屏障？
https://www.scss.tcd.ie/Jeremy.Jones/VivioJS/caches/MESIHelp.htm
MESIF 協議 - 維基百科，自由的百科全書
MOESI 協議 - 維基百科，自由的百科全書
爲什麼在 x86 架構下只有 StoreLoad 屏障是有效指令？
The JSR-133 Cookbook for Compiler Writers
The JSR-133 Cookbook for Compiler Writers[譯]
x86-TSO: A Rigorous and Usable Programmer’s Model for x86 Multiprocessors
從 Java 內存模型看內部細節
比較並交換 - 維基百科，自由的百科全書
https://en.wikipedia.org/wiki/Compare-and-swap
C++11 原子操作與無鎖編程
內存模型和 atomic：理解併發的複雜性
x86-TSO : 適用於 x86 體系架構併發編程的內存模型

結束語

OMG，竟然寫了這麼多，頭一次！終於把 CPU 緩存、內存屏障、原子操作以及無鎖隊列一口氣梳理完了。期間查閱大量資料，這裏特地感謝一下參考資料中的作者，讓我學到了很多知識；期間也寫了很多測試代碼來驗證理論，避免誤人子弟，儘量做到有理有據。由於作者水平有限，本文錯漏缺點在所難免，希望讀者批評指正。

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/kJF_ezR2TdPnYlfPCjwdKQ