不懂優雅停機,搞掛了線上服務,咋辦?
公司項目是用 consul 進行註冊的,在發佈微服務的時候,總是會導致調用方出現一定幾率的調用失敗。一開始百思不得其解,後來諮詢了資深的同事才知道:原來是服務下線的時候沒有優雅停機,沒有去 consul 將自己下線再停機,導致調用方拿到了舊的調用地址,導致調用失敗! 看來優雅停機還是一個蠻重要的知識點,可不能忽略,今天就讓我們來盤盤它吧!
什麼是優雅停機?
在 Linux 世界裏,一切都是資源。當我們啓動一個 JVM 的時候,我們就加載了許多的資源。而當我們關閉 JVM 的時候,JVM 只會釋放內存這個資源,而其他資源是不會釋放的,例如:網絡連接、文件句柄等等。
Linux 的網絡連接數、文件句柄數都是有限的,如果我們沒有及時釋放,時間久了就會導致一些奇怪的問題。那麼如何在 JVM 關閉的時候,釋放這些資源呢?答案就是:利用 Java 提供的 ShutdownHook 接口。 我們所說的優雅停機,就是利用 Java 提供的 ShutdownHook 接口註冊一個鉤子,讓 JVM 在關閉之前執行鉤子函數的代碼,讓其關閉對應的資源。
適用場景
在學會怎麼使用優雅停機之前,我們需要弄清楚優雅停機適用於哪些場景,那我們就需要先弄清楚 JVM 關閉的幾種情況了。JVM 關閉的情況可以分爲 3 大類 11 個情況,如下圖所示:
在 JVM 關閉的 3 大類場景中,只有正常關閉與異常關閉是支持優雅停機的,而強制關閉則是不支持的。下面我們通過三個例子來驗證一下。
JVM 正常關閉
JVM 正常關閉這種情況,我們只需要正常運行一個 main 函數,然後爲其註冊一個 ShutdownHook 即可,其代碼如下所示。
public class NormalShutdownTest {
public void start() {
Runtime.getRuntime().addShutdownHook(new Thread(() ->
System.out.println("鉤子函數被執行,可以在這裏關閉資源。")
));
}
public static void main(String[] args) {
new NormalShutdownTest().start();
System.out.println("主應用程序在執行,正常關閉。");
}
}
輸出結果爲:
主應用程序在執行,正常關閉。
鉤子函數被執行,可以在這裏關閉資源。
可以看到鉤子函數的代碼正常執行了。如果你在 main 函數增加 System.exit(0) 代碼,執行之後的結果也還是一樣。這說明 JVM 正常關閉情況下,是支持優雅停機的。
異常關閉
JVM 異常關閉這種情況,我們嘗試製造內存溢出。只需要聲明一個 500 MB 的數組,然後設置 JVM 堆最大爲 20 MB 即可(-Xmx20M),其代碼如下所示。
public class OomShutdownTest {
public void start() {
Runtime.getRuntime().addShutdownHook(new Thread(() ->
System.out.println("鉤子函數被執行,可以在這裏關閉資源")
));
}
public static void main(String[] args) throws Exception {
new OomShutdownTest().start();
System.out.println("主應用程序在執行,內存溢出關閉。");
byte[] b = new byte[500 * 1024 * 1024];
}
}
執行結果爲:
主應用程序在執行,內存溢出關閉。
Exception in thread "main" java.lang.OutOfMemoryError: Java heap space
at tech.shuyi.javacodechip.shutdownhook.OomShutdownTest.main(OomShutdownTest.java:13)
鉤子函數被執行,可以在這裏關閉資源
可以看到 JVM 拋出了 OOM 錯誤,但是鉤子函數還是被執行了。如果你在 main 函數中自行拋出 RuntimeException,鉤子函數也還是會被執行。感興趣的朋友可以自行嘗試一下。
強制關閉
JVM 強制關閉這種情況,我們可以使用 Runtime.getRuntime().halt(1) 進行測試,其代碼如下所示。
public class ForceShutdownTest {
public void start() {
Runtime.getRuntime().addShutdownHook(new Thread(() ->
System.out.println("鉤子函數被執行,可以在這裏關閉資源。")
));
}
public static void main(String[] args) throws Exception {
new ForceShutdownTest().start();
System.out.println("主應用程序在執行,強制關閉。");
Runtime.getRuntime().halt(1);
}
}
執行結果:
主應用程序在執行,強制關閉。
可以看到鉤子函數並沒有被執行,所以 JVM 強制關閉這種場景不支持優雅停機。
最佳實踐
看了上面的例子,看起來優雅停機沒那麼複雜嘛。實際上,優雅停機用不好,很可能出現一些其他問題。這裏給出幾個最佳實踐原則,幫助大家用好優雅停機!
只註冊一個鉤子
我們都知道 JVM 可以註冊多個鉤子,而鉤子本質上是一個線程,可以併發執行。那麼就很可能出現鉤子之間相互依賴,這樣就會導致依賴死鎖了。另外,也可能因爲多個鉤子操作同一個資源,導致資源競爭出現死鎖。因此,較好的一種方式就是隻註冊一個鉤子,所有的資源釋放都在這個鉤子中操作。
確保線程安全
因爲鉤子本質上也是一個線程,JVM 可能會併發執行多個鉤子,JVM 並不保證它們的執行順序,因此需要保證鉤子中的操作是線程安全的。當然了,如果你只有一個鉤子的話,那這個提示可以忽略了。
不要做耗時的操作
在鉤子中,不要做耗時的操作。因爲當我們要關閉 JVM 時,用戶肯定是希望儘快關閉,因此鉤子中主要用於關閉殘留資源,不應該再做其他耗時的操作。
不要做註冊、移除鉤子的操作
在關閉鉤子中,不能執行註冊、移除鉤子的操作,否則 JVM 拋出 IllegalStateException。
不要調用 System.exit () 操作
也不能調用 System.exit() 操作,但是調用 Runtime.halt() 操作是可以的。我想,這是因爲調用 System.exit () 操作會導致循環進入鉤子,導致死循環吧。
需要考慮的資源
除了上面一些代碼上的操作需要考慮,我們還需要注意下面這些場景的處理:
-
池化資源的釋放:數據庫連接池、HTTP 連接池、線程池。
-
在處理線程的釋放:已經被連接的 HTTP 請求。
-
MQ 消費者的處理:正在處理的消息。
-
隱形受影響的資源的處理:Zookeeper、Nacos 實例下線等。
應用案例
Java 提供的優雅停機機制,可以說是許多框架的基礎。諸如 Spring、Consul 等中間件框架,都是利用 Java 提供的這個機制進行優雅停機的。
Spring 的優雅停機
例如 Spring 是基於 Java 語言開發的框架,那其也勢必依賴於 JVM 的 ShutdownHook。Spring 關於優雅停機的代碼在 org.springframework.context.support.AbstractApplicationContext#registerShutdownHook 處,代碼如下圖所示。
@Override
public void registerShutdownHook() {
if (this.shutdownHook == null) {
// No shutdown hook registered yet.
this.shutdownHook = new Thread(SHUTDOWN_HOOK_THREAD_NAME) {
@Override
public void run() {
synchronized(startupShutdownMonitor) {
doClose();
}
}
};
// 增加 ShutdownHook 鉤子
Runtime.getRuntime().addShutdownHook(this.shutdownHook);
}
}
可以看到 Spring 在 registerShutdownHook() 函數里,註冊了一個關閉的鉤子,鉤子中調用了 doClose() 方法。
服務治理的優雅停機
不論是 Dubbo 還是 Spring Cloud 的分佈式服務框架,需要關注的是怎麼能在服務停止前,先將提供者在註冊中心進行反註冊,然後在停止服務提供者,這樣才能保證業務系統不會產生各種 503、timeout 等現象。爲了實現上述說到的效果,那麼我們就必須關注優雅停機這件事情。
彩蛋
我們都知道通過 kill -15 可以讓 JVM 優雅停機,那我們是否可以監聽特定的信號量,從而讓程序做特定的操作呢?例如:讓 JVM 監聽第 12 信號量,然後打印一條日誌,隨後優雅停機。
答案是當然可以啦!我們只需要利用 Signal 類,並實現一個 SignHandler 類就可以了。其實現代碼如下所示:
public class CustomShutdownTest {
public void start() {
Runtime.getRuntime().addShutdownHook(new Thread(() ->
System.out.println("鉤子函數被執行,可以在這裏關閉資源。")
));
}
public static void main(String[] args) {
// custom signal kill
Signal sg = new Signal("USR2"); // kill -12 pid
Signal.handle(sg, new SignalHandler() {
@Override
public void handle(Signal signal) {
System.out.println("接收到信號量:" + signal.getName());
// 監聽信號量,通過System.exit(0)正常關閉JVM,觸發關閉鉤子執行收尾工作
System.exit(0);
}
});
// other logic
new CustomShutdownTest().start();
System.out.println("主應用程序在執行,正常關閉。");
try {
Thread.sleep(30000);
} catch (InterruptedException e) {
e.printStackTrace();
}
}
}
我們啓動該類後,先讓其休眠 30 秒,隨後用 jps 命令找到進程 ID,隨後運行 kill -USR2 PID 即可,如截圖所示。
隨後可以看到控制檯打印出如下消息:
主應用程序在執行,正常關閉。
接收到信號量:USR2
鉤子函數被執行,可以在這裏關閉資源。
從上面消息我們知道,JVM 成功接收到了 USR2 信號量,也成功執行了鉤子函數。搞定!
提示:其實 USR2 是 Linux 第 12 個信號量,是留給用戶使用的一個信號量。我們可以通過該信號量做一些定製化操作,從而實現更加複雜的功能。
轉自:陳樹義 / 樹哥聊編程
本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源:https://mp.weixin.qq.com/s/AZh91qC-W0V1KqDgyjs81A