Golang 字符的 Unicode 與 UTF-8

【導讀】遇到編碼問題怎麼辦?瞭解一下 unicode 和 utf-8 編碼臨危不亂!

大多數的我們,真正認識到有字符編碼這回事,一般都是因爲遇到了亂碼,因爲我國常用的編碼是 GBK 以及 GB2312:用兩個 Byte 來表示所有的漢字,這樣,我們一共可以表示 2^16 = 65536 個字符,一旦我們的 GBK 以及 GB2312 編碼遇到了其他編碼,比如日本,韓國的編碼,就會變成亂碼,當然,這時候如果是 UTF-8,也會亂碼。

我們知道,在計算機內部,爲了把二進制數據轉換爲顯示器上,需要進行編碼,即將可顯示的字符一一對應到二進制數據上,比如 ASCII 碼,就是用一個 Byte 的數據來表示英文字符加上一些英文符號。

至於中文,我們顯然不能使用僅僅一個 Byte 來表示,我們需要用到更大的空間。

Unicode 與 Code point

在如今這個小小的世界村裏,有着那麼多的語言與文字,爲了兼容所有的字符,Unicode 出現了,但是它需要有更多的 Byte 來將這個世界上所有的字符收納進去(這裏面甚至包含了 Emoji)。

爲了瞭解 Unicode,你需要了解 Code point 即所謂的碼點,也就是用 4 個 Byte 大小的數字來表示所有的字符。

至於 Unicode 本身,你可以認爲它就是 Code point 的集合,而 UTF-8 呢?就是 Unicode 的編碼方式。

Unicode 與 UTF-8 編碼

下面的圖來自 UTF-8 的截圖:

這幅圖簡單明瞭的告訴我們,UTF-8 的編碼方式,比如漢字一般用三個 Byte,每個 Byte 的開頭都是固定的,各種文字軟件解析 UTF-8 編碼的時候,它就會按照這個格式去解析,一旦解析錯誤(畢竟還可能會有不符合要求的數據,或者是文件錯誤了),錯誤的字節就會被替換爲 "�" (U+FFFD),然後神奇的地方就來了:即使遇到這種錯誤,它也不會影響接下來的其他字符的解析,因爲這種編碼不必從頭開始,使得它可以自我同步(Self-synchronizing)。與此同時,其它的一些編碼一旦遇到錯誤編碼就會出問題,導致錯誤編碼之後的正確編碼也會跟着出錯。

當然,UTF-8 編碼也有缺點,由於它是可變的,當英文字符偏多的時候,它會省空間,然而比如當中文偏多的時候,它理論上(3 Byte)會比 GBK 編碼(2 Byte)最多多出 1/3 的存儲空間。

UTF-8 的例子

我們拿 Unicode 中最受歡迎的 Emoji 表情 😂 1 來舉例:它的 Code point 是 U+1F602(對,1F602 是以 16 進製表示的),然而在內存中它的存儲方式的卻是 0xf09f9882,爲什麼?這就是 UTF-8 的編碼了(注意對比上圖的編碼方式):

     000    011111    011000    000010 1f602
11110000  10011111  10011000  10000010 f0 9f 98 82

通過把 UTF-8 的編碼格子裏面數據提取出來,我們就能獲得 Code point 1F602

你也可以用 Golang 來查看其它字符的編碼:

package main

import (    "fmt"
    "unicode/utf8"
)

func main() {    fmt.Printf("%b\n"[]byte(`😂`))    fmt.Printf("% x\n"[]byte(`😂`))        r, _ := utf8.DecodeRuneInString(`😂`)    fmt.Printf("% b\n", r)    fmt.Printf("% x\n", r)}

Unicode 的其他編碼

Unicode 當然不止一種編碼,還有 UTF-16、UTF-32 等,它們的關係就是 UTF-16 用 2 個 Byte 來表示 UTF-8 分別用 1/2/3 個 Byte 來表示的字符,然後 4 個 Byte 與 UTF-8 一致,UTF-32 是完全用 4 個 Byte 來表示所有的字符,另外,詳細的可以在 Comparison of Unicode encodings 中看到,

好,基礎講完,現在開始正式介紹。

Unicode 與 Golang 2

這裏特別需要提到的是 Golang 與 UTF-8 的關係,他們背後的男人,都是 Ken Thompson 跟 Rob Pike 3 4 5,由此,大家就會明白 Golang 的 UTF-8 設計是有多麼重要的參考意義。比如 Golang 設計了一個 rune 類型來取代 Code point 的意義。

rune 看源碼就知道,它就是 int32,剛好 4 個 Byte,剛可以用來表示 Unicode 的所有編碼 UTF-8 與 UTF-16。

在繼續之前,我想幫各位明白一個事實:Golang 的源碼是默認 UTF-8 編碼的,這點從上面我給出的例子中就能明白,所以表情字符在編譯的時候,就已經能被解析。

好了,那麼我們來看看 Golang 的 unicode 包,其中就會有很多有用的判斷函數:

func IsControl(r rune) bool
func IsDigit(r rune) bool
func IsGraphic(r rune) bool
func IsLetter(r rune) bool
func IsLower(r rune) bool
func IsMark(r rune) bool
func IsNumber(r rune) bool
func IsPrint(r rune) bool
func IsPunct(r rune) bool
func IsSpace(r rune) bool
func IsSymbol(r rune) bool
func IsTitle(r rune) bool
func IsUpper(r rune) bool

另外,在 src/unicode/tables.go 中,有大量的 Unicode 中,各類字符的 Code point 區間,會有比較大的參考價值。

再看看 unicode/utf8 包,這裏面的函數,大多數時候你都用不到,但是有這麼幾類情況就需要你必須得用到了:

  1. 統計字符數量;

  2. 轉編碼,比如將 GBK 轉爲 UTF-8;

  3. 判斷字符串是否是 UTF-8 編碼,或者是否含有不符合 UTF-8 編碼的字符;

後面兩個可以忽略,第一個需要特地提醒下:

s := `😂`
fmt.Println(len(s))

這句輸出是什麼?上面提過了,剛好就是 4。於是,你不能使用 len 來獲取字符數量,也就不能以此來判斷用戶輸入的字符是不是超過了系統的限制。另外,你也不能通過 s[0] 這樣的方式來獲取字符,因爲這樣你只能取到這 4 個 Byte 中的第一個,也就是 0xf0

你應該做的就是把 string 轉爲 rune 數組,然後再去進行字符的操作。

具體的使用方法就不細談了,相信你們能搞定。

另外,這裏需要另外提示下,在 Node.js 中,string 本身就是 Unicode,而不是像 Golang 的 string 是二進制,因此在這裏可以認爲 Node.js 的 Buffer 纔是 Golang 中的 string。

好了,最後留給你一個思考題:在 Node.js 中,爲什麼在處理 Buffer 時候,不能直接拼接?

轉自:

github.com/xizhibei/blog/issues/150

Go 開發大全

參與維護一個非常全面的 Go 開源技術資源庫。日常分享 Go, 雲原生、k8s、Docker 和微服務方面的技術文章和行業動態。

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/IY9jLgCqjbcz-VbYcNlSlw