Unicode 的創建目的是將世界上所有字元納入一個通用字元集,用於 Unix、Windows、macOS、Plan 9、Java 等系統。它不僅包含現代字元,還包括古代字元、歷史字元、數學符號和表情符號。

考慮了與 Unicode 之前字元編碼的互操作性,在需要歷史或實際識別時,保留了兼容區,並設計了一些字元在從原始編碼轉換為 Unicode 再轉換回原始編碼時能夠恢復(往返轉換)。然而,在官方 JIS X 0208 範圍內問題較少,但在混合多種字元集或存在 CP932(Shift_JIS 實際狀態)、CP51932 和 eucJP-MS 等 EUC-JP 變體差異時,仍可能出現亂碼。

各字元編碼格式示例

00 01 02 03 04 05 06 07 08 09 0A 0B 0C 0D 0E 0F
UTF-8 A Ω 😊
41 CE A9 E8 AA 9E F0 9F 98 8A
UTF-16 A Ω 😊
0041 03A9 8A9E D83D DE0A
UTF-32 A Ω 😊
00000041 000003A9 00008A9E 0001F60A