유니코드는 전 세계에서 사용되는 모든 문자를 공통 문자 집합에서 사용할 수 있도록 하는 아이디어로 만들어졌으며, Unix, Windows, macOS, Plan 9, Java 등에서 사용됩니다. 현대 문자뿐만 아니라 고대 문자, 역사적 문자, 수학 기호 및 이모티콘도 포함합니다.

유니코드 이전의 문자 코드와의 상호 운용성도 어느 정도 고려되었으며, 역사적 또는 실제 식별이 필요한 경우 호환성 영역이 예약되어 있으며, 일부 문자는 원래 코드에서 유니코드로 변환하고 다시 원래 코드로 변환할 때 원래 형태로 돌아가도록 설계되었습니다(왕복 변환). 그러나 공식 JIS X 0208 범위 내에서는 문제가 거의 없지만, 여러 문자 집합이 혼합되거나 Shift_JIS의 실제 상태인 CP932와 EUC-JP의 변형인 CP51932 및 eucJP-MS와 같은 대응의 차이가 있는 경우 문자가 깨질 수 있습니다.

각 문자 인코딩 형식에 대한 인코딩 예

00 01 02 03 04 05 06 07 08 09 0A 0B 0C 0D 0E 0F
UTF-8 A Ω 😊
41 CE A9 E8 AA 9E F0 9F 98 8A
UTF-16 A Ω 😊
0041 03A9 8A9E D83D DE0A
UTF-32 A Ω 😊
00000041 000003A9 00008A9E 0001F60A