텍스트를 다양한 유니코드 형식으로 변환하거나 유니코드를 텍스트로 복원합니다.
유니코드는 모든 문자에 고유한 코드 포인트를 할당하는 범용 문자 인코딩 표준입니다. 이를 통해 컴퓨터는 세계 대부분의 문자 체계에서 텍스트를 일관되게 표현하고 처리할 수 있습니다.
유니코드는 150개 이상의 현대 및 역사적 스크립트와 기호, 이모티콘 및 기타 표기법을 포함하여 140,000개 이상의 문자를 지원합니다. 유니코드 이스케이프 시퀀스는 프로그래밍 언어와 데이터 형식에서 이러한 문자를 표현하는 방법입니다.
유니코드는 각 문자에 고유한 코드 포인트라는 숫자 값을 할당합니다. 이러한 코드 포인트는 일반적으로 'U+'를 접두사로 하는 16진수 형식으로 표현되며, 예를 들어 'A' 문자는 U+0041로 표기됩니다.
UTF-8: 가변 길이 인코딩(문자당 1-4바이트). ASCII 문자는 1바이트만 사용하기 때문에 ASCII 텍스트에 효율적입니다.
UTF-16: 문자당 2 또는 4바이트 사용. 많은 프로그래밍 환경(JavaScript, Java, .NET)에서 일반적입니다.
UTF-32: 문자당 고정 4바이트. 처리는 더 단순하지만 저장 공간을 더 많이 사용합니다.
디코딩할 때, 소프트웨어는 인코딩된 바이트를 읽고 해당 유니코드 코드 포인트로 다시 매핑한 다음 적절한 문자를 표시합니다.
다양한 프로그래밍 언어는 유니코드 이스케이프 시퀀스에 다른 형식을 사용합니다:
JavaScript: 기본 다국어 평면(BMP) 문자는 \u0041, 그 외는 \u{1F600}
Python: BMP는 \u0041, 그 외는 \U0001F600
C#: BMP는 \u0041, 그 외는 서로게이트 쌍 사용
다양한 문자가 유니코드에서 어떻게 표현되는지 살펴보겠습니다:
U+0048 U+0069
48 69
00 48 00 69
\u0048\u0069