UTF-8 인코딩을 쓰는 이유 (유니코드)

문자 인코딩이란 문자를 기계가 이해할 수 있는 형태(바이너리)로 변환하는 것입니다. 현재 전 세계에서 가장 많이 사용하는 문자 인코딩 방식은 UTF-8입니다. 훌륭한 호환성을 제공하기 때문입니다.

문자 인코딩의 흐름

인터넷이 보급되기 전엔 나라별로 인코딩 체계를 구축했습니다. 예를 들어, ASCII는 알파뱃을 바이너리로 매칭해 영어권 문자 인코딩의 표준을 마련한 체계입니다. 당시엔 텔레프린터라는 기계로 바이너리를 전송하면 문자를 프린트하는 방식으로 작동했습니다.

 

각 나라들은 자신들만의 인코딩 체계를 구축해서 문제없이 사용했습니다. 그러나 www가 보급되면서 전 세계적으로 문서 교환이 활발해졌습니다. 기존처럼 독립적인 인코딩 체계를 사용해서는 문서를 주고받을 수 없는 상황이 된 것입니다.

유니코드 컨소시엄의 등장

이런 문제를 해결하기 위해 유니코드 컨소시엄이 만들어졌습니다. 이들은 오랜 기간에 걸쳐 유니코드라는 체계에 전 세계 국가의 언어와 각종 기호, 숫자를 매칭 했습니다. 여기서의 숫자는 바이너리가 아니라, 말 그대로 고유한 숫자를 의미합니다.

웹의 표준 UTF-8

UTF-8은 표준 유니코드 문자를 모두 표현할 수 있습니다. 그 말은 UTF-8로 인코딩하면 어떤 언어든 깨지지 않고 출력할 수 있다는 의미입니다. 자연스럽게 웹에서 사용하는 표준이 됐습니다. 그래서 한글이 포함된 소스는 UTF-8로 인코딩을 하는 것입니다.

반응형

댓글

Designed by JB FACTORY