행위

KS X 1001

조무위키

이 문서의 일부 또는 전체는 위키백과에서 돚거한 내용이 들어가 있습니다.
이 문서는 할 것 없는 잉여들이 할게 없어서 위백에서 복붙한 문서입니다.
문서 내용이 하도 엄격 진지 근엄한데다, 문법마저 맛이 갔으니, 어서 여기로 나가시기 바랍니다.[출처 필요]

틀:문자 인코딩 정보

그림으로 나타낸 KS X 1001 문자 집합의 구조

KS X 1001한국 산업 규격으로 지정된 한국어 문자 집합으로서, 정식 규격명은 ‘정보 교환용 부호계 (한글 및 한자)’이며, 옛 이름인 KS C 5601로도 알려져 있다. 1974년에 처음으로 제정되었고, 2004년에 개정된 ‘KS X 1001:2004’가 최신 규격이다.

이 규격은 2바이트 부호계로서, x2121 - x7E7E까지 영역에서 8,836문자의 표현을 규정하는데, 문자는 제어 문자와 도형 문자로 분류하며, 도형 문자는 특수 문자, 괘선 조각, 숫자, 한글 낱자, 한글 글자 마디, 한자, 기본 로마 문자, 확장 로마 문자, 그리스 문자, 가나 문자, 키릴 문자로 구성되어 있다. 한글 부분은 기본적으로 2바이트 완성형 코드이지만, 부속서 3에서 2바이트 조합형 코드도 보조 부호계로서 규정되어 있다.

KS X 1001은 유니코드를 제외하고 대한민국에서 사용되는 거의 유일한 문자 집합이다. KS X 1001 기반의 문자 인코딩으로는 EUC-KR(완성형)과 ISO-2022-KR (과거 인터넷 메일에서 쓰던 문자 인코딩)이 있다. MS 윈도에서 사용하는 CP949EUC-KR의 확장으로 2바이트로 표현할 수 없는 한글 글자 마디 8,822자를 추가한 것이다.

구성[편집]

KS X 1001은 전형적인 94×94 문자 집합이며, 각 행들은 다음과 같이 구성되어 있다.

  • 0x21 ~ 0x2C: 특수 문자(문장 부호, 그림 문자 등), 한글 낱자, 괘선 조각, 외국 문자(히라가나, 가타카나, 그리스 문자, 키릴 문자 등)
  • 0x30 ~ 0x48: 한글 글자 마디 영역. 자주 쓰이는 2350자만 가나다 순서대로 배열했다. 하지만 이것 때문에 다음[1]과 같은 문제가 생겼다.
  • 0x49: 사용자 정의 영역 A
  • 0x4A ~ 0x7D: 한자 영역. 4888자를 한글 독음 순서대로 배열했으며, 독음이 다르고 모양이 같은 한자는 중복되어 있다.
  • 0x7E: 사용자 정의 영역 B

특수 문자 영역은 개정판마다 계속 추가되고 있다. KS X 1001:1998에서는 ®('등록 상표' 줄임표), €(유로 기호)가, KS X 1001:2002에서는 ㉾('우편 번호' 줄임표, U+327E)가 추가되었다.

한글 채움 문자[편집]

이 규격에는 완성형 한글 코드인 기본 부호계에 포함되지 않은 한글에 대해서 글자 마디마다 맨 앞에 '채움' 문자를 덧붙여 교환하는 방식이 규정되어 있다. 즉, 한글 채움 문자(24-54, EUC-KR에서는 A4 D4)를 사용해서 "(채움) 초성 중성 종성"과 같이 한글 영역에 들어 있지 않은 한글을 표시하는 것은 가능하다. 예를 들어 '(채움) ㅆ ㅠ (채움)'은 KS X 1001에서 나타낼 수 없는 '쓔'라는 글자를 나타낸다. 이러한 확장 방법은 2004년 개정에서도 유지되어 있다.

부속서[편집]

이 규격의 부속서 3에서는 2바이트 조합형을 보조 부호계로 규정하고 있는데, 1982년 개정부터 기존 상용 조합형을 반영하여 표준화하였다. 아울러 부속서 4에서는 7비트 한글 낱자 부호계를 포함하여 2바이트 부호계가 적용되지 않는 특수 장비 등에 대한 한글 코드를 규정하고 있다.

단점[편집]

KS X 1001에 모든 현대 한글을 표현할 수 있는 방법이 존재하는데도 모질라 파이어폭스 등을 제외한 대부분의 프로그램들이 구현하지 않고 있다. 따라서 KS X 1001은 사실상 2350자의 한글만 지원하기 때문에 모든 현대 한글을 제대로 표현할 수 없다는 비판이 제기되었다. 또한 2350자 바깥의 한글을 처리하는 방법이 프로그램마다 여러 가지로 나뉘면서 서로 다른 프로그램 사이에서 인코딩의 호환성이 보장되지 않는 문제가 생기기도 했다. 또한, 필요한 특수 문자는 배제되고 자판으로 손수 입력 가능한 특수 문자가 너무 많이 포함되었다는 비판도 존재한다.[2]

그 외에도 한글 독음이 다르고 모습이 같은 한자가 중복되어 있기 때문에 나타나는 처리상의 문제도 있는데, 유니코드에 이런 특성이 고려되어 모든 중복된 한자가 유니코드 호환성 영역에 수록되기도 했다.

같이 보기[편집]

  • KS X 1002 - KS X 1001의 보조 문자 집합
  • KS X 1003 - KS X 1001과 함께 사용되는 로마 문자 집합

각주

참고 문헌[편집]

  • 〈정보 교환용 부호계(한글 및 한자)〉, 《한국산업규격》. 한국표준협회, 2005.

외부 링크[편집]