원문보기    닫기

메뉴 보기, 닫기

정보 교환용 부호 확장 세트

EXTENSION CODE SETS FOR INFORMATION INTERCHANGE

    KS X 1002:2001

  • 조항
    1. 적용 범위
    이 규격은 정보처리 및 데이터를 전송하는 시스템에서 정보교환에 사용하는 부호의 표현 형식에 대하여 규정한다.
    이 규격은 KS X 1001[정보 교환용 부호계(한글 및 한자)]에서 규정하고 있는 "정보 교환용 부호계(한글 및
    한자)"에 포함되지 않는 도형 문자를 필요로 하는 정보교환을 위하여, KS X 1001의 보조로서 KS X 1004
    (정보 교환용 부호의 확장법)에 의거하여 규정한다.
    이 규격은 정보 교환용이고 내부 처리에 대해서는 언급하지 않는다.
  • 조항
    2. 용어의 뜻
    이 규격에서 사용하는 주된 용어의 뜻은 다음과 같다.
    (1)   정보 교환 서로 다른 시스템 사이에서 정보를 이용하기 위하여 하나의 시스템으로 정보를 전달 하는 것.
    (2)   비트 조합 문자를 표현하는데 사용되는 비트의 순서 집합
    (3)   문 자 정보의 표현이나 제어 등에 쓰이는 유한집합의 요소로서, 도형 문자와 제어 문자로 분류 한다.
    (4)   도형 문자 시각적인 도형에 의해 표현되는 문자
    (5)   문자 집합의 부호화(부호) 문자 집합과 비트 조합간의 일대일 대응 관계를 만드는 모호하지 않은 규칙들의 집합
    (6)   부호 확장 주어진 부호의 문자집합에 포함되지 않는 문자들의 부호를 위한 기법
    (7)   부 호 표 부호 중의 각 비트 조합에 할당된 문자들을 나타내는 표
    (8)   바 이 트 정보 교환의 편의상 하나의 단위로 취급되는 8개의 비트
    (9)   위 치 행과 열로 식별되는 부호표의 부분 
    (10)   행 2바이트 부호계 중에서 제1바이트에 의하여 구별되는 문자의 집합
    (11)   열 지정된 행 내에서 제2바이트에 의하여 구별되는 개개의 문자
    (12)   한 글 음절 단위 한국 문자
    (13)   한 자 한글과 병행해서 또는 단독으로 사용되는 중국 문자
    (14)   대 표 음 각 한자에 대하여 하나씩 정해진 음
    (15)   옛글자 날자 옛글자를 이루는데 사용되는 음소 단위 문자
    (16)   옛 글 자 현대글자 이전에 사용되었던 음절 단위 한국 문자
    (17)   특수 문자 특수한 도형을 갖는 단락이나 표 등에 사용되는 문자
    (18)   라틴 문자 유럽의 언어를 사용할 때 구성 요소가 되는 표음 문자
    (19)   그리스 문자 그리스어를 사용할 때 구성 요소가 되는 표음 문자
  • 조항
    3. 도형 문자
    도형 문자의 종류는 특수 문자, 한글, 한자, 옛글자, 옛글자 낱자, 외국 문자로 한다. 이 규격에서는 개개 문자의 용도나 자형에 대하여는 규정하지 않는다.
    -                                                      
    관련 규격 : KS X 1001 정보 교환용 부호계(한글 및 한자)
              KS X 1003 정보 교환용 부호(로마 문자)
              KS X 1004 정보 교환용 부호의 확장법
    (1)    한 글 한글은 사용 빈도에 의하여 선정된 1,930자를 제1확장 세트의 한글로 한다(부속서 2 참조).
    (2)    한 자 한자는 사용 빈도에 의하여 선정된 2,856자로 한다(부속서 2 참조).
    (3)    옛 글  옛글자는 사용 빈도에 의하여 선정된 1,677자로 한다(부속서 2 참조).
    (4)    옛글자 낱자 옛글자 낱자는 자음 21자, 모음 6자, 총 27자로 한다.
    (5)   라틴 문자 라틴 문자는 의 총 615자로 한다.
    (6)    그리스 문자 그리스 문자는 의 총 273자로 한다.
    (7)   특수 문자 특수 문자는 학술 기호 127자, 일반 기호 41자, 괘선 조각 29자, APL 78자, 총 275자로 한다.
  • 조항
    4. 부 호 계
  • 조항
    4.1 부호계의 구성
    이 규격에서 규정하는 부호는 제 1확장 세트로 구성한다.
    (1)    제1확장 세트 제1확장 세트는 한글 1,930자, 옛글자 1,677자, 한자 2,856자, 옛글자 낱자
       27자, 특수 문자 275자, 외국 문자 888자로 구성한다.
  • 조항
    4.2 부호의 단위
    이 규격에서 규정하는 부호의 단위는 2바이트로 한다. 각 바이트는 정보 교환용 부호의
    확장법(KS X 1004)에 의한 7단위 또는 8단위로 한다.
    선행의 1바이트를 제1바이트, 후속의 1바이트를 제2바이트라 한다.
  • 조항
    4.3 부호의 위치
    7단위 부호계는 각 바이트 모두 KS X 1003[정보 교환용 부호(로마 문자)]에서 규정하
    는 2/1∼7/14의 위치를 사용한다. 8단위 부호계는 각 바이트 모두 KS X 1003에서 규정하는 02/1∼07/14부
    호 위치 또는 10/1∼15/14부호 위치를 사용한다.
  • 조항
    4.4 지시 및 호출 방법
    (1)   7단위 부호계에서의 지시 및 호출 이 규격에서 규정하는 부호는 KS X 1004에서 규정하는 복수 바
    이트로 표현하는 도형문자 집합의 지시 및 호출의 방법을 사용한다.
    (2)   8단위 부호계에서의 지시 및 호출 이 규격에서 규정하는 부호는 KS X 1004에서 규정하는 복수 바
       이트로 표현하는 도형문자 집합의 지시 및 호출의 방법을 사용한다.
    (3)    종단 문자 종단 문자(Final Character) F는 제1확장 세트의 지시시에는 4/5를, 제 2확장 세트의
       지시시에는 4/6을 사용한다.
  • 조항
    4.5 도형 문자용 부호표
    (1)    도형 문자용 부호의 배열은 제1확장 세트는 표 1과 같다. 각 바이트의 b7∼b1은 7단위 또는 8단위
       부호의 b7∼bl에 대응한다. 8단위 환경에서 b8(최상위 비트) 은 2바이트. 도형문자 집합을 지시한
       후, 호출하는 방법으로 0 또는 1이 결정된다.
    (2)   부호 표시에서 각 부호 및 각 문자의 위치는 행렬 번호로 표시한다. 행의 번호는 1-94번, 열의 번호는
      1-94번으로 하고, 이것을 4분 붙임표(하이픈)로 연결하여 표시한다.
  • 조항
    4.6 확장 세트의 부호표 상의 빈 영역
    부호표 상의 빈 영역은 옛글자 및 한자 확장을 위하여 남겨두며, 미래의 표준화를 대비하여 이용을 금지하는 보류 영역으로 한다.
     
      
     
  • 부속서 1
  • 특수 문자
  •  
  • 부속서2
  • 제1확장 세트의 도형 문자 분류와 배열
  • 1. 특수 문자, 옛글자 낱자, 외국 문자는 제1행~제14행에 배열하였으며 제 15행은 장래의 개정에 사용하기 위하여 정의를 유보하였다(부속서 2 표 2).
  • 2. 한글 1,930자는 제16행~제36행에 배열하였다(부속서 2 표 3).
  • 3. 옛글자 1,677자는 제37행~제 54행에 가나다 음순으로 배열하였다(부속서 2 표 4).
  • 4. 한자 2,865자는 제 55행~제85행에 음순, 부수순, 획수순으로 배열하였다(부속서 2 표 5).
  • 5. 제86행~제94행은 장래의 개정에 사용하기 위하여 정의를 유보하였다.
  •  
  •  
  •  
  •  
  •  
  •   
  •    
  •  
  • KS X 1002:2001
  • 정보 교환용 부호 (확장 세트)
  • 해설
  • 조항
    1. 제정 목적
    최근의 국내 정보처리 환경은 컴퓨터 및 주변 장치, 정보통신 기술의 눈부신 발전과 함께 컴퓨
    터에 의한 신문제작, 출판 등이 보편화되고 있으며, 또한, 통신 네트워크를 이용한 정보교환이 급증하고 있어
    정보교환에 필요한 문자, 기호의 종류 등이 다양해지고 있다.
    이와 같은 추세에 현재의 표준 코드에 포함되어 있지 않은 문자 및 기호의 사용이 빈번해지고 있어, 원활한
    정보 유통 및 정보의 호환성을 위해서는 표준코드의 문자와 기호에 대한 확장이 불가피하다는 요청이 여러곳
    으로부터 제기되어왔다.
    이와 같은 배경으로 KS X 1001에서 규정하고 있는 정보 교환용 부호에 포함되어 있지 않은 문자를 필요로 하는
    정보 교환을 위하여, KS X 1001의 보조로서 문자를 선정하여 부호화하였다.
  • 조항
    2. 적용 범위
  • 조항
    2.1
    이 규격에서는 한글, 한자, 옛글자, 특수 문자, 외국 문자 등 일반적인 국어 문장에서 표기되는 문자에 대하여 규정한다.
  • 조항
    2.2
    정보 교환용 부호는 정보 교환의 기본이 되는 부호로서, 서로 다른 부호계를 사용하는 시스템간의 정보 교환시 우선이 되는 정보 표현 형식임을 뜻하며, 정보 처리 내부의 부호를 규정한 것은 아니다.
  • 조항
    2.3
    정보 교환은 대상 시스템간에 연결된 회선을 통하여 이루어지는 온라인 형태와, 정보 기록 매체에 수록되어 전달되는 오프라인 형태로 구분할 수 있으며 본 부호는 양 형태에 모두 적용된다.
  • 조항
    3. 부 호
  • 조항
    3.1
    국제적 정보 교환의 용이성 및 전산망 구성상의 편의성을 고려하여, 정보 교환용 부호의 확장법 KS X 1004를 따르는 2바이트 부호로 규정하였다.
  • 조항
    3.2
    각 세트 부호의 범위는 HEXA 2121부터 7E7E까지 8,836문자를 수용할 수 있도록 구성하였다.
  • 조항
    3.3
    이 규격에서 규정하는 도형 문자 집합은 KS X 1004에 따라 지시, 호출하며 그 구체적인 지시방법은 다음과 같다.
  • 조항
    4. 도형 문자
  • 조항
    4.1 특수 문자
    특수 문자는 현재 ISO/IEC JTC1/SC2/WG2에서 추진하고 있는 UCS(Universal Coded
    Character Set) 에 포함되어 있는 특수 문자 세트를 기본으로 하였으며, 국내 각계의 의견과 공청회를 통하여
    국제발음 부호와 기타특수 문자를 추가했다. 옛문헌에 사용되는 옛글자 낱자 중 KS X 1001에 포함되어 있지
    않은 낱자도 아울러 포함시켰다. 각 특수 문자의 명칭은 UCS에서 정한 명칭을 따랐다.
  • 조항
    4.2 외국 문자
    외국 문자는 UCS에 포함되어 있는 외국 문자 중 국내외적으로 많이 사용되고 있는 라틴
    문자, 그리스 문자를 선정하였다.
  • 조항
    4.3 한글의 선정
    (1)    조사 자료 한글 선정을 위하여 다음과 같이 2개 집단의 23가지 자료를 조사하였다.
      (a) 집단 A KS X1001-1989 개정시 선정 작업에서 제의된 글자.
        · IBM(222자)
        · 삼성HP(419자)
        · 삼성전관(6자)
        · 금성 반도체(651자)
        · FACOM(724자)
        · WANG(6자)
        · 전산 사식기 문자(4자)
        · 외래어 Combination(838자)
        · 한국 신문협회(321자)
        · 기종 문화사(139자)
      (b) 집단 B 새로운 빈도율을 산출한 집단.
        · 연세 대학교 사전 편찬 위원회의 빈도조사(1953자)
        · 옛문헌 빈도조사(1622자)
      (c) 집단 C 인쇄소 및 신문사에서 사용하는 한글.
        · 모리자와(l452자)
        · 샤켄(l538자)
        · 한국 경제 신문(1621자)
        · SMK사(2710자)
        · 기종 활자사
        · 정주 기기
        · 장타이프사
        · 교통 신보
      (d) 집단 D 사 전
        · 방인 사건
      (e) 집단 E 외국 규격
        · UNICODE
        · 연변 한글 코드
    (2)   (2) 한글 선정 방법
       (2.1) 한글 선정 작업은 한글 분과위원회에서 다음의 선정 기준에 따라 기본 집단을 선정하였다.
        (a) 국어 정서법에 쓰이는 글자
    (가)      (가) 단일 형태소 표기에서 사용되는 글자
    (나)      (나) 한 자 음
    (다)      (다) 준말에서 사용되는 글자
    (라)      (라) 어휘 형태소와 문법 형태소가 한 음절로 축약될 때 사용되는 글자
           · 어간과 이미 '-어'
           · 어간과 선어말어미 '-았/었-'
           · 체인과 조사 '-ㄴ' '-인'
           · 용인과 보조사 '-ㄴ'
           ' 체인과 조사 '-ㄹ '-일'
           ' 용언과 조사·-를', 관형사형 어미 '-ㄹ'
           ' 어간과 명사형 어미 '-ㅁ'
           ' 상대 높임법 선어말어미 '-ㅂ-'의 결합
           ' 사이시옷이 들어간 말
           ' 강세의 '시옷'이 들어간 말
         (b) 방인 표기에 필요한 글자
         (c) 옛글자 표기에 필요한 글자(현대어 자모조합에 들어 있는 글자)
         (d) 외래어 표기에 필요한 글자
         (e) 국어 발음 표시에 필요한 글자
         (f) 추가 한글 세트 포함한 '완성형 한글'글자판 입력에 필요한 글자
         (g) 음절의 어휘 구조, 사용하는 사람들의 사용 습관, 의식 구조, 사회적 관습 등과 같은 매우 복잡
           한 정보가 반영된 빈도 조사자료
       (2.2) 수집된 자료 중 KS X 1001에서 빠진 한글을 기본 집단에 추가하여 1차로 1,890자를 선정하였다.
      (2.3) 선정된 한글 세트를 방언 사전 등과 비교하여 34자를 추가해서 총 1,924자를 한글 확장세트로 결
           정하고 공청회에 확장 시안으로 제출하였다.
      (2.4) 공청회 결과 사용자 집단의 요구로 6자를 추가하여 1,930자의 최종 한글 제 1확장 세트를 결정하
           였다.
       (2.5) 한글 선정 작업은 학계, 언론계, 산업계 및 연구계 전문가들로 구성된 한글 분과 전문 위원회의
          자문을 받아 실시하였다.
  • 조항
    4.4 옛글자 선정
    (1)    (1) 조사 자료 옛글자를 선정하기 위하여는 단국대학교 국문학과의 옛문헌 입력 자료를 이용하였다.
         입력된 자료들은 15세기부터 19세기 사이의 주로 근대 국어 시기의 문헌들로 구성되어 있다. 중세 국
         어의 문헌에 대하여는 한국어 전산학회 및 김흥규의 연구 결과를 바탕으로 한글 분과 위원회에서 고
         어사전 및 조선어 사전(유창돈 저) 을 조사하여 추가하였다.
          해설 표 1은 조사된 옛문헌의 자료이다.
    (2)    선정 기준 옛글자 선정을 위해 다음과 같이 기준을 설정하였다.
      (a) 고유어 표시의 옛글자를 중심으로 선정한다.
      (b) 몽고어, 만주어, 범어 및 일본어를 표기하기 위한 옛글자는 제외한다.
      (c) 개화기에 외국어를 표기하기 위한 글자도 제외한다.
      (d) 옛이응자(ㆁ)가 초성에 사용된 것은 포함시킨다. 그러나 종성에 사용된 것은 제외된다. 다만, 현
        대국어의 문자에 출현하지 않는 글자는 현대 한글에 포함시켜야 한다.
      (e) 동국정운식 한자음 목록은 제의한다. 다만, 훈민정음 해례본과 훈민정음 주해본에 등장하는 한자음
        은 포함시킨다.
    (3)    선정 방법
      (a) 중세 국어 문헌(15세기∼16세기) 및 근대 국어 문헌(17세기∼19세기) 중 필사본을 제외한 판
        본에 등장하는 옛글자 중 다음과 같은 글자를 선정하였다.
        · 빈도수가 많은 옛글자(보기: ,  등)
        · 어간형태소를 표시하기 위한 옛글자(보기: , 등)
        · 방언을 반영한 표기 문자(보기:' 고'의' ', ,  등)
        · 중세 국어 문헌에서 관형형으로 사용되는 문자(보기:'하 '의 논 등) 및 이와 연관되어
          출연 가능한 옛글자
      (b) 선정된 총 옛글자 수는 1,677자이며, 옛자모는 이두 자음군(ㅺ, ㅼ 등) 및 어말 자음군( ,
         ㅫ등) 은 모두 선정하여 특수문자 영역에 배열하였다.
      (c) 옛글자 선정 작업은 학계, 언론계, 산업계 및 연구계 전문가들로 구성된 한글 분과 위원회의 자문
         을 받아 실시하였다.
  • 조항
    4.5 한자의 선정
    확장 한자는 다양한 사용자 층을 만족시킬 수 있는 자종을 추출하기 위하여 한자사용 집
    단별로 자료를 수집하고, 수집 자료로부터 사용 번도, 분포도, 유용도 등을 근거로 2,865자를 선정하였다.
    (1)    선정 방침
      (a) 일상생할, 학문, 기술, 인명, 지명 등에 자주 쓰이는 한자 중에서 KS X 1001에 포함되어 있지 않
        은 자를 추가한다. 특히 성씨 중 누락된 자는 꼭 추가한다.
      (b) 신문, 도서관, 출판, 고전 등에서 자주 쓰이는 한자 중에서 KS X 1001에 포함되어 있지 않은 자를
        추가한다.
      (c) 자체는 KS X 1001과의 적합성을 고려하여 강회자전에 준한 정자체를 택한다.
      (d) 확장 한자의 배열은 동자 이음자, 두음 법칙에 의한 중복 배열은 허용하지 않고 자형당 하나의 코
        드를 부여한다.
      (e) 약자, 속자 및 이체자는 특별한 원칙을 설정하지 않고 본 연구의 선정기준에 의해 추출된 자는 모
        두 수용한다.
    (2)   조사 자료 보다 객관성 있는 한자의 선정을 위하여 가능한 한 다방면의 한자를 수집하도록 하였다.
       수집 자료의 대상별 구분은 다음과 같다.
      (a) 산업체(컴퓨터 제조업체)
      (b) 신문사(신문협회 코드 포함)
      (c) 국립 중앙 도서관 코드표
      (d) 출판사 한자리스트(일부업체)
      (e) 학계추천 고서입력한자
      (f) 회상사선정 인명용한자
     (g) KS X 1001의 한자 선정시 수집된 자료
        이에 따라 해설 표 2와 23개의 기관 또는 분야의 한자 자료로부터 총 108,589자의 한자(중복
       포함) 가 수집되었고 이를 발음별로 분류하여 동자동음의 중복을 제거한 후. 이로부터 KS와 비교
       하여 KS와 동자동음자를 추려내고 9,000여자의 확장한자 기초 리스트를 작성하였다.
    (3)    한자 선정 방법
      (a) 4.3의 23개 자료로부터 수집한 총 108,589(중복포함) 자의 한자를 수집 자료에 표시된 음별로
        분류하고 서로 중복된 자(동자동음) 들을 제외시켰다. 또, KS X 1001에 포함된 자도 제외하였다.
        이 때, 수집된 자 중 음이 없이 부획으로 기재된 것은 그대로 포함시켰다. 이 결과 9,118자의 한
        자가 선정되었다. 보다 자주 쓰이는 자종을 선정하기 위하여 본 연구에서는 선정의 기준으로 수집
        한 자종의 사용 빈도수, 분포도를 고려하고, 사용 빈도수의 산출은 일반적으로 각 분야를 망라해서
        사용되는 한자 사전의 용례수를 근거로 하였다. 사전은 국내에서 발행되는 한자 사전 중 최대자를
        수용하는 민중서관 발행(장삼식 저)의 대한 한사전을 사용하였다.
      (b) 우선 9.118자의 각 한자를 사전과 비교하여 사전에 수록된 자와 수록되지 않은 자를 분류하고,
        사전에 없는 39자에 대하여는 분포도, 유용도 등을 고려하여 선정을 결정하였다.
      (c) 다음 사전에 포함된 9,079자를 사전과 대조하여 수집한자의 작성시 표기오류, 폰트의 변형에 의한
        문제들을 추출하고 한자 사전에 의거하여 재작성 하였다. 동시에 각자의 용례수 및 사전의 대표
        음을 작성하고 부획순으로 분류하였다. 그 후 이들 9,079자 중에서 자형이 같은 자, KS에 자형이
        포함된 자들을 제외시켰다. 이와 같이 하여 자형자체가 KS에 포함되지 않고 서로 중복되지 않는
        한자 7,750자를 추출 하였다.
      (d) 다음 단계에서는 이 기초 리스트의 빈도수(사전 용례수) 및 분포도를 조사하고, 이들 자료를 토대로
        수차에 걸친 시험결과 빈도 2이상 그리고 분포도 3이상인 한자 2,422자를 추출하였다.
      (e) 다음은 마지막으로 상기 과정에서 누락된 자 및 사전에 포함되지 않은 자 중 유용도에 의해 429자
        를 추출하고 추가하였다. 이것은 빈도, 분포도는 낮아도 인명, 지명 등에 자주 쓰이는 자의 누락을
        배제하기 위함이다. 이렇게 하여 총 2,851자를 추출한 후 대법원에서 지정한 인명용 한자리스트
        중 본 시안에 누락된 자 5자를 추가하여 2,856자의 확장한자를 선정하였다.
    (4)   배열 방법 
    배열 방법은 기본적으로 KS X 1001의 한자와 같이 동자 다음을 허용하는 발음별로 코드
       를 부여하는 방식과 중복을 허용하지 않고 하나의 자형당 하나의 코드를 부여하는 부획순 또는 대표
       음에 의한 배열 방식이었는데 앙케이트 및 관련 전문가의 의견을 수렴한 결과, 후자를 지지하는 의
       견이 압도적인 것으로 나타났다. 주된 이유로는, 첫째, 코드 영역의 낭비를 막을 수 있고, 둘째, 한자
       의 음을 고정해 버리는 위험을 막을 수 있다는 점이 평가 되었다.
        이에 대한 단점으로 기존의 KS X 1001의 한자 코드와 배열 방법이 일치하지 않는다는 점과, 한자
       변환사전 및 소프트웨어 개발의 추가 부담이 필요하다는 점을 들 수 있다.
        이들 배열 방법에 대한 장단점 및 공청회 결과 등을 정리하여 자문 위원회에 검토 요청한 결과,
       최종적으로 대표음에 의해 배열하는 것으로 확정되었다. 코드표상의 배열은 제1확장 세트에 가나다
       대표음 순으로 배열하고 같은 음에 대해서는 부수 획순으로 하였다.
  • 조항
    5. 참 고
  • 조항
    5.1
    구체적인 부호의 지시 및 호출 방법은 KS X 1004를 참고한다.
  • 조항
    5.2
    이 규격에 명시되지 않은 사항은 KS X 1004에 따른다.