한·중·일 글자수 산출 기준 비교
한국어·중국어·일본어의 글자수 계산 방식 차이와 CJK(Chinese-Japanese-Korean) 문자 처리의 기술적 배경, 다국어 콘텐츠 제작 시 주의사항을 설명합니다.
Q.한국어·중국어·일본어에서 글자수를 계산하는 방식이 다른가요?
네, 다릅니다. 한국어는 음절(가나다) 단위로 계산하고, 중국어는 한자 1자=1글자로 계산합니다. 일본어는 히라가나·가타카나·한자를 혼용하는데, 일반적으로 문자 개수(字数)로 계산합니다. 유니코드에서는 세 언어 모두 대부분 BMP(Basic Multilingual Plane) 영역에 속합니다.
중국 파트너사에서 받은 계약서가 "3,000자 이내"라고 했는데 한국어로 번역했더니 6,000자가 넘었다면, 한·중 글자수 개념이 다르기 때문이다. 다국어 문서를 다룰 때 이 차이를 모르면 분량 협의에서 오해가 생긴다.
언어별 글자(文字) 개념
| 언어 | 글자 단위 | 예시 |
|---|---|---|
| 한국어 | 음절(자모 결합) | "가" = 1자, "박" = 1자 |
| 중국어(중화권) | 한자 | "中" = 1字 |
| 일본어 | 문자(字) 혼용 | "あ" = 1字, "漢" = 1字 |
| 영어 | 글자(letter) 또는 단어 | "a" = 1 character |
한국어 글자수 계산
한국어에서 "글자수"는 일반적으로 음절(음절 단위 글자) 기준이다.
- "안녕하세요" = 5자 (음절 5개)
- "대한민국" = 4자
- 공백도 1자로 계산하는 경우와 그렇지 않은 경우가 있음
자소(자음+모음) 분리 시 "ㄱ", "ㅏ" 각각 1자로 세는 경우도 있으나(자소 기준), 일반적인 글자수는 음절 기준이다.
중국어 글자수 계산
중국어(간체·번체)에서 "字数"는 한자 1개=1字다.
- "你好" = 2字
- 구두점도 1字로 계산하는 경우 多
- 공백은 일반적으로 글자수에 미포함
중국 학술 논문은 보통 "8,000字 이내"처럼 字数 기준을 사용한다.
일본어 글자수 계산
일본어는 히라가나·가타카나·한자·로마자가 혼용된다.
- "日本語" = 3文字 (한자)
- "にほんご" = 4文字 (히라가나)
- 원고지 계산(400字詰): 1칸=1文字, 공백·구두점도 1칸
일본 출판 시장에서는 "원고지 몇 장"으로 분량을 말하는 관행이 있다(400자 원고지 기준).
CJK 문자의 기술적 처리
유니코드에서 한·중·일 한자는 CJK Unified Ideographs 블록(U+4E00~U+9FFF)에 통합되어 있다. 이 블록에는 20,902개의 기본 한자가 포함된다.
프로그래밍에서 글자수를 셀 때 주의:
python
# Python: len()은 유니코드 코드포인트 수
len("안녕") == 2 # True (음절 기준)
len("🎉") == 1 # True (이모지 1개)
# 이모지 중 일부는 여러 코드포인트 조합
len("👨👩👧") == 8 # 가족 이모지는 ZWJ 시퀀스로 8 코드포인트
다국어 환경에서 글자수 제한을 구현할 때는 "코드포인트 수"가 아닌 사용자에게 보이는 "글자 수"(grapheme cluster)로 계산해야 한다.
---
이 글은 AI가 공개 자료를 기반으로 작성했습니다. 다국어 처리는 사용 언어와 라이브러리에 따라 다르니 공식 문서를 확인하세요.