텍스트 분석으로 내 글의 어휘 다양성 높이는 방법
TTR(Type-Token Ratio) 지표를 활용해 글의 어휘 다양성을 측정하고, 단조로운 반복 표현을 개선하는 구체적인 방법을 설명합니다.
Q.내 글의 어휘 다양성을 어떻게 측정하나요?
TTR(Type-Token Ratio)을 사용합니다. 전체 단어 수에서 고유 단어 수가 차지하는 비율이며, 0.4-0.6이 일반적으로 양호한 범위입니다. 반복 단어 비율이 20%를 넘으면 독자 피로도가 급격히 증가합니다.
블로그 글을 쓰고 나서 "왠지 단조롭다"는 느낌이 든다면 어휘 다양성 부족이 원인일 수 있다. Nielsen Norman Group의 연구에 따르면 반복 단어 비율이 20%를 초과하면 독자 집중도가 40% 이상 떨어진다. 텍스트를 수치로 분석하면 직관보다 정확하게 문제를 찾아낼 수 있다.
TTR(Type-Token Ratio)란?
TTR은 글의 어휘 다양성을 측정하는 기본 지표다.
TTR = 고유 단어 수 ÷ 전체 단어 수 × 100
예시: 100단어 글에 고유 단어가 45개라면 TTR = 45%.
| TTR 범위 | 평가 |
|---|---|
| 70% 이상 | 매우 다양 (전문 학술글) |
| 40-60% | 양호 (블로그·기사) |
| 30-40% | 개선 권장 |
| 30% 미만 | 단조로움, 반복 심각 |
단, TTR은 글이 길수록 낮아지는 경향이 있다. 2,000자 이상 글에서는 30-45%도 정상 범위로 볼 수 있다.
어휘 다양성 측정 방법
1. 텍스트 분석 도구 활용
Texturb와 같은 텍스트 분석 도구에 글을 붙여넣으면 단어 빈도, 반복 단어 목록, 어휘 다양성 점수를 바로 확인할 수 있다.
2. 고빈도 단어 추출
단어 빈도 분석에서 상위 10개 단어를 추출한다. 내용어(명사·동사·형용사) 중 특정 단어가 전체의 3% 이상이면 동의어 교체를 검토한다.
3. MATTR(Moving Average TTR)
긴 글에서는 MATTR을 사용한다. 100단어 단위 윈도우를 이동시키며 TTR을 측정해 평균을 낸다. 일관된 다양성 유지 여부를 확인하기에 적합하다.
어휘 다양성 개선 5단계
1단계: 전체 텍스트에서 단어 빈도 분석 실행
2단계: 상위 5개 고빈도 단어 식별
3단계: 동의어·유의어 사전으로 대안 탐색 (국립국어원 우리말샘 활용)
4단계: 문맥에 맞는 단어로 교체 (의미 변형 주의)
5단계: 교체 후 재분석으로 TTR 변화 확인
동의어 사전을 적극 활용하면 TTR을 10-15%p 개선할 수 있다.
자주 반복되는 한국어 표현과 대안
| 반복 표현 | 대안 표현 |
|---|---|
| 중요하다 | 핵심적이다, 필수적이다, 결정적이다 |
| 다양한 | 여러, 다채로운, 폭넓은 |
| 방법 | 방식, 기법, 절차, 수단 |
| 확인하다 | 점검하다, 검토하다, 파악하다 |
| 제공하다 | 공급하다, 지원하다, 전달하다 |
주의사항
어휘를 다양하게 한다고 억지로 생소한 단어를 쓰면 오히려 가독성이 떨어진다. 기술 문서나 법령에서는 용어 통일이 더 중요하므로, 장르에 따라 적정 TTR 기준이 다르다는 점을 고려해야 한다.
---
이 글은 AI가 공개 자료를 기반으로 작성했습니다. TTR 기준값은 연구자·장르에 따라 다를 수 있습니다.