블로그 목록으로
텍스트 편집
2026년 5월 4일

텍스트 분석으로 내 글의 어휘 다양성 높이는 방법

TTR(Type-Token Ratio) 지표를 활용해 글의 어휘 다양성을 측정하고, 단조로운 반복 표현을 개선하는 구체적인 방법을 설명합니다.

Q.내 글의 어휘 다양성을 어떻게 측정하나요?

TTR(Type-Token Ratio)을 사용합니다. 전체 단어 수에서 고유 단어 수가 차지하는 비율이며, 0.4-0.6이 일반적으로 양호한 범위입니다. 반복 단어 비율이 20%를 넘으면 독자 피로도가 급격히 증가합니다.

어휘 다양성TTR텍스트 분석반복 표현 제거

블로그 글을 쓰고 나서 "왠지 단조롭다"는 느낌이 든다면 어휘 다양성 부족이 원인일 수 있다. Nielsen Norman Group의 연구에 따르면 반복 단어 비율이 20%를 초과하면 독자 집중도가 40% 이상 떨어진다. 텍스트를 수치로 분석하면 직관보다 정확하게 문제를 찾아낼 수 있다.

TTR(Type-Token Ratio)란?

TTR은 글의 어휘 다양성을 측정하는 기본 지표다.

TTR = 고유 단어 수 ÷ 전체 단어 수 × 100

예시: 100단어 글에 고유 단어가 45개라면 TTR = 45%.

TTR 범위평가
70% 이상매우 다양 (전문 학술글)
40-60%양호 (블로그·기사)
30-40%개선 권장
30% 미만단조로움, 반복 심각

단, TTR은 글이 길수록 낮아지는 경향이 있다. 2,000자 이상 글에서는 30-45%도 정상 범위로 볼 수 있다.

어휘 다양성 측정 방법

1. 텍스트 분석 도구 활용

Texturb와 같은 텍스트 분석 도구에 글을 붙여넣으면 단어 빈도, 반복 단어 목록, 어휘 다양성 점수를 바로 확인할 수 있다.

2. 고빈도 단어 추출

단어 빈도 분석에서 상위 10개 단어를 추출한다. 내용어(명사·동사·형용사) 중 특정 단어가 전체의 3% 이상이면 동의어 교체를 검토한다.

3. MATTR(Moving Average TTR)

긴 글에서는 MATTR을 사용한다. 100단어 단위 윈도우를 이동시키며 TTR을 측정해 평균을 낸다. 일관된 다양성 유지 여부를 확인하기에 적합하다.

어휘 다양성 개선 5단계

1단계: 전체 텍스트에서 단어 빈도 분석 실행

2단계: 상위 5개 고빈도 단어 식별

3단계: 동의어·유의어 사전으로 대안 탐색 (국립국어원 우리말샘 활용)

4단계: 문맥에 맞는 단어로 교체 (의미 변형 주의)

5단계: 교체 후 재분석으로 TTR 변화 확인

동의어 사전을 적극 활용하면 TTR을 10-15%p 개선할 수 있다.

자주 반복되는 한국어 표현과 대안

반복 표현대안 표현
중요하다핵심적이다, 필수적이다, 결정적이다
다양한여러, 다채로운, 폭넓은
방법방식, 기법, 절차, 수단
확인하다점검하다, 검토하다, 파악하다
제공하다공급하다, 지원하다, 전달하다

주의사항

어휘를 다양하게 한다고 억지로 생소한 단어를 쓰면 오히려 가독성이 떨어진다. 기술 문서나 법령에서는 용어 통일이 더 중요하므로, 장르에 따라 적정 TTR 기준이 다르다는 점을 고려해야 한다.

---

이 글은 AI가 공개 자료를 기반으로 작성했습니다. TTR 기준값은 연구자·장르에 따라 다를 수 있습니다.

텍스트 분석 도구 사용하기

바로 가기 →

관련 글

추가 참고 자료

다른 글 보기