블로그 목록으로
텍스트 편집
2026년 5월 6일

마크다운 서식 정리 - 블로그 이전 시 불필요한 태그 제거

워드프레스·티스토리·노션에서 블로그를 이전할 때 발생하는 불필요한 마크다운 태그와 HTML 잔여 코드를 정리하는 방법을 설명합니다.

Q.블로그 이전 시 마크다운 서식을 깨끗하게 정리하려면 어떻게 해야 하나요?

먼저 Pandoc이나 텍스트 도구로 HTML 태그를 마크다운 또는 순수 텍스트로 변환합니다. 이후 정규식으로 잔여 HTML 태그를 제거하고, CommonMark 기준으로 서식을 통일합니다. 노션 내보내기 파일은 비표준 마크다운 문법이 포함될 수 있어 별도 처리가 필요합니다.

마크다운 정리블로그 이전 태그 제거Pandoc마크다운 변환

블로그를 이전하면서 콘텐츠를 복사했더니

같은 HTML 태그가 마크다운 파일 곳곳에 남아 있다면, 이 잔여 태그가 새 플랫폼에서 렌더링 오류를 일으킨다. 워드프레스에서 티스토리로 이전하는 과정에서 HTML 잔여 태그가 평균 30-40개 발생한다는 보고가 있다.

마크다운 표준 - CommonMark

2014년에 제정된 CommonMark는 마크다운 문법의 통일 규격이다. 깃허브, 레딧, 스택오버플로 등 주요 플랫폼이 CommonMark를 기반으로 한다. 플랫폼마다 마크다운 구현이 달라 이전 시 서식이 깨지는 주원인은 CommonMark 준수 여부 차이다.

주요 마크다운 오염 원인

출처주요 오염 요소
워드프레스블록 에디터 div, 인라인 style 속성
티스토리
노션 내보내기비표준 토글(
), callout 박스
Google Docsspan 태그, font-size 인라인 스타일
MS Wordmso- 스타일, XML 네임스페이스

단계별 정리 방법

1단계: HTML → 마크다운 변환 (Pandoc)

Pandoc(MIT 라이선스)은 HTML을 마크다운으로 변환하는 가장 신뢰할 수 있는 도구다.

bash
pandoc -f html -t markdown input.html -o output.md

CommonMark 호환 출력이 필요하면:

bash
pandoc -f html -t commonmark input.html -o output.md

2단계: 정규식으로 잔여 HTML 태그 제거

변환 후에도 남은 HTML 태그는 정규식으로 제거한다.


# 모든 HTML 태그 제거 패턴
<[^>]+>

# 인라인 style 속성 제거
s*style="[^"]*"

# class 속성 제거
s*class="[^"]*"

텍스트 편집기(VS Code, Sublime Text)의 정규식 치환(Ctrl+H, 정규식 옵션 활성화)으로 일괄 처리할 수 있다.

3단계: 마크다운 서식 통일

  • 제목: # 기반 ATX 스타일로 통일 (Setext 스타일 === 혼용 금지)
  • 목록: - 또는 한 가지로 통일
  • 굵은 글씨: text 로 통일 (__text__ 혼용 금지)
  • 줄바꿈: 공백 2개 대신 빈 줄로 문단 구분

4단계: 노션 특수 처리

노션 내보내기 파일의 특수 요소:

  • 토글:
    태그로 출력됨 → 일반 섹션으로 재구성
  • Callout 박스: 블록인용()>) 으로 변환
  • 데이터베이스 뷰: 마크다운 테이블로 수동 재구성

이전 후 검증 체크리스트

  • [ ] 본문에
    , ,