마크다운 서식 정리 - 블로그 이전 시 불필요한 태그 제거
워드프레스·티스토리·노션에서 블로그를 이전할 때 발생하는 불필요한 마크다운 태그와 HTML 잔여 코드를 정리하는 방법을 설명합니다.
Q.블로그 이전 시 마크다운 서식을 깨끗하게 정리하려면 어떻게 해야 하나요?
먼저 Pandoc이나 텍스트 도구로 HTML 태그를 마크다운 또는 순수 텍스트로 변환합니다. 이후 정규식으로 잔여 HTML 태그를 제거하고, CommonMark 기준으로 서식을 통일합니다. 노션 내보내기 파일은 비표준 마크다운 문법이 포함될 수 있어 별도 처리가 필요합니다.
블로그를 이전하면서 콘텐츠를 복사했더니 2014년에 제정된 CommonMark는 마크다운 문법의 통일 규격이다. 깃허브, 레딧, 스택오버플로 등 주요 플랫폼이 CommonMark를 기반으로 한다. 플랫폼마다 마크다운 구현이 달라 이전 시 서식이 깨지는 주원인은 CommonMark 준수 여부 차이다. Pandoc(MIT 라이선스)은 HTML을 마크다운으로 변환하는 가장 신뢰할 수 있는 도구다. CommonMark 호환 출력이 필요하면: 변환 후에도 남은 HTML 태그는 정규식으로 제거한다. 텍스트 편집기(VS Code, Sublime Text)의 정규식 치환(Ctrl+H, 정규식 옵션 활성화)으로 일괄 처리할 수 있다. 노션 내보내기 파일의 특수 요소: --- 이 글은 AI가 공개 자료를 기반으로 작성했습니다. 플랫폼별 마크다운 구현 차이는 각 플랫폼 공식 문서를 참조하세요. Pandoc 오픈소스마크다운 표준 - CommonMark
주요 마크다운 오염 원인
출처 주요 오염 요소 워드프레스 블록 에디터 div, 인라인 style 속성 티스토리 노션 내보내기 비표준 토글( ), callout 박스Google Docs span 태그, font-size 인라인 스타일 MS Word mso- 스타일, XML 네임스페이스 단계별 정리 방법
1단계: HTML → 마크다운 변환 (Pandoc)
bash
pandoc -f html -t markdown input.html -o output.md
bash
pandoc -f html -t commonmark input.html -o output.md
2단계: 정규식으로 잔여 HTML 태그 제거
# 모든 HTML 태그 제거 패턴
<[^>]+>
# 인라인 style 속성 제거
s*style="[^"]*"
# class 속성 제거
s*class="[^"]*"
3단계: 마크다운 서식 통일
# 기반 ATX 스타일로 통일 (Setext 스타일 === 혼용 금지)- 또는 한 가지로 통일text 로 통일 (__text__ 혼용 금지)4단계: 노션 특수 처리
태그로 출력됨 → 일반 섹션으로 재구성)>) 으로 변환이전 후 검증 체크리스트
, 태그가 남아 있지 않은가?텍스트 편집 도구 사용하기
관련 글
추가 참고 자료
다른 글 보기