huashu-md-html:一键完成 Markdown 和 HTML 互转的万能文档工具

做内容的站长经常遇到这样的场景:拿到了一篇 HTML 格式的文章想转成 Markdown 编辑,或者写好了 Markdown 想生成精美的 HTML 页面发布。格式转换这件事,手动做费时费力,现有的在线工具又常常丢格式、乱排版。huashu-md-html 是一个开源的命令行工具,目标就是一站式解决这些文档转换需求。

项目简介

huashu-md-html 是一个基于 Python 的文档格式转换工具,它封装了多个成熟的转换引擎,提供三个核心能力:

  • 万物 → Markdown:将 PDF、Word、HTML、图片等各种格式转为 Markdown
  • Markdown → 精美 HTML:将 Markdown 转为带主题样式的 HTML 页面
  • HTML → Markdown:将 HTML 页面转回 Markdown 格式

项目地址:https://github.com/alchaincyf/huashu-md-html(429 Stars)

技术栈

huashu-md-html 底层使用了以下工具:

  • markitdown:微软出品的文档转 Markdown 工具,支持 PDF、Word、PPT、图片等格式
  • Pandoc:万能文档转换器,支持几十种格式之间的相互转换
  • html-to-markdown:专门处理 HTML 到 Markdown 的转换,保留格式更准确
  • trafilatura:网页内容提取工具,能从网页中提取正文、去除广告和导航

安装方法

1. 克隆项目

git clone https://github.com/alchaincyf/huashu-md-html.git
cd huashu-md-html

2. 安装依赖

pip install -r requirements.txt

3. 安装 Pandoc(如未安装)

# macOS
brew install pandoc

# Ubuntu/Debian
sudo apt install pandoc

# Windows
# 从 https://pandoc.org/installing.html 下载安装

使用示例

将 HTML 转为 Markdown

python huashu.py html2md input.html -o output.md

将 Markdown 转为精美 HTML

python huashu.py md2html input.md -o output.html --theme elegant

内置了 4 套反 AI slop 主题(即避免 AI 生成内容那种千篇一律的排版风格),生成的 HTML 页面更像人工手写的效果。

从网页提取内容

python huashu.py fetch https://example.com/article -o article.md

批量转换

python huashu.py batch-convert ./html_files/ --from html --to md --output ./md_files/

4 套内置主题

huashu-md-html 提供了 4 套精心设计的 HTML 主题,用于将 Markdown 转为美观的 HTML 页面:

  • elegant:简洁优雅风格,适合技术博客和文档
  • magazine:杂志排版风格,适合内容丰富的长文
  • minimal:极简风格,适合个人笔记和快速分享
  • classic:经典排版风格,适合正式文档和报告

适用场景

  • 内容迁移:将旧网站的 HTML 内容批量转为 Markdown,迁移到新平台
  • 文档整理:将各种格式的文档统一为 Markdown 格式管理
  • 文章发布:将 Markdown 写作转为精美的 HTML 页面发布到网站
  • 网页抓取:从网页中提取正文内容,去除广告和无关元素
  • 格式归档:将不同格式的文档统一转换为一种格式归档

与其他工具的对比

  • vs Pandoc 直接使用:huashu-md-html 封装了 Pandoc,使用更简单,且提供了额外的主题和网页抓取功能
  • vs 在线转换工具:本地运行,不会上传文档到第三方服务器,隐私更安全
  • vs markitdown 直接使用:huashu-md-html 在 markitdown 基础上增加了 HTML 转换和主题支持

注意事项

  • 复杂的 HTML 页面(大量 CSS 动画、JavaScript 交互)转换后可能会丢失部分效果
  • PDF 中的图片和表格转换效果取决于 PDF 的结构化程度
  • Pandoc 的安装是必要的,缺少 Pandoc 会导致部分功能不可用
  • 支持 Claude Code skill,可以在 Claude Code 中直接调用

简评

huashu-md-html 把多个文档转换工具整合在一起,提供了统一的命令行接口,省去了记忆各种工具参数的麻烦。对于经常需要在 Markdown 和 HTML 之间切换的站长来说,这是一个很实用的效率工具。内置的 4 套主题质量不错,生成的 HTML 页面不会像 AI 生成的那样千篇一律。

来源:

© 版权声明
THE END
喜欢就支持一下吧
点赞12 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容