做内容的站长经常遇到这样的场景:拿到了一篇 HTML 格式的文章想转成 Markdown 编辑,或者写好了 Markdown 想生成精美的 HTML 页面发布。格式转换这件事,手动做费时费力,现有的在线工具又常常丢格式、乱排版。huashu-md-html 是一个开源的命令行工具,目标就是一站式解决这些文档转换需求。
项目简介
huashu-md-html 是一个基于 Python 的文档格式转换工具,它封装了多个成熟的转换引擎,提供三个核心能力:
- 万物 → Markdown:将 PDF、Word、HTML、图片等各种格式转为 Markdown
- Markdown → 精美 HTML:将 Markdown 转为带主题样式的 HTML 页面
- HTML → Markdown:将 HTML 页面转回 Markdown 格式
项目地址:https://github.com/alchaincyf/huashu-md-html(429 Stars)
技术栈
huashu-md-html 底层使用了以下工具:
- markitdown:微软出品的文档转 Markdown 工具,支持 PDF、Word、PPT、图片等格式
- Pandoc:万能文档转换器,支持几十种格式之间的相互转换
- html-to-markdown:专门处理 HTML 到 Markdown 的转换,保留格式更准确
- trafilatura:网页内容提取工具,能从网页中提取正文、去除广告和导航
安装方法
1. 克隆项目
git clone https://github.com/alchaincyf/huashu-md-html.git
cd huashu-md-html
2. 安装依赖
pip install -r requirements.txt
3. 安装 Pandoc(如未安装)
# macOS
brew install pandoc
# Ubuntu/Debian
sudo apt install pandoc
# Windows
# 从 https://pandoc.org/installing.html 下载安装
使用示例
将 HTML 转为 Markdown
python huashu.py html2md input.html -o output.md
将 Markdown 转为精美 HTML
python huashu.py md2html input.md -o output.html --theme elegant
内置了 4 套反 AI slop 主题(即避免 AI 生成内容那种千篇一律的排版风格),生成的 HTML 页面更像人工手写的效果。
从网页提取内容
python huashu.py fetch https://example.com/article -o article.md
批量转换
python huashu.py batch-convert ./html_files/ --from html --to md --output ./md_files/
4 套内置主题
huashu-md-html 提供了 4 套精心设计的 HTML 主题,用于将 Markdown 转为美观的 HTML 页面:
- elegant:简洁优雅风格,适合技术博客和文档
- magazine:杂志排版风格,适合内容丰富的长文
- minimal:极简风格,适合个人笔记和快速分享
- classic:经典排版风格,适合正式文档和报告
适用场景
- 内容迁移:将旧网站的 HTML 内容批量转为 Markdown,迁移到新平台
- 文档整理:将各种格式的文档统一为 Markdown 格式管理
- 文章发布:将 Markdown 写作转为精美的 HTML 页面发布到网站
- 网页抓取:从网页中提取正文内容,去除广告和无关元素
- 格式归档:将不同格式的文档统一转换为一种格式归档
与其他工具的对比
- vs Pandoc 直接使用:huashu-md-html 封装了 Pandoc,使用更简单,且提供了额外的主题和网页抓取功能
- vs 在线转换工具:本地运行,不会上传文档到第三方服务器,隐私更安全
- vs markitdown 直接使用:huashu-md-html 在 markitdown 基础上增加了 HTML 转换和主题支持
注意事项
- 复杂的 HTML 页面(大量 CSS 动画、JavaScript 交互)转换后可能会丢失部分效果
- PDF 中的图片和表格转换效果取决于 PDF 的结构化程度
- Pandoc 的安装是必要的,缺少 Pandoc 会导致部分功能不可用
- 支持 Claude Code skill,可以在 Claude Code 中直接调用
简评
huashu-md-html 把多个文档转换工具整合在一起,提供了统一的命令行接口,省去了记忆各种工具参数的麻烦。对于经常需要在 Markdown 和 HTML 之间切换的站长来说,这是一个很实用的效率工具。内置的 4 套主题质量不错,生成的 HTML 页面不会像 AI 生成的那样千篇一律。
来源:
© 版权声明
THE END
















暂无评论内容