当前位置: 首页 > news >正文

【pandoc实践】如何将wordpress文章批量导出为Markdown格式

如何将wordpress文章批量导出为Markdown格式,这里建议用pandoc这个工具,之前的文章里有简单描述使用说明:

关于如何安装和使用在这里就不做过度赘述。

首先需要在wp后台将文章进行导出,从【工具】-【文章】实现:

img

因为下载的是xml格式,需要转换格式,这里就需要【pandoc】这个软件,按之前的教程安装即可:

首先需要使用管理员打开PowerShell,可以使用命令查看是否安装成功:

img

然后查找至自己刚刚下载的文章路径,这里我的路径是 cd C:\Users\杨东旭\Documents\MD文档\文章复制

cd [自己的文章.xml文件路径]

可以通过命令,将xml直接转换为markdown:

pandoc -f docbook -t markdown -o output.md WordPress.2025-07-16.xml

但是有时候如果发现直接转换效果不佳,可以先将 XML 转换为中间格式(如 HTML),再转换为 Markdown:

pandoc -f docbook -t html -o temp1.html WordPress.2025-07-18.xml

具体的操作可参考截图:

img

当然,如果 XML 包含多篇文章,可能需要先拆分文件。可以使用 Python 脚本提取每篇文章后再单独转换:

import xml.etree.ElementTree as ET# 解析XML文件
tree = ET.parse('input.xml')
root = tree.getroot()# 提取所有文章
posts = []
for item in root.findall('.//item'):title = item.find('title').textcontent = item.find('content:encoded', namespaces={'content': 'http://purl.org/rss/1.0/modules/content/'}).textposts.append({'title': title, 'content': content})# 保存每篇文章为单独文件
for i, post in enumerate(posts):with open(f'article_{i}.html', 'w', encoding='utf-8') as f:f.write(post['content'])

按自己个人需要修改代码,然后对每个生成的 HTML 文件执行 Pandoc 转换:

for file in article_*.html; dopandoc -f html -t markdown -o "${file%.html}.md" "$file"done

最后,通过添加参数调整输出格式,例如:

pandoc -f docbook -t markdown_strict --wrap=preserve -o output.md input.xml

--wrap=preserve:保留原始文本换行。

markdown_strict:使用严格的 Markdown 格式。


将html文件可以通过这个网址实现在线转为MD格式,右侧点击【Import HTML】即可,如下图:

img

然后点击【Export as Markdown】导出为.md文件

当然更简单点通过wp插件库中,安装插件直接导出 Markdown:

  • WP to Markdown:将现有文章批量转换为 Markdown 文件。
  • Markdown Export:导出单个或多篇文章为 Markdown。

不过我没找到好用的插件,只能采用如上方式,欢迎在留言区交流。

http://www.lryc.cn/news/594406.html

相关文章:

  • Spring Boot 自动装配用法
  • 从0开始学linux韦东山教程Linux驱动入门实验班(4)
  • Spring Boot 一个注解搞定「加密 + 解密 + 签名 + 验签」
  • 零基础 “入坑” Java--- 十三、再谈类和接口
  • KOSMOS-2: 将多模态大型语言模型与世界对接
  • 算法训练营day25 回溯算法④ 补充联系题目 332.重新安排行程、51. N皇后、37. 解数独
  • PID控制原理分析及应用(稳态误差详细分析)(一)
  • 30天打牢数模基础-卷积神经网络讲解
  • STM32-第八节-TIM定时器-4(编码器接口)
  • 2025 年科技革命时刻表:四大关键节点将如何重塑未来?
  • 【高等数学】第四章 不定积分——第五节 积分表的使用
  • 【实战1】手写字识别 Pytoch(更新中)
  • RTC外设详解
  • Vuex 核心知识详解:Vue2Vue3 状态管理指南
  • Qt--Widget类对象的构造函数分析
  • 【vue-7】Vue3 响应式数据声明:深入理解 reactive()
  • 2024年青少年信息素养大赛图形化编程小低组初赛真题(含答案)
  • ZooKeeper学习专栏(二):深入 Watch 机制与会话管理
  • C语言:深入理解指针(2)
  • 网络地址和主机地址之间进行转换的类
  • 剑指offer66_不用加减乘除做加法
  • Spring Boot 订单超时自动取消的 3 种主流实现方案
  • 腾讯二面手撕题:BatchNorm和LayerNorm
  • 08_Opencv_基本图形绘制
  • 学成在线项目
  • Eureka+LoadBalancer实现服务注册与发现
  • 限流算法与实现
  • Shell脚本-tee工具
  • Kafka 在分布式系统中的关键特性与机制深度解析
  • kotlin Flow快速学习2025