当前位置: 首页 > article >正文

html表格转换为markdown

文章目录

        • 工具功能亮点
        • 1.核心实现解析
          • 1. 剪贴板交互
          • 2. HTML检测与提取
          • 3. 转换规则设计
        • 2. 完整代码

在日常工作中,我们经常遇到需要将网页表格快速转换为Markdown格式的场景。无论是文档编写、知识整理还是数据迁移,手动转换既耗时又容易出错。本文将介绍一个基于Go语言开发的轻量级工具,它能自动从剪贴板提取HTML表格并转换为Markdown格式。


工具功能亮点
  1. 一键转换:直接读取剪贴板中的HTML内容
  2. 智能识别:自动检测并提取首个HTML表格
  3. 格式优化:保留表格结构并添加Markdown语法
  4. 无缝衔接:结果自动写回剪贴板

1.核心实现解析
1. 剪贴板交互
// 读取剪贴板内容
content, err := clipboard.ReadAll()// 将结果写回剪贴板
err = clipboard.WriteAll(markdown)

使用atotto/clipboard库实现跨平台剪贴板操作,无需文件中间步骤。

2. HTML检测与提取
func isHTML(s string) bool {return strings.Contains(s, "<table") || strings.Contains(s, "<tr")
}func extractFirstTable(html string) string {start := strings.Index(html, "<table")end := strings.Index(html[start:], "</table>")return html[start:start+end+8] // 截取完整table标签
}

通过简单高效的字符串扫描定位表格位置,避免复杂解析。

3. 转换规则设计
converter.AddRules(md.Rule{Filter: []string{"table", "tr", "td", "th"},Replacement: func(content string, selec *goquery.Selection) *string {if selec.Is("tr") {return md.String("|" + content + "|\n")}if selec.Is("td") {return md.String(strings.TrimSpace(content) + "|")}// 其他元素处理...}
})

关键转换逻辑:

  • tr 转换为行:|内容|
  • td/th 转换为单元格:内容|
  • 自动添加表头分隔线:|---|---|

2. 完整代码
package mainimport ("fmt""log""os""strings"md "github.com/JohannesKaufmann/html-to-markdown""github.com/PuerkitoBio/goquery""github.com/atotto/clipboard"
)func main() {// 读取剪贴板内容content, err := clipboard.ReadAll()if err != nil {log.Fatal("读取剪贴板失败:", err)}// 检查是否为HTML内容if !isHTML(content) {fmt.Println("剪贴板内容不是HTML格式")os.Exit(0)}// 提取第一个表格tableHTML, err := extractFirstTable(content)if err != nil {log.Fatal("提取表格失败:", err)}if tableHTML == "" {fmt.Println("未找到HTML表格")os.Exit(0)}// 转换为Markdownconverter := md.NewConverter("", true, nil)// 添加表格转换规则converter.AddRules(md.Rule{Filter: []string{"table", "tr", "td", "th"},Replacement: func(content string, selec *goquery.Selection, opt *md.Options) *string {if selec.Is("table") {// 添加表头分隔线rows := strings.Split(strings.TrimSpace(content), "\n")if len(rows) > 1 {header := rows[0]cols := strings.Count(header, "|") - 1separator := "|" + strings.Repeat("---|", cols)// 合并所有行,确保每行数据单独显示content = strings.Join(append([]string{header, separator}, rows[1:]...), "\n") + "\n"}return &content}if selec.Is("tr") {content = "|" + strings.TrimRight(content, "|") + "|\n"return &content}if selec.Is("th") || selec.Is("td") {content = strings.ReplaceAll(content, "\n", "<br>")content = strings.TrimSpace(content) + "|"return &content}return nil},},)markdown, err := converter.ConvertString(tableHTML)if err != nil {log.Fatal("转换Markdown失败:", err)}// 输出结果到控制台fmt.Println("转换后的Markdown表格:")fmt.Println(markdown)// 将结果写入剪贴板err = clipboard.WriteAll(markdown)if err != nil {log.Fatal("写入剪贴板失败:", err)}fmt.Println("已成功将Markdown表格写入剪贴板")
}// isHTML 检查字符串是否是HTML格式
func isHTML(s string) bool {return strings.Contains(strings.ToLower(s), "<html") ||strings.Contains(strings.ToLower(s), "<table") ||strings.Contains(strings.ToLower(s), "<tr") ||strings.Contains(strings.ToLower(s), "<td")
}// extractFirstTable 从HTML中提取第一个表格
func extractFirstTable(html string) (string, error) {// 简单的提取逻辑,实际应用中可能需要更复杂的HTML解析start := strings.Index(strings.ToLower(html), "<table")if start == -1 {return "", nil}end := strings.Index(strings.ToLower(html[start:]), "</table>")if end == -1 {return "", nil}return html[start : start+end+8], nil // +8 是 </table> 的长度
}
http://www.lryc.cn/news/2403622.html

相关文章:

  • VsCode 安装 Cline 插件并使用免费模型(例如 DeepSeek)
  • 短视频矩阵系统源码新发布技术方案有那几种?
  • React 第五十二节 Router中 useResolvedPath使用详解和注意事项示例
  • 【PmHub面试篇】性能监控与分布式追踪利器Skywalking面试专题分析
  • Cursor快速梳理ipynb文件Prompt
  • 天机学堂-分页查询
  • 业态即战场:零售平台的生意模型与系统设计解构
  • 微算法科技(NASDAQ:MLGO)基于信任的集成共识和灰狼优化(GWO)算法,搭建高信任水平的区块链网络
  • 全新Xsens Animate版本是迄今为止最大的软件升级,提供更清晰的数据、快捷的工作流程以及从录制开始就更直观的体验
  • 大语言模型评测体系全解析(下篇):工具链、学术前沿与实战策略
  • python打卡day46@浙大疏锦行
  • C++.OpenGL (1/64) 创建窗口(Hello Window)
  • Excel 发现此工作表中有一处或多处公式引用错误。请检查公式中的单元格引用、区域名称、已定义名称以及到其他工作簿的链接是否均正确无误。弹窗
  • NVIDIA DRIVE AGX平台:引领智能驾驶安全新时代
  • 推荐12个wordpress企业网站模板
  • 沙市区举办资本市场赋能培训会 点赋科技分享智能消费新实践
  • Docker 容器化基础:镜像、容器与仓库的本质解析
  • 九.C++ 对引用的学习
  • 探秘鸿蒙 HarmonyOS NEXT:实战用 CodeGenie 构建鸿蒙应用页面
  • art-pi2 上手记录(二)
  • 数据库SQLite基础
  • 1.3 古典概型和几何概型
  • html-pre标签
  • 【WPF】WPF 项目实战:用ObservableCollection构建一个可增删、排序的管理界面(含源码)
  • MCU_IO驱动LED
  • 上门预约行业技术方案全解析:小程序、App还是H5?如何选择?
  • Java 集合面试题 PDF 及常见考点解析与备考指南
  • Java 大视界 -- 基于 Java 的大数据分布式计算在蛋白质组学数据分析中的加速与优化(255)
  • 如何通过外网访问内网?哪个方案比较好用?跨网远程连接网络知识早知道
  • Vue.js教学第十八章:Vue 与后端交互(二):Axios 拦截器与高级应用