当前位置: 首页 > news >正文

探索Trae:使用Trae CN爬取 Gitbook 电子书

请添加图片描述
在以前使用过Cursor,但是后期由于试用资源很少,免费资源用完我就卸载掉啦,最近又需要开展相关工作,因此下载了最新版的Trae。Trae 2.0最近很火,我正好想要爬取某一个Gitbook 电子书,因此尝试使用Trae和Python进行爬取,在尝试完成后,大感AI代码编辑器真好!!!尽管我没啥爬虫基础,但是也完成了目标。

我使用Kimi-K2模型,第一次代码基本是成功运行,但是存在几个小的问题:重新爬取,总体上爬取成功,但是我有三个新的要求:(1)要把图片也保存下来,目前图片没有成功保存,例如是这样的内容:(assets/WebGIS.png) ;(2)每一个md文档末尾都有# results matching “”# No results matching ""这样的内容,请删除;(3)将所有的文件合并成一个md文档,并且按照情况调整大纲级别。

第二次也是运行成功,但是出现了新的小问题:(1)图片保存在assets文件夹内,在md文档中 图片使用相对路径 assets/xxx.png这样的路径;(2)很多图片没有下载成功,需要重新下载,打开后显示图片损坏;(3)删除原文链接相关的内容。因此,第三次运行脚本。

此次修改后仍旧有问题,再次提示:我在先前已经执行过了3次命令,并且已经生成了第三版的代码。我的目的是将目标网站的章节爬取下来,保存为md文档。第三版已经基本成功,但是出现了两个补充修改:(1)二级标题很多是重复出现了3次,并且部分标题的大纲级别不对,要按照科学的情况组织大纲级别;(2)把所有的代码块的代码语言设置成JS。

这样处理完后:

http://www.lryc.cn/news/615135.html

相关文章:

  • 2025-08-09 李沐深度学习14——经典卷积神经网络 (2)
  • 生态问题是什么?
  • P1890 gcd区间
  • 如何理解SA_RESTART”被信号中断的系统调用自动重启“?
  • SELinux 入门指南
  • ROS2 多线程 与组件机制
  • Python NumPy入门指南:数据处理科学计算的瑞士军刀
  • Qt 的对象线程亲和性规则
  • 华为欧拉OpenEnler系统在启动MindIE时权限问题的解决方法
  • 从灵感枯竭到批量产出:无忧秘书创作平台如何重构内容生产者的工作流程?全环节赋能分析
  • Spring Boot 集成 Quartz 实现定时任务(Cron 表达式示例)
  • WinForm 中 ListView 控件的实战应用与功能拓展
  • kafka架构原理快速入门
  • AI大语言模型在生活场景中的应用日益广泛,主要包括四大类需求:文本处理、信息获取、决策支持和创意生成。
  • 软件定义车辆加速推进汽车电子技术
  • Blender 快捷键速查表 (Cheat Sheet)
  • 【线性代数】6二次型
  • 可直接运行的 Playwright C# 自动化模板
  • 通过 Certimate 统一管理 SSL 证书 支持自动化申请、全平台部署
  • 【线性代数】线性方程组与矩阵——(1)线性方程组与矩阵初步
  • 数据挖掘2.6 Perceptron Modeling 感知器建模
  • 我想做自动化报社保,用哪种技术更好一点呢?
  • stm32项目(25)——基于stm32的植物生长箱环境监测系统
  • 「iOS」————响应者链与事件传递链
  • GPT-5:数字大脑的进化史
  • 人工智能-python-数据处理实战-特征降维(PCA)
  • CD63.【C++ Dev】多态(2): 剖析虚函数表的前置知识
  • 【线性代数】线性方程组与矩阵——(3)线性方程组解的结构
  • 【CTF】PHP反序列化基础知识与解题步骤
  • 华为实验:SSH