当前位置：首页 > news >正文

探索Trae：使用Trae CN爬取 Gitbook 电子书

news 2025/8/10 8:08:19

请添加图片描述
在以前使用过Cursor，但是后期由于试用资源很少，免费资源用完我就卸载掉啦，最近又需要开展相关工作，因此下载了最新版的Trae。Trae 2.0最近很火，我正好想要爬取某一个Gitbook 电子书，因此尝试使用Trae和Python进行爬取，在尝试完成后，大感AI代码编辑器真好！！！尽管我没啥爬虫基础，但是也完成了目标。

我使用Kimi-K2模型，第一次代码基本是成功运行，但是存在几个小的问题：重新爬取，总体上爬取成功，但是我有三个新的要求：（1）要把图片也保存下来，目前图片没有成功保存，例如是这样的内容：(assets/WebGIS.png) ；（2）每一个md文档末尾都有# results matching “”# No results matching ""这样的内容，请删除；（3）将所有的文件合并成一个md文档，并且按照情况调整大纲级别。

第二次也是运行成功，但是出现了新的小问题：（1）图片保存在assets文件夹内，在md文档中图片使用相对路径 assets/xxx.png这样的路径；（2）很多图片没有下载成功，需要重新下载，打开后显示图片损坏；（3）删除原文链接相关的内容。因此，第三次运行脚本。

此次修改后仍旧有问题，再次提示：我在先前已经执行过了3次命令，并且已经生成了第三版的代码。我的目的是将目标网站的章节爬取下来，保存为md文档。第三版已经基本成功，但是出现了两个补充修改：（1）二级标题很多是重复出现了3次，并且部分标题的大纲级别不对，要按照科学的情况组织大纲级别；（2）把所有的代码块的代码语言设置成JS。