探索Trae:使用Trae CN爬取 Gitbook 电子书
在以前使用过Cursor,但是后期由于试用资源很少,免费资源用完我就卸载掉啦,最近又需要开展相关工作,因此下载了最新版的Trae。Trae 2.0最近很火,我正好想要爬取某一个Gitbook 电子书,因此尝试使用Trae和Python进行爬取,在尝试完成后,大感AI代码编辑器真好!!!尽管我没啥爬虫基础,但是也完成了目标。
我使用Kimi-K2模型,第一次代码基本是成功运行,但是存在几个小的问题:重新爬取,总体上爬取成功,但是我有三个新的要求:(1)要把图片也保存下来,目前图片没有成功保存,例如是这样的内容:(assets/WebGIS.png) ;(2)每一个md文档末尾都有# results matching “”# No results matching ""这样的内容,请删除;(3)将所有的文件合并成一个md文档,并且按照情况调整大纲级别。
第二次也是运行成功,但是出现了新的小问题:(1)图片保存在assets文件夹内,在md文档中 图片使用相对路径 assets/xxx.png这样的路径;(2)很多图片没有下载成功,需要重新下载,打开后显示图片损坏;(3)删除原文链接相关的内容。因此,第三次运行脚本。
此次修改后仍旧有问题,再次提示:我在先前已经执行过了3次命令,并且已经生成了第三版的代码。我的目的是将目标网站的章节爬取下来,保存为md文档。第三版已经基本成功,但是出现了两个补充修改:(1)二级标题很多是重复出现了3次,并且部分标题的大纲级别不对,要按照科学的情况组织大纲级别;(2)把所有的代码块的代码语言设置成JS。
这样处理完后: