当前位置：首页 > news >正文

5款可用于LLMs的爬虫工具/方案

news 2025/8/14 22:31:08

5款可用于LLMs的爬虫工具/方案

Crawl4AI
功能: 提取语义标记的数据块为JSON格式，提供干净的HTML和Markdown文件。
用途: 适用于RAG（检索增强生成）、微调以及AI聊天机器人的开发。
特点: 高效数据提取，支持LLM格式，多URL支持，易于集成和Docker容器化。
GitHub: https://github.com/unclecode/crawl4ai
FireCrawl
功能: 抓取网站的所有可访问子页面，并转换内容为干净的Markdown格式。
特点: 适用于JavaScript动态生成的内容网站，提供易用的API。
GitHub: https://github.com/mendableai/firecrawl
Scrapegraph-ai
功能: 使用LLM和直接图形逻辑创建网站和本地文档的抓取流程。
特点: 自动执行数据抓取任务，用户只需指定信息类型。
GitHub: https://github.com/VinciGit00/Scrapegraph-ai
Markdowner
功能: 将网站快速转换为Markdown数据。
特点: 支持自动爬虫、详细模式、JavaScript网站等，易于扩展和自托管。
GitHub: https://github.com/dhravya/markdowner
Jina Reader
功能：将任何URL转化为LLM所需的Markdown格式
特点：可以针对这些内容集成不同的模型，支持API
GitHub：https://github.com/jina-ai/reader