当前位置: 首页 > news >正文

1.1 爬虫的一些知识(大模型提供语料)

1.1 爬虫的一些知识(大模型提供语料)
网页资源:
资源组织方式:列表分页,搜索引擎,推荐
发送请求的文档类型:html ,js
响应请求的文档类型:html,js,json
请求方式:同步和异步
页面形式:单页面,非单页面;
抓取流程:requests直接请求
        # 抓取入口(穷举或者探索方式)
        # 遍历
        # 解析&清洗
        # 入库
        # 遍历结束
需要关注的点:
内容反爬:抓取内容投毒、混淆等反抓取;
请求反爬:返回403等,或者跳转或者返回到一个人工校验页面;
资源覆盖率:穷举所有要抓取的资源;
增量抓取:如何保证更新能跟上;
抓取速率要友好;
关于反爬策略:
加上header;
不使用requests;
加上IP代理池;
关于模拟抓取:
重量级:selenium
轻量级:其他;
解析:bs4和xpath
一个是擅长筛选器,一个擅长路径定位;
清洗:
内容部分乱码、(硬)断行。
后续继续补充。。。

http://www.lryc.cn/news/488299.html

相关文章:

  • Linux开发工具:Vim 与 gcc,打造高效编程的魔法双剑
  • cesium for unity的使用
  • Android AOSP 架构和各层次开发内容介绍
  • Kafka 到 Kafka 数据同步
  • 华为刷题笔记--题目索引
  • osgEarth加载倾斜摄影测量数据
  • 消息推送问题梳理-团队管理
  • 如何在 Ubuntu 上使用 Docker 部署 LibreOffice Online
  • MongoDB数据备份与恢复(内含工具下载、数据处理以及常见问题解决方法)
  • 代码随想录第三十一天| 56. 合并区间 738.单调递增的数字
  • C语言基本知识 2.2void 函数
  • Spring 框架中哪些接口可以创建对象
  • 豆瓣书摘 | 爬虫 | Python
  • Oracle数据库物理存储结构管理
  • java——Map接口
  • 量子计算机全面解析:技术、应用与未来
  • IDEA相关(包括但不限于快捷键,使用技巧)成长笔记
  • 【再谈设计模式】适配器模式 ~接口兼容的桥梁
  • 使用Cursor和Claude AI打造你的第一个App
  • 粗读Apache Paimon 的基本概念及其组成结构
  • c++调用 c# dll 通过 P/Invoke (详细避坑)
  • 李春葆《数据结构》——图相关代码
  • Linux驱动开发第2步_“物理内存”和“虚拟内存”的映射
  • 告别多品牌乱战,吉利开始觉醒
  • Target-absent Human Attention
  • <QNAP 453D QTS-5.x> 日志记录:在 Docker 中运行的 Flask 应用安装 自签名 SSL 证书 解决 Chrome 等浏览器证书安全
  • 通过huggingface-cli下载Hugging Face上的公开数据集或模型至本地
  • 论文阅读——Intrusion detection systems using longshort‑term memory (LSTM)
  • SparkSQL的执行过程:从源码角度解析逻辑计划、优化计划和物理计划
  • Leetcode打卡:新增道路查询后的最短距离II