当前位置: 首页 > news >正文

Scrapy | 使用Scrapy进行数据建模和请求

scrapy数据建模与请求

  • 数据建模
    • 1.1 为什么建模
    • 1.2 如何建模
    • 1.3如何使用模板类
    • 1.4 开发流程总结

目标:
1.应用在scrapy项目中进行建模
2.应用构造Request对象,并发送请求
3.应用利用meta参数在不同的解析函数中传递数据

数据建模

| 通常在做项目的过程中,在items.py中进行数据建模

1.1 为什么建模

1.定义itm即提前规划好哪些字段需要抓,防止手误,因为定义好之后,在运行过程中,系统会自动检查
2.配合注释一起可以清晰的知道要抓取哪些字段,没有定义的字段不能抓取,在目标字段少的时候可以使用字典代替
3.使用scrapy的一些特定组件需要item做支持,如scrapy的ImagesPipeline管道类,百度搜索了解更多

1.2 如何建模

在items.py文件中定义要提取的字段:

class MyspiderItem(scrapy.Item):name=scrapy.Field()#讲师的名字title=scrapy.Field()#讲师的职称desc=scrapy.Field()#讲师的介绍

1.3如何使用模板类

模板类定义以后需要在爬虫中导入并且实例化,之后的使用方法和使用字典相同
在这里插入图片描述
注意:
1.from myspider…items import Myspiderltem这一行代码中注意item的正确导入路径,忽略pycharm标记的错误
2.python中的导入路径要诀:从哪里开始运行,就从哪里升始导入

1.4 开发流程总结

1.创建项目
scrapy startproject项目名
2.明确目标
在items.py文件中进行建模
3.创建爬虫
3.1创建爬虫

scrapy genspider    【爬虫名】   【允许的域】

3.2完成爬虫

修改start_urls
检查修改allowed domains
编写解析方法

4.保存数据

在pipelines.py文件中定义对数据处理的管道
在settings.py文件中注册启用管道
http://www.lryc.cn/news/461408.html

相关文章:

  • 学习笔记——交换——STP(生成树)基本概念
  • 机器学习笔记-2
  • SpringSecurity(一)——认证实现
  • VMWare NAT 模式下 虚拟机上不了网原因排查
  • R语言手工实现主成分分析 PCA | 奇异值分解(svd) 与PCA | PCA的疑问和解答
  • 第三届OpenHarmony技术大会在上海成功举办
  • 数字化:IT部门主导还是业务部门主导?
  • MySQL表的基本查询下/分组聚合统计
  • 条款3: 理解decltype
  • TCP:过多的TIME_WAIT
  • 化学元素分子量、氧化物系数计算python类
  • torch.utils.data.DataLoader参数介绍
  • echarts 入门
  • WPF实现类似网易云音乐的菜单切换
  • OpenCV人脸检测与识别:构建智能识别系统
  • H5 Canvas 举牌小人
  • rom定制系列------小米6x_澎湃os1.0.28安卓13定制固件修改 刷写过程与界面预览
  • 电脑硬件性能:HDD + SSD + CPU + GPU
  • 通过粒子系统customData传值给材质球
  • 常用分布的数学期望、方差、特征函数
  • ssh-配置
  • Python 在 JMeter 中如何使用?
  • 贪心day1
  • Redis 完整指南:命令与原理详解
  • 【2024软考高级架构师】论文篇——3、论Web系统的测试技术及其应用
  • 迪杰斯特拉算法的理解
  • 华为OD机试 - 文本统计分析(Python/JS/C/C++ 2024 E卷 200分)
  • 计算机挑战赛9
  • C++学习路线(十六)
  • 2024年最受欢迎的AI工具与实际应用:AI技术对未来生活的深远影响