当前位置：首页 > news >正文

Scrapy | 使用Scrapy进行数据建模和请求

news 2025/8/21 8:41:13

scrapy数据建模与请求

数据建模
- 1.1 为什么建模
- 1.2 如何建模
- 1.3如何使用模板类
- 1.4 开发流程总结

目标：
1.应用在scrapy项目中进行建模
2.应用构造Request对象，并发送请求
3.应用利用meta参数在不同的解析函数中传递数据

数据建模

| 通常在做项目的过程中，在items.py中进行数据建模

1.1 为什么建模

1.定义itm即提前规划好哪些字段需要抓，防止手误，因为定义好之后，在运行过程中，系统会自动检查
2.配合注释一起可以清晰的知道要抓取哪些字段，没有定义的字段不能抓取，在目标字段少的时候可以使用字典代替
3.使用scrapy的一些特定组件需要item做支持，如scrapy的ImagesPipeline管道类，百度搜索了解更多

1.2 如何建模

在items.py文件中定义要提取的字段：

class MyspiderItem(scrapy.Item):name=scrapy.Field（）#讲师的名字title=scrapy.Field（）#讲师的职称desc=scrapy.Field（）#讲师的介绍

1.3如何使用模板类

模板类定义以后需要在爬虫中导入并且实例化，之后的使用方法和使用字典相同
在这里插入图片描述
注意：
1.from myspider…items import Myspiderltem这一行代码中注意item的正确导入路径，忽略pycharm标记的错误
2.python中的导入路径要诀：从哪里开始运行，就从哪里升始导入

1.4 开发流程总结

1.创建项目
scrapy startproject项目名
2.明确目标
在items.py文件中进行建模
3.创建爬虫
3.1创建爬虫

scrapy genspider    【爬虫名】   【允许的域】

3.2完成爬虫

修改start_urls
检查修改allowed domains
编写解析方法

4.保存数据

在pipelines.py文件中定义对数据处理的管道
在settings.py文件中注册启用管道

查看全文

http://www.lryc.cn/news/461408.html

学习笔记——交换——STP（生成树）基本概念

机器学习笔记-2

SpringSecurity（一）——认证实现

VMWare NAT 模式下虚拟机上不了网原因排查

R语言手工实现主成分分析 PCA | 奇异值分解(svd) 与PCA | PCA的疑问和解答

第三届OpenHarmony技术大会在上海成功举办

化学元素分子量、氧化物系数计算python类

torch.utils.data.DataLoader参数介绍

echarts 入门

WPF实现类似网易云音乐的菜单切换

OpenCV人脸检测与识别：构建智能识别系统

H5 Canvas 举牌小人

rom定制系列------小米6x_澎湃os1.0.28安卓13定制固件修改刷写过程与界面预览

电脑硬件性能：HDD + SSD + CPU + GPU

通过粒子系统customData传值给材质球

常用分布的数学期望、方差、特征函数

ssh-配置

Python 在 JMeter 中如何使用？

贪心day1

Redis 完整指南：命令与原理详解

【2024软考高级架构师】论文篇——3、论Web系统的测试技术及其应用

迪杰斯特拉算法的理解

华为OD机试 - 文本统计分析（Python/JS/C/C++ 2024 E卷 200分）

计算机挑战赛9

C++学习路线（十六）

2024年最受欢迎的AI工具与实际应用：AI技术对未来生活的深远影响