当前位置: 首页 > news >正文

影刀RPA实战:网页爬虫之药品数据

1 实战目标

这次给大家带来的实战示例是采集中国医药信息平台上的药品数据,主要获取药品名称,介绍,药品类型,处方类型,医保类型,参考价格,药品成分,性状,适应病症,用法用量等。我们依然使用excel将这些需要的数据字段展示出来

需要准备的影刀知识:

  • 网页元素操作
  • 流程判断与循环
  • excel操作
  • 列表及文本字符串处理

2 影刀机器人采集药品数据

2.1 打开药品数据网

2.2 循环每一页药品数据

2.2.1 进入列表页面

2.2.2 获取分页数据

获取总页码,便于我们使用循环,依次采集每个页面的药品数据

开始循环分页采集,演示中,我们只采集第一页

2.2.3 获取药品数据列表

使用循环相似元素,将本页面的药品数据放入到一个列表中

2.2.4 下一页数据

通过以上的操作步骤,我们可以获取到每一页的药品数据,然后,我们依次点击,进入详情页来正式采集药品数据

3.3药品详情页采集药品数据

药品数据都是在详情页面中获取的,前边我们已经做好了准备工作,现在我们正式开始,详情页大体可以看成2个部分,我们通过观察可以发现,这个2个部分都很有规律,可以使用循环相似元素指令获取,不用通过获取元素信息指令单个采集。

3.3.1  进入详情页

我们先设置一个列表变量,存放采集的数据,每次采集完成后,将其写入excel

3.3.2  药品采集

采集药品名称与介绍

采集类型与参考价

这里有个判断,主要是过滤我们不需要采集的信息

其他说明采集

通过以上的采集,我们把想要的数据都写入到一个列表中,准备写入。

3.4 保存数据到excel

新建excel文件,设置好字段

数据写入excel中,自动保存

最终展示:

3 数据采集后思考

数据采集后的数据处理是一个关键步骤,它直接影响到数据分析的质量和最终结果的准确性。以下是一些数据处理的思考和最佳实践:

3.1 数据清洗

  • 处理缺失值:通过删除、填充或插值等方法处理缺失数据。
  • 去除重复:识别并删除重复记录,确保数据的唯一性。
  • 纠正错误:修正明显的错误或不一致的数据,如错误的格式、拼写错误等。

3.2 数据转换

  • 格式统一:将数据转换成统一的格式,便于分析和处理。
  • 归一化:对数据进行标准化或归一化处理,使其整洁,统一。

3.3 数据存储

  • 选择合适的存储格式和数据库,如关系型数据库、NoSQL数据库或数据仓库。
  • 同时需要考虑数据检索是否方便

3.4 持续维护

  •  随着时间的推移和数据的更新,定期维护和更新数据处理流程。

3.5 遵守法规

  • 确保数据处理过程遵守相关的数据保护法规和行业标准。

通过这些步骤,可以确保数据采集后的数据处理既高效又准确,为数据分析和决策提供坚实的基础。

4 最后

最后,国庆马上到了,祝大家开开心心,快快乐乐!

感谢大家,请大家多多支持!

http://www.lryc.cn/news/443233.html

相关文章:

  • python禁止位置传参函数
  • java面试题第一弹
  • 住宅HTTP代理:提升网络隐私与安全的新选择
  • 字符串函数(2)
  • Linux--守护进程与会话
  • C++ 笔试常用算法模板
  • 李宏毅2023机器学习作业HW07解析和代码分享
  • ansible远程自动化运维、常用模块详解
  • 【若依框架】按时间查询数据的操作
  • 人工智能将来好就业吗?
  • JAVA SE 11
  • 【MySQ】在MySQL里with 的用法
  • 多源最短路径
  • 在 Mac 中设置环境变量
  • 记录一次ubuntu /mysql/redis/nginx等 系统安装
  • 大型语言模型 (LLM) 劫持攻击不断升级,导致每天损失超过 100,000 美元
  • Java 入门指南:JVM(Java虚拟机)垃圾回收机制 —— 垃圾收集器
  • nano 命令:文本编辑器
  • 【2020工业图像异常检测文献】SPADE
  • C++QT医院专家门诊预约管理系统
  • 在SpringBoot项目中利用Redission实现布隆过滤器(布隆过滤器的应用场景、布隆过滤器误判的情况、与位图相关的操作)
  • 【prefect】python任务调度工具 Prefect | 可视化任务工具 | Python自动化的终极武器 | 高效数据管道管理
  • 蓝禾,汤臣倍健,三七互娱,得物,顺丰,快手,游卡,oppo,康冠科技,途游游戏,埃科光电25秋招内推
  • 【面向对象】设计模式分类
  • 花朵识别系统Python+卷积神经网络算法+人工智能+深度学习+计算机课设项目+TensorFlow+模型训练
  • 中泰免签,准备去泰国旅游了吗?《泰语翻译通》app支持文本翻译和语音识别翻译,解放双手对着说话就能翻译。
  • C++/Qt 集成 AutoHotkey
  • OpenMV学习第一步安装IDE_2024.09.20
  • RK3568平台(基础篇)万用表的使用
  • more、less 命令:阅读文本