当前位置: 首页 > news >正文

如何利用pandas解析html的表格数据

如何利用pandas解析html的表格数据

我们在编写爬虫的过程中,经常使用的就是parsel、bs4、pyquery等解析库。在博主的工作中经常的需要解析表格形式的html页面,常规的写法是,解析table表格th作为表头,解析td标签作为表格的行数据 。循环tr标签生成一个列表,在与th做映射整理称字典的格式,存入list中。那么有一种更为方便的方法就是使用pandas 只需要一行代码就可以完成常见表格的编写。案例如下:

我们现在使用pandas获取这个链接的table信息


import requestsresp = requests.get("https://www.medchemexpress.cn/c18-ceramide.html")response = resp.text
info = pd.read_html(response,attrs={"id":"con_one_1"})
print(info)
for inf in info:print(inf.values)

运行结果如下:表格数据直接就被解析成一个二元列表,每一个列表就是一个tr标签 每个列表值就是一个td.


只需要指定html文件以及指定页面的table;attrs={}用来定位解析的table数据这边是id="con_one_1"的table;

只需要for循环就可以转换成字典了;

更多使用技巧,请查阅pandas文档

今天的分享pandas解析table;

本文由mdnice多平台发布

http://www.lryc.cn/news/364883.html

相关文章:

  • hadoop疑难问题解决_NoClassDefFoundError: org/apache/hadoop/fs/adl/AdlFileSystem
  • 文件传输基础——Java IO流
  • Mysql时间操作
  • Nvidia Jetson/Orin +FPGA+AI大算力边缘计算盒子:无人机自主飞行软件平台
  • weak的底层原理
  • 03-3.1.3 栈的链式存储的实现
  • 传输协议TCP-原理部分
  • 【android】设置背景图片
  • Java微服务实战:使用Spring Boot构建高效服务
  • 【大模型】基于Hugging Face调用及微调大模型(1)
  • 书生·浦语大模型全链路开源体系-笔记作业4
  • chrome调试手机网页
  • Halcon 双相机标定与拼图(一)
  • 计算机网络学习记录 应用层 Day6
  • 如何编辑pdf文件内容?3种PDF编辑方法分享
  • 汇总!7种大模型的部署方法!
  • 什么是函数?在C语言中如何定义一个函数
  • Stable Diffusion——四种模型 LoRA(包括LyCORIS)、Embeddings、Dreambooth、Hypernetwork
  • MySQL深分页,limit 100000,10 优化
  • Windows defender 开启时无法访问共享文件夹,禁用时却可以的解决方法
  • Linux[高级管理]——使用源码包编译安装Apache网站
  • Docker+JMeter+InfluxDB+Grafana 搭建性 能监控平台
  • NoSQL实战(MongoDB搭建主从复制)
  • 【讯为Linux驱动开发】3.内核空间和用户空间
  • AI论文:一键生成论文的高效工具
  • 申请医疗设备注册变更时,需要补充考虑网络安全的情况有哪些?
  • 打对钩的方式做人机验证(vue+javascript)
  • 可视化脚本用于使用MMDetection库进行图像的目标检测
  • React-组件通信
  • 低代码选型要注意什么问题?