当前位置: 首页 > news >正文

Python 解析 html

一、场景分析

假设有如下 html 文档:

写一段 python 脚本,解析出里面的数据,包括经度维度。

<div class='storelist'><ul><li lng="100.111111" lat="10.111111"><h4>联盟店1</h4><p><br />X市Y区Z街道 1000 号</p></li><li lng="101.111111" lat="11.111111"><h4>联盟店2</h4><p><br />X市Y区Z街道 1001 号</p></li><li lng="102.111111" lat="12.111111"><h4>联盟店3</h4><p><br />X市Y区Z街道 1002 号</p></li></ul>
</div>

二、步骤

1、安装 BeautifulSoup4 库

pip install bs4
或者
pip install beautifulsoup4

2、脚本内容

store.py 脚本内容如下:

from bs4 import BeautifulSoup# 官方文档:https://beautifulsoup.readthedocs.io/zh-cn/v4.4.0/#id14# 输入文档
input_path = r"C:\Users\Administrator\Desktop\py\html\store.html"
# 输出文档
output_path = r"C:\Users\Administrator\Desktop\py\html\data.txt"
# 以 append 追加方式打开输出文档
output_file = open(output_path, 'a', encoding='utf-8')# 打开 html 输入文档,并使用 Python 标准库 html.parser 解析成 BeautifulSoup 对象
soup = BeautifulSoup(open(input_path, 'r', encoding='utf-8'), 'html.parser')# 搜索文档树,获取到所有 li TAG 组成的数组
li_array = soup.find_all('li')# 遍历这个数组,并往输出文档输出信息
for i, li in enumerate(li_array):# print(li.contents)output_file.write('\n'+str(i+1)+'、'+li.contents[1].text)output_file.write('\n 经度:'+li['lng'])output_file.write('\n 维度:'+li['lat'])output_file.write('\n 名称:'+li.contents[1].text)output_file.write('\n 地址:'+li.contents[3].text.strip())output_file.close()

其中,contents 属性可以将 tag 的子节点以列表的方式输出:

print(li.contents)

 我们可以用列表索引来获取它的某一个元素

li.contents[1] 表示 <h4>联盟店X</h4> 获取标签里面的内容,就是 li.contents[1].text

li.contents[3] 表示 <p></p> 因为 p 后面有换行,所以用 strip() 函数去掉换行符 

不然输出结果就会变成

3、运行

py store.py

4、输出结果

1、联盟店1经度:100.111111维度:10.111111名称:联盟店1地址:X市Y区Z街道 1000 号
2、联盟店2经度:101.111111维度:11.111111名称:联盟店2地址:X市Y区Z街道 1001 号
3、联盟店3经度:102.111111维度:12.111111名称:联盟店3地址:X市Y区Z街道 1002 号

三、拥抱AI

像这种简单的脚本程序,现在都可以叫 AI (比如豆包) 帮我们写:

http://www.lryc.cn/news/448967.html

相关文章:

  • “大数据+高职”:VR虚拟仿真实训室的发展前景
  • Pygame中Sprite实现逃亡游戏4
  • sentinel原理源码分析系列(一)-总述
  • 创建数据/采集数据+从PI数据到PC+实时UI+To PLC
  • Linux基础入门 --12 DAY(SHELL脚本编程基础)
  • 关于frp Web界面-----frp Server Dashboard 和 frp Client Admin UI
  • Hive数仓操作(一)
  • 什么是NAND Flash?
  • Spring Boot 整合 Keycloak
  • 工程师 - Windows下使用WSL来访问本地的Linux文件系统
  • SQL高可用优化-优化SQL中distinct和Where条件对索引字段进行非空检查语句
  • openharmony源码编译
  • H.264编解码工具 - NVIDIA CUDA
  • 数学建模小练习
  • Java爬虫:获取SKU详细信息的艺术
  • 心理咨询展示网站建设渠道拓展
  • naocs注册中心,配置管理,openfeign在idea中实现模块间的调用,getway的使用
  • 先进封装技术 Part02---TSV科普
  • 【数据挖掘】2023年 Quiz 1-3 整理 带答案
  • 老古董Lisp实用主义入门教程(12):白日梦先生的白日梦
  • UE5 Windows热更新解决方案思路(HotPatcher+Tomcat+RuntimeFilesDownloader)
  • 进程管理工具:非daemon进程管理工具supervisor
  • c++模拟真人鼠标轨迹算法
  • android12/13/14版本wms最新面试题:dumpsys window和sf一定会一致么?
  • Python脚本示例,你可以使用这个脚本来自动化登录网站、选择页面元素和提交表单
  • 安卓13设置动态修改设置显示版本号 版本号增加信息显示 android13增加序列号
  • 从 Oracle 集群到单节点环境(详细记录一次数据迁移过程)之三:在目标服务器上恢复数据
  • 相互作用感知的 3D 分子生成 VAE 模型 - DeepICL 评测
  • Java实现随机抽奖的方法有哪些
  • grafana加载缓慢解决方案