当前位置: 首页 > news >正文

从工标网网站解析标准信息

import requests
from bs4 import BeautifulSoup

将标准搜索关键词转化成GBK格式,并用%连接转化后16进制,转化成工标网的查询网址url

text = “GB/T 9755”
utf8_encoded_text = text.encode(‘GBK’)
#print(utf8_encoded_text)
hex_representation = ‘%’.join(hex(b)[2:] for b in utf8_encoded_text)
#print(hex_representation)
url = “http://www.csres.com/s.jsp?keyword=%”+hex_representation+“&pageSize=1000&pageNum=1”
print(url)

#使用BeautifulSoup解析工标网网站,需要设置请求头

设置请求头,模拟浏览器访问

headers = {
“User-Agent”: “Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36”
}

发送请求获取网页内容

response = requests.get(url, headers=headers)
html_content = response.text

使用BeautifulSoup解析网页

soup = BeautifulSoup(html_content, ‘html.parser’)
#print(soup)

找到对应的tr标签

tr_tags = soup.find_all(‘tr’, attrs={‘bgcolor’: ‘#FFFFFF’})

提取各个单元格的文本内容,以列表形式存储

data_list = []
for tr_tag in tr_tags:
data = []
td_tags = tr_tag.find_all(‘td’)
data.append(td_tags[0].text.strip())
data.append(td_tags[1].text.strip())
data.append(td_tags[2].text.strip())
data.append(td_tags[3].text.strip())
data.append(td_tags[4].text.strip())

data_list.append(data)

‘’’

提取各个单元格的文本内容,以字典形式存储

data_list = []
for tr_tag in tr_tags:
data = {}
td_tags = tr_tag.find_all(‘td’)
data[‘standard_number’] = td_tags[0].text.strip()
data[‘standard_name’] = td_tags[1].text.strip()
data[‘release_department’] = td_tags[2].text.strip()
data[‘implementation_date’] = td_tags[3].text.strip()
data[‘status’] = td_tags[4].text.strip()
data_list.append(data)
‘’’

for item in data_list:
print(item)

http://www.lryc.cn/news/499523.html

相关文章:

  • 如何在MySQL中开启死锁日志及查看日志
  • VCP-CLIP A visual context prompting modelfor zero-shot anomaly segmentation
  • 分类算法中的样本不平衡问题及其解决方案
  • 博物馆导览系统方案(一)背景需求分析与核心技术实现
  • [创业之路-169]:《BLM战略规划》- 战略洞察 (战略能力中最最核心的能力) - 市场洞察 -1- 看宏观/行业 - 行业:激光器行业的详细分析
  • 抽象工厂模式的理解和实践
  • WIDER FACE数据集转YOLO格式
  • 项目启动的基本配置
  • Ubuntu桌面突然卡住,图形界面无反应
  • Next.js系统性教学:拦截路由与路由处理器
  • Python编码风格
  • flask创建templates目录存放html文件
  • 微信小程序里的小游戏研发需要什么技术栈
  • 2024年上半年网络工程师案例分析真题及答案解析
  • Ant Design Vue v4版本如何解决1px没有被postcss-px2rem转成rem的问题
  • 武汉科技大学《2024年814自动控制原理真题》 (完整版)
  • 【锂电池实战】A123磷酸铁锂在线参数识别-一阶戴维南模型
  • Java多线程与线程池技术详解(四)
  • 树莓派开发笔记
  • 【数据结构】遍历二叉树
  • 嵌入式蓝桥杯学习7 产生PWM
  • 档案学实物
  • 数据清洗代码:缺失值,异常值,离群值Matlab处理
  • Windows设备go环境安装配置
  • 导体、半导体和绝缘体
  • shell 6 if条件判断与for循环结构 (泷羽sec)
  • MetaGPT 安装
  • 论文阅读:Single-cell transcriptomics of 20 mouse organs creates a Tabula Muris
  • 图生3d 图生全景 学习笔记
  • 分库分表—4.数据迁移系统文档