当前位置: 首页 > news >正文

自己写的爬虫小案例

网址:aHR0cDovL2pzc2NqZ3B0Lmp4d3JkLmdvdi5jbi8/dXJsPS92aWV3L3dvcmtpbmdVbml0L3dvcmtpbmdVbml0Lmh0bWw=

这串代码能够爬取勘察单位企业的详细信息。 

import requests
import time
import csv
f = open('勘察单位公司信息.csv','w',encoding='utf-8',newline='')
csv_writer = csv.DictWriter(f,fieldnames=['公司名称','涉及领域','所属省市','注册资本(万元)','成立日期','发证机关','统一社会信用码','经营范围','单位网址','法人','主营业务','注册地址','证书网址',])
csv_writer.writeheader()
cookies = {'JSESSIONID': 'BD8F06872E4D854606108A0F4AF55D79',
}
def get_response(id):info_url = f'http://jsscjgpt.jxwrd.gov.cn/api/employer/findByEmployer?unitId={id}'result = requests.get(url=info_url,headers=headers).json()return result
headers = {'Accept': 'application/json, text/javascript, */*; q=0.01','Accept-Language': 'zh-CN,zh;q=0.9','Cache-Control': 'no-cache','Connection': 'keep-alive','Content-Type': 'application/json',# 'Cookie': 'JSESSIONID=BD8F06872E4D854606108A0F4AF55D79','Origin': 'http://jsscjgpt.jxwrd.gov.cn','Pragma': 'no-cache','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36','X-Requested-With': 'XMLHttpRequest',
}
for page in range(1,299):time.sleep(1)json_data = {'pageNum': page,'pageSize': 10,'query': '1','unitName': '','unitCode': '','userName': '',}response = requests.post('http://jsscjgpt.jxwrd.gov.cn/api/employer/findAll',cookies=cookies,headers=headers,json=json_data,verify=False,)json_response = response.json()for index in json_response['data']['list']:id = index['companyId']data = get_response(id)['data']dit = {'公司名称': data['name'],'涉及领域': data['categoryType'],'所属省市': data['address'],'注册资本(万元)': data['registeredMoney'],'成立日期': data['setUpYear'],'发证机关': data['certificateCompany'],'统一社会信用码': data['code'],'经营范围': data['businessRange'],'单位网址': data['companyUrl'],'法人': data['legalPerson'],'主营业务': data['mainBusiness'],'注册地址': data['registeredAddress'],'证书网址': data['companyCommitment'],}print(dit)csv_writer.writerow(dit)

http://www.lryc.cn/news/344112.html

相关文章:

  • Kafka 环境搭建和使用之单机模式详细教程
  • Xamarin.Android项目使用ConstraintLayout约束布局
  • 探索Java 18:未来技术趋势与革新之路
  • 毕业论文怎么写? 推荐4个AI工具
  • JVM认识之垃圾收集算法
  • docker-compose部署gitlab
  • Colab/PyTorch - 001 PyTorch Basics
  • 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习三
  • 基于Seata实现分布式事务实现
  • adss光缆是什么意思
  • JavaScript异步编程——04-同源和跨域
  • 出差——蓝桥杯十三届2022国赛大学B组真题
  • UE5(射线检测)学习笔记
  • 语音识别的基本概念
  • OpenCV Radon变换探测直线(拉东变换)
  • 六、Redis五种常用数据结构-zset
  • FPGA第一篇,FPGA现场可编程门阵列,从0开始掌握可编程硬件开发(FPGA入门指南)
  • C#实现简单音乐文件解析播放——Windows程序设计作业2
  • Python数据爬取超简单入门
  • Dreamweaver 2021 for Mac 激活版:网页设计工具
  • 【Git】Git学习-15:分支简介和基本操作
  • 浏览器提示网站“不安全”原因及解决方法
  • Jmeter详细学习思路和教程
  • 钉钉开放平台创建企业内部H5微应用或者小程序
  • Linux中每当执行‘mount’命令(或其他命令)时,自动激活执行脚本:输入密码,才可以执行mount
  • 【网络协议】----IPv6协议报文、地址分类
  • Llama改进之——SwiGLU激活函数
  • 在数据分析中所需要运用到的概率论知识
  • 韩顺平0基础学Java——第6天
  • react18子组件设置接收默认值和值类型验证