当前位置: 首页 > article >正文

python之爬虫爬取VIP蔬菜网农产品价格行情(使用requests库 + HTML)

被爬取网站:http://www.vipveg.com/price/2017/baicai/m10d-1cta926by-1.html

爬取的时候只需要换链接即可,一个网站内通用

您目前所在位置:VIP蔬菜网首页 > 2017年蔬菜批发市场价格行情 > 2017年白菜价格行情
在这里插入图片描述

爬取代码:

import requests  #导入请求库
import datetime
from lxml import etree 
#要请求的url
url = "http://www.vipveg.com/price/2018/fanqie/"
#请求时,提交给服务器的客户端信息user-agent
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.92 Safari/537.36','Cookie': 'ASP.NET_SessionId=yolmu555asckw145cetno0um'
}
response = requests.get(url, headers=headers)
html = etree.HTML(response.content.decode('utf-8'))
table = html.xpath("//table[2]//tr[position()>2]")
for i in table:  # 遍历tr列表p = ''.join(i.xpath(".//td[1]//text()"))  # 获取当前tr标签下的第一个td标签,并用text()方法获取文本内容,赋值给psl = ''.join(i.xpath(".//td[2]//text()"))sc = ''.join(i.xpath(".//td[3]//text()"))ll = ''.join(i.xpath(".//td[4]//text()"))lc = ''.join(i.xpath(".//td[5]//text()"))year = ''.join(i.xpath(".//td[6]//text()"))#     print(p, sl, sc, ll, lc, year)data = {  # 用数据字典,存储需要的信息'品种': ''.join(p.split()),  # .split()方法在此处作用是除去p中多余的空格 '\xa0''批发市场': ''.join(sl.split()),'最低价格': ''.join(sc.split()),'最高价格': ''.join(ll.split()),'平均价格': ''.join(lc.split()),'发布时间': ''.join(year[0:4]+"年"+ year[5:7]+"月"+year[8:10]+"日") }print(data)
http://www.lryc.cn/news/2420714.html

相关文章:

  • 01、java、jdk、jre三者之间的区别与联系(包含java环境 配置)
  • APM —全链路追踪
  • 混合密集网络(Mixture Density Networks)
  • 『现学现忘』Git后悔药 — 34、git commit --amend 命令
  • 安卓开发:安卓应用上架主流平台汇总
  • Linux bind函数详解
  • 华为资深工程师带你了解华为七大根技术
  • FastTrack协议
  • 提升效率!技术宅、学生党必备!大学四年使用的几十个高效工具都在这里了
  • 详解hashcode(hashcode与equals)
  • HttpClient的post和get请求
  • 高版本msado15.dll编译的程序读取access在低版本系统下报错空指针的问题(错误码:0x80004003)
  • 量子计算之pyQpanda入门实践1
  • 短视频分享网站(源码+开题)
  • h3c Vlan和Trunk实验
  • Java中ArrayList remove会遇到的坑
  • java小程序_Java小程序
  • 解决Apache出现的CPU高占用率的问题
  • 做自媒体,怎么做赚钱?这3点很关键
  • java集成京东联盟且订单绑定自有平台用户代码实现(保证可用)
  • win10卸载CUDA10.0重新安装10.2以及torch1.6-gpu和tf2.2-gpu环境的配置
  • 视达配色教程13 黄色的色彩性格是什么
  • 学习linux的一些网络资源
  • 单射、双射、满射
  • 软件测试人员必备的60个测试工具,果断收藏了!
  • CPU分析系列--sysstat(mpstat+pidstat)分析系统CPU和I/O负载
  • 微软杀毒软件Microsoft Security Essentials试用
  • 什么是ISTQB认证
  • NandFlash驱动源码详细分析
  • javaWeb酒店客房管理系统