当前位置: 首页 > news >正文

HTTP报头的2个方法

在采集网页信息的时候,经常需要伪造报头来实现采集脚本的有效执行

下面,我们将使用urllib2的header部分伪造报头来实现采集信息

方法1、
#!/usr/bin/python

-- coding: utf-8 --

#encoding=utf-8
#Filename:urllib2-header.py

import urllib2
import sys

#抓取网页内容-发送报头-1
url= “https://www.jb51.net”
send_headers = {
‘Host’:‘www.jb51.net’,
‘User-Agent’:‘Mozilla/5.0 (Windows NT 6.2; rv:16.0) Gecko/20100101 Firefox/16.0’,
‘Accept’:‘text/html,application/xhtml+xml,application/xml;q=0.9,/;q=0.8’,
‘Connection’:‘keep-alive’
}

req = urllib2.Request(url,headers=send_headers)
r = urllib2.urlopen(req)

html = r.read() #返回网页内容
receive_header = r.info() #返回的报头信息

sys.getfilesystemencoding()

html = html.decode(‘utf-8’,‘replace’).encode(sys.getfilesystemencoding()) #转码:避免输出出现乱码

print receive_header

print ‘####################################’

print html

-- coding: utf-8 --

#encoding=utf-8
#Filename:urllib2-header.py

import urllib2
import sys

#抓取网页内容-发送报头-1
url= “https://www.jb51.net”
send_headers = {
‘Host’:‘www.jb51.net’,
‘User-Agent’:‘Mozilla/5.0 (Windows NT 6.2; rv:16.0) Gecko/20100101 Firefox/16.0’,
‘Accept’:‘text/html,application/xhtml+xml,application/xml;q=0.9,/;q=0.8’,
‘Connection’:‘keep-alive’
}

req = urllib2.Request(url,headers=send_headers)
r = urllib2.urlopen(req)

html = r.read() #返回网页内容
receive_header = r.info() #返回的报头信息

sys.getfilesystemencoding()

html = html.decode(‘utf-8’,‘replace’).encode(sys.getfilesystemencoding()) #转码:避免输出出现乱码

print receive_header

print ‘####################################’

print html
方法2、
#!/usr/bin/python

-- coding: utf-8 --

#encoding=utf-8
#Filename:urllib2-header.py

import urllib2
import sys

url = ‘https://www.jb51.net’

req = urllib2.Request(url)
req.add_header(‘Referer’,‘https://www.jb51.net/’)
req.add_header(‘User-Agent’,‘Mozilla/5.0 (Windows NT 6.2; rv:16.0) Gecko/20100101 Firefox/16.0’)
r = urllib2.urlopen(req)

html = r.read()
receive_header = r.info()

html = html.decode(‘utf-8’).encode(sys.getfilesystemencoding())

print receive_header
print ‘#####################################’
print html

#!/usr/bin/python

http://www.lryc.cn/news/35263.html

相关文章:

  • yolov5双目检测车辆识别(2023年+单目+双目+python源码+毕业设计)
  • 华为OD机试题,用 Java 解【用户调度问题】问题
  • 根据mybatis plus注解动态创建sqlite表和表字段
  • 同步、异步ETL架构的比较
  • 【机会约束、鲁棒优化】具有排放感知型经济调度中机会约束和鲁棒优化研究【IEEE6节点、IEEE118节点算例】(Matlab代码实现)
  • 用Python帮老叔选出好基金,大赚一笔,老叔专门提着茅台登门道谢
  • ZeroTier实现内网穿透详细教程,无需公网IP,实现异地组网
  • 电商 SaaS 全渠道实时数据中台最佳实践
  • macos ncnn 安装踩坑记录···
  • ESP32设备驱动-AM2301(DHT21)温度湿度传感器驱动
  • [数据结构]:16-归并排序(顺序表指针实现形式)(C语言实现)
  • React(七):Router基本使用、嵌套路由、编程式导航、路由传参、懒加载
  • Java基础面试题(一)
  • 代码命名规范是一种责任也是一种精神(工匠精神)
  • 奇淫技巧:阅读源码时基于一组快捷键,让我们知道身在何方!
  • 你真的弄懂this指向了吗
  • 阿里云服务器使用教程:使用xshell、xFtp工具连接阿里云服务器(Centos7)并修改Centos7的yum源为阿里镜像源
  • 一文快速入门 HTML 网页基础
  • DEJA_VU3D - Cesium功能集 之 100-任意多边形(标绘)
  • Cadence OrCAD Capture全局修改原理图的非本地库符号的方法图文教程Repalce Catch功能
  • npm包版本号详解
  • ubuntu 系统安装docker——使用docker打包python项目,整个流程介绍
  • MySQL事务篇
  • 【Redis】搭建分片集群
  • RoCEv2网络部署实践
  • 【HashMap】| 深度剥析Java SE 源码合集Ⅱ | 你会吗?
  • 剑指 Offer 39. 数组中出现次数超过一半的数字
  • 使用python控制摄像头
  • Linux文件系统
  • 扬帆优配|引活水 增活力 促转型 创业板助力实体经济高质量发展