当前位置: 首页 > article >正文

抓取静态网页数据

一、urllib库

1.学习目标

1.urllib库是什么?

2.如何使用urllib库快速爬取网页

3.用urllib库进行数据传输

4.代理服务器

5.异常处理方法

1.什么是urllib库

urllib库是Python编写爬虫程序操作URL的常用内置库。urllib库包含四大模块:

urllib.request:请求模块

urllib.error:异常处理模块

urllib.parse:URL解析模块

urllib.robotpaser:robots.txt解析模块

2.如何使用urllib库快速爬取网页

下面使用utllib快速爬取一个网页,具体代码如下:

import urllib.request
response=urllib.request.urlopen('http://www.baidu.com')
html=response.read().decode('UTF-8')
print(html)

爬取网页结果如下:

分析urlopen方法:urlopen方法可以接受多个参数。参数如下:

url--表示目标资源在网站中的位置。

data--用来指明向服务器发送请求的额外时间。

timeout--该参数用于设置超时时间,单位是秒。

context--熟悉爱你SSL加密传输。

使用HTTPResponse对象:使用urlopen方法发送HTTP请求后,服务器返回后的响应内容封装在一个HTTPResponse类型的对象中。

HTTPResponse类属于http.client模块,该类提供了获取URL、状态码、相应内容等一系列方法。

构造Request对象:如果希望对请求执行复杂操作,则需要创建一个Request对象来作为urlopen方法的参数。

3.使用urllib实现数据传输

3.1URL编码转换

当传递的URL包含中文或者其他特殊字符时,需要使用urllib.parse

http://www.lryc.cn/news/2419909.html

相关文章:

  • Hyperledger Fabric2.3 环境搭建及Fabric 测试网络使用
  • 初步了解SequoiaDB数据库
  • CSS3动画—— transition
  • ext-gwt与gwt-ext的区别
  • 7.1创新Audigy2Z S 7.1声卡的设置方法
  • 两个线程实现AABBCCDD
  • app测试系列-超详细的app测试攻略,一文带你学会移动端测试
  • 软件应用技巧二十二则
  • 好玩的100个网站收藏
  • 【腾讯云云上实验室】——向量数据库——Web端操作
  • 决策支持系统(DSS)介绍
  • 【C语言】静态函数(static)
  • JDBC 之ResultSetMetaData获取列名字
  • sockaddr和sockaddr_in的说明以及inet_pton和inet_ntop
  • Jsp(主要内容)
  • 关于使用response.addHeader下载中文名乱码问题
  • 2024两种免费永久域名,手快有,手慢无
  • LED驱动电路设计及原理分析
  • 《C#入门经典 第7版》读书笔记_集合
  • Java常见面试题-100道
  • 超标量技术
  • 科学把妹法
  • 3D技术及其应用
  • 论坛安装教程
  • android 6.0 官方下载,安卓6.0官方正式版
  • Git的简单使用(二)分支管理
  • 你女朋友也能读懂的LAMP架构
  • 基于django的网上电影系统,附源码
  • Windows内核对象(3) -- DuplicateHandle实现文件占用
  • .NET(C#) 基础教程及进阶教程