当前位置: 首页 > news >正文

Web连接器

分模块编写爬虫(一)

连接器模块基本思路:

  • 输入:url连接
  • 输出:url对应的html文本
  • 步骤:
    • 定义url和user-agent
    • 获取网页的requests对象
    • 捕获异常:
      • 403:禁止访问
      • 404:页面失效
      • 503:页面临时不可访问,可隔段时间重试
      • 301:网页重定向
      • Timeout:请求超时
    • 若连接成功,将返回状态码200
    • 指定requests对象的编码方式为utf-8
    • 返回页面的文本
import requests
from requests import ReadTimeout, ConnectionError, RequestException# 定义url与请求头
URL = "http://www.hzau.edu.cn/"
#使用字典结构
HEADERS = {"User-Agent": "?Googlebot"
}#web连接器模块,输入url,返回页面文本
def getHtml(url):global HEADERStry:result = req.get(url, HEADERS)except ConnectionError:returnexcept ReadTimeout:returnexcept RequestException:returnelse:if result.status_code == 200:# 指定网页的编码方式result.encoding = "utf-8"# 返回网页文本信息return result.textelif result.status_code == 404:returnelif result.status_code == 403:returnif __name__ == "__main__":print(getHtml(URL))            
http://www.lryc.cn/news/25938.html

相关文章:

  • 插上数据的翅膀,开启我升职加薪的梦想之旅
  • 来香港饮茶吹水先,免费报名Zabbix Meetup香港站!
  • 李群李代数求导-常用求导公式
  • IIS之web服务器的安装、部署以及使用教程(图文详细版)
  • 进程的介绍
  • hadoop shell 练习题
  • 优化Linux系统性能的必杀技:调整进程优先级!学会使用nice命令,让你的系统飞一般的顺畅!
  • fastdds router-3.开始
  • 云服务器ECS 什么是云服务器ECS?
  • 【socket网络编程】
  • 【验证码逆向专栏】某验三代、四代一键通过模式逆向分析
  • 《MySql学习》 MySQL的 加锁规则
  • 软件测试(linux命令篇-01文件操作命令)
  • Code Virtualizer 3.1.4 Crack
  • Torch同时训练多个模型
  • LCR数字电桥软件下载安装教程
  • C++模板写法详解
  • 【备战面试】每日10道面试题打卡-Day2
  • “数字档案室测评”相关参考依据梳理
  • android 动态加载jar包
  • JAVA版B2B2C商城源码多商户入驻商城
  • 测试人员如何在测试环境数据库批量生成测试数据?方案分享
  • 【el】表单
  • 【Flutter入门到进阶】Flutter基础篇---布局
  • python海龟绘图
  • 【计算机网络】数据链路层
  • 使用groovy代码方式解开gradle配置文件神秘面纱
  • kafka入门到实战二(使用docker搭建kafka集群)
  • 【简化开发】lombok的使用、编译后的代码及源码
  • 在线就能用的主图设计素材,免费分享!