当前位置: 首页 > news >正文

mechanize - 自动化与HTTP web服务器的交互操作



1、前言


随着自动化测试的普及与落地推广,出现了众多知名的自动化测试工具,如Selenium 、Robot Framework、Playwright等。本文将介绍一款在Python环境下的mechanize库,这个库能够模拟浏览器行为,支持发送HTTP请求、解析HTML页面和模拟用户输入等功能,非常适合开发自动化测试程序。

在如今的数字化时代,自动化与Web服务器的交互操作变得越来越重要。无论是数据抓取、网站测试,还是自动化表单提交,开发者都在寻找高效便捷的解决方案。Mechanize作为一款强大的Python库,为这些需求提供了完美的答案。



2、简介

在Python中进行有状态的程序化网页浏览。通过程序化浏览页面,轻松填写HTML表单和点击链接等操作,可以实现自动化测试、自动化爬虫等操作。

主要功能:

mechanize.Browser类实现了urllib2.OpenerDirector的接口,因此可以打开任何URL,不仅限于HTTP。

简便的HTML表单填写。

便捷的链接解析和跟踪。

浏览器历史记录,.back()和.reload()方法。

Referer HTTP请求头已正确添加(可选)。

自动遵守robots.txt。

自动处理HTTP-Equiv和Refresh。

Github网址:https://github.com/python-mechanize/mechanize


3、安装

1、正式版本:

pip3 install mechanize


2、开发版本:

git clone https://github.com/python-mechanize/mechanize.git
cd mechanize
pip3 install -e .


3、手动安装,只需在PYTHONPATH上的某处添加mechanize子目录。


那么,Mechanize究竟是如何简化与HTTP Web服务器的交互操作的?为什么它成为了开发者的首选工具 

4、快速上手1、简单示例:

import mechanize# 创建一个浏览器对象
br = mechanize.Browser()# 设置请求头,伪装成浏览器
br.addheaders = [('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36')]# 设置各种处理器
br.set_handle_equiv(True) # 解析HTML文档中的meta http-equiv标签
br.set_handle_gzip(True) # 解压缩gzip编码的响应
br.set_handle_redirect(True) # 允许自动处理HTTP重定向
br.set_handle_referer(True) # 在请求头中添加Referer字段
br.set_handle_robots(False) # 不遵循robots.txt文件# 设置自动刷新的处理,max_time是刷新等待的最长时间
br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)# 是否设置debug模式
br.set_debug_http(True)
br.set_debug_redirects(True)
br.set_debug_responses(True)# 打开一个网页
br.open("https://mechanize.readthedocs.io/en/latest/")# 选择搜索表单
br.select_form(id='rtd-search-form')# 填写搜索关键词
br['q'] = 'python'# 提交搜索表单
br.submit()# 获取搜索结果页面内容
content = br.response().read()# 打印
print(content)

运行后,打印的结果。 


2、官方示例:

import re
import mechanizebr = mechanize.Browser()
br.open("http://www.example.com/")
# follow second link with element text matching regular expression
response1 = br.follow_link(text_regex=r"cheese\s*shop", nr=1)
print(br.title())
print(response1.geturl())
print(response1.info()) # headers
print(response1.read()) # bodybr.select_form(name="order")
# Browser passes through unknown attributes (including methods)
# to the selected HTMLForm.
br["cheeses"] = ["mozzarella", "caerphilly"] # (the method here is __setitem__)
# Submit current form. Browser calls .close() on the current response on
# navigation, so this closes response1
response2 = br.submit()# print currently selected form (don't call .submit() on this, use br.submit())
print(br.form)response3 = br.back() # back to cheese shop (same data as response1)
# the history mechanism returns cached response objects
# we can still use the response, even though it was .close()d
response3.get_data() # like .seek(0) followed by .read()
response4 = br.reload() # fetches from serverfor form in br.forms():print(form)
# .links() optionally accepts the keyword args of .follow_/.find_link()
for link in br.links(url_regex="python.org"):print(link)br.follow_link(link) # takes EITHER Link instance OR keyword argsbr.back()

Mechanize的最大优势在于其模拟浏览器的能力,允许开发者自动化地与网页进行交互。例如,开发者小王需要定期从某个网站抓取数据。通过使用Mechanize,他能够编写脚本自动登录网站,导航至特定页面,并抓取所需的数据。这不仅节省了大量的时间,还避免了手动操作的繁琐和重复

Mechanize库不仅简化了与HTTP Web服务器的交互操作,还为开发者提供了强大的自动化能力。通过使用Mechanize,开发者可以更高效地完成数据抓取、网站测试等任务,专注于更具创造性的开发工作。

http://www.lryc.cn/news/387079.html

相关文章:

  • 【Android】保留elevation层级效果,舍弃阴影效果
  • Java新手启航:Windows下JDK安装,开启编程之旅
  • c++指针和引用之高难度(二)习题讲解
  • UNIAPP编译到微信小程序时,会多一层以组件命名的标签
  • 工业自动化控制中心
  • 【Git】GitIgnore不生效
  • 面向对象,常用类,集合,异常,JDBC,mysql数据库内容的复习,
  • HTML5+JavaScript单词游戏
  • Windows 中的 Hosts 文件是什么?如何找到并修改它?
  • 详细分析Oracle中的tnsnames.ora基本知识 以及 PLSQL如何连接(附Demo)
  • [深度学习] 图神经网络GNN
  • MATLAB中添加 Git 子模块
  • 24级中国科学技术大学843信号与系统考研分数线,中科大843初复试科目,参考书,大纲,真题,苏医工生医电子信息与通信工程。
  • 深入剖析C语言中volatile与register关键字的实战应用与底层原理
  • vue开发网站--关于window.print()调取打印
  • OJ-选座位
  • 【子串】3. 无重复的最长子串
  • Scrapy中爬虫优化技巧分享
  • 自然语言处理-BERT处理框架-transformer
  • Kafka~消息系列问题解决:消费顺序问题解决、消息丢失问题优化(不能保证100%)
  • 如何确保日常安全运维中的数据加密符合等保2.0标准?
  • 下一代的JDK - GraalVM
  • Java三方库-单元测试
  • p2p、分布式,区块链笔记: libp2p基础
  • 企业本地大模型用Ollama+Open WebUI+Stable Diffusion可视化问答及画图
  • Unity学习笔记---调试
  • Py之dashscope:dashscope的简介、安装和使用方法、案例应用之详细攻略
  • Go使用Gin框架开发的Web程序部署在Linux时,无法绑定监听Ipv4端口
  • 【图解大数据技术】Hadoop、HDFS、MapReduce、Yarn
  • AGPT•intelligence:带你领略全新量化交易的风采