当前位置: 首页 > news >正文

python爬虫自动库DrissionPage保存网页快照mhtml/pdf/全局截图/打印机另存pdf

目录

      • 一、保存网页快照的三种方法
      • 二、利用打印机保存pdf的方法

  • 最近星球有人问如何使用页面打印功能,另存为pdf
    在这里插入图片描述

一、保存网页快照的三种方法

  • 解决方案已经放在星球内:https://articles.zsxq.com/id_55mr53xahr9a.html
  • 当然也可以看如下代码,如下三种保存快照的方法,分别是保存pdf、保存mhtml文件、保存全局截图,的方法,具体看网页加载情况可以设置滚动到底部再进行如下操作等
from DrissionPage import ChromiumPage
from urllib.parse import urlparse
browser = ChromiumPage()url = "https://www.baidu.com/"
file_name = urlparse(url).netloc.split(':')[0].lstrip('www.')
browser.get(url)
browser.save(path="D:\\", name=file_name, as_pdf=True)
browser.save(path="D:\\", name=file_name, as_pdf=False)
browser.get_screenshot(path="D:\\", name=file_name, full_page=True) 

二、利用打印机保存pdf的方法

  • 常规步骤,一般我们在浏览器打开网页,然后鼠标右击检查,选择打印,会出现如下页面,然后我们选择另存为pdf,保存这么一个流程,那么dp如何实现这个流程,代码在文章末尾
    在这里插入图片描述
  • 打印机保存pdf最终代码
import json
from DrissionPage import ChromiumPage, ChromiumOptionssettings = {"recentDestinations": [{"id": "Save as PDF", "origin": "local", "account": ""}],"selectedDestinationId": "Save as PDF","version": 2,  # 另存为pdf,1 是默认打印机"isHeaderFooterEnabled": True,  # 是否勾选页眉和页脚# "customMargins": {}, # "marginsType": 2,  # "scaling": 100, # 缩放  # "scalingType": 3, # "scalingTypePdf": 3,"isLandscapeEnabled": False,  # landscape横向,portrait 纵向,若不设置该参数,默认纵向"isCssBackgroundEnabled": True,  # 是否勾选背景图形"mediaSize": {"height_microns": 297000,  "name": "ISO_A4",  "width_microns": 210000, "custom_display_name": "A4 210 x 297 mm"},
}
co = ChromiumOptions()
co.set_argument("--window-size=1920, 1080")
co.set_pref('printing.print_preview_sticky_settings.appState', json.dumps(settings))
co.set_pref('savefile.default_directory', r'D:\\')   # 修改为网页转PDF后要保存的路径
co.set_argument('--kiosk-printing')  # 静默打印,无需用户点击打印页面的确定按钮
print(co.preferences)
browser = ChromiumPage(co)
browser.get("https://www.baidu.com/")
browser.run_js(f'document.title="{browser.title}";window.print();', timeout=6)  # 利用js修改网页的title,该title最终就是PDF文件名,利用js的window.print可以快速调出浏览器打印窗口,避免使用热键ctrl+P
  • 参考文章
    https://www.cnblogs.com/caroline2016/p/18348831
    https://shandianchengzi.blog.csdn.net/article/details/137883196
调用浏览器打印机,另存为pdf
co.set_argument("--print-to-pdf")
co.set_pref("download.prompt_for_download", False)
co.set_pref('plugins.always_open_pdf_externally', False)
co.set_pref('plugins.plugins_disabled', ["Chrome PDF Viewer"])
co.set_pref('profile.default_content_settings.popups', 0)
co.set_pref('directory_upgrade', True)
co.set_argument('--enable-print-browser')
browser.run_js("return window.print()", timeout=6)
"""
http://www.lryc.cn/news/480132.html

相关文章:

  • 基于毫米波雷达和TinyML的车内检测、定位与分类
  • 小E的射击训练
  • React的概念以及发展前景如何?
  • PDF生成:全面解析,C# 如何使用iTextSharp库(或其他类似库)生成PDF文档,包括如何将位图图像嵌入PDF中。
  • 如何选择最适合的消息队列?详解 Kafka、RocketMQ、RabbitMQ 的使用场景
  • gitlab项目如何修改主分支main为master,以及可能遇到的问题
  • RRF(Reciprocal Rank Fusion,倒数排序融合)
  • 移动开发(七):.NET MAUI使用RESTAPI实现查询天气笔记
  • 企业数据无缝对接:从旺店通到金蝶云的入库单管理案例
  • 青少年编程与数学 02-003 Go语言网络编程 19课题、Go语言Restful编程
  • 系统架构设计师论文:论区块链技术及应用
  • 放电电阻是什么
  • 项目模块十七:HttpServer模块
  • Spire.PDF for .NET【页面设置】演示:获取 PDF 文件中的页数
  • 火语言RPA流程组件介绍--点击软件元素
  • c++程序设计速学笔记2基础数据结构
  • 搜维尔科技:SenseGlove案例-利用VR触觉技术培训机组人员
  • OpenCV视觉分析之目标跟踪(10)估计两个点集之间的刚性变换函数estimateRigidTransform的使用
  • Python 虚拟环境创建
  • STL-list容器的使用
  • java中线程与集合的面试题
  • 第十五章 IRIS 进程之间的通信
  • 设计者模式之策略模式
  • STM32H750 COMP模拟比较器
  • openresty入门教程:rewrite_by_lua_block
  • Java 并发编程学习笔记
  • 【SpringMVC】——Cookie和Session机制
  • [产品管理-60]:产品的情感化设计与常用工具:感性工学、情感分析、神经网络法、微软反应卡、突发情绪法
  • uniapp 小程序 周选择器
  • Android笔记(三十二):封装一个毫秒级别倒计时View