当前位置: 首页 > news >正文

【python知识】win10下如何用python将网页转成pdf文件

一、说明

        本篇记录一个自己享用的简单工具。在大量阅读网上文章中,常常遇到一个专题对应多篇文章,用浏览器的收藏根本不够。能否见到一篇文章具有搜藏价值,就转到线下,以备日后慢慢消化吸收。这里终于找到一个办法,将在线网页用python转化成pdf。

二、环境需要 

        wkhtmltopdf 是一个开源命令行工具,使用 Qt WebKit 渲染引擎将 HTML 文件渲染成 PDF。

为了在 Python 中使用它,我们还需要 pdfkit 库,它是 wkhtmltopdf 实用程序的包装器。

        首先,为您的操作系统搜索 wkhtmltopdf 安装程序。对于 Windows,您可以在此处找到最新版本的 wkhtmltopdf 安装程序。只需下载 .exe 文件并在您的计算机上安装即可。

        wkhtmltopdf下载路径是: here.

        需要记住安装目录的路径。在我的例子中是:C:\Program Files\wkhtmltopdf

        pdfkit需要安装 Python 库,请打开“命令提示符”(在 Windows 上)并使用以下代码安装它:

    pip install pdfkit

三、制作一个示例HTML文件

        为了继续演示本教程,我们需要使用一些 HTML 文件。这是我们将在本教程中使用的示例 sample.html 文件:

<!DOCTYPE html>
<html lang="en"><head><meta charset="UTF-8"><title>Hello!</title></head><body><h1>Welcome to my YouTube channel!</h1><p>This is a sample HTML file.</p></body></html>

在你的浏览器中打开,你应该看到:

四、如何将html转化成pdf文件

        首先,我们需要找到 wkhtmltopdf 可执行文件 wkhtmltopdf.exe 的路径

        回想一下,我们安装在 C:\Program Files\wkhtmltopdf 中,这意味着 .exe 文件位于该文件夹中。exe

        现在我们拥有了所需的一切,并且可以使用 Python 轻松地将 HTML 文件转换为 PDF,代码如下:

import pdfkit#Define path to wkhtmltopdf.exe
path_to_wkhtmltopdf = r'C:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe'#Define path to HTML file
path_to_file = 'sample.html'#Point pdfkit configuration to wkhtmltopdf.exe
config = pdfkit.configuration(wkhtmltopdf=path_to_wkhtmltopdf)#Convert HTML file to PDF
pdfkit.from_file(path_to_file, output_path='sample.pdf', configuration=config)

        注意:这里关键用了pdfkit.from_file函数。 

        sample.html 文件位于与 main.py 文件相同的目录中:

执行文件main.py 

    python3 mian.py 

将输出pdf文件:

五、把在线 Web-page转化成PDF

        使用 pdfkit 库,您还可以使用 Python 将在线网页转换为 PDF。

        在本节中,我们将重用上一节中的大部分代码,除了现在我们将使用网页的 URL 和 pdfkit 类的 .from_url() 方法而不是使用 HTML 文件:

对应的python代码:

import pdfkit#Define path to wkhtmltopdf.exe
path_to_wkhtmltopdf = r'C:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe'#Define url,可以指向您要转化的主页url
url = 'https://wkhtmltopdf.org/'#Point pdfkit configuration to wkhtmltopdf.exe
config = pdfkit.configuration(wkhtmltopdf=path_to_wkhtmltopdf)#Convert Webpage to PDF
pdfkit.from_url(url, output_path='webpage.pdf', configuration=config)

          注意:这里关键用了pdfkit.from_url函数。 

六、结论

        在本文中,我们探讨了如何使用 Python 和 wkhtmltopdf 将 HTML 转换为 PDF。您可以结合爬虫或其它批量工具,能够实现大量资料的转化。方便阅读查询。

http://www.lryc.cn/news/10347.html

相关文章:

  • C语言常见关键字
  • 【MT7628】固件开发-SDK4320添加MT7612E WiFi驱动操作说明
  • 如何从手工测试进阶自动化测试?阿里10年测开经验分享...
  • C++复习笔记11
  • 【MT7628】固件开发-SDK4320添加MT7628 WiFi驱动操作说明
  • C#开发的OpenRA游戏加载界面的实现
  • 渲染农场优势是什么_云渲染农场怎么用?
  • SoapUI、Jmeter、Postman三种接口测试工具的比较分析
  • Python内置函数 — sort,sorted
  • mysql事务隔离级别
  • 【C++】string类(下)
  • Elasticsearch: Prefix queries - 前缀查询
  • GEE学习笔记 七十七:GEE学习方法简介
  • 20基于主从博弈的智能小区代理商定价策略及电动汽车充电管理MATLAB程序
  • 长按power键,点击重启按钮,系统重启流程一
  • 数据的TCP分段和IP分片
  • HTML中嵌入B站视频
  • Mars3D Studio 的使用方法
  • Flutter For Web实践
  • 【神级Python代码】作为技术xiao白如何制作一款超炫酷的黑客主题代码雨?牛逼就完了。(源码分享学习)
  • 供应链挑战迎刃而解!桑迪亚国家实验室使出“量子杀手锏”
  • java程序设计-ssm博客管理系统
  • 从0到1一步一步玩转openEuler--17 openEuler DNF(YUM)检查更新
  • SpringBoot-自动配置-@Import注解与@EnableAutoConfiguration注解
  • 【笔记】C#一维数组、多维数组和交错数组的区别总结
  • 【SpringBoot】分布式日志跟踪—通过MDC实现全链路调用日志跟踪
  • 【设计模式】创建型模式
  • Spark Catalyst 查询优化器原理
  • 贝叶斯分析法在市场调研中的应用
  • JavaEE——MyBatis将查询结果集封装进POJO实体类