当前位置: 首页 > news >正文

Python:批量url链接保存为PDF

我的数据是先把url链接获取到存入excel中,后续对excel做的处理,各位也可以直接在程序中做处理,下面就是针对excel中的链接做批量处理
excel内容格式如下(涉及具体数据做了隐藏)

标题文件链接文件日期
网页标题1http://www.aaabbbcc.com.cn2024.2.5

在这里插入图片描述
代码逻辑:先读取excel文件内容,循环转换每一行的链接
具体代码示例:

注意:pdfkit,wkhtmltopdf一般情况下是需要安装的,已安装的忽略,wkhtmltopdf需要去官网下载安装包手动安装才可以
wkhtmltopdf下载:https://wkhtmltopdf.org/downloads.html
安装pdfkit,wkhtmltopdf

pip install pdfkit
pip install wkhtmltopdf 

官网下载wkhtmltopdf
在这里插入图片描述

# 将链接的网页保存为 PDF
import pdfkit
import pandas as pd
#读取excel
df=pd.read_excel(r'D:\WeChat\WeChat Files\wxid_ec4y3bp7rexo22\FileStorage\File\2024-02\示例数据.xlsx')
#循环获取每一行数据
for index, row in df.iterrows():url = row['文件链接'] #获取url#配置wkhtmltopdf环境,如果在系统环境变量中已经存在可以忽略,为保证代码生效建议配置config = pdfkit.configuration(wkhtmltopdf=r'D:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe')#调用URL并保存pdf,这里我把标题设置为pdf的文件名,具体设置看个人哈pdfkit.from_url(url, r'E:\1-work\模型\爬取数据文档\pdf\{}.pdf'.format(row['标题']), configuration=config)

运行完成!!!
在这里插入图片描述

http://www.lryc.cn/news/296879.html

相关文章:

  • 【LeetCode每日一题】525连续数组 303区域和检索(前缀和的基本概念和3个简单案例)
  • 形态学算法应用之连通分量提取的python实现——图像处理
  • Kafka系列之:Kafka集群同时设置基于时间和日志大小两种方式保存Topic的数据
  • pytest+allure批量执行测试用例
  • SpringBoot和SpringMVC
  • 免费搭建幻兽帕鲁服务器,白嫖阿里云游戏服务器
  • [技术杂谈]如何下载vscode历史版本
  • nginx slice模块的使用和源码分析
  • AI应用开发-python实现redis数据存储
  • 2024年Java架构篇之设计模式
  • 搭建macOS开发环境-1:准备工作
  • 【Makefile语法 02】Makefile语法基础
  • 如何写一个其他人可以使用的GitHub Action
  • 排序算法的时间复杂度存在下界问题
  • 详解洛谷P2016 战略游戏/BZOJ0495. 树的最小点覆盖之战略游戏(贪心/树形DP)
  • 解决The Tomcat connector configured to listen on port 8080 failed to start
  • 深度学习自然语言处理(NLP)模型BERT:从理论到Pytorch实战
  • C语言的循环结构
  • C#用Array类的FindAll方法和List<T>类的Add方法按关键词在数组中检索元素并输出
  • 【前后端接口AES+RSA混合加解密详解(vue+SpringBoot)附完整源码】
  • React环境配置
  • Pandas 数据处理-排序与排名的深度探索【第69篇—python:文本数据处理】
  • 第8节、双电机多段直线运动【51单片机+L298N步进电机系列教程】
  • Elasticsearch:基本 CRUD 操作 - Python
  • 1992-2022年全国及31省对外开放度测算数据(含原始数据+计算结果)(无缺失)
  • JVM之GC垃圾回收
  • 自然语言学习nlp 六
  • fpga 需要掌握哪些基础知识?
  • Qt未来市场洞察
  • GPT-4模型中的token和Tokenization概念介绍