当前位置：首页 > news >正文

Python实现某du文库vip内容下载，保存成PDF

news 2025/8/12 21:36:55

前言

是谁，是谁在网页上搜索往年考试卷题+答案的时候只能阅读前两页的选择题，是谁在搜几千字的文档资料只能看25%，是谁在百度文库找七找八的时候所有的东西都要付费才能继续看…

我先说是我自己

我又不经常用，只有偶尔需要看看，还要我掏钱包，我说不行，绝对不行

什么都行谈钱不行

咱没钱，咱有技术，直接让python帮我

今天就来分享下 👇

用Python实现某du文库vip内容下载, 保存到word文档

前期准备

环境使用

python 3.8
pycharm

模块使用

requests >>> 数据请求模块 pip install requests
docx >>> 文档保存 pip install python-docx
re 内置模块不需要安装
ctrl + R 爬虫: 首先你得看得数据, 才能想办法获取

代码实现步骤

发送请求, 模拟浏览器对于url地址发送请求图片数据包:
获取数据, 获取服务器返回响应数据
开发者工具: response
解析数据, 提取图片链接地址
保存数据, 把图片内容保存到本地文件夹
做文字识别, 识别文字内容
把文字数据信息, 保存word文档里面

导入数据请求模块 import requests
导入格式化输出模块 from pprint import pprint
导入base64 import base64
导入os模块 import os
导入文档模块 from docx import Document
导入正则 import re
导入 json import json

1. 发送请求, 模拟浏览器对于url地址发送请求

长链接, 可以分段写
问号前面: url链接
问号后面: 请求参数/查询参数

源码.点击.领取.即可

# 确定请求链接
url = 'https://*****.com/gsearch/rec/pcviewdocrec'# 请求参数data = {'docId': docId,'query': name,'recPositions': ''}# 请求头headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'}#发送请求response = requests.get(url=url, params=data, headers=headers)# <Response [200]> 响应对象, 200 表示请求成功print(response)

2. 获取数据, 获取服务器返回响应数据

开发者工具: response

sponse.json() 获取响应json字典数据, 但是返回数据必须是完整json数据格式 花括号 {}
esponse.text 获取响应文本数据, 返回字符串  任何时候都可以, 但是基本获取网页源代码的时候
response.content 获取响应二进制数据, 返回字节 保存图片/音频/视频/特定格式文件print(response.json())  打印字典数据, 呈现一行
pprint(response.json()) 打印字典数据, 呈现多行, 展开效果

3. 解析数据, 提取图片链接地址

字典取值: 键值对根据冒号左边内容[键], 提取冒号右边的内容[值]

# 定义文件名 整型
num = 1
# for循环遍历, 把列表里面元素一个一个提取出来
for index in response.json()['data']['relateDoc']:# index 字典呀pic = index['pic']print(pic)

4. 保存数据发送请求 + 获取数据二进制数据内容

# img_content = requests.get(url=pic, headers=headers).content
# # 'img\\'<文件夹名字> + str(num)<文件名> + '.jpg'<文件后缀>  mode='wb' 保存方式, 二进制保存
# # str(num) 强制转换成 字符串
# # '图片\\' 相对路径, 相对于你代码的路径 你代码在那个地方, 那个代码所在地方图片文件夹
# with open('图片\\' + str(num) + '.jpg', mode='wb') as f:
#     # 写入数据 保存数据  把图片二进制数据保存
#     f.write(img_content)
# # 每次循环 + 1
# print(num)
# num += 1

5. 做文字识别, 识别文字内容

文字识别:

注册一个百度云API账号
创建应用并且去免费领取资源
在技术文档里面 Access Token获取
调用API接口做文字识别

python学习交流Q群：690643772 ### 源码领取
def get_content(file):# client_id 为官网获取的AK， client_secret 为官网获取的SKhost = 'https://*****comp'response = requests.get(host)access_token = response.json()['access_token']'''通用文字识别（高精度版）'''request_url = "https://********.com/rest/2.0/ocr/v1/accurate_basic"# 二进制方式打开图片文件f = open(file, 'rb')img = base64.b64encode(f.read())params = {"image":img}request_url = request_url + "?access_token=" + access_tokenheaders = {'content-type': 'application/x-www-form-urlencoded'}json_data = requests.post(request_url, data=params, headers=headers).json()# 列表推导式words = '\n'.join([i['words'] for i in json_data['words_result']])return words

读取文件夹里面所有图片内容

content_list = []
files = os.listdir('img\\')
for file in files:
filename = 'img\\' + file
words = get_content(file=filename)
print(words)
content_list.append(words)

6. 把文字数据信息, 保存word文档里面

保存word文档里面

doc = Document()

添加第一段文档内容

content = '\n'.join(content_list)
doc.add_paragraph(content)
doc.save('data.docx')

最后

今天的分享到这里就结束了有问题的宝子可以评论区留言，或者点击末尾名片进行交流学习哦

在这里插入图片描述

查看全文

http://www.lryc.cn/news/19408.html

vue3.0 模板语法

【GlobalMapper精品教程】054：标签（标注）功能案例详解

超详细树状数组讲解（+例题：动态求连续区间和）

【学习笔记】AGC055

墨者——内部文件上传系统漏洞分析溯源内部文件上传系统漏洞分析溯源

5.2 Python if语句

ubuntu gerrit 配置

运动蓝牙耳机什么牌子好，运动蓝牙耳机品牌推荐

(7)C#传智：方法及参数、重载(第7天)

Python 函数式编程

pandas读取EXCEL列名重复问题解决——pandas设置多行为列名（多层列名）

CMake常用语法

Java知识复习（一）基础知识

springboot+vue.js校园车辆用车预约管理系统

【 K8s 源码之调度学习】Pod 间亲和性和反亲和性的源码分析

计及绿证交易及碳排放的含智能楼宇微网优化调度（Matlab代码实现）

场景扩展，体验升级 | DBMotion新增无公网数据库迁移、支持监控报警等多项功能

【正点原子FPGA连载】第十五章eMMC读写测试实验摘自【正点原子】DFZU2EG_4EV MPSoC之嵌入式Vitis开发指南

i2c子系统

【K3s】第17篇 Helm版本和支持的Kubernetes版本对照表

如何自己搭建一个ai画图系统？从0开始云服务器部署novelai

SpringSecurity过滤请求导致的系统bug

css\js\vue知识点

在vue项目中使用video.js实现视频播放和视频进度条打点

【代码训练营】day41 | 01背包问题 416. 分割等和子集

linux网络编程-多进程实现TCP并发服务器

C语言的学习小结——数组

HTB-Photobomb

【LSTM】2 多因素单步骤预测

ChatGPT从下游应用“火”到了上游芯片厂，国内谁将受益？

前言