当前位置：首页 > article >正文

用Python爬虫帮助出版社的实习生批量爬取古籍图片

article 2025/9/11 21:53:30

某天中午，一个陌生微信加了老夫的微信，说有个需求需要请教。

收到链接后，马上开撸代码。

1、目标网站分析

主页(图)

主页是一个 table 列表，我们实际需要的数据是 全文影像 的页面里的数据。

全文影像(图)

通过点击页面相关链接，老夫发下如下规律：

1、全文影像 中顶部的分页数字指的是书籍有多少册，如下图有17册。

每册链接是：http://db.sido.keio.ac.jp/kanseki/flipping/006659-001/index.html

这个链接中 006659 指的是书号，001指的是第一册，以此类推

第二页链接：

http://db.sido.keio.ac.jp/kanseki/flipping/006659-002/index.html

第三页链接：

http://db.sido.keio.ac.jp/kanseki/flipping/006659-003/index.html

2、全文影像 中底部的分页数据代表每册有多少页，如下图有25页

查看全文

http://www.lryc.cn/news/2415440.html

Socket网络编程之IO多路复用——select、poll、epoll详谈

Flink --- 容错机制Fault Tolerance

Android 百度地图 SDK v3_3_0 （三） ---离线地图

Struts2框架的基本使用

HTTP协议中的Cookie和Session

wow服务器维护通告,新一轮大服务器实装公告：4月2日凌晨维护

XR Interaction Toolkit教程⭐四、实现与UI交互

Anchor-Free即插即用 | 平滑标签分配+动态IoU匹配

VS2010正式版MSDN下载

管理结果集、java7的RowSet 1.1

Visual C++ 6.0 ( VC 6 )带 SP6 中英文双语版下载

万能DOS启动盘制作全攻略！（软盘＋光盘＋U盘＋硬盘＋NTFS＋……）

服务器系统2008 64,服务器主机server 2008 R2 操作系统漏洞

【Turbo C 2.0系列】1. 系列工具介绍

WebEffect网页特效集锦系统

了解 Cookie 和 Session：Web 开发中的身份验证机制

android 进程 application,将system_server进程配置成Android Application进程

常用的ID网站

关于newsbar和卓越的区别！！

1、目标网站分析

相关文章：