当前位置: 首页 > article >正文

用Python爬虫帮助出版社的实习生批量爬取古籍图片

某天中午,一个陌生微信加了老夫的微信,说有个需求需要请教。

image

image

image

image

image

收到链接后,马上开撸代码。

1、目标网站分析

image

主页(图)

主页是一个 table 列表,我们实际需要的数据是 全文影像 的页面里的数据。

image

全文影像(图)

通过点击页面相关链接,老夫发下如下规律:

1、全文影像 中顶部的分页数字指的是书籍有多少册,如下图有17册。

image

每册链接是:http://db.sido.keio.ac.jp/kanseki/flipping/006659-001/index.html

这个链接中 006659 指的是书号,001指的是第一册,以此类推

第二页链接:

http://db.sido.keio.ac.jp/kanseki/flipping/006659-002/index.html

第三页链接:

http://db.sido.keio.ac.jp/kanseki/flipping/006659-003/index.html

2、全文影像 中底部的分页数据代表每册有多少页,如下图有25页

http://www.lryc.cn/news/2415440.html

相关文章:

  • 解析Windows7下的BCD管理工具
  • Git同时push到多个远程仓库
  • Mother‘s Milk
  • 常用网址收藏
  • Socket网络编程之IO多路复用——select、poll、epoll详谈
  • Flink --- 容错机制Fault Tolerance
  • Android 百度地图 SDK v3_3_0 (三) ---离线地图
  • Struts2框架的基本使用
  • HTTP协议中的Cookie和Session
  • Redhat Linux 9 安装讲解
  • 如何打开微博的门禁
  • 用虚拟机软盘启动自己的磁盘镜像文件
  • iframe背景透明问题
  • 马云内网突然发声
  • wow服务器维护通告,新一轮大服务器实装公告:4月2日凌晨维护
  • XR Interaction Toolkit教程⭐四、实现与UI交互
  • Anchor-Free即插即用 | 平滑标签分配+动态IoU匹配
  • VS2010正式版MSDN下载
  • 管理结果集、java7的RowSet 1.1
  • Visual C++ 6.0 ( VC 6 )带 SP6 中英文双语版 下载
  • 万能DOS启动盘制作全攻略!(软盘+光盘+U盘+硬盘+NTFS+……)
  • 推荐40个互联网知名博客
  • tp-link无线网卡linux下的驱动,Ubuntu14下安装无线网卡驱动(TP-LINK TL-WN823N)
  • 服务器系统2008 64,服务器主机server 2008 R2 操作系统漏洞
  • 【Turbo C 2.0系列】1. 系列工具介绍
  • WebEffect网页特效集锦系统
  • 了解 Cookie 和 Session:Web 开发中的身份验证机制
  • android 进程 application,将system_server进程配置成Android Application进程
  • 常用的ID网站
  • 关于newsbar和卓越的区别!!