用Python爬虫帮助出版社的实习生批量爬取古籍图片
某天中午,一个陌生微信加了老夫的微信,说有个需求需要请教。
收到链接后,马上开撸代码。
1、目标网站分析
主页(图)
主页是一个 table 列表,我们实际需要的数据是 全文影像 的页面里的数据。
全文影像(图)
通过点击页面相关链接,老夫发下如下规律:
1、全文影像 中顶部的分页数字指的是书籍有多少册,如下图有17册。
每册链接是:http://db.sido.keio.ac.jp/kanseki/flipping/006659-001/index.html
这个链接中 006659 指的是书号,001指的是第一册,以此类推
第二页链接:
http://db.sido.keio.ac.jp/kanseki/flipping/006659-002/index.html
第三页链接:
http://db.sido.keio.ac.jp/kanseki/flipping/006659-003/index.html
2、全文影像 中底部的分页数据代表每册有多少页,如下图有25页