当前位置: 首页 > news >正文

爬虫案例(读书网)

一.我们还是使用简单的bs4库和lxml,使用xpath:

导入下面的库:

import requests
from bs4 import BeautifulSoup
from lxml import etree

我们可以看见它的div和每个书的div框架,这样会观察会快速提高我们的简单爬取能力。

二.实例代码:

headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36'}
link="https://www.dushu.com/"
r=requests.get(link,headers=headers)
r.encoding='utf-8'soup=BeautifulSoup(r.text,'lxml')
house_list=soup.find_all('div',class_="border books-center")
html=etree.HTML(r.text)# name=html.xpath('//div[@class="property-content-title"]/h3/text()')
# for house in house_list:
#     name=soup.find('div',class_="nlist").a.strong.text()
#
#     print(name)
name=html.xpath('//div[@class="bookname"]/a/text()')
# href=html.xpath('//div[@class="nlist"]/div/ul/li/a/@href')print(name)
for i in name:print(i)

运行结果如下:

 我们成功抓取了网页上书籍的名字,我们可以把它放入一个文件或者文本里面。

三.总结

我们简单的抓取书籍,先找到它需要的大div或者是ur、然后在里面找到自己需要抓取的数据,我们开始练习这样简单案例,会提高爬虫的理解。下次我会加上数据库和可视化

http://www.lryc.cn/news/358054.html

相关文章:

  • Linux系统编程(五)多线程创建与退出
  • 计算机毕业设计 | SpringBoot个人博客管理系统(附源码)
  • 字母的大小写转换
  • JTW结构
  • debian11安装留档@VirtualBox
  • SpringBoot——整合Thymeleaf模板
  • 电商推荐系统+电影推荐系统【虚拟机镜像分享】
  • (函数)判断素数(C语言)
  • git 学习随笔
  • 【因果推断python】1_因果关系初步1
  • (函数)颠倒字符串顺序(C语言)
  • 自定义数据集上的3D目标检测:使用OpenPCDet训练CenterPointPillar模型
  • 音乐传奇告别之作:《杰作》未解之谜❗❗
  • 【Postman接口测试】第四节.Postman接口测试项目实战(上)
  • opencv学习备份
  • Unity 中获取调用者方法名
  • k8s集群中pod的容器资源限制和三种探针
  • tar 详细说明
  • 渗透测试工具Cobalt strike-2.CS基础使用
  • 【UE5.1 角色练习】08-物体抬升、抛出技能 - part2
  • Java面试题--JVM大厂篇(1-10)
  • 【知识拓展】机器学习基础(一):什么是预处理对象、模型对象 、pipeline、Tokenizer
  • Linux dig 命令
  • 后台接口返回void有设置response相关内容,前端通过open打开接口下载excel文件
  • scp问题:Permission denied, please try again.
  • new CCDIKSolver( OOI.kira, iks ); // 创建逆运动学求解器
  • 【Go】Swagger v2 转 OpenApi v3 CLI - swag2op
  • python Z-score标准化
  • 人工智能的数学基础(高数)
  • React(四)memo、useCallback、useMemo Hook