当前位置: 首页 > news >正文

认识爬虫 —— bs4提取

安装:pip install bs4

导入:from bs4 import BeautifulSoup

创建 Beautiful Soup 对象:soup = BeautifulSoup(html, features="lxml")

其中html为要解析的文档,features为使用的解析器类型

BS4支持的解析器有html.parse(Python内置)、lxml、和html5lib等

注意:lxml只会局部遍历,而BeautifulSoup则会全文档搜索


搜索文档树:

find:与findall函数一样用法,区别在于find返回一个对象,如果没有则返回None,而findall返回列表。

findall:返回所有匹配的列表,否则返回空列表;

css选择器:使用select方法,返回的是列表

选择器 

 描述
标签选择器soup.select('title')
类选择器soup.select('.sister')
id选择器  soup.select('#title')
层级选择器soup.select('p title')
属性选择器soup.select('a[href="http://baidu.com"]')
组合选择器soup.select('div.class1.class2')
获取文本内容    get_text()soup.select('title')[0].get_text()
获取属性    get('属性名')soup.select('title')[0].get('href')

http://www.lryc.cn/news/611290.html

相关文章:

  • 阿里招AI产品运营
  • 永磁同步电机的矢量控制
  • RK3568下使用Qt 绘制实现实时坐标曲线
  • 【Spring Cloud】-- 注册中心
  • PowerShell 入门2: 使用帮助系统
  • 异或游戏 运算符优先级问题
  • GB28181监控平台LiveGBS如何配置GB28181对接海康、大华解码器上墙,将GB28181平台是视频给硬件解码器解码上墙
  • cJSON库应用
  • C语言的常见错误与调试
  • uniapp renderjs 逻辑层,视图层互相传递数据封装
  • 背包初步练习
  • 计算机视觉面试保温:CLIP(对比语言-图像预训练)和BERT技术概述
  • Linux逻辑卷管理操作指南
  • 论文解读:Mamba: Linear-Time Sequence Modeling with Selective State Spaces
  • JSP相关Bug解决
  • AutoSar AP LT规范中 建模消息和非建模消息都可以使用LogInfo() API吗?
  • 达芬奇31-40
  • stm32F407 硬件COM事件触发六步换相
  • AI赋能复合材料与智能增材制造:前沿技术研修重磅
  • 智能融合:增材制造多物理场AI建模与工业应用实战
  • 【面向对象】面向对象七大原则
  • linux nfs+autofs
  • 注意点:Git 从安装到分支协作、冲突解决的完整步骤 ---待修改,没看这个步骤,需要重新整理步骤
  • ara::log::LogStream::WithTag的概念和使用案例
  • 跨域场景下的Iframe事件监听
  • Nature Neuroscience | 如何在大规模自动化MRI分析中规避伪影陷阱?
  • Android 开发中,HandlerThread、IntentService 和 AsyncTask区别对比
  • 性能测试终极指南:从指标到实战
  • 《传统企业如何借助数字化转型实现企业增长》
  • 机器学习通关秘籍|Day 03:决策树、随机森林与线性回归