当前位置：首页 > news >正文

认识爬虫 —— bs4提取

news 2025/8/6 14:28:38

安装：pip install bs4

导入：from bs4 import BeautifulSoup

创建 Beautiful Soup 对象：soup = BeautifulSoup(html, features="lxml")

其中html为要解析的文档，features为使用的解析器类型

BS4支持的解析器有html.parse(Python内置)、lxml、和html5lib等

注意：lxml只会局部遍历，而BeautifulSoup则会全文档搜索

搜索文档树：

find：与findall函数一样用法，区别在于find返回一个对象，如果没有则返回None，而findall返回列表。

findall：返回所有匹配的列表，否则返回空列表；

css选择器：使用select方法，返回的是列表

选择器	描述
标签选择器	soup.select('title')
类选择器	soup.select('.sister')
id选择器	soup.select('#title')
层级选择器	soup.select('p title')
属性选择器	soup.select('a[href="http://baidu.com"]')
组合选择器	soup.select('div.class1.class2')
获取文本内容 get_text()	soup.select('title')[0].get_text()
获取属性 get('属性名')	soup.select('title')[0].get('href')

http://www.lryc.cn/news/611290.html

相关文章：

阿里招AI产品运营

永磁同步电机的矢量控制

RK3568下使用Qt 绘制实现实时坐标曲线

【Spring Cloud】-- 注册中心

PowerShell 入门2: 使用帮助系统

异或游戏运算符优先级问题

GB28181监控平台LiveGBS如何配置GB28181对接海康、大华解码器上墙，将GB28181平台是视频给硬件解码器解码上墙

C语言的常见错误与调试

uniapp renderjs 逻辑层，视图层互相传递数据封装

背包初步练习

计算机视觉面试保温：CLIP（对比语言-图像预训练）和BERT技术概述

Linux逻辑卷管理操作指南

论文解读：Mamba: Linear-Time Sequence Modeling with Selective State Spaces

JSP相关Bug解决

AutoSar AP LT规范中建模消息和非建模消息都可以使用LogInfo() API吗？

stm32F407 硬件COM事件触发六步换相

AI赋能复合材料与智能增材制造：前沿技术研修重磅

智能融合：增材制造多物理场AI建模与工业应用实战

【面向对象】面向对象七大原则

linux nfs+autofs

注意点:Git 从安装到分支协作、冲突解决的完整步骤 ---待修改，没看这个步骤，需要重新整理步骤

ara::log::LogStream::WithTag的概念和使用案例

跨域场景下的Iframe事件监听

Nature Neuroscience | 如何在大规模自动化MRI分析中规避伪影陷阱？

Android 开发中，HandlerThread、IntentService 和 AsyncTask区别对比

性能测试终极指南：从指标到实战

《传统企业如何借助数字化转型实现企业增长》

机器学习通关秘籍｜Day 03：决策树、随机森林与线性回归