当前位置：首页 > news >正文

python 用正则在response.text中获取＜title＞标签的内容

news 2025/9/16 22:51:46

使用正则表达式从HTTP响应文本中提取<title>标签内容的Python实现方法：

方法一：基础正则匹配

import re
import requestsresponse = requests.get('https://example.com')
html = response.text
title = re.findall(r'<title>(.*?)</title>', html)[0]  # 非贪婪匹配避免截断:ml-citation{ref="3" data="citationList"}

方法二：处理编码与异常

import re
import requeststry:response = requests.get('https://example.com')response.encoding = response.apparent_encoding  # 自动检测编码:ml-citation{ref="7" data="citationList"}title_match = re.search(r'<title>(.*?)</title>', response.text)if title_match:print(title_match.group(1))  # 使用group提取捕获组内容:ml-citation{ref="5" data="citationList"}
except Exception as e:print(f"Error: {e}")

注意事项

‌编码处理‌：建议设置response.encoding避免乱码，优先使用apparent_encoding自动检测
‌正则优化‌：非贪婪模式.*?可防止匹配到后续闭合标签
‌异常捕获‌：网络请求需包裹在try-except中处理超时等问题
‌替代方案‌：复杂HTML解析推荐使用BeautifulSoup，正则更适用于简单场景

如需处理动态加载页面，可结合Selenium获取完整DOM后再提取。

http://www.lryc.cn/news/570949.html

相关文章：

Windows 8.1 preview 新功能发现（一）

ctf训练 ssh私钥泄露

中国信息安全测评中心：从数据全生命周期看数据泄露防护问题

【C++ Primer Plus学习记录】字符串——C++ string类

机器学习笔记(5)——SMO优化算法(实现SVM)

【模拟贪心】B4207 [常州市赛 2021] 战士|普及+

麻雀要革命2 第19节：风马牛不相及

关于脉冲功率技术的认识

优化网站设计（二十）：使用多个主机来平衡负载

命令模式Command Pattern

redis 中 Hash哈希介绍及常用命令 (附有示例)

目标检测总结：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

STC 89C52 单片机引脚对应的功能以及实例讲解

第六章、6.2 ESP32低功耗模式详解：深度睡眠与轻度睡眠实战指南

[python爬虫之路day5]：实战之电影天堂2019精选电影爬取

String.indexOf 用法

to avoid naming wrong index webpage for one website

Flash的126个为什么

Python ｜ Python中最常用的100个函数（含内置函数、标准库函数及第三方库）

《东周列国志》第十七回宋国纳赂诛长万楚王杯酒虏息妫

java permainan jombi_Ejaan ni Betul ke Salah?

[iOS] performSelectorOnMainThread支持多个参数

org.springframework.transaction.interceptor 类 TransactionProxyFactoryBean

VS2013+MFC 简易音乐播放器

电商导购系统的基本架构与设计

【习题解析】田忌赛马

linux设备树dts文件详解

matlab axis函数_MATLAB二维图形

HTML网页一键变黑白色调

Source Insight的入门使用