当前位置: 首页 > news >正文

python 用正则在response.text中获取<title>标签的内容

使用正则表达式从HTTP响应文本中提取<title>标签内容的Python实现方法:

方法一:基础正则匹配

import re
import requestsresponse = requests.get('https://example.com')
html = response.text
title = re.findall(r'<title>(.*?)</title>', html)[0]  # 非贪婪匹配避免截断:ml-citation{ref="3" data="citationList"}

方法二:处理编码与异常

import re
import requeststry:response = requests.get('https://example.com')response.encoding = response.apparent_encoding  # 自动检测编码:ml-citation{ref="7" data="citationList"}title_match = re.search(r'<title>(.*?)</title>', response.text)if title_match:print(title_match.group(1))  # 使用group提取捕获组内容:ml-citation{ref="5" data="citationList"}
except Exception as e:print(f"Error: {e}")

注意事项

  1. 编码处理‌:建议设置response.encoding避免乱码,优先使用apparent_encoding自动检测
  2. 正则优化‌:非贪婪模式.*?可防止匹配到后续闭合标签
  3. 异常捕获‌:网络请求需包裹在try-except中处理超时等问题
  4. 替代方案‌:复杂HTML解析推荐使用BeautifulSoup,正则更适用于简单场景

如需处理动态加载页面,可结合Selenium获取完整DOM后再提取。

http://www.lryc.cn/news/570949.html

相关文章:

  • Windows 8.1 preview 新功能发现(一)
  • ctf训练 ssh私钥泄露
  • 中国信息安全测评中心:从数据全生命周期看数据泄露防护问题
  • 【C++ Primer Plus学习记录】字符串——C++ string类
  • 机器学习笔记(5)——SMO优化算法(实现SVM)
  • 【模拟 贪心】B4207 [常州市赛 2021] 战士|普及+
  • 麻雀要革命2 第19节:风马牛不相及
  • 关于脉冲功率技术的认识
  • 优化网站设计(二十):使用多个主机来平衡负载
  • 命令模式Command Pattern
  • redis 中 Hash哈希介绍 及常用命令 (附有示例)
  • 目标检测总结:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD
  • STC 89C52 单片机引脚对应的功能以及实例讲解
  • 第六章、6.2 ESP32低功耗模式详解:深度睡眠与轻度睡眠实战指南
  • [python爬虫之路day5]:实战之电影天堂2019精选电影爬取
  • String.indexOf 用法
  • to avoid naming wrong index webpage for one website
  • Flash的126个为什么
  • Python | Python中最常用的100个函数(含内置函数、标准库函数及第三方库)
  • 《东周列国志》第十七回 宋国纳赂诛长万 楚王杯酒虏息妫
  • java permainan jombi_Ejaan ni Betul ke Salah?
  • [iOS] performSelectorOnMainThread支持多个参数
  • org.springframework.transaction.interceptor 类 TransactionProxyFactoryBean
  • VS2013+MFC 简易音乐播放器
  • 电商导购系统的基本架构与设计
  • 【习题解析】田忌赛马
  • linux设备树dts文件详解
  • matlab axis函数_MATLAB二维图形
  • HTML网页一键变黑白色调
  • Source Insight的入门使用