当前位置: 首页 > news >正文

爬虫知识之BeautifulSoup库安装及简单介绍

一. 前言

        在前面的几篇文章中我介绍了如何通过Python分析源代码来爬取博客、维基百科InfoBox和图片,其文章链接如下:

        其中核心代码如下:

# coding=utf-8  
import urllib  
import re  
  
#下载静态HTML网页  
url='http://www.csdn.net/'  
content = urllib.urlopen(url).read()  
open('csdn.html','w+').write(content)  
#获取标题  
title_pat=r'(?<=<title>).*?(?=</title>)'  
title_ex=re.compile(title_pat,re.M|re.S)  
title_obj=re.search(title_ex, content)  
title=title_obj.group()  
print title  
#获取超链接内容   
href = r'<a href=.*?>(.*?)</a>'  
m = re.findall(href,content,re.S|re.M)  
for text in m:  
    print unicode(text,'utf-8')  
    break #只输出一个url  
http://www.lryc.cn/news/204293.html

相关文章:

  • 如何有效取代FTP来帮助企业快速传输大文件
  • 免登陆积分商城原理
  • muduo源码学习base——Atomic(原子操作与原子整数)
  • 最短路相关笔记
  • Web前端-Vue2+Vue3基础入门到实战项目-Day5(自定义指令, 插槽, 案例商品列表, 路由入门)
  • mysql json数据类型 相关函数
  • 如何实现前端实时通信(WebSocket、Socket.io等)?
  • 使用 SSSD 进行网络用户身份验证
  • 紫光展锐携中国联通完成RedCap芯片V517孵化测试
  • 算法通关村第十一关青铜挑战——移位运算详解
  • 2023年面试测试工程师一般问什么问题?
  • 2023年中国汽车覆盖件模具竞争格局、市场规模及行业需求前景[图]
  • vue3项目运行报错import zhCn from “element-plus/lib/locale/lang/zh-cn“
  • 读书笔记:Effective C++ 2.0 版,条款26(歧义)、条款27(禁止部分隐式生成的函数)
  • MySQL基本操作之数据库设计理论
  • SpringBoot的日志系统(日志分组、文件输出、滚动归档)
  • 一种基于HTTPS实现的Web账号登录Linux桌面系统的实现方案
  • 【Linux】psplash制作Linux开机动画
  • WMS透明仓库:实现仓储的全方位可视化与优化
  • 软考系统架构师知识点集锦一:系统工程与信息系统基础
  • 建筑模板常见的问题有哪些?
  • windows11录屏功能详解,记录你的精彩时刻
  • 重入漏洞Victim
  • wordpress数据库迁移Invalid default value for ‘comment_date‘
  • Xray联动RAD实现自动扫描教程
  • ES6 Proxy
  • LSKA(大可分离核注意力):重新思考CNN大核注意力设计
  • muduo源码学习base——Exception(带 stack trace 的异常基类)
  • 2023-10-24 小总结
  • 2-MySQL的基本操作记录