当前位置: 首页 > news >正文

python爬虫入门(实践)

python爬虫入门(实践)

一、对目标网站进行分析

在这里插入图片描述
在这里插入图片描述

二、博客爬取

  1. 获取博客所有h2标题的路由

    1. 确定目标,查看源码
      在这里插入图片描述

    2. 代码实现

      """
      获取博客所有h2标题的路由
      """url = "http://www.crazyant.net"import requests
      from bs4 import BeautifulSoup#发送请求,获取页面所有内容
      r = requests.get(url)
      if r.status_code != 200:raise Exception("请求失败") # 抛出异常
      html_doc = r.text# 解析html,获取对应信息
      soup = BeautifulSoup(html_doc,"html.parser")h2_nodes = soup.find_all("h2",class_="entry-title")for h2_node in h2_nodes:link = h2_node.find("a")print(link["href"],link.get_text())
      
  2. 通过标题爬取所有博客文章

    """
    爬取所有博客文章
    """
    import refrom utils import url_manager
    import requests
    from bs4 import BeautifulSouproot_url="http://www.crazyant.net"# 将root_url添加到urls中
    urls = url_manager.UrlManager()
    urls.add_new_url(root_url)# 获取所有页面内容,并保存到文件
    fout = open("craw_all_pages.txt","w",encoding="utf-8")
    while urls.has_new_url():curr_url = urls.get_url()r = requests.get(curr_url,timeout=2)if r.status_code != 200:print("请求失败",curr_url)continuesoup = BeautifulSoup(r.text,"html.parser")title = soup.title.string # 获取标题fout.write('%s\t%s\n' % (curr_url, title))# 写入文件fout.flush()# 刷新缓冲区,直接写入文件print("success: %s, %s, %d"%(curr_url,title,len(urls.new_urls)))# 获取所有链接, 并添加到urls中links = soup.find_all("a")for link in links:href = link.get("href")if href is None:continuepattern = r"^http://www.crazyant.net/\d+.html$" # 匹配规则,匹配以http://www.crazyant.net/开头,并且以.html结尾的url# 正则匹配, 返回一个匹配对象,如果没有匹配到,返回Noneif re.match(pattern,href):urls.add_new_url(href)fout.close()
    
  • 运行结果
    在这里插入图片描述
http://www.lryc.cn/news/523066.html

相关文章:

  • 于灵动的变量变幻间:函数与计算逻辑的浪漫交织(下)
  • python实现pdf转word和excel
  • Pandas使用笔记
  • 高等数学学习笔记 ☞ 定积分与积分公式
  • wow-agent---task2使用llama-index创建Agent
  • RabbitMQ实现延迟消息发送——实战篇
  • Oracle 拉链式merge sort join 原理
  • QModbusTCPClient占用内存持续增长
  • 代码中使用 Iterable<T> 作为方法参数的解释
  • Oracle数据库传统审计怎么用
  • leetcode-买卖股票问题
  • MYSQL学习笔记(三):分组、排序、分页查询
  • 上位机工作感想-2024年工作总结和来年计划
  • 【视觉惯性SLAM:十六、 ORB-SLAM3 中的多地图系统】
  • 【C++笔记】红黑树封装map和set深度剖析
  • 4.若依 BaseController
  • vue项目配置多语言
  • 数据可视化大屏设计与实现
  • PDF文件提取开源工具调研总结
  • 多监控m3u8视频流,怎么获取每个监控的封面图(纯前端)
  • 【机器学习实战入门项目】使用深度学习创建您自己的表情符号
  • 技术洞察:C++在后端开发中的前沿趋势与社会影响
  • 【人工智能 | 大数据】基于人工智能的大数据分析方法
  • 数字经济时代下的创新探索与实践:以“开源AI智能名片2+1链动模式S2B2C商城小程序源码”为核心
  • 【English-Book】Go in Action目录页翻译中文
  • js: 区分后端返回数字是否为null、‘-’ 或正常number类型数字。
  • 网络变压器的分类
  • SUCTF-SU_BBRE-好久不见21
  • Python 实现 NLP 的完整流程
  • 穷举vs暴搜vs深搜vs回溯vs剪枝系列一>N 皇后