当前位置: 首页 > news >正文

Python beautifulsoup网络抓取和解析cnblog首页帖子数据

视频版教程:一天掌握python爬虫【基础篇】 涵盖 requests、beautifulsoup、selenium

我们抓取下https://www.cnblogs.com/ 首页所有的帖子信息,包括帖子标题,帖子地址,以及帖子作者信息。

首先用requests获取网页文件,然后再用bs4进行解析。

参考代码:

import requestsurl = "https://www.cnblogs.com/"r = requests.get(url)# 设置返回对象的编码
r.encoding = "utf-8"# print(r.text)from bs4 import BeautifulSoupsoup = BeautifulSoup(r.text, 'lxml')article_list = soup.select("article.post-item")
# print(article_list)for artile in article_list:print("==========")author = artile.find("a", class_="post-item-author")print(author.get_text())link = artile.find("a", class_="post-item-title")print(link.get_text())print(link.attrs["href"])
http://www.lryc.cn/news/212133.html

相关文章:

  • Java集成腾讯云OCR身份证识别接口
  • C++之C++11引入enum class与传统enum关键字总结(二百五十一)
  • 如何将word格式的文档转换成markdown格式的文档
  • Leetcode—2558.从数量最多的堆取走礼物【简单】
  • 【如何写论文】硕博学位论文的结构框架、过程与大纲分析
  • 砷化镓(GaAs)纳米线 砷化镓纳米线 GaAs纳米线 瑞禧
  • PostGreSQL:JSON|JSONB数据类型
  • 树----数据结构
  • GitLab定时备份
  • SQL IN 运算符
  • 虚拟机构建单体项目及前后端分离项目
  • 代码浅析DLIO(一)---整体框架梳理
  • Springboot的Container Images,docker加springboot
  • c 从avi 视频中提取图片
  • Jtti:Apache服务的反向代理及负载均衡怎么配置
  • 82.二分查找
  • 线程是如何创建的
  • owl_vit安装步骤
  • 运行real.exe时出现NUM_METGRID_SOIL_LEVELS=0
  • 【数值计算方法】Gauss消元法及其Python/C实现
  • ins老被封禁?快来看看这些雷区你踩了没!
  • 《Effective Java》读书笔记(1-2章)
  • C++版split(‘_‘)函数
  • Leaky singletons的一种使用场景
  • TensorFlow图像多标签分类实例
  • Python程序设计期末复习笔记
  • 人大与加拿大女王大学金融硕士—与您共创辉煌
  • Generalized Zero-Shot Learning With Multi-Channel Gaussian Mixture VAE
  • 10.30 知识总结(标签分类、css介绍等)
  • DoLa:对比层解码提高大型语言模型的事实性