当前位置：首页 > news >正文

Python beautifulsoup网络抓取和解析cnblog首页帖子数据

news 2025/8/4 20:03:25

视频版教程：一天掌握python爬虫【基础篇】涵盖 requests、beautifulsoup、selenium

我们抓取下https://www.cnblogs.com/ 首页所有的帖子信息，包括帖子标题，帖子地址，以及帖子作者信息。

首先用requests获取网页文件，然后再用bs4进行解析。

参考代码：

import requestsurl = "https://www.cnblogs.com/"r = requests.get(url)# 设置返回对象的编码
r.encoding = "utf-8"# print(r.text)from bs4 import BeautifulSoupsoup = BeautifulSoup(r.text, 'lxml')article_list = soup.select("article.post-item")
# print(article_list)for artile in article_list:print("==========")author = artile.find("a", class_="post-item-author")print(author.get_text())link = artile.find("a", class_="post-item-title")print(link.get_text())print(link.attrs["href"])

http://www.lryc.cn/news/212133.html

相关文章：

Java集成腾讯云OCR身份证识别接口

C++之C++11引入enum class与传统enum关键字总结(二百五十一)

如何将word格式的文档转换成markdown格式的文档

Leetcode—2558.从数量最多的堆取走礼物【简单】

【如何写论文】硕博学位论文的结构框架、过程与大纲分析

砷化镓（GaAs)纳米线砷化镓纳米线 GaAs纳米线瑞禧

PostGreSQL：JSON|JSONB数据类型

树----数据结构

GitLab定时备份

SQL IN 运算符

虚拟机构建单体项目及前后端分离项目

代码浅析DLIO(一)---整体框架梳理

Springboot的Container Images，docker加springboot

c 从avi 视频中提取图片

Jtti：Apache服务的反向代理及负载均衡怎么配置

82.二分查找

线程是如何创建的

owl_vit安装步骤

运行real.exe时出现NUM_METGRID_SOIL_LEVELS=0

【数值计算方法】Gauss消元法及其Python/C实现

ins老被封禁？快来看看这些雷区你踩了没！

《Effective Java》读书笔记（1-2章）

C++版split(‘_‘)函数

Leaky singletons的一种使用场景

TensorFlow图像多标签分类实例

Python程序设计期末复习笔记

人大与加拿大女王大学金融硕士—与您共创辉煌

Generalized Zero-Shot Learning With Multi-Channel Gaussian Mixture VAE

10.30 知识总结（标签分类、css介绍等）

DoLa：对比层解码提高大型语言模型的事实性