当前位置：首页 > news >正文

python爬虫实战(6)--获取某度热榜

news 2025/8/21 13:13:09

1. 项目描述

需要用到的类库

pip install requests
pip install beautifulsoup4
pip install pandas
pip install openpyxl

然后，我们来编写python脚本，并引入需要的库：

import requests
from bs4 import BeautifulSoup
import pandas as pd

第一部分：网络爬虫

定义一个函数来抓取百度热榜的数据，方式同样是发出GET请求，并使用BeautifulSoup解析请求内容，最后提取热榜标题：

def get_hot_list():response = requests.get("https://top.baidu.com/board?tab=realtime")soup = BeautifulSoup(response.content, 'html.parser')hot_list = []for idx, item in enumerate(soup.find_all('div', class_='c-single-text-ellipsis')):if idx % 2 != 0:hot_list.append(item.text)return hot_list

以上这个函数用requests库发出GET请求，然后用BeautifulSoup解析请求内容，然后提取出所有的热榜标题。

第二部分：数据输出

编写第二个函数来生成Excel文件：

def write_to_excel(hot_list, filename='baidu_hot.xlsx'):df = pd.DataFrame(hot_list, columns=['热榜标题'])df.to_excel(filename, index=False)

在这个函数里，我们首先将数据转化为pandas的DataFrame对象，然后调用to_excel方法将其保存为Excel文件。
现在，你可以像这样运行脚本以获取百度热榜并生成Excel文件：

hot_list = get_hot_list()
write_to_excel(hot_list)

查看全文

http://www.lryc.cn/news/277249.html

十三、K8S之亲和性

对于网关的理解-Gateway

win10 - Snipaste截图工具的使用

Selenium 学习（0.19）——软件测试之基本路径测试法——拓展案例

工作记录-------正则表达式---小白也能看懂

C3-1.3.1 无监督学习——异常检测

1.4.1机器学习——梯度下降+α学习率大小判定

在IntelliJ IDEA中，.idea文件是什么，可以删除吗

【Spring Cloud】Gateway组件的三种使用方式

对象的复制

基于 Python+Neo4j+医药数据，构建了一个知识图谱的自动问答系统

Maven之属性管理

快乐学Python，数据分析之获取数据方法「公开数据或爬虫」

前端常用的设计模式

游戏引擎支持脚本编程有啥好处

react中概念性总结（二）

WPF自定义漂亮顶部工具栏 WPF自定义精致最大化关闭工具栏 wpf导航栏自定义 WPF快速开发工具栏

Transformer 的双向编码器表示 (BERT)

关于LwRB环形缓冲区开源库的纯C++版本支持原子操作

微信小程序Canvas画布绘制图片、文字、矩形、（椭）圆、直线

Unity Editor实用功能：Hierarchy面板的对象上绘制按按钮并响应

解决录制的 mp4 视频文件在 windows 无法播放的问题

一键与图片对话！LLM实现图片关键信息提取与交互

洛谷 P8833 [传智杯 #3 决赛] 课程讲解

中国IT产经新闻：新能源汽车发展前景与燃油车的利弊之争

一、数据结构

案例分享：各行业销售岗位的KPI指标制定分享

【办公类-19-01】20240108图书统计登记表制作（23个班级）EXCEL复制表格并合并表格

spring boot 2升级为spring boot 3中数据库连接池druid的问题

客服系统配置之Nginx处理静态资源和动态请求

1. 项目描述

第一部分：网络爬虫

第二部分：数据输出

相关文章：