当前位置：首页 > news >正文

python爬虫抓取豆瓣数据教程

news 2025/9/2 1:29:48

环境准备

在开始之前，你需要确保你的Python环境已经安装了以下库：

requests：用于发送HTTP请求。
BeautifulSoup：用于解析HTML文档。

如果你还没有安装这些库，可以通过以下命令安装：

pip install requests beautifulsoup4

豆瓣数据抓取步骤

import requests
from bs4 import BeautifulSoupurl = 'https://movie.douban.com/top250'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36'
}
response = requests.get(url, headers=headers)
response.encoding = response.apparent_encoding
soup = BeautifulSoup(response.text, 'html.parser')
movies = soup.find_all('div', class_='item')  # 根据实际的HTML结构来定位数据
data = []
for movie in movies:title = movie.find('span', class_='title').textrating = movie.find('span', class_='rating_num').textlink = 'https://movie.douban.com' + movie.find('a')['href']item = {'title': title, 'rating': rating, 'link': link}print(item)data.append(item)

抓取结果

http://www.lryc.cn/news/473517.html

相关文章：

Mybatis 注意传递多种参数，不一定都有参数值，用xml如何写出查询语句

【Windows】Redis 部署

【经典】Vue中this指向问题？？

Oracle数据泵（expdp）导入导出数据

得物App 3D球鞋博物馆亮相两博会，打造沉浸式消费新体验

深度学习中的迁移学习

【深入浅出】深入浅出Bert（附面试题）

第十九章 Vue组件之data函数

【jvm】什么时候对象进入老年代

Vue.nextTick 使用指南：数据更新与 DOM 同步利器

第三百零一节 Lucene教程 - Lucene索引文件

动态规划 01背包（算法）

使用常数指针作为函数参数

wps宏代码学习

libavdevice.so.58: cannot open shared object file: No such file ordirectory踩坑

Rust：Vec＜u8＞与 [u8] 之间的转换

Leetcode 课程表

Java面试经典 150 题.P55. 跳跃游戏（009）

登录的时候密码使用crypto-js加密解密

LLM大模型部署实战指南：部署简化流程

24年10月Google Play政策更新通知

玄机-应急响应- Linux入侵排查

数据驱动业务中的BDS对账班牛返款表集成方案

【Kubernetes实战】三、资源组件Namespace、Pod、Label、Deployment、Service概述。

去中心化的模型训练

Arthas调试线上代码技巧

QT访问数据库：应用提示Driver not loaded

支持ANC的头戴式蓝牙耳机，更有小金标认证，QCY H3 Pro体验