当前位置: 首页 > news >正文

python爬虫抓取豆瓣数据教程

环境准备

在开始之前,你需要确保你的Python环境已经安装了以下库:

  • requests:用于发送HTTP请求。
  • BeautifulSoup:用于解析HTML文档。

如果你还没有安装这些库,可以通过以下命令安装:

pip install requests beautifulsoup4

豆瓣数据抓取步骤

import requests
from bs4 import BeautifulSoupurl = 'https://movie.douban.com/top250'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36'
}
response = requests.get(url, headers=headers)
response.encoding = response.apparent_encoding
soup = BeautifulSoup(response.text, 'html.parser')
movies = soup.find_all('div', class_='item')  # 根据实际的HTML结构来定位数据
data = []
for movie in movies:title = movie.find('span', class_='title').textrating = movie.find('span', class_='rating_num').textlink = 'https://movie.douban.com' + movie.find('a')['href']item = {'title': title, 'rating': rating, 'link': link}print(item)data.append(item)

抓取结果

http://www.lryc.cn/news/473517.html

相关文章:

  • Mybatis 注意传递多种参数,不一定都有参数值,用xml如何写出查询语句
  • 【Windows】Redis 部署
  • 【经典】Vue中this指向问题??
  • Oracle数据泵(expdp)导入导出数据
  • 得物App 3D球鞋博物馆亮相两博会,打造沉浸式消费新体验
  • 深度学习中的迁移学习
  • 【深入浅出】深入浅出Bert(附面试题)
  • Docker-安装
  • 《盼归》
  • 第十九章 Vue组件之data函数
  • 【jvm】什么时候对象进入老年代
  • Vue.nextTick 使用指南:数据更新与 DOM 同步利器
  • 第三百零一节 Lucene教程 - Lucene索引文件
  • 动态规划 01背包(算法)
  • 使用常数指针作为函数参数
  • wps宏代码学习
  • libavdevice.so.58: cannot open shared object file: No such file ordirectory踩坑
  • Rust:Vec<u8> 与 [u8] 之间的转换
  • Leetcode 课程表
  • Java面试经典 150 题.P55. 跳跃游戏(009)
  • 登录的时候密码使用crypto-js加密解密
  • LLM大模型部署实战指南:部署简化流程
  • 24年10月Google Play政策更新通知
  • 玄机-应急响应- Linux入侵排查
  • 数据驱动业务中的BDS对账班牛返款表集成方案
  • 【Kubernetes实战】三、资源组件Namespace、Pod、Label、Deployment、Service概述。
  • 去中心化的模型训练
  • Arthas调试线上代码技巧
  • QT访问数据库:应用提示Driver not loaded
  • 支持ANC的头戴式蓝牙耳机,更有小金标认证,QCY H3 Pro体验