当前位置: 首页 > news >正文

【爬虫实战项目一】Python爬取豆瓣电影榜单数据

目录

一、环境准备

二、编写代码

2.1 分页分析

2.2 编码


一、环境准备

安装requests和lxml

pip install requests
pip install lxml

二、编写代码

2.1 分页分析

编写代码前我们先看看榜单的url

我们假如要爬取五页的数据,那么五个url分别是:

https://movie.douban.com/top250?start=0&filter=
https://movie.douban.com/top250?start=25&filter=
https://movie.douban.com/top250?start=50&filter=
https://movie.douban.com/top250?start=75&filter=
https://movie.douban.com/top250?start=100&filter=

不难看出,规律在于start参数,每页有25条数据。

那么按照分页计算公式 (当前页数 - 1) * 每页数据量 得出 代码逻辑。

2.2 编码

我们复制下xpath。

import random
from lxml import etree
import requests
import time# 请求头信息
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36'
}
# 共取5页数据
for i in range(1, 6):start = (i - 1) * 25url = f'https://movie.douban.com/top250?start={start}&filter='response = requests.get(url, headers=headers)tree = etree.HTML(response.text)div = tree.xpath('//*[@id="content"]/div/div[1]/ol/li/div')for d in div:# 获取当前电影标题title = d.xpath('.//span[@class="title"][1]/text()')[0]print(title)time.sleep(random.randint(1, 3))

成功爬取豆瓣电影TOP250榜单。

http://www.lryc.cn/news/369058.html

相关文章:

  • AI-知识库搭建(一)腾讯云向量数据库使用
  • AI数据分析:根据Excel表格数据绘制柱形图
  • 基于协调过滤算法商品推荐系统的设计
  • CS1061 “HtmlHelper”未包含“Partial”的定义,并且找不到可接受第一个“HtmlHelper”类型参数的可访问扩展方法“Partial”
  • 大数据运维学习笔记之flink standalone flink on yarn集群搭建 —— 筑梦之路
  • 在知识的海洋中航行:问题的演变与智慧的追求
  • splice()、slice()、split()三种方法的区别
  • iOS 之homebrew ruby cocoapods 安装
  • 【栈】2751. 机器人碰撞
  • 贪心算法06(leetcode738,968)
  • cve_2022_0543-redis沙盒漏洞复现 vulfocus
  • 浅解Reids持久化
  • Java24:会话管理 过滤器 监听器
  • web前端电影简介标签:深度解析与创意应用
  • Java面向对象-方法的重写、super
  • 解锁ChatGPT:从GPT-2实践入手解密ChatGPT
  • 20240605解决飞凌的OK3588-C的核心板刷机原厂buildroot不能连接ADB的问题
  • c++手写的bitset
  • 【机器学习系列】深入理解集成学习:从Bagging到Boosting
  • 用FFMPEG对YUV序列进行编辑的笔记
  • 智能投顾:重塑金融理财市场,引领行业新潮流
  • iOS18 新变化提前了解,除了AI还有这些变化
  • 力扣算法题:多数元素 --多语言实现
  • [Kubernetes] 容器运行时 Container Runtime
  • 10进制与二、八、十六进制的转换
  • 日常实习-小米计算机视觉算法岗面经
  • (C++)string模拟实现
  • 类和对象的学习总结(一)
  • 力扣22. 括号生成
  • 检测窗口是否最大化兼容 Win10/11